علم داده چیست؟

علم داده، دربرگیرنده مجموعه‌ای از اصول، تعاریف مسئله، الگوریتم‌ها و فرآیندهایی برای استخراج الگوهای نامشهود و مفید از مجموعه‌های بزرگ داده‌ها است. بسیاری از عناصر علم داده در حوزه‌های مرتبطی مانند یادگیری ماشین و داده‌کاوی توسعه یافته‌اند. در واقع، اصطلاحات علم داده، یادگیری ماشین و داده‌کاوی اغلب به جای یکدیگر مورد استفاده قرار می‌گیرند. وجه مشترک تمامی این رشته‌ها، تمرکز بر بهبود تصمیم‌گیری از طریق تحلیل داده‌ها‌ است. با این حال، اگرچه علم داده‌ از این حوزه‌ها استفاده می‌کند، اما قلمرو آن گسترده‌تر است. یادگیری ماشین بر طراحی و ارزشیابی الگوریتم‌ها برای استخراج الگوها از داده‌ها تمرکز دارد. داده ­کاوی به طور کلی به تحلیل داده‌های ساخت‌یافته        می پردازد  و اغلب تاکید بر کاربردهای تجاری دارد. 
نویسندگان
سعید کاظم پوریان
             مشاوره شرکت مگفا  
شهره مهرآسا
              مدیر پروژه شرکت مگفا
 داده ­کاوی به طور کلی به تحلیل داده‌های ساخت‌یافته می پردازد و اغلب تاکید بر کاربردهای تجاری دارد. علم داده نه تنها تمام این ملاحظات را در نظر می‌گیرد، بلکه چالش‌های دیگری مانند جمع‌آوری، پاک‌سازی و تبدیل داده‌های بدون ساختار رسانه‌های اجتماعی و وب، استفاده از فناوری‌های کلان‌داده جهت ذخیره و پردازش مجموعه‌های بزرگ و بدون ساختار داده‌ها و سوالاتی مربوط به اصول اخلاقی و مقررات داده ها را نیز پوشش می‌دهد.
ما با استفاده از علم داده می‌توانیم انواع مختلف الگوها را استخراج کنیم. به عنوان مثال، ممکن است بخواهیم الگوهایی را استخراج کنیم که به ما کمک می‌کنند تا گروه‌هایی از مشتریان را شناسایی کنیم که رفتار و سلایق مشابهی دارند. این کار در اصطلاحات کسب‌وکار با عنوان تقسیم‌بندی مشتری شناخته می‌شود و در واژه‌شناسی علم داده‌، خوشه‌بندی نامیده می‌شود. از سوی دیگر، ممکن است به دنبال استخراج الگوی محصولاتی باشیم که بطور مکرر با هم خریداری می‌شوند؛ فرآیندی که کاوش قانون وابستگی نامیده می‌شود. ممکن است بخواهیم الگوهایی را استخراج کنیم که رویدادهای غیر عادی یا ناهنجار مانند مطالبات جعلی بیمه را شناسایی می­کنند؛ فرآیندی که به عنوان تشخیص ناهنجاری یا پرت شناخته می‌شود. در نهایت، ممکن است بخواهیم الگوهایی را شناسایی کنیم که در طبقه‌بندی اشیاء به ما کمک می‌کنند. برای مثال، قانون زیر نشان می‌هد که الگوی طبقه‌بندی مستخرج از یک مجموعه داده‌‌های ایمیل ممکن است چگونه باشد: اگر یک ایمیل حاوی عبارت “کسب آسان درآمد” باشد، احتمالا هرزنامه خواهد بود. شناسایی این نوع قوانین طبقه‌بندی با عنوان پیش‌بینی شناخته می‌شود. کلمه پیش‌بینی ممکن است انتخابی عجیب به نظر برسد، زیرا قانون پیش‌بینی نمی‌کند که چه اتفاقی در آینده خواهد افتاد: اکنون ایمیل یا هرزنامه است یا نیست. بنابراین بهتر است که الگوهای پیش‌بینی را به عنوان پیش‌بینی مقدار ناموجود یک مشخصه(Attribute) به جای پیش‌بینی آینده تصور کنیم. در این مثال، ما پیش‌بینی می‌کنیم که آیا مشخصه طبقه‌بندی ایمیل باید دارای مقدار “هرزنامه” باشد یا خیر.
اگرچه ما می‌توانیم از علم داده‌ برای استخراج انواع مختلفی از الگوها استفاده کنیم، اما همیشه می‌خواهیم الگوها نامشهود و مفید باشند. به طور کلی، علم داده‌ زمانی مفید است که نمونه داده‌های بسیاری داشته باشیم و کشف و استخراج این الگوها به صورت دستی برای انسان‌ها بیش از حد پیچیده باشد. علم داده اغلب در زمینه‌هایی به کار می‌رود که به دنبال الگوهایی در میان ده‌ها، صدها، هزاران و در موارد استثنائی، میلیون‌ها مشخصه هستیم.
 الگوهای استخراج‌شده با استفاده از علم داده‌، تنها در صورتی مفید هستند که بینشی در مورد مسئله به ما ارائه کنند که ما را قادر به انجام کاری جهت کمک به حل آن سازد. اصطلاح بینش تاکید بر این دارد که الگو باید در ارتباط با مسئله‌ای که مشهود نیست، اطلاعاتی به ما بدهد.
امروزه نقش یک متخصص داده به قدری گسترده شده است که بحث مداومی راجع به چگونگی تعریف تخصص و مهارت‌های لازم جهت انجام این نقش وجود دارد. با این حال، امکان فهرست کردن تخصص و مهارت‌های مورد توافق برای این نقش وجود دارد که در شکل ۱-۱ نشان داده شده است. تسلط یافتن بر تمامی این حوزه­ها برای هر فردی دشوار است و در واقع، اغلب دانشمندان داده معمولا تنها در یک زیرمجموعه از این حوزه­­ها دانش عمیق و تخصص واقعی دارند.

علم داده در کجا استفاده می‌شود؟
علم داده تقریبا در تمامی بخش‌های جوامع مدرن، تصمیم‌گیری را هدایت می‌کند. در ادامه، یک مطالعه موردی که کاربرد علم داده را در فروش و بازاریابی نشان می‌دهد، ارائه می‌نماییم.
علم داده در فروش و بازاریابی
والمارت(Walmart)با استفاده از سیستم‌های پایانه فروش، ردیابی رفتار مشتری در وب‌سایت والمارت و تفسیر رسانه‌های اجتماعی در مورد والمارت و محصولات آن، به مجموعه‌های بزرگی از داده­‌ها پیرامون اولویت‌های مشتریان خود دسترسی دارد. والمارت برای بیش از یک دهه، از علم داده‌ جهت بهینه‌سازی سطح موجودی در فروشگاه‌ها استفاده کرده است. یک مثال معروف، تامین پاپ-تارتس(Pop-Tarts) توت فرنگی در فروشگاه ­های مسیر طوفان فرانسیس(Francis) در سال ۲۰۰۴  بر اساس تحلیل داده‌های فروش در طوفان چارلی(Charley)است که چند هفته زودتر از آن رخ داده بود. والمارت اخیرا از علم داده‌ جهت هدایت درآمدهای خرده فروشی خود به منظور معرفی محصولات جدید بر اساس تحلیل روندهای رسانه‌های اجتماعی، تحلیل فعالیت کارت اعتباری جهت توصیه محصولات به مشتریان و بهینه‌سازی وشخصی‌سازی تجربه آنلاین مشتریان در وب‌سایت والمارت استفاده کرده است. والمارت افزایش ۱۰ تا ۱۵ درصدی در فروش آنلاین را به بهینه­ سازی­های علم داده نسبت می‌دهد.

معادل بیش ­فروشی(Up-Selling) و فروش جانبی(Cross-Selling) در دنیای آنلاین، “سیستم توصیه­گر” است. اگر شما فیلمی را در نت‌فلیکس(Nwtflix)تماشا یا کالایی را از سایت آمازون(Amazon) خریده­ باشید، می­دانید که این وب‌سایت‌ها از داده‌های جمع‌آوری‌شده جهت ارائه پیشنهادهایی برای آنچه باید بعدا خریداری یا تماشا کنید، استفاده می‌کنند. این سیستم‌های توصیه­گر می­توانند برای راهنمایی شما به روش‌های مختلفی طراحی شوند: برخی شما را به سمت موارد پرمخاطب و پرفروش هدایت می‌کنند، در حالی که بعضی دیگر شما را به سمت اقلام ویژه‌ای(Niche) هدایت می‌کنند که مختص سلیقه شما هستند. کتاب “دنباله طولانی(The Long Tail)” از کریس اندرسون(Chris Anderson) (۲۰۰۸) بیان می‌کند که همان‌طور که تولید و توزیع ارزان‌تر می­شوند، بازارها از فروش مقادیر زیادی از تعداد کم اقلام داغ(Hit Items) به سمت فروش مقادیر کمی از تعداد بیشتر اقلام ویژه سوق پیدا می‌کنند. این موازنه بین هدایت فروش محصولات ویژه یا داغ، تصمیمی اساسی در طراحی سیستم توصیه‌گر است و بر الگوریتم ­های علم داده‌ که برای پیاده‌سازی این سیستم‌ها مورد استفاده قرار می‌گیرند، تاثیر می‌گذارد.
چرا اکنون ؟
چندین عامل در رشد اخیر علم داده سهیم بوده­اند. علت ظهور کلان­ داده، سهولت نسبی امکان جمع‌آوری داده‌‌ها توسط سازمان‌ها بوده است. عامل دیگر، کالاگرایی(Commoditization) ذخیره داده‌ها با صرفه به مقیاس(Economies of Scale) است که ذخیره داده‌ها را ارزان­تر از همیشه ساخته است. هم‌چنین رشد شگرفی در قدرت رایانه‌ها به وجود آمده است. ابزارهای کاربرپسند علم داده نیز در دسترس قرار گرفته‌اند و موانع ورود به علم داده ‌را کاهش داده­اند. به طور کلی، این پیشرفت‌ها بدین معنا است که جمع‌آوری، ذخیره، و پردازش داده‌ها هرگز به این آسانی نبوده است.
در ۱۰ سال گذشته، پیشرفت‌های مهمی نیز در یادگیری ­ماشین انجام گرفته است. به طور خاص، یادگیری عمیق پدید آمده‌ است و در نحوه پردازش زبان و داده‌های تصویری توسط رایانه‌ها انقلابی ایجاد کرده است. اصطلاح یادگیری عمیق، خانواده‌ای از مدل‌های شبکه عصبی با چندین لایه از واحدها در شبکه را توصیف می‌کند. شبکه‌های عصبی از دهه ۱۹۴۰ وجود داشته‌اند، اما امروزه به بهترین شکل با مجموعه‌های بزرگ و پیچیده داده‌ها کار می‌کنند و مقدار زیادی از منابع محاسباتی را برای یادگیری به کار می­گیرند. بنابراین ظهور یادگیری عمیق با رشد کلان ­داده و قدرت محاسباتی ارتباط دارد. اغراق نیست که اثر یادگیری عمیق در گستره وسیعی از دامنه‌ها را خارق‌العاده توصیف کنیم. در حال حاضر فیسبوک(Facebook) از یادگیری عمیق برای تشخیص چهره و تحلیل متن به منظور تبلیغ مستقیم برای افراد بر مبنای مکالمات آنلاین آن‌ها استفاده می‌کند. گوگل(Google) و بایدو(Baido) از یادگیری عمیق برای تشخیص تصویر، افزودن توضیحات و جستجو و ترجمه ماشینی استفاده می‌کنند. سیری(Siri) دستیار مجازی اپل(Apple)، الکسا(Alexa) در آمازون، کورتانا(Cortana) در مایکروسافت(Microsoft)، و بیکس­بی(Bixby) در سامسونگ(Samsung) از تشخیص گفتار مبتنی بریادگیری عمیق استفاده می­کنند. هوآوی(Huawei) در حال حاضر در حال توسعه یک دستیار مجازی برای بازار چین است و از تشخیص گفتار یادگیری عمیق نیز استفاده خواهد کرد.
باورهای غلط پیرامون علم داده
علم داده مزایای بسیاری برای سازمان‌های مدرن دارد، اما گزافه ­گویی‌های بسیاری نیز درباره آن وجود دارد، بنابراین ما باید محدودیت‌های آن را درک کنیم. یکی از بزرگ‌ترین باورهای غلط، اعتقاد به این است که علم داده‌ یک فرآیند خودمختار است که می‌توانیم جهت یافتن پاسخ‌هایی برای مسائل خود، داده­ها را در آن به حال خود رها کنیم. در حقیقت، علم داده‌ مستلزم نظارت انسانی ماهرانه در تمامی مراحل مختلف فرآیند است. دومین باور غلط بزرگ در علم داده‌ این است که هر پروژه علم داده‌ نیازمند کلان­ داده است و باید از یادگیری عمیق استفاده کند. داشتن داده‌های بیشتر عموما کمک‌کننده است، اما داشتن داده‌های درست، الزامی مهم‌تر است.
سومین باور غلط در علم داده این است که نرم‌افزار‌های جدید علم داده به راحتی قابل استفاده هستند و بنابراین انجام پروژه‌های علم داده‌ کار آسانی است. خطر همراه با علم داده این است که افراد ممکن است مرعوب فناوری شوند و هر نتیجه‌ای را که نرم‌افزار به آن‌ها ارائه می‌دهد باور کنند. با این وجود، ممکن است آن‌ها مسئله را ناخواسته به روشی نادرست تدوین، داده‌های اشتباه وارد و یا از تکنیک‌های تحلیل با مفروضات نامناسب استفاده کرده باشند. بنابراین نتایج حاصل از نرم‌افزار به احتمال زیاد، پاسخ نادرست بر اساس داده‌های نادرست و یا نتیجه محاسبات نادرست هستند.
آخرین باور غلط پیرامون علم داده که در اینجا ذکر می­کنیم، این است که علم داده سریعا هزینه صرف‌شده برای خود را باز می‌گرداند. درستی این باور به شرایط سازمان بستگی دارد. در شرایطی که مسئله کسب‌وکار به خوبی شناخته شده باشد و داده‌ها و تخصص انسانی مناسب در دسترس باشند، علم داده‌ (اغلب) می‌تواند بینش عملی را فراهم کند که مزیت رقابتی مورد نیاز جهت موفقیت سازمان را فراهم سازد.

منابع

KELLEHER D. JOHN, TIERNEY BRENDAN (2018). DATA SCIENCE. The MIT Press Essential Knowledge Series

کلیدواژه ها

داده، کلان داده، یادگیری ماشین