علم داده، دربرگیرنده مجموعهای از اصول، تعاریف مسئله، الگوریتمها و فرآیندهایی برای استخراج الگوهای نامشهود و مفید از مجموعههای بزرگ دادهها است. بسیاری از عناصر علم داده در حوزههای مرتبطی مانند یادگیری ماشین و دادهکاوی توسعه یافتهاند. در واقع، اصطلاحات علم داده، یادگیری ماشین و دادهکاوی اغلب به جای یکدیگر مورد استفاده قرار میگیرند. وجه مشترک تمامی این رشتهها، تمرکز بر بهبود تصمیمگیری از طریق تحلیل دادهها است. با این حال، اگرچه علم داده از این حوزهها استفاده میکند، اما قلمرو آن گستردهتر است. یادگیری ماشین بر طراحی و ارزشیابی الگوریتمها برای استخراج الگوها از دادهها تمرکز دارد. داده کاوی به طور کلی به تحلیل دادههای ساختیافته می پردازد و اغلب تاکید بر کاربردهای تجاری دارد.
داده کاوی به طور کلی به تحلیل دادههای ساختیافته می پردازد و اغلب تاکید بر کاربردهای تجاری دارد. علم داده نه تنها تمام این ملاحظات را در نظر میگیرد، بلکه چالشهای دیگری مانند جمعآوری، پاکسازی و تبدیل دادههای بدون ساختار رسانههای اجتماعی و وب، استفاده از فناوریهای کلانداده جهت ذخیره و پردازش مجموعههای بزرگ و بدون ساختار دادهها و سوالاتی مربوط به اصول اخلاقی و مقررات داده ها را نیز پوشش میدهد.
ما با استفاده از علم داده میتوانیم انواع مختلف الگوها را استخراج کنیم. به عنوان مثال، ممکن است بخواهیم الگوهایی را استخراج کنیم که به ما کمک میکنند تا گروههایی از مشتریان را شناسایی کنیم که رفتار و سلایق مشابهی دارند. این کار در اصطلاحات کسبوکار با عنوان تقسیمبندی مشتری شناخته میشود و در واژهشناسی علم داده، خوشهبندی نامیده میشود. از سوی دیگر، ممکن است به دنبال استخراج الگوی محصولاتی باشیم که بطور مکرر با هم خریداری میشوند؛ فرآیندی که کاوش قانون وابستگی نامیده میشود. ممکن است بخواهیم الگوهایی را استخراج کنیم که رویدادهای غیر عادی یا ناهنجار مانند مطالبات جعلی بیمه را شناسایی میکنند؛ فرآیندی که به عنوان تشخیص ناهنجاری یا پرت شناخته میشود. در نهایت، ممکن است بخواهیم الگوهایی را شناسایی کنیم که در طبقهبندی اشیاء به ما کمک میکنند. برای مثال، قانون زیر نشان میهد که الگوی طبقهبندی مستخرج از یک مجموعه دادههای ایمیل ممکن است چگونه باشد: اگر یک ایمیل حاوی عبارت “کسب آسان درآمد” باشد، احتمالا هرزنامه خواهد بود. شناسایی این نوع قوانین طبقهبندی با عنوان پیشبینی شناخته میشود. کلمه پیشبینی ممکن است انتخابی عجیب به نظر برسد، زیرا قانون پیشبینی نمیکند که چه اتفاقی در آینده خواهد افتاد: اکنون ایمیل یا هرزنامه است یا نیست. بنابراین بهتر است که الگوهای پیشبینی را به عنوان پیشبینی مقدار ناموجود یک مشخصه(Attribute) به جای پیشبینی آینده تصور کنیم. در این مثال، ما پیشبینی میکنیم که آیا مشخصه طبقهبندی ایمیل باید دارای مقدار “هرزنامه” باشد یا خیر.
اگرچه ما میتوانیم از علم داده برای استخراج انواع مختلفی از الگوها استفاده کنیم، اما همیشه میخواهیم الگوها نامشهود و مفید باشند. به طور کلی، علم داده زمانی مفید است که نمونه دادههای بسیاری داشته باشیم و کشف و استخراج این الگوها به صورت دستی برای انسانها بیش از حد پیچیده باشد. علم داده اغلب در زمینههایی به کار میرود که به دنبال الگوهایی در میان دهها، صدها، هزاران و در موارد استثنائی، میلیونها مشخصه هستیم.
الگوهای استخراجشده با استفاده از علم داده، تنها در صورتی مفید هستند که بینشی در مورد مسئله به ما ارائه کنند که ما را قادر به انجام کاری جهت کمک به حل آن سازد. اصطلاح بینش تاکید بر این دارد که الگو باید در ارتباط با مسئلهای که مشهود نیست، اطلاعاتی به ما بدهد.
امروزه نقش یک متخصص داده به قدری گسترده شده است که بحث مداومی راجع به چگونگی تعریف تخصص و مهارتهای لازم جهت انجام این نقش وجود دارد. با این حال، امکان فهرست کردن تخصص و مهارتهای مورد توافق برای این نقش وجود دارد که در شکل ۱-۱ نشان داده شده است. تسلط یافتن بر تمامی این حوزهها برای هر فردی دشوار است و در واقع، اغلب دانشمندان داده معمولا تنها در یک زیرمجموعه از این حوزهها دانش عمیق و تخصص واقعی دارند.
علم داده در کجا استفاده میشود؟
علم داده تقریبا در تمامی بخشهای جوامع مدرن، تصمیمگیری را هدایت میکند. در ادامه، یک مطالعه موردی که کاربرد علم داده را در فروش و بازاریابی نشان میدهد، ارائه مینماییم.
علم داده در فروش و بازاریابی
والمارت(Walmart)با استفاده از سیستمهای پایانه فروش، ردیابی رفتار مشتری در وبسایت والمارت و تفسیر رسانههای اجتماعی در مورد والمارت و محصولات آن، به مجموعههای بزرگی از دادهها پیرامون اولویتهای مشتریان خود دسترسی دارد. والمارت برای بیش از یک دهه، از علم داده جهت بهینهسازی سطح موجودی در فروشگاهها استفاده کرده است. یک مثال معروف، تامین پاپ-تارتس(Pop-Tarts) توت فرنگی در فروشگاه های مسیر طوفان فرانسیس(Francis) در سال ۲۰۰۴ بر اساس تحلیل دادههای فروش در طوفان چارلی(Charley)است که چند هفته زودتر از آن رخ داده بود. والمارت اخیرا از علم داده جهت هدایت درآمدهای خرده فروشی خود به منظور معرفی محصولات جدید بر اساس تحلیل روندهای رسانههای اجتماعی، تحلیل فعالیت کارت اعتباری جهت توصیه محصولات به مشتریان و بهینهسازی وشخصیسازی تجربه آنلاین مشتریان در وبسایت والمارت استفاده کرده است. والمارت افزایش ۱۰ تا ۱۵ درصدی در فروش آنلاین را به بهینه سازیهای علم داده نسبت میدهد.
معادل بیش فروشی(Up-Selling) و فروش جانبی(Cross-Selling) در دنیای آنلاین، “سیستم توصیهگر” است. اگر شما فیلمی را در نتفلیکس(Nwtflix)تماشا یا کالایی را از سایت آمازون(Amazon) خریده باشید، میدانید که این وبسایتها از دادههای جمعآوریشده جهت ارائه پیشنهادهایی برای آنچه باید بعدا خریداری یا تماشا کنید، استفاده میکنند. این سیستمهای توصیهگر میتوانند برای راهنمایی شما به روشهای مختلفی طراحی شوند: برخی شما را به سمت موارد پرمخاطب و پرفروش هدایت میکنند، در حالی که بعضی دیگر شما را به سمت اقلام ویژهای(Niche) هدایت میکنند که مختص سلیقه شما هستند. کتاب “دنباله طولانی(The Long Tail)” از کریس اندرسون(Chris Anderson) (۲۰۰۸) بیان میکند که همانطور که تولید و توزیع ارزانتر میشوند، بازارها از فروش مقادیر زیادی از تعداد کم اقلام داغ(Hit Items) به سمت فروش مقادیر کمی از تعداد بیشتر اقلام ویژه سوق پیدا میکنند. این موازنه بین هدایت فروش محصولات ویژه یا داغ، تصمیمی اساسی در طراحی سیستم توصیهگر است و بر الگوریتم های علم داده که برای پیادهسازی این سیستمها مورد استفاده قرار میگیرند، تاثیر میگذارد.
چرا اکنون ؟
چندین عامل در رشد اخیر علم داده سهیم بودهاند. علت ظهور کلان داده، سهولت نسبی امکان جمعآوری دادهها توسط سازمانها بوده است. عامل دیگر، کالاگرایی(Commoditization) ذخیره دادهها با صرفه به مقیاس(Economies of Scale) است که ذخیره دادهها را ارزانتر از همیشه ساخته است. همچنین رشد شگرفی در قدرت رایانهها به وجود آمده است. ابزارهای کاربرپسند علم داده نیز در دسترس قرار گرفتهاند و موانع ورود به علم داده را کاهش دادهاند. به طور کلی، این پیشرفتها بدین معنا است که جمعآوری، ذخیره، و پردازش دادهها هرگز به این آسانی نبوده است.
در ۱۰ سال گذشته، پیشرفتهای مهمی نیز در یادگیری ماشین انجام گرفته است. به طور خاص، یادگیری عمیق پدید آمده است و در نحوه پردازش زبان و دادههای تصویری توسط رایانهها انقلابی ایجاد کرده است. اصطلاح یادگیری عمیق، خانوادهای از مدلهای شبکه عصبی با چندین لایه از واحدها در شبکه را توصیف میکند. شبکههای عصبی از دهه ۱۹۴۰ وجود داشتهاند، اما امروزه به بهترین شکل با مجموعههای بزرگ و پیچیده دادهها کار میکنند و مقدار زیادی از منابع محاسباتی را برای یادگیری به کار میگیرند. بنابراین ظهور یادگیری عمیق با رشد کلان داده و قدرت محاسباتی ارتباط دارد. اغراق نیست که اثر یادگیری عمیق در گستره وسیعی از دامنهها را خارقالعاده توصیف کنیم. در حال حاضر فیسبوک(Facebook) از یادگیری عمیق برای تشخیص چهره و تحلیل متن به منظور تبلیغ مستقیم برای افراد بر مبنای مکالمات آنلاین آنها استفاده میکند. گوگل(Google) و بایدو(Baido) از یادگیری عمیق برای تشخیص تصویر، افزودن توضیحات و جستجو و ترجمه ماشینی استفاده میکنند. سیری(Siri) دستیار مجازی اپل(Apple)، الکسا(Alexa) در آمازون، کورتانا(Cortana) در مایکروسافت(Microsoft)، و بیکسبی(Bixby) در سامسونگ(Samsung) از تشخیص گفتار مبتنی بریادگیری عمیق استفاده میکنند. هوآوی(Huawei) در حال حاضر در حال توسعه یک دستیار مجازی برای بازار چین است و از تشخیص گفتار یادگیری عمیق نیز استفاده خواهد کرد.
باورهای غلط پیرامون علم داده
علم داده مزایای بسیاری برای سازمانهای مدرن دارد، اما گزافه گوییهای بسیاری نیز درباره آن وجود دارد، بنابراین ما باید محدودیتهای آن را درک کنیم. یکی از بزرگترین باورهای غلط، اعتقاد به این است که علم داده یک فرآیند خودمختار است که میتوانیم جهت یافتن پاسخهایی برای مسائل خود، دادهها را در آن به حال خود رها کنیم. در حقیقت، علم داده مستلزم نظارت انسانی ماهرانه در تمامی مراحل مختلف فرآیند است. دومین باور غلط بزرگ در علم داده این است که هر پروژه علم داده نیازمند کلان داده است و باید از یادگیری عمیق استفاده کند. داشتن دادههای بیشتر عموما کمککننده است، اما داشتن دادههای درست، الزامی مهمتر است.
سومین باور غلط در علم داده این است که نرمافزارهای جدید علم داده به راحتی قابل استفاده هستند و بنابراین انجام پروژههای علم داده کار آسانی است. خطر همراه با علم داده این است که افراد ممکن است مرعوب فناوری شوند و هر نتیجهای را که نرمافزار به آنها ارائه میدهد باور کنند. با این وجود، ممکن است آنها مسئله را ناخواسته به روشی نادرست تدوین، دادههای اشتباه وارد و یا از تکنیکهای تحلیل با مفروضات نامناسب استفاده کرده باشند. بنابراین نتایج حاصل از نرمافزار به احتمال زیاد، پاسخ نادرست بر اساس دادههای نادرست و یا نتیجه محاسبات نادرست هستند.
آخرین باور غلط پیرامون علم داده که در اینجا ذکر میکنیم، این است که علم داده سریعا هزینه صرفشده برای خود را باز میگرداند. درستی این باور به شرایط سازمان بستگی دارد. در شرایطی که مسئله کسبوکار به خوبی شناخته شده باشد و دادهها و تخصص انسانی مناسب در دسترس باشند، علم داده (اغلب) میتواند بینش عملی را فراهم کند که مزیت رقابتی مورد نیاز جهت موفقیت سازمان را فراهم سازد.
منابع
KELLEHER D. JOHN, TIERNEY BRENDAN (2018). DATA SCIENCE. The MIT Press Essential Knowledge Series