Data Science چیست و چرا در دنیای آی‌تی مهم است؟

Data Science چیست و چرا در دنیای آی‌تی مهم است؟

به گفتهٔ برخی کارشناسان، یکی از جذاب‌ترین مشاغل قرن ۲۱ام تحلیل داده‌ها است اما می‌بایست ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، بایستی گفت که در طول دهه‌های گذشته حجم داده‌های تولید شده توسط کاربران و کمپانی‌های مختلف بسیار قابل‌توجه بوده است که گاهی‌اوقات از آن به عنوان Big Data یاد می‌شود اما این داده‌ها زمانی ارزشمند خواهند بود که بتوان آنها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آنها بتوان به شناخت بیشتر و بهتر بازار، رفتارهای کاربران، علائق ایشان و چیزهایی اینچنین دست یابیم. در ادامه با وبلاگ سکان آکادمی همراه باشید تا بیشتر و بهتر با مفهوم Data Science (علم داده) آشنا شوید.

یک Data Scientist که به صورت تحت‌الفظی «دانشمند داده» ترجمه می‌شود اما بهتر است که از آن به عنوان «تحلیلگر داده» یاد کنیم، دائماً می‌بایست بپرسد چرا؟ یک تحلیلگر داده بسته به شرکتی که در آن کار می‌کند وظایف مختلفی می‌تواند داشته باشد اما به طور کلی تحلیلگر داده کسی که دارای خصوصیاتی مثل تحلیل داده‌ها، مدل‌سازی/آمار و مهندسی/نمونه‌سازی باشد.

در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک تحلیلگر داده است که از آن به عنوان مرتب‌سازی داده‌ها یاد می‌شود که به طور خلاصه منظور از مرتب‌سازی داده‌ها این است که تحلیلگر بتواند لیستی از داده‌های به هم ریخته را ابتدا مرتب و منظم نموده سپس به بررسی آن‌ها بپردازد که در ادامه قصد داریم تا تک‌تک این وظایف را به صورت موردی بررسی نماییم.

مرتب‌سازی داده‌ها
همان‌طور که پیش از این گفتیم، فرایند مرتب‌سازی داده‌ها شامل ترتیب دادن فرمت داده‌هایی است که در نگاه اول فرد را سردرگم می‌کنند؛ لذا تحلیلگر می‌بایست ابتدا داده‌ها را به گونه‌ای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آنها بپردازد. برای روشن‌تر شدن این مسأله، مثالی می‌زنیم.

فرض کنیم که قرار است داده‌های مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین برنامه‌نویسی هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که داده‌ها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و همچنین نوع زبان برنامه‌نویسی مد نظر از سوی دیگر، داده‌های مجزایی داریم. فرایند مرتب‌سازی داده‌ها در این مثال به این شکل است که ابتدا می‌بایست تمامی داده‌ها را تجمیع کنیم اما نکته اینجا است که حتماً می‌بایست اطمینان حاصل کنیم کلیهٔ ردیف‌ها و ستون‌های فایل (به طور مثال یک فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ داده‌ای به اشتباه در ستون دیگری قرار نمی‌گیرد که چنین کاری خیلی هم ساده نیست!

تحلیل داده‌ها
وقتی پای تحلیل داده‌ها به میان می‌آید، بسیاری از ما به یاد نرم‌افزار اکسل شرکت مایکروسافت می‌افتیم اما واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرم‌افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستم‌های سخت‌افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاهی‌اوقات ما به چندین سیستم قوی نیاز داریم.

در فرایند تحلیل داده‌ها، کارشناسان تمام سعی خود را به کار می‌بندند تا داده‌ها را از قالب جدول به صورت بصری (گراف) درآورند تا به صورت ملموس‌تری بتوان به بررسی آنها پرداخت. برای درک بهتر این موضوع، مثالی از شبکهٔ اجتماعی فیسبوک می‌زنیم. تحلیلگران داده‌ در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد لذا مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحت‌تر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه ثابت فیسبوک مبدل شوند.

مدل‌سازی/آمار 
پس از آنکه داده‌های اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیش‌بینی آینده از روی آمار و ارقام به دست آمده و مدل‌سازی می‌رسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت می‌بایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایت‌ها بتواند پیش‌بینی تعداد ویزیتورهای آتی این سایت‌ها نیز در اختیار وب‌مسترها قرار دهد.

مهندسی/نمونه‌سازی 
پس از برخورداری از یک مدل/طرح خوب از داده‌های به دست آمده، تازه به اصل کار می‌رسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب می‌شد اگر می‌توانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داد.

به عبارت دیگر، می‌بایست داده‌های علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و سایر علوم مرتبط ندارند هم بتوانند آن داده‌ها را درک کرده و در زندگی حرفه‌ای خود به کار گیرند.

سخن پایانی
شرکت‌های حرفه‌ای دنیا به تک‌تک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه می‌کنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود (یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند) نیز به عنوان منبع خوبی از داده نگاه می‌کنند. لذا اگر به فکر حضور در دنیای آی‌تی در یک بستر گسترده هستید، حتماً می‌بایست با تحلیل داده‌ها و نحوهٔ به‌کارگیری آنها در بهتر شدن خدمات و محصولات آشنا شوید.

بنابراین گرچه حرفهٔ تحلیل داده‌ها آن‌طور که در دنیا مورد استقبال گرفته در ایران محبوب واقع نشده، اما واقعیت آن است که به عنوان یکی از حرفه‌های لازم و ضروری در دهه‌های آتی شرکت‌ها به‌خصوص آنهایی که در عرصهٔ فناوری اطلاعات فعالیت دارند قلمداد خواهد شد.

حال نوبت به نظرات شما می‌رسد. آیا شما هم موافق هستید که علم تحلیل داده‌ها یکی از جذاب‌ترین حوزه‌های فناوری اطلاعات در عصر حاضر است؟ نظرات و دیدگاه‌های خود را با ما و سایر کاربران سکان آکادمی به اشتراک بگذارید.