Data Science چیست و Data Scientist چه وظایفی دارا است؟


به گفتهٔ برخی کارشناسان، یکی از جذاب‌ترین مشاغل قرن بیست‌ویکم تحلیل داده‌ها است اما باید ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، می‌توان گفت که در طول دهه‌های گذشته حجم داده‌های تولیدشده توسط کاربران و کمپانی‌های مختلف بسیار قابل‌توجه بوده که از آن به عنوان Big Data (کلان داده) یاد می‌شود اما این داده‌ها زمانی ارزشمند خواهند بود که بتوان آن‌ها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آن‌ها بشود به شناخت بیشتر و بهتر بازار، رفتارهای کاربران، علائق ایشان و چیزهایی اینچنین دست یابیم که در همین راستا در این پست خواهیم دید که Data Science چیست و Data Scientist چه وظایفی دارا است.

Data Scientist که به صورت تحت‌الفظی «متخصص علم داده» ترجمه می‌شود، دائماً باید بپرسد «چرا؟» و بسته به شرکتی که در آن کار می‌کند وظایف مختلفی می‌تواند داشته باشد اما به طور کلی وی کسی که دارای مهارت‌هایی مثل تحلیل داده‌ها، مدل‌سازی و آمار باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک دیتا ساینتیست است که از آن به عنوان مرتب‌سازی داده‌ها یاد می‌شود که به طور خلاصه منظور از مرتب‌سازی داده‌ها این است که وی بتواند داده‌های به‌هم‌ریخته را ابتدا مرتب و منظم نموده سپس به بررسی آن‌ها بپردازد که در ادامه قصد داریم تا تک‌تک این وظایف را به صورت موردی بررسی نماییم.

مرتب‌سازی داده‌ها
همان‌طور که پیش از این گفتیم، فرایند مرتب‌سازی داده‌ها شامل ترتیب دادن فرمت داده‌هایی است که در نگاه اول فرد را سردرگم می‌کنند و از همین روی تحلیل‌گر باید ابتدا داده‌ها را به گونه‌ای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آن‌ها بپردازد. برای روشن‌تر شدن این مسأله، مثالی می‌زنیم.

فرض کنیم که قرار است داده‌های مرتبط با کاربرانی که به دنبال آموزش آنلاین برنامه‌نویسی هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که داده‌ها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یکسو و همچنین نوع زبان برنامه‌نویسی مد نظر کاربران از سوی دیگر، داده‌های مجزایی داریم. فرایند مرتب‌سازی داده‌ها در این مثال به این شکل است که ابتدا نیاز داریم تا تمامی داده‌ها را تجمیع کنیم اما نکته اینجا است که حتماً باید اطمینان حاصل کنیم کلیهٔ ردیف‌ها و ستون‌های فایل (به طور مثال یک فایل اِکسل) جایگاه خود را حفظ کرده و در این مثال هیچ داده‌ای به اشتباه در ستون دیگری قرار نمی‌گیرد که چنین کاری خیلی هم ساده نیست.

تحلیل داده‌ها
وقتی پای تحلیل داده‌ها به میان می‌آید، بسیاری از ما به یاد نرم‌افزار اِکسل شرکت مایکروسافت می‌افتیم اما واقعیت امر آن است که وقتی با #کلان داده سروکار داریم، نه تنها نرم‌افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستم‌های سخت‌افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و در بیشتر مواقع به زیرساخت‌های قوی و الگوریتم‌های پیچیده‌ای برای تحلیل داده‌ها نیاز داریم.

در فرایند تحلیل داده‌ها، متخصصین امر تمام سعی خود را به کار می‌بندند تا داده‌های مبتنی بر جدول را به صورت بصری (گراف) درآورند تا به صورت ملموس‌تری بتوان به بررسی آن‌ها پرداخت که برای درک بهتر این موضوع، مثالی از شبکهٔ اجتماعی فیسبوک می‌زنیم.

تحلیلگران داده‌ در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک این تضمین را ایجاد خواهد کرد که کاربر مذکور حضوری مستمر در این شبکه اجتماعی داشته باشد. از همین روی، مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحت‌تر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه‌ ثابت فیسبوک مبدل شوند.

مدل‌سازی
پس از آنکه داده‌های اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیش‌بینی آینده از روی آمار و ارقام به دست آمده و مدل‌سازی می‌رسد که کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت باید مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایت‌ها بتواند پیش‌بینی تعداد ویزیتورهای آتی آن‌‌ها در اختیار وب‌مسترها قرار دهد.

نمونه‌سازی 
پس از برخورداری از یک مدل خوب از داده‌های به دست آمده، تازه به اصل موضوع می‌رسیم که همان عملی ساخت نتایج است. پیش از این سایت الکسا را مثال زدیم و نیاز به توضیح نیست که چه‌قدر خوب است اگر بتوانیم آماری از تعداد ویزیتورهای آتی سایت‌مان را در اختیار داشته باشیم اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داد. به عبارت دیگر، باید داده‌های علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data ،Data Science و سایر علوم مرتبط ندارند هم بتوانند آن داده‌ها را درک کرده و در کسب‌وکار خود به کار گیرند.

نتیجه‌گیری
امروزه کسب‌وکارهای مختلف فارغ از حوزه‌ای که در آن مشغول به فعالیت می‌باشند به تک‌تک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه می‌کنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود، یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند، نیز به عنوان منبع خوبی از درآمدزایی نگاه می‌کنند. لذا اگر به فکر حضور در دنیای آی‌تی در یک بستر گسترده هستید، حتماً باید با تحلیل داده و نحوهٔ به‌کارگیری از داده‌ها در بهتر شدن خدمات و محصولات آشنا شوید و از همین روی برخورداری از مهارت تحلیل داده‌ها به عنوان یکی از حرفه‌های لازم و ضروری در عصر حاضر قلمداد می‌گردد.



آتنا ستوده