به گفتهٔ برخی کارشناسان، یکی از جذابترین مشاغل قرن بیستویکم تحلیل دادهها است اما باید ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، میتوان گفت که در طول دهههای گذشته حجم دادههای تولیدشده توسط کاربران و کمپانیهای مختلف بسیار قابلتوجه بوده که از آن به عنوان Big Data (کلان داده) یاد میشود اما این دادهها زمانی ارزشمند خواهند بود که بتوان آنها را تحلیل کرده و از دل آنها آمار و ارقامی به دست آوریم که با استفاده از آنها بشود به شناخت بیشتر و بهتر بازار، رفتارهای کاربران، علائق ایشان و چیزهایی اینچنین دست یابیم که در همین راستا در این پست خواهیم دید که Data Science چیست و Data Scientist چه وظایفی دارا است.
Data Scientist که به صورت تحتالفظی «متخصص علم داده» ترجمه میشود، دائماً باید بپرسد «چرا؟» و بسته به شرکتی که در آن کار میکند وظایف مختلفی میتواند داشته باشد اما به طور کلی وی کسی که دارای مهارتهایی مثل تحلیل دادهها، مدلسازی و آمار باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک دیتا ساینتیست است که از آن به عنوان مرتبسازی دادهها یاد میشود که به طور خلاصه منظور از مرتبسازی دادهها این است که وی بتواند دادههای بههمریخته را ابتدا مرتب و منظم نموده سپس به بررسی آنها بپردازد که در ادامه قصد داریم تا تکتک این وظایف را به صورت موردی بررسی نماییم.
مرتبسازی دادهها
همانطور که پیش از این گفتیم، فرایند مرتبسازی دادهها شامل ترتیب دادن فرمت دادههایی است که در نگاه اول فرد را سردرگم میکنند و از همین روی تحلیلگر باید ابتدا دادهها را به گونهای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آنها بپردازد. برای روشنتر شدن این مسأله، مثالی میزنیم.
فرض کنیم که قرار است دادههای مرتبط با کاربرانی که به دنبال آموزش آنلاین برنامهنویسی هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که دادهها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یکسو و همچنین نوع زبان برنامهنویسی مد نظر کاربران از سوی دیگر، دادههای مجزایی داریم. فرایند مرتبسازی دادهها در این مثال به این شکل است که ابتدا نیاز داریم تا تمامی دادهها را تجمیع کنیم اما نکته اینجا است که حتماً باید اطمینان حاصل کنیم کلیهٔ ردیفها و ستونهای فایل (به طور مثال یک فایل اِکسل) جایگاه خود را حفظ کرده و در این مثال هیچ دادهای به اشتباه در ستون دیگری قرار نمیگیرد که چنین کاری خیلی هم ساده نیست.
تحلیل دادهها
وقتی پای تحلیل دادهها به میان میآید، بسیاری از ما به یاد نرمافزار اِکسل شرکت مایکروسافت میافتیم اما واقعیت امر آن است که وقتی با #کلان داده سروکار داریم، نه تنها نرمافزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستمهای سختافزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و در بیشتر مواقع به زیرساختهای قوی و الگوریتمهای پیچیدهای برای تحلیل دادهها نیاز داریم.
در فرایند تحلیل دادهها، متخصصین امر تمام سعی خود را به کار میبندند تا دادههای مبتنی بر جدول را به صورت بصری (گراف) درآورند تا به صورت ملموستری بتوان به بررسی آنها پرداخت که برای درک بهتر این موضوع، مثالی از شبکهٔ اجتماعی فیسبوک میزنیم.
تحلیلگران داده در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک این تضمین را ایجاد خواهد کرد که کاربر مذکور حضوری مستمر در این شبکه اجتماعی داشته باشد. از همین روی، مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحتتر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه ثابت فیسبوک مبدل شوند.
مدلسازی
پس از آنکه دادههای اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیشبینی آینده از روی آمار و ارقام به دست آمده و مدلسازی میرسد که کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت باید مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایتها بتواند پیشبینی تعداد ویزیتورهای آتی آنها در اختیار وبمسترها قرار دهد.
نمونهسازی
پس از برخورداری از یک مدل خوب از دادههای به دست آمده، تازه به اصل موضوع میرسیم که همان عملی ساخت نتایج است. پیش از این سایت الکسا را مثال زدیم و نیاز به توضیح نیست که چهقدر خوب است اگر بتوانیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داد. به عبارت دیگر، باید دادههای علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data ،Data Science و سایر علوم مرتبط ندارند هم بتوانند آن دادهها را درک کرده و در کسبوکار خود به کار گیرند.
نتیجهگیری
امروزه کسبوکارهای مختلف فارغ از حوزهای که در آن مشغول به فعالیت میباشند به تکتک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه میکنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود، یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند، نیز به عنوان منبع خوبی از درآمدزایی نگاه میکنند. لذا اگر به فکر حضور در دنیای آیتی در یک بستر گسترده هستید، حتماً باید با تحلیل داده و نحوهٔ بهکارگیری از دادهها در بهتر شدن خدمات و محصولات آشنا شوید و از همین روی برخورداری از مهارت تحلیل دادهها به عنوان یکی از حرفههای لازم و ضروری در عصر حاضر قلمداد میگردد.