Data Science چیست و چرا در دنیای آی تی مهم است؟

به گفته برخی کارشناسان، یکی از باحال ترین مشاغل قرن ۲۱ تحلیلگری داده‌ها است اما ما می بایست ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، بایستی گفت که در طول دهه گذشته حجم داده‌های تولید شده توسط شرکت های مختلف بسیار قابل توجه بوده است که گاهی اوقات از آن به عنوان Big Data یاد می‌شود اما این داده‌ها زمانی ارزشمند خواهند بود که بتوان آن‌ها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آن‌ها بتوان به شناخت بیشتر بازار، رفتارهای کاربران اینترنتی، علائق مردم و … دست یابیم. در این مقاله با وبلاگ سکان آکادمی همراه باشید تا بیشتر و بهتر با مفهوم Data Science آشنا شوید.

یک Data Scientist که به صورت تحت الفظی دانشمند داده ترجمه می‌شود که بهتر است که از آن به عنوان «تحلیلگر داده» یاد کنیم دائماً می بایست بپرسد چرا؟ یک تحلیلگر داده بسته به شرکتی که در آن کار می‌کند وظایف مختلفی می‌تواند داشته باشد اما به طور کلی تحلیلگر داده کسی که دارای خصوصیاتی مثل تحلیل داده ها، مدل سازی/آمار و مهندسی/نمونه سازی باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک تحلیلگر داده است که از آن به عنوان مرتب سازی داده‌ها یاد می‌شود که به طور خلاصه منظور از مرتب سازی داده این است که تحلیلگر بتواند لیستی از داده‌های به هم ریخته را ابتدا مرتب و منظم نموده سپس به بررسی آن‌ها بپردازد. در ادامه قصد داریم تا تک تک این وظایف را به صورت موردی بررسی نماییم:

مرتب سازی داده
همان‌طور که پیش از این گفتیم، فرایند مرتب سازی داده شامل ترتیب دادن فرمت داده‌هایی است که در نگاه اول فرد را سردرگم می کنند. لذا تحلیلگر می بایست ابتدا داده‌ها را به گونه‌ای مرتب سازد که آن پس بتواند به سادگی به بررسی و تحلیل آن‌ها بپردازد. برای روشن‌تر شدن این مسأله مثالی می زنیم. فرض کنیم که قرار است داده‌های مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که داده‌ها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و همچنین نوع آموزش مد نظر از سوی دیگر، فایل‌هایی مجزایی داریم. فرایند مرتب سازی داده‌ها در مثال فوق به این شکل است که ابتدا می بایست تمامی داده‌ها را در یک فایل قرار دهیم اما نکته اینجا است که حتماً می بایست اطمینان حاصل کنیم کلیه ردیف ها و ستون‌های فایل (به طور مثال فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ داده‌ای به اشتباه در ستون دیگری قرار نمی گیرد.

تحلیل داده ها
وقتی پای تحلیل داده‌ها به میان می آید، بسیاری از ما به یاد نرم‌افزار اکسل شرکت مایکروسافت می‌افتیم اما واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرم افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستم‌های سخت افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاها ما به چندین سیستم قوی نیاز داریم. در فرایند تحلیل داده ها، کارشناسان تمام سعی خود را به کار می بندند تا داده‌ها را از قالب جدول به صورت بصری درآورند تا به صورت ملموس تری بتوان به بررسی آن‌ها پرداخت. برای درک بهتر این موضوع، مثالی از شبکه اجتماعی فیسبوک می زنیم. تحلیلگران داده‌ها در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد لذا مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحت‌تر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه ثابت فیسبوک مبدل شوند.

مدل سازی/آمار 
پس از آنکه داده‌های اولیه مرتب شدند سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیش‌بینی آینده از روی آمار و ارقام به دست آمده و مدل سازی می‌رسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت می بایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایت‌ها بتواند پیش‌بینی تعداد ویزیتورهای آتی این سایت‌ها نیز در اختیار وب مسترهای قرار دهد.

مهندسی/نمونه سازی 
پس از برخورداری از یک مدل/طرح خوب از داده‌های به دست آمده، تازه به اصل کار می‌رسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب می‌شد اگر می توانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داده و در اختیار وب مسترها قرار داد. به عبارت دیگر، می بایست داده‌های علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و … ندارند هم بتوانند آن داده‌ها را درک کرده و در زندگی حرفه‌ای خود به کار گیرند.

سخن پایانی
شرکت های حرفه‌ای دنیا به تک تک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه می‌کنند و این در حالی است که نسبت به مشتریان بالقوه خود (یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند) نیز به عنوان منبع خوبی از داده نگاه می کنند. لذا اگر به فکر حضور در دنیای آی تی در یک بستر بین‌المللی هستید، حتماً می بایست با تحلیل داده‌ها و نحوه به کارگیری آن‌ها در بهتر شدن خدمات و محصولات آشنا شوید اما اگر هم قصد دارید در کشور ایران به ادامه فعالیت حرفه‌ای خود بپردازید اگرچه که در کشور عزیزمان به بیشتر مسائل به صورت هیئتی نگاه می شود، اما شکی نداشته باشیم که در آینده‌ای نه چندان دور ما هم مجبور خواهیم شد تا از دید علمی به این قضایا نگاه کنیم. بنابراین شاید حرفه تحلیل داده‌ها آن طور که در دنیا مورد استقبال گرفته در ایران محبوب واقع نگردد، اما واقعیت آن است که به عنوان یکی از حرفه های لازم و ضروری در دهه های آتی شرکت ها به‌خصوص آن‌هایی که در عرضه فناوری اطلاعات فعالیت دارند قلمداد خواهد شد.

0


بهزاد مرادی

از جمله علائق بهزاد مرادی می توان به نشر علم،‌ سرمایه گذاری روی نسل آینده، زبان برنامه نویسی پی اچ پی و جامعه متن باز و همچنین راه اندازی استارتاپ و کارآفرینی اشاره کرد و او بر این باور است که سکان آکادمی بستری است که از آن طریق می تواند به علائق اش جامه ی عمل بپوشاند. از جمله فعالیت های وی در سکان آکامی می توان به تالیف دوره های آنلاین برنامه نویسی و ترجمه مقالات وبلاگ اشاره کرد. 






از طریق این فرم، می توانید بدون ثبت نام نظر دهید و یا اگر قبلا ثبت نام کرده اید، با ورود ناحیه ی کاربری می توانید علاوه بر ثبت نظر، به مدیریت نظرات خود نیز بپردازید.
(فیلد اجباری)
(فیلد اجباری)
(فیلد اجباری)
(فیلد اجباری)