Data Mining (داده‌کاوی) چیست؟

Data Mining (داده‌کاوی) چیست؟

Data Mining (داده‌کاوی) را برخی علم استخراج اطلاعات از داده‌های موجود در دیتابیس نیز می‌نامند. به طور کلی، با استفاده از داده‌کاوی می‌توان از داده‌های خام موجود ذخیره شده که غالباً تحت عنوان #بیگ دیتا شناخته می‌شوند، اطلاعات ارزشمند و مفیدی استخراج نموده و به نیازهای کسب‌وکارهایی که بقایشان منوط به دیتا است با سرعت بیشتری پاسخ داد چرا که در غیر این صورت، برای پاسخ‌دهی به چنین نیازهایی می‌بایست در میزان زیادی داده‌های خام جستجو نموده که کاری بسیار زمان‌بر و البته بی‌دقت خواهد بود.

آشنایی با کاربردهای علم داده‌کاوی
بسیاری از برنامه‌های موجود در زمینهٔ داده‌کاوی جهت استفاده در بخش فروش و بازاریابی مورد استفاده قرار می‌گیرند (البته علومی همچون پزشکی نیز از مزایای داده‌کاوی بی‌نصیب نیستند!) به طور کلی، از کاربردهای تجاری این علم می‌توان به موارد زیر اشاره کرد:

- شناسایی رفتار کاربر در فرایند تعامل با سایت یا اپ 
- شناسایی الگوهای رفتاری کاربران و یافتن تقلب در تعاملات آنلاین
- شناسایی رفتارهای هم‌روند انجام‌شده توسط کاربران (مثلاً 90٪ مشتریان یک فروشگاه آنلاین که لپ‌تاپ خریده‌اند، ماوس هم خریده‌اند.)

فرایند‌های دخیل در علم داده‌کاوی
به طور کلی، داده‌کاوی همان‌طور که بیان شد، علمی است که در تلاش است تا با شناسایی روابط، الگوها و بررسی مشخصات داده‌های خام، اطلاعات معناداری را در اختیار #کسب‌وکار شما قرار دهد. در همین راستا، چند مرحلهٔ مشخص وجود دارد که به‌ صورت کاملاً خلاصه به بیان این موارد خواهیم پرداخت (توجه داشته باشید که این مفاهیم در دانشگاه‌ها به‌ صورت دروس تخصصی و حتی رشتهٔ دانشگاهی مطرح‌شده و ارائه می‌شوند؛ پس مطمئناً نمی‌توان تمام موارد مربوط به آن را در این مقاله بیان نمود.)

Pre-Processing: پیش‌پردازش داده‌ها اولین و اساسی‌ترین مرحله در داده‌کاوی است. در این مرحله، داده‌های موجود در دیتابیس‌های متمرکز و یا نامتمرکز مورد بررسی و ارزیابی قرار گرفته و مشکلات موجود در آن‌ها تا حد زیادی رفع می‌شود.

در حقیقت، در بسیاری از دیتابیس‌ها ما مقادیری از داده‌های به اصطلاح گمشده داریم! فرض کنید در مورد داده‌های ثبت‌نامی دانشجویان صحبت می‌کنیم؛ ممکن است بسیاری از دانشجویان تاریخ تولدشان ثبت‌ نشده باشد و این در حالی است که این مقادیر بایستی اصلاح شوند و یا ممکن است مقادیر غیرمنطقی داشته باشیم (فرضاً برای دانشجویی که دختر است وضعیت خدمت سربازی ثبت‌ شده باشد و ...) که بهتر است پیش از انجام عملیات اصلی، در یک مرحلهٔ‌ ابتدایی، پیش‌پردازش داده‌ها صورت پذیرد.

Clustering: خوشه‌بندی مرحله دیگری از فرایند داده‌کاوی است که در این مرحله سعی می‌کنیم حجم عظیمی از داده‌ها را به خوشه‌های نسبتاً مرتبط تقسیم‌بندی کنیم. بدین ترتیب، گروه‌هایی داریم که داده‌های موجود در آن‌ها از نظر ساختار و مقادیر بسیار شبیه به هم هستند (به‌ عنوان‌ مثال، دانشجویانی که در یک رشته تحصیل می‌کنند، در خوشه‌‌ای یکسان قرار می‌گیرند.)

Classification: طبقه‌بندی نیز یکی دیگر از مراحل فرایند داده‌کاوی است که در این مرحله، داده‌هایی که قابلیت طبقه‌بندی شدن دارند را شناسایی کرده و آن‌ها را به دسته‌های مشخص تقسیم‌بندی می‌کنیم (به‌ عنوان‌ مثال، در یک دانشگاه می‌توانیم سه دسته دانشجویان کاردانی، کارشناسی و کارشناسی ارشد داشته باشیم.)

Outlier Analysis: تجزیه‌وتحلیل مقادیر پَرت از یکسو و همچنین حذف آن‌ها از سوی دیگر می‌تواند در پروسهٔ کار کردن با کلان‌ داده‌ها به ما کمک‌های شایانی کند. فرض کنید در مورد حقوق کارمندان یک شرکت در حال بررسی داده‌ها هستیم؛ اگر به‌ صورت میانگین افراد بین ۱ تا ۳ میلیون تومان حقوق دریافت کنند و تعداد انگشت‌شماری حقوق بالای ۷ میلیون تومان دریافت کنند، حضور این داده‌ها (حقوق بالای ۷ میلیون تومان) در محاسبات‌مان کلیهٔ حساب و کتاب‌ها را تحت‌تأثیر قرار خواهد داد؛ فلذا بهترین سولوشن (راه‌کار) حذف این مقادیر پَرت از محاسبات است.

Associative Analysis: تجزیه‌وتحلیل قواعد انجمنی یکی دیگر از مراحل فرایند داده‌کاوی است. به طور خلاصه، قوانین انجمنی به بررسی هم‌روندی اتفاقات می‌پردازد. به‌ عنوان‌ مثال، تمام کسانی که به کشور فرانسه سفر کرده‌اند علاقه‌مندی زیادی به هنر داشته‌اند و یا 80٪ افرادی که به مصر سفر کرده‌اند، به یک کشور تاریخی دیگر که دارای بناهای تاریخی زیادی است نیز سفر کرده‌اند (نیاز به توضیح نیست که شناسایی این قواعد کمک بسیار شایانی به صاحبان کسب‌وکار خواهد داشت.)

Summarization: خلاصه‌سازی کمک می‌کند تا یک تعریف مشخص و در عین حال ساده از کلان داده‌ها ایجاد کرده و توانایی و سرعت تحلیل آن‌ها را بالاتر خواهد برد. این تکنیک هم یکی دیگر از مراحل فرایند داده‌کاوی است.

در نهایت باید گفت که داده‌کاوی با استفاده از ترکیب تکنیک‌های مختلف، بررسی و تحلیل‌های ریاضیاتی، روانشناختی و ... در تلاش است حداکثر استخراج اطلاعات باارزش از داده‌های خام را انجام دهد.