Data Mining (داده کاوی - دیتا ماینینگ) را برخی علم استخراج اطلاعات از دادههای موجود در دیتابیس نیز مینامند. به طور کلی، با استفاده از داده کاوی میتوان از دادههای خام موجود ذخیره شده که غالباً تحت عنوان بیگ دیتا شناخته میشوند، اطلاعات ارزشمند و مفیدی استخراج نموده و به نیازهای کسبوکارهایی که بقایشان منوط به دیتا است با سرعت بیشتری پاسخ داد چرا که در غیر این صورت، برای پاسخدهی به چنین نیازهایی میبایست در میزان زیادی دادههای خام جستجو نموده که کاری بسیار زمانبر و البته بیدقت خواهد بود.
آشنایی با کاربردهای علم داده کاوی
بسیاری از برنامههای موجود در زمینهٔ دادهکاوی جهت استفاده در بخش فروش و بازاریابی مورد استفاده قرار میگیرند (البته علومی همچون پزشکی نیز از مزایای دادهکاوی بینصیب نیستند!) به طور کلی، از کاربردهای تجاری این علم میتوان به موارد زیر اشاره کرد:
- شناسایی رفتار کاربر در فرایند تعامل با سایت یا اپ
- شناسایی الگوهای رفتاری کاربران و یافتن تقلب در تعاملات آنلاین
- شناسایی رفتارهای همروند انجامشده توسط کاربران (مثلاً 90٪ مشتریان یک فروشگاه آنلاین که لپتاپ خریدهاند، ماوس هم خریدهاند.)
فرایندهای دخیل در علم داده کاوی
به طور کلی، دادهکاوی همانطور که بیان شد، علمی است که در تلاش است تا با شناسایی روابط، الگوها و بررسی مشخصات دادههای خام، اطلاعات معناداری را در اختیار #کسبوکار شما قرار دهد. در همین راستا، چند مرحلهٔ مشخص وجود دارد که به صورت کاملاً خلاصه به بیان این موارد خواهیم پرداخت (توجه داشته باشید که این مفاهیم در دانشگاهها به صورت دروس تخصصی و حتی رشتهٔ دانشگاهی مطرحشده و ارائه میشوند؛ پس مطمئناً نمیتوان تمام موارد مربوط به آن را در این مقاله بیان نمود.)
پیشپردازش - Pre-Processing
پیشپردازش دادهها اولین و اساسیترین مرحله در داده کاوی است. در این مرحله، دادههای موجود در دیتابیسهای متمرکز و یا نامتمرکز مورد بررسی و ارزیابی قرار گرفته و مشکلات موجود در آنها تا حد زیادی رفع میشود.
در حقیقت، در بسیاری از دیتابیسها ما مقادیری از دادههای به اصطلاح گمشده داریم! فرض کنید در مورد دادههای ثبتنامی دانشجویان صحبت میکنیم؛ ممکن است بسیاری از دانشجویان تاریخ تولدشان ثبت نشده باشد و این در حالی است که این مقادیر بایستی اصلاح شوند و یا ممکن است مقادیر غیرمنطقی داشته باشیم (فرضاً برای دانشجویی که دختر است وضعیت خدمت سربازی ثبت شده باشد و ...) که بهتر است پیش از انجام عملیات اصلی، در یک مرحلهٔ ابتدایی، پیشپردازش دادهها صورت پذیرد.
خوشهبندی - Clustering
خوشهبندی مرحله دیگری از فرایند داده کاوی است که در این مرحله سعی میکنیم حجم عظیمی از دادهها را به خوشههای نسبتاً مرتبط تقسیمبندی کنیم. بدین ترتیب، گروههایی داریم که دادههای موجود در آنها از نظر ساختار و مقادیر بسیار شبیه به هم هستند (به عنوان مثال، دانشجویانی که در یک رشته تحصیل میکنند، در خوشهای یکسان قرار میگیرند.)
طبقهبندی - Classification
طبقهبندی نیز یکی دیگر از مراحل فرایند داده کاوی است که در این مرحله، دادههایی که قابلیت طبقهبندی شدن دارند را شناسایی کرده و آنها را به دستههای مشخص تقسیمبندی میکنیم (به عنوان مثال، در یک دانشگاه میتوانیم سه دسته دانشجویان کاردانی، کارشناسی و کارشناسی ارشد داشته باشیم.)
تجزیهوتحلیل مقادیر پَرت - Outlier Analysis
تجزیهوتحلیل مقادیر پَرت از یکسو و همچنین حذف آنها از سوی دیگر میتواند در پروسهٔ کار کردن با کلان دادهها به ما کمکهای شایانی کند. فرض کنید در مورد حقوق کارمندان یک شرکت در حال بررسی دادهها هستیم؛ اگر به صورت میانگین افراد بین ۱ تا ۳ میلیون تومان حقوق دریافت کنند و تعداد انگشتشماری حقوق بالای ۷ میلیون تومان دریافت کنند، حضور این دادهها (حقوق بالای ۷ میلیون تومان) در محاسباتمان کلیهٔ حساب و کتابها را تحتتأثیر قرار خواهد داد؛ فلذا بهترین سولوشن (راهکار) حذف این مقادیر پَرت از محاسبات است.
تجزیهوتحلیل قواعد انجمنی - Associative Analysis
تجزیهوتحلیل قواعد انجمنی یکی دیگر از مراحل فرایند داده کاوی است. به طور خلاصه، قوانین انجمنی به بررسی همروندی اتفاقات میپردازد. به عنوان مثال، تمام کسانی که به کشور فرانسه سفر کردهاند علاقهمندی زیادی به هنر داشتهاند و یا 80٪ افرادی که به مصر سفر کردهاند، به یک کشور تاریخی دیگر که دارای بناهای تاریخی زیادی است نیز سفر کردهاند (نیاز به توضیح نیست که شناسایی این قواعد کمک بسیار شایانی به صاحبان کسبوکار خواهد داشت.)
خلاصهسازی - Summarization
خلاصهسازی کمک میکند تا یک تعریف مشخص و در عین حال ساده از کلان دادهها ایجاد کرده و توانایی و سرعت تحلیل آنها را بالاتر خواهد برد. این تکنیک هم یکی دیگر از مراحل فرایند دادهکاوی است.
در نهایت باید گفت که داده کاوی با استفاده از ترکیب تکنیکهای مختلف، بررسی و تحلیلهای ریاضیاتی، روانشناختی و ... در تلاش است حداکثر استخراج اطلاعات با ارزش از دادههای خام را انجام دهد.