دادهها تا زمانی که پردازشی بر روی آنها صورت نگیرد، به صورت خام باقی میمانند و Data Mining (دیتا ماینینگ یا دادهکاوی) علمی است که اطلاعات ارزشمند را از دل دادههای خام استخراج میکند و این در حالی است که دیتا ماینینگ در حوزههای مختلفی از دانشگاه گرفته تا صنعت مورد استفاده قرار میگیرد. در واقع، دادهها حقایقی هستند که معنای خاصی را منتقل نمیکنند اما با استفاده از دادهکاوی میتوان آنها را به اطلاعات معناداری تبدیل کرد. در این مقاله ۱۰ ابزار #اپنسورس در این زمینه را معرفی خواهیم نمود اما پیش از مطالعه، برای درک بیشتر و بهتر اصطلاح Data Mining، میتوانید به مقالهٔ Data Mining (دادهکاوی) چیست؟ مراجعه نمایید.
Weka
این نرمافزار بر پایهٔ زبان جاوا که به صورت رایگان و اپنسورس تحت لیسانس GNU GPL برای سیستمعاملهای لینوکس، مک و ویندوز ارائه شده است. این ابزار شامل تعداد زیادی از الگوریتمهای #یادگیری ماشینی جهت دادهکاوی است. این نرمافزار قابلیت انجام عملیات مختلف دادهکاوی از جمله پیشپردازش دادهها، خوشهبندی، طبقهبندی، بررسی قواعد انجمنی، رگرسیون و همچنین بصریسازی دادهها را دارا است.
راهکارهای متفاوتی برای انجام این عملیات در Weka وجود دارد؛ در واقع، شما میتوانید از رویکرد به اصطلاح Explorer استفاده نموده که اولاً بسیار کاربرپسند طراحی شده، ثانیاً میتوانید دادههای خام را وارد سیستم کنید سپس با توجه به روش مد نظر خود، الگوریتمهای موجود در زمینههای مختلف مانند خوشهبندی، طبقهبندی و یا بررسی قواعد انجمنی را بر روی دادهها پیادهسازی نمایید؛ اما اگر حجم دادههای خام شما بسیار زیاد است، میتوانید از رویکرد به اصطلاح CL استفاده نمایید. در این روش، کل دادهها در حافظهٔ اصلی بارگذاری میشوند که باعث افزایش سرعت تحلیل دادهها خواهد شد.
در نهایت باید گفت که از Weka میتوان به عنوان یک ابزار تخصصی در صنعت و دانشگاه (جهت ارائه دوره) استفاده نمود (علاقمندان به یادگیری زبان برنامهنویسی جاوا میتوانند با مراجعه به دورهٔ آموزش زبان برنامهنویسی Java در سکان آکادمی، به صورت کاملاً رایگان با مقدمات این زبان قدرتمند و در عین حال محبوب آشنا شوند.)
Rapid Miner
این ابزار به عنوان یک سرویس کاربردی دادهکاوی و پلتفرم تحلیل پیشبینی مطرح است؛ این ابزار هم به صورت رایگان و اپنسورس و هم بهصورت تجاری عرضه میگردد (لازم به ذکر است که گارتنر یک شرکت معتبر آمریکایی در زمینهٔ تحقیق و مشاورهٔ کسبوکار است، دو ابزار Rapid Miner و Knife را به عنوان پیشنهادهای خود جهت استفاده در حوزهٔ دادهکاوی بیان نموده است.)
ابزار Rapid Miner همچنین دارای لایبرری عظیمی در زمینهٔ تحلیل دادهها و تحلیل پیشبینی است و امکان یادگیری ماشینی و انجام عملیات مختلف دادهکاوی مانند پیشپردازش دادهها، خوشهبندی، طبقهبندی، بررسی قواعد انجمنی و ... را به کاربران خود میدهد. در کنار این ویژگیها، این ابزار امکان اتصال به زبانهای برنامهنویسی مختلف مانند Python و R را در اختیار کاربران قرار میدهد (حتی کاربران Weka هم از این قاعده مستثنی نیستند و میتوانند به Rapid Miner متصل شوند.)
Orange
زبان برنامهنویسی پایتون این روزها بسیار مورد استقبال عمومی قرار گرفته است و کاربران این زبان جهت تحلیل دادهها و دادهکاوی میتوانند از ابزار Orange استفاده میکنند (جهت یادگیری زبان پایتون، به دورهٔ آموزش رایگان زبان برنامهنویسی Python در سکان آکادمی مراجعه نمایید.) این ابزار کمحجم بوده و دارای محیطی کاربرپسند است و در پسزمینه، از دستورات پایتون برای محاسبات خود استفاده میکند.
مدلسازی، خوشهبندی، طبقهبندی، بررسی قواعد انجمنی، بصریسازی دادهها و ... از امکاناتی هستند که این ابزار در اختیار کاربران خود قرار میدهد. Orange دارای یک محیط برنامهنویسی بصری است که در آن دولوپرها نیاز به کدنویسی نداشته و با Drag & Drop (کشیدن و رها کردن) ابزارهای موجود، به راحتی میتوانند روند دادهکاوی خود را ترسیم کنند؛ به عبارت دیگر، این محیط به کاربران کمک میکند تا به سادهترین روش ممکن، عملیات دادهکاوی را انجام دهند.
در کنار این موارد، آموزشهای رایگان آنلاین در زمینهٔ کار با این ابزار کاربردی وجود دارد که کاربران میتوانند از آنها استفاده نمایند و باتوجه به اتصال کامل این ابزار به زبان برنامهنویسی پایتون، میتوان از آن به عنوان یکی از کاربردیترین ابزارهای دادهکاوی نگاه کرد.
Knime
این ابزار اپنسورس و رایگان است که در عین حال نسخهٔ تجاری آن نیز موجود میباشد. Knime به عنوان یکی از برترین و کاربردیترین ابزارهای تحلیلی و به طور خاص گزارشگیری از دادههای خام مطرح است؛ بررسیها حاکی از آنند که اکثر استفادهکنندگان از این نرمافزار، از آن راضی هستند.
این ابزار امکان جمعآوری دادههای خام، تجزیهوتحلیل آنها و همچنین امکان گزارشگیری از آنها را در اختیار کاربران قرار میدهد؛ همچنین این ابزار کاربردی امکان اتصال به برنامههای مشابه مانند Weka و یا زبان R را نیز دارا است. زبان برنامهنویسی استفاده شده جهت توسعهٔ این ابزار Java بوده است و همچنین بر روی IDE رایگان Eclipse پیادهسازی شده است.
در کنار تمامی امکانات مطرحشده، کاربران با اضافه کردن افزونههای مختلف امکان متنکاوی و تحلیل تصاویر را نیز دارا هستند. اگرچه شرکت تولیدکنندهٔ این ابزار بسیار کوچک است، اما وجود کامیونیتی بزرگ کاربران موجب شناخته شدن آن شده است (روی هم رفته، استفاده از این ابزار به صورت تجاری به شرکتها پیشنهاد میگردد.)
DataMelt
این ابزار فراتر از دادهکاوی میتواند مورد استفاده قرار گیرد به طوری که DataMelt در محاسبات سنگین نیز کاربرد دارد (اما در اینجا ما فقط به جنبهٔ دادهکاوی آن میپردازیم.) این ابزار بر پایهٔ زبان برنامهنویسی جاوا طراحی شده است اما مزیت اصلیاش این است که دارای یک SDK بوده و کاربران حرفهای جاوا میتوانند از API جاوای آن استفاده کرده و جهت انجام عملیات دادهکاوی در پروژههای خود، از این ابزار به راحتی استفاده نمایند.
نکتهٔ حائز اهمیت دیگر در مورد DataMelt، توانایی بصریسازی بالای آن در بحث دادهکاوی است؛ همچنین امکان نمایش دوبُعدی و سهبُعدی خروجی، چیزی است که این ابزار را از دیگر سرویسهای مشابهاش متمایز کرده که دارای دو نسخهٔ رایگان و تجاری است که هر دوی آنها برای سیستمعاملهای ویندوز، لینوکس، مک و حتی اندروید در دسترس هستند.
Apache Mahout
این ابزار در درجهٔ اول یک لایبرری از الگوریتمهای یادگیری ماشینی است که توانایی خوشهبندی، طبقهبندی و یافتن الگوهای تکراری در دادهها را دارا است به طوری که Apache Mahout به راحتی میتواند به ابزارهای کار با کلان دادهها (Big Data) مانند Hadoop متصل شود (برای آشنایی بیشتر با مقولهٔ یادگیری ماشینی، به مقالهٔ یادگیری ماشینی چیست؟ مراجعه نمایید.) در حال حاضر، Apache Mahout در بسیاری از شرکتهای بزرگ تکنولوژی مانند Adobe ،AOL و Twitter مورد استفاده قرار میگیرد. همچنین از این ابزار در تحقیقات دانشگاهی و آموزش دانشجویان نیز بهره گرفته شده است.
ELKI
این ابزار اپنسورس نرمافزاری رایگان تحت مجوز AGPL نسخهٔ 3 است. ELKI به طور خاص روی بحث خوشهبندی و شناسایی دادههای پَرت با استفاده از تعداد زیادی از الگوریتمهایی که در همین زمینه دارا است، کار میکند. کاربران با استفاده از رابط کاربری ELKI، میتوانند به بخشهای مختلف آن دسترسی پیدا کنند؛ به طوری که در طراحی این نرمافزار اپنسورس قابلیتهای کارایی، مقیاسپذیری و همچنین طراحی ماژولار مد نظر بوده است (باتوجه به اینکه ELKI در حال حاضر دارای پشتیبانی رسمی نیست، بیشتر جهت انجام کارهای پژوهشی پیشنهاد میگردد.)
MOA
اگر قصد بررسی و تحلیل جریان دادههای خام آنلاین را دارید، MOA میتواند برای شما مفید باشد. این ابزار دارای سه حالت دسترسی است به طوری که کاربران میتوانند از طریق کامندلاین، رابط کاربری و API جاوایش به آن متصل شده و از آن استفاده کنند. معمولاً دادههای مرتبط با دوربینهای راهنمایی رانندگی، دادههای تولیدشده توسط حسگرها و ... به صورت جریان دادههای خام آنلاین هستند که تجزیهوتحلیل آنها با استفاده از MOA امکانپذیر خواهد بود.
KEEL
این ابزار امکان ورود و خروج دادهها، تجزیهوتحلیل و نمایش انواع دادهها را برای کاربران میسر میسازد. KEEL بر پایهٔ جاوا و تحت مجوز GPL نسخهٔ 3 پیادهسازی شده و به صورت رایگان و اپنسورس ارائه میگردد. اگر قصد انجام عملیات دادهکاوی بر اساس یادگیری را دارید، KEEL میتواند کمک شایانی به شما کند؛ همچنین این ابزار از بسیاری از الگوریتمهای یادگیری ماشین جهت دادهکاوی پشتیبانی میکند.
Rattle
این ابزار به صورت رایگان و بر روی انواع سیستمعاملها از جمله ویندوز، لینوکس و مک قابل استفاده است. پایهٔ Rattle بر اساس زبان R بوده و در کشورهای آمریکا و استرالیا به عنوان ابزاری آموزشی در پروژههای دانشگاهی مورد استفاده قرار میگیرد.
در انتها باید به این نکته اشاره شود که موارد فوقالذکر تنها ۱۰ مورد از ابزارهای دادهکاوی هستند که هم به صورت رایگان و هم به صورت اپنسورس ارائه شدهاند. نرمافزارهای دیگری در این زمینه به صورت تجاری وجود دارند که در صورت توجیهپذیر بودن هزینهٔ خرید لایسنس، از آنها نیز میتوانید استفاده نمایید.