Dataset Search: موتور جستجویی با هدف کمک به محققان در یافتن دیتاست­‌های مختلف


مهم‌ترین هدف گوگل همواره سعی در سازمان‌دهی بهتر اطلاعات موجود در وب‌سایت‌های گوناگون بوده و این در حالی است که سرویس Dataset Search در کنار Google Scholar، جامعهٔ علمی را هدف اصلی خود قرار داده‌اند به طوری که این موتور جستجو برای فعالیت‌های علمی-تحقیقاتی و مطالعات دانشگاهی مورد استفاده قرار می‌گیرد به طوری که می‌توان گفت گوگل این موتور جستجوی خود را برای یافتن دیتاست‌هایی طراحی کرده است که به دانشمندان کمک می‌کند تا داده‌‌های مورد نیاز خود را در زمانی سریع‌تر و با صرف کمترین تلاش پیدا کنند.

Dataset Search نحوهٔ عملکردش بدین ترتیب است که از اطلاعات موجود در متاتگ‌های وب‌سایت مؤسساتی که اطلاعات علمی خود را به صورت آنلاین منتشر می‌کنند، مثل دانشگاه‌ها یا سازمان‌های دولتی، مواردی نظیر خالق داده‌ها، تاریخ انتشار، روش جمع‌آوری و ... را پیدا نموده و پس از ترکیب با Knowledge Graph خود، آن‌ها را ایندکس می‌کند (یکی از ابزارهایی که برای کار با دیتاست‌ها مورد استفاده قرار می‌گیرد Kaggle است که برای آشنایی بیشتر با این ابزار می‌توانید به مقالهٔ Kaggle: کامیونیتی مدیریت پروژه‌های مرتبط با Data Science مراجعه نمایید.)

با وجود افزایش چشم‌گیر حجم داده‌ها و دیتاست‌های علمی موجود در اینترنت به واسطهٔ مواردی نظیر درخواست ژورنال‌های علمی از نویسندگان مقالات به منظور اشتراک‌گذاری دیتاست‌های مورد استفاده و تغییر مقررات دولتی آمریکا و اروپا در کنار جنبش عمومی دسترسی مردم به داده‌ها به صورت آزاد همگی با چالشی تحت عنوان پراکندگی داده‌ها در فضای وب روبه‌رو هستند و این مورد باعث شده تا محققان برای یافتن دیتاست‌های مورد نیاز خود، به خصوص در برخی زمینه‌های تحقیقاتی که اِشراف کمتری به آن‌ها دارند، زمان زیادی را از دست بدهند.

در همین راستا، یکی از دانشمندان تحقیقاتی بخش #هوش مصنوعی گوگل که در این پروژه نیز مشارکت داشته است هدف از ساخت چنین موتور جستجویی را ادغام منابع مختلف اطلاعاتی با یکدیگر عنوان کرده و معتقد است:

ما قصد داریم تا این داده‌ها به راحتی قابل‌دستیابی باشن اما محل ذخیره‌سازی اون‌ها همچنان در سرور اصلی باقی بمونه. برای مثال، در یکی از پروژه‌های علمی یک تیم تحقیقاتی به دیتاست خاصی در مورد دمای اقیانوس‌ها نیاز داشت اما با وجود تلاش‌های زیاد اعضای اون تیم نتونستن دیتای مد نظرشون رو پیدا کنن و در نهایت هنگام صحبت با کارشناسی دیگر در یکی از کنفرانس‌های علمی و راهنمایی‌های او دیتاست مورد نظر خود رو پیدا کردن. داده‌های مورد نظر به خوبی جمع‌آوری شده و در منبع مناسبی نیز ذخیره شده بودند اما یافتن اون‌ها بسیار سخت بود!

به طور کلی، ساخت یک موتورجستجوی کارآمد نیازمند ساخت سیستم‌های کاربرپسند و درک چگونگی رفتار کاربران هنگام استفاده از آن‌ها است که در همین راستا نوع کیوردهای مورد استفادهٔ کاربران برای سِرچ، یکی از مهم‌ترین فاکتورهایی است که باید به آن توجه نمود و البته لازم به یادآوری است که گوگل نیز مهارت زیادی در کارهایی از این دست دارد. 

در پایان نیاز به توضیح است که یکی از رقبای اصلی گوگل، یعنی کمپانی نرم‌افزاری مایکروسافت، نیز دست روی دست نگذاشته و در این حوزه شروع به فعالیت نموده است که شاهد این ادعا هم سرویس Research Open Data است که برای کسب اطلاعات بیشتر در این باره می‌توانید به مقالهٔ Microsoft Research Open Data: ریپازیتوری مجموعه‌ داده‌های تحقیقاتی اپن‌سورس مایکروسافت مراجعه نمایید.