مهمترین هدف گوگل همواره سعی در سازماندهی بهتر اطلاعات موجود در وبسایتهای گوناگون بوده و این در حالی است که سرویس Dataset Search در کنار Google Scholar، جامعهٔ علمی را هدف اصلی خود قرار دادهاند به طوری که این موتور جستجو برای فعالیتهای علمی-تحقیقاتی و مطالعات دانشگاهی مورد استفاده قرار میگیرد به طوری که میتوان گفت گوگل این موتور جستجوی خود را برای یافتن دیتاستهایی طراحی کرده است که به دانشمندان کمک میکند تا دادههای مورد نیاز خود را در زمانی سریعتر و با صرف کمترین تلاش پیدا کنند.
Dataset Search نحوهٔ عملکردش بدین ترتیب است که از اطلاعات موجود در متاتگهای وبسایت مؤسساتی که اطلاعات علمی خود را به صورت آنلاین منتشر میکنند، مثل دانشگاهها یا سازمانهای دولتی، مواردی نظیر خالق دادهها، تاریخ انتشار، روش جمعآوری و ... را پیدا نموده و پس از ترکیب با Knowledge Graph خود، آنها را ایندکس میکند (یکی از ابزارهایی که برای کار با دیتاستها مورد استفاده قرار میگیرد Kaggle است که برای آشنایی بیشتر با این ابزار میتوانید به مقالهٔ Kaggle: کامیونیتی مدیریت پروژههای مرتبط با Data Science مراجعه نمایید.)
با وجود افزایش چشمگیر حجم دادهها و دیتاستهای علمی موجود در اینترنت به واسطهٔ مواردی نظیر درخواست ژورنالهای علمی از نویسندگان مقالات به منظور اشتراکگذاری دیتاستهای مورد استفاده و تغییر مقررات دولتی آمریکا و اروپا در کنار جنبش عمومی دسترسی مردم به دادهها به صورت آزاد همگی با چالشی تحت عنوان پراکندگی دادهها در فضای وب روبهرو هستند و این مورد باعث شده تا محققان برای یافتن دیتاستهای مورد نیاز خود، به خصوص در برخی زمینههای تحقیقاتی که اِشراف کمتری به آنها دارند، زمان زیادی را از دست بدهند.
در همین راستا، یکی از دانشمندان تحقیقاتی بخش #هوش مصنوعی گوگل که در این پروژه نیز مشارکت داشته است هدف از ساخت چنین موتور جستجویی را ادغام منابع مختلف اطلاعاتی با یکدیگر عنوان کرده و معتقد است:
ما قصد داریم تا این دادهها به راحتی قابلدستیابی باشن اما محل ذخیرهسازی اونها همچنان در سرور اصلی باقی بمونه. برای مثال، در یکی از پروژههای علمی یک تیم تحقیقاتی به دیتاست خاصی در مورد دمای اقیانوسها نیاز داشت اما با وجود تلاشهای زیاد اعضای اون تیم نتونستن دیتای مد نظرشون رو پیدا کنن و در نهایت هنگام صحبت با کارشناسی دیگر در یکی از کنفرانسهای علمی و راهنماییهای او دیتاست مورد نظر خود رو پیدا کردن. دادههای مورد نظر به خوبی جمعآوری شده و در منبع مناسبی نیز ذخیره شده بودند اما یافتن اونها بسیار سخت بود!
به طور کلی، ساخت یک موتورجستجوی کارآمد نیازمند ساخت سیستمهای کاربرپسند و درک چگونگی رفتار کاربران هنگام استفاده از آنها است که در همین راستا نوع کیوردهای مورد استفادهٔ کاربران برای سِرچ، یکی از مهمترین فاکتورهایی است که باید به آن توجه نمود و البته لازم به یادآوری است که گوگل نیز مهارت زیادی در کارهایی از این دست دارد.
در پایان نیاز به توضیح است که یکی از رقبای اصلی گوگل، یعنی کمپانی نرمافزاری مایکروسافت، نیز دست روی دست نگذاشته و در این حوزه شروع به فعالیت نموده است که شاهد این ادعا هم سرویس Research Open Data است که برای کسب اطلاعات بیشتر در این باره میتوانید به مقالهٔ Microsoft Research Open Data: ریپازیتوری مجموعه دادههای تحقیقاتی اپنسورس مایکروسافت مراجعه نمایید.