Microsoft Research Open Data: ریپازیتوری مجموعه‌ داده‌های تحقیقاتی اپن‌سورس مایکروسافت

Microsoft Research Open Data: ریپازیتوری مجموعه‌ داده‌های تحقیقاتی اپن‌سورس مایکروسافت

Microsoft Research Open Data یک ریپازیتوری مبتنی بر داده است که دیتاسِت‌هایی که محققان مایکروسافت همراه با تحقیقاتشان ایجاد و منتشر می‌کنند را در دسترس عموم قرار می‌دهد. شما می‌توانید در میان صدها دیتاسِت موجود جست‌وجو کرده و در صورت لزوم آن‌ها را دانلود کنید یا مستقیماً آن‌ها را به ماشین‌های مجازی مبتنی بر Azure (سرویس کلود مایکروسافت) یا ماشین‌های مجازی داده‌کاوی کپی کنید.

این کمپانی سعی کرده است که تا حد امکان از اصول داده‌ای به اصطلاح FAIR پیروی کند و هم‌چنان به استفاده از بالاترین استانداردهای به اشتراک‌گذاری داده‌ها ادامه می‌دهد (FAIR مخفف واژگان Findable: قابل یافتن، Accessible: قابل دستیابی، Interoperable: قابل اجرا و Reusable: قابل استفادهٔ مجدد است.) تصمیم‌گیران این کمپانی به خوبی در جریان این موضوع هستند که در حال حاضر صدها ریپازیتوری دادهٔ مختلفی که توسط محققان مورد استفاده قرار می‌گیرند موجود است و انتظار دارند تا با اتخاذ این رویکرد، تلاش‌های آن‌ها در این حوزه تقویت گردد. اگر علاقمند به آشنایی با دیگر پلتفرم‌های فعال در این حوزه هستید، می‌توانید به مقالات زیر نیز مراجعه نمایید:

ـ Kaggle: کامیونیتی مدیریت پروژه‌های مرتبط با Data Science
ـ Dtazar: ابزاری برای جستجو و اشتراک‌گذاری دیتای تحقیقاتی

به طور کلی، مجموعه‌ٔ داده‌های موجود در Microsoft Research Open Data توسط حوزه‌ٔ اصلی‌شان طبقه‌بندی می‌شود که این حوزه‌ها عبارتند از علوم کامپیوتری، فیزیک، علوم اجتماعی، ریاضیات و ... که همچنین می‌توانید با استفاده از این ریپازیتوری لینک‌ پروژه‌های تحقیقاتی یا نشریاتی که از یک مجموعه‌ داده‌ٔ خاص استفاده می‌کنند را نیز بیابید.

هدف مایکروسافت از ایجاد این ریپازیتوری چه بوده است؟
هدف این شرکت از ایجاد Microsoft Research Open Data، مهیا کردن بستری ساده برای محققان بوده تا بتوانند دیتاسِت‌ها، تکنولوژی‌های تحقیقاتی و سایر ابزارها را با یکدیگر به اشترک‌ گذارند. این سایت طراحی شده است تا دسترسی به مجموعه‌ داده‌ها و همکاری بین پژوهشگران را با استفاده از منابع مبتنی بر کلود تسهیل کند و امکان بازتولید تحقیقات را فراهم سازد (مایکروسافت قصد دارد هم‌چنان به تکمیل و بهبود این ریپازیتوری ادامه داده و ویژگی‌های این ریپازیتوری را با توجه به بازخوردهای کاربرانش افزایش دهد.)