Basilica: ابزاری جهت اِمبِد کردن داده‌هایی حجیم به بردارهای عددی


Basilica یک ای‌پی‌آی است که دیتایی همچون تصویر یا متن در ابعاد بزرگ را به یکسری بردار عددی مبدل سازد به طوری که دولوپرها با استفاده از این ابزار می‌توانند یک تصویر یا متن را به ای‌پی‌آی ارسال کرده و یک بردار عددی به عنوان خروجی دریافت کنند و در ادامه نیز این بردار را در سایر الگوریتم‌های یادگیری ماشینی مانند Linear Regression و یا الگوریتم‌های دسته‌بندی همچون K-means به کار گیرند.

Basilica در چه مواردی کاربرد دارد؟
کار با این ا‌ی‌پی‌آی بسیار ساده است و در حوزه‌های مختلفی می‌تواند مورد استفاده قرار گیرد که برخی از مهم‌ترین موارد عبارتند از:

- Product Recommendation: یکی از مشکلات رایج در تجارت الکترونیک، نمایش محصولات مشابه یکدیگر به مشتریان است که در همین راستا دولوپرها می‌توانند تصاویر محصولات مد نظر خود را به Basilica داده و این ابزار نیز بر اساس ویژگی‌هایی از محصولات که از دید مشتریان مهم هستند، میزان مشابهت هر یک از تصاویر را در قالب مقادیری عددی در اختیار سیستم می‌گذارد.

- Asset Pricing: در این مورد هم دولوپرها می‌توانند قیمت کالای مد نظر خود را بر اساس یک مدل ML پیش‌بینی کنند بدین صورت که ابتدا باید تصویر کالا را به Basilica ارسال کنند تا برخی از مهم‌ترین فیچرهای تصویر به برداری از مقادیر عددی مبدل گردد و در ادامه نیز می‌توان آن بردار عددی را به یک مدل پیش‌بینی قیمت داد تا بر اساس آنچه که این مدل آموزش دیده است، قیمت کالا را پیش‌بینی کند.

- Fighting Trolls: سوءاستفاده و تقلب در دنیای دیجیتال بسیار شایع است که در همین راستا Basilica امکان تجزیه‌وتحلیل متن و تصاویر را برای کاربران فراهم می‌کند تا بدین وسیله بتوانند اکانت‌ها و دیتای فِیک در پروفایل‌ افراد و یا تصاویر نامناسب را در شبکه‌های اجتماعی شناسایی کنند.

- Job Candidate Clustering: همچنین این ابزار امکانی را برای مسئولین #منابع انسانی شرکت‌ها فراهم می‌کند تا بتوانند به سادگی متقاضیان کار را بر اساس متن رزومۀ ایشان در دسته‌بندی‌های مختلفی قرار دهند.

آشنایی با نحوۀ کار Basilica
همان‌طور که اشاره کردیم، در این ای‌پی‌آی تکنیکی تحت عنوان Embedding (نگاشت) به کار گرفته شده است که داده‌هایی با ابعاد بزرگ را به یکسری دادهٔ کاربردی مبدل می‌سازد که این کار نیز با آموزش شبکه‌های عصبی ژرف انجام می‌شود و در آن یکسری تَسک روی داده‌های تحت آموزش انجام شده و لایه‌های میانی این شبکه‌ها یاد می‌گیرند تا فیچرهای مهم دیتا را شناسایی کنند و آن‌ها را به برداری از اعداد اعشاری در خروجی مبدل کنند و در ادامه نیز دولوپرها می‌توانند بردار عددی تولید شده برای دیتای مذکور را با مدل‌های یادگیری ماشینی موجود ادغام کنند.

همچنین تکنیک نگاشت مورد استفاده در ای‌پی‌آی بیسیلیکا از یک متد یادگیری ماشینی تحت عنوان Transfer Learning پیروی می‌کند که بر آن اساس، مدل توسعه‌یافته برای مبدل کردن دیتا به مجموعه بردارهای عددی به عنوان نقطۀ شروعی برای سایر مدل‌های یادگیری ماشینی محسوب می‌شود چرا که این ابزار با استفاده از دیتاستی متشکل از میلیون‌ها فیلد آموزش داده شده است اما در عین حال هم برای دیتاست‌هایی با ابعاد بزرگ و هم مجموعه داده‌های کوچکی به خوبی کار می‌کند.

در پایان لازم به ذکر است که ابزاری با کارایی مشابه Basilica تحت عنوان Word2Vec وجود دارد که به منظور تبدیل دیتای متنی به بردارهای عددی مورد استفاده قرار می‌گیرد.



اکرم امراه‌نژاد