LipNet: راهی برای حل مسئلهٔ لب‌خوانی با کمک یادگیری ژرف

LipNet: راهی برای حل مسئلهٔ لب‌خوانی با کمک یادگیری ژرف

لب‌خوانی کاری است که نیاز به مهارت زیادی دارد. تنوع زیادی در نتایج تست‌ها دیده می‌شود ولی به طور میانگین، بیشتر افراد در حین لب‌خوانی، از هر ده کلمه تنها یک کلمه را تشخیص می‌دهند و باتوجه به اینکه در دقت کارشناسان این زمینه نیز تفاوت‌های زیادی وجود دارد، می‌توان گفت که کسی در لب‌خوانی به درجهٔ استادی نرسیده است! اما برخی از محققان بر این باورند که با استفاده از روش‌هایی بر مبنای هوش مصنوعی می‌توان این مشکل را حل کرد؛ در واقع، با در نظر داشتن اینکه شیوه‌های مختلفی از هوش مصنوعی به بهبود توانایی تشخیص گفتار نزدیک به انسان کمک بسیاری کرده‌اند، باید قابلیت انجام همین کار را با لب‌خوانی نیز داشته باشند.

دقتی فراتر از انسان، ولی با داده‌های بسیار محدود
محققان آزمایشگاه هوش مصنوعی دانشگاه آکسفورد با استفاده از Deep Leaning (یادگیری ژرف)، یک برنامهٔ لب‌خوانی ساخته‌اند که در این عرصه پیشرفتی چشمگیر و در عین حال محدودی به حساب می‌آید. این نرم‌افزار که LipNet نام دارد، به طرز چشمگیری توانسته است با دقت ۹۳.۴٪ خُبرگان عرصهٔ لب‌خوانی را شکست دهد و این در حالی است که انسان‌ها به طور میانگین امتیازی معادل با ۵۲.۳٪ به دست آورده‌اند. 

قبل از اینکه در کابوس فیلم‌های تخیلی مانند A Space Odyssey گُم شویم، باید بدانیم که این پژوهش آکسفورد محدودیت‌هایی جدی نیز به همراه دارد. برای شروع، این سیستم در یک مجموعه دادهٔ تحقیقاتی به نام GRID آزمایش شده است که مجموعه‌ای از ده‌ها هزار فیلم کوتاه از ۳۴ داوطلب است که جملاتی کاملاً بی‌معنی را می‌خوانند. این کلیپ‌های سه ثانیه‌ای، دارای یک جملهٔ ساده متشکل از یک فعل امر، یک رنگ، حرف اضافه، یک حرف، یک رقم و یک قید هستند (به عنوان مثال جملهٔ Place red at C zero again).

حتی کلمات این جملات هم محدود هستند به طوری که فقط چهار فعل امری و رنگ متفاوت به کار می‌روند و این باعث شده است که برخی از محققان این زمینه به این باور برسند که یافته‌های این پژوهش بیش از حد بزرگ شده‌اند اما در پاسخ به این نقد، دو نفر از محققان این پروژه -Assael و Shillingford- در مصاحبه‌ای با The Verge اعلام کردند که این سرویس با «دایرهٔ لغت و گرامر محدودی کار می‌کند» ولی دلیل آن به خاطر کمبود دیتای اولیه است. Assael اعتقاد دارد: 

مجموعهٔ داده‌های ما کوچک هست اما نشانهٔ خوب اینه که ما می‌تونیم با یک مجموعه دادهٔ بسیار بزرگ‌تر هم این کار رو به خوبی انجام بدیم.

Assael و Shillingford هر دو شدیداً اسرار دارند که کار آن‌ها استفاده‌ای در دنیای امنیت و نظارت بر رفتار شهروندان ندارد به این دلیل که لب‌خوانی در صورتی ممکن است که حرکات زبان شخص کاملاً معلوم باشد. این بدان معنا است که فیلم باید از مقابل و همراه با نور کافی گرفته شود تا نتایج مورد نظر به دست آیند؛ همچنین اضافه کردن تعداد فریم نیز یک عامل مهم است؛ موردی که در تلویزیون‌های مداربسته (CCTV) فراموش می شود. 

این دو محقق فکر می کنند که لب‌خوانی مجهز به #هوش مصنوعی می‌تواند به افراد معلول شنوایی کمک کند، به خصوص در محیط‌های پُر سر و صدا که کامپیوترها به سختی می‌توانند سخن را تشخیص دهند. برای مثال، عینکی مجهز به دوربین می‌تواند به راحتی تصویری واضح از فرد مقابل تهیه و با لب‌خوانی، کلمات را به رونوشت تبدیل و به صورت صوتی به گوش هدایت کند. در همین راستا، Assael اعتقاد دارد هر جایی که تشخیص گفتار و یک دوربین داشته باشید، می‌توانیم آن را بهبود دهیم. همچنین دستورهای صامت به دستیارهای صوتی مانند Siri یا Google Assistant نیز یکی از استفاده‌های این نرم‌افزار است.

منبع