لبخوانی کاری است که نیاز به مهارت زیادی دارد. تنوع زیادی در نتایج تستها دیده میشود ولی به طور میانگین، بیشتر افراد در حین لبخوانی، از هر ده کلمه تنها یک کلمه را تشخیص میدهند و باتوجه به اینکه در دقت کارشناسان این زمینه نیز تفاوتهای زیادی وجود دارد، میتوان گفت که کسی در لبخوانی به درجهٔ استادی نرسیده است! اما برخی از محققان بر این باورند که با استفاده از روشهایی بر مبنای هوش مصنوعی میتوان این مشکل را حل کرد؛ در واقع، با در نظر داشتن اینکه شیوههای مختلفی از هوش مصنوعی به بهبود توانایی تشخیص گفتار نزدیک به انسان کمک بسیاری کردهاند، باید قابلیت انجام همین کار را با لبخوانی نیز داشته باشند.
دقتی فراتر از انسان، ولی با دادههای بسیار محدود
محققان آزمایشگاه هوش مصنوعی دانشگاه آکسفورد با استفاده از Deep Leaning (یادگیری ژرف)، یک برنامهٔ لبخوانی ساختهاند که در این عرصه پیشرفتی چشمگیر و در عین حال محدودی به حساب میآید. این نرمافزار که LipNet نام دارد، به طرز چشمگیری توانسته است با دقت ۹۳.۴٪ خُبرگان عرصهٔ لبخوانی را شکست دهد و این در حالی است که انسانها به طور میانگین امتیازی معادل با ۵۲.۳٪ به دست آوردهاند.
قبل از اینکه در کابوس فیلمهای تخیلی مانند A Space Odyssey گُم شویم، باید بدانیم که این پژوهش آکسفورد محدودیتهایی جدی نیز به همراه دارد. برای شروع، این سیستم در یک مجموعه دادهٔ تحقیقاتی به نام GRID آزمایش شده است که مجموعهای از دهها هزار فیلم کوتاه از ۳۴ داوطلب است که جملاتی کاملاً بیمعنی را میخوانند. این کلیپهای سه ثانیهای، دارای یک جملهٔ ساده متشکل از یک فعل امر، یک رنگ، حرف اضافه، یک حرف، یک رقم و یک قید هستند (به عنوان مثال جملهٔ Place red at C zero again).
حتی کلمات این جملات هم محدود هستند به طوری که فقط چهار فعل امری و رنگ متفاوت به کار میروند و این باعث شده است که برخی از محققان این زمینه به این باور برسند که یافتههای این پژوهش بیش از حد بزرگ شدهاند اما در پاسخ به این نقد، دو نفر از محققان این پروژه -Assael و Shillingford- در مصاحبهای با The Verge اعلام کردند که این سرویس با «دایرهٔ لغت و گرامر محدودی کار میکند» ولی دلیل آن به خاطر کمبود دیتای اولیه است. Assael اعتقاد دارد:
مجموعهٔ دادههای ما کوچک هست اما نشانهٔ خوب اینه که ما میتونیم با یک مجموعه دادهٔ بسیار بزرگتر هم این کار رو به خوبی انجام بدیم.
Assael و Shillingford هر دو شدیداً اسرار دارند که کار آنها استفادهای در دنیای امنیت و نظارت بر رفتار شهروندان ندارد به این دلیل که لبخوانی در صورتی ممکن است که حرکات زبان شخص کاملاً معلوم باشد. این بدان معنا است که فیلم باید از مقابل و همراه با نور کافی گرفته شود تا نتایج مورد نظر به دست آیند؛ همچنین اضافه کردن تعداد فریم نیز یک عامل مهم است؛ موردی که در تلویزیونهای مداربسته (CCTV) فراموش می شود.
این دو محقق فکر می کنند که لبخوانی مجهز به #هوش مصنوعی میتواند به افراد معلول شنوایی کمک کند، به خصوص در محیطهای پُر سر و صدا که کامپیوترها به سختی میتوانند سخن را تشخیص دهند. برای مثال، عینکی مجهز به دوربین میتواند به راحتی تصویری واضح از فرد مقابل تهیه و با لبخوانی، کلمات را به رونوشت تبدیل و به صورت صوتی به گوش هدایت کند. در همین راستا، Assael اعتقاد دارد هر جایی که تشخیص گفتار و یک دوربین داشته باشید، میتوانیم آن را بهبود دهیم. همچنین دستورهای صامت به دستیارهای صوتی مانند Siri یا Google Assistant نیز یکی از استفادههای این نرمافزار است.