
EMO robotu danışmağı və üz hərəkətləri etməyi necə öyrənir? EMO-nun öyrənmə prosesinə başlamaq üçün tədqiqatçılar robotu güzgü qarşısına qoydular. EMO, minlərlə fərqli üz ifadəsi yaradaraq öz görüntüsünü izləyərək hansı motor kombinasiyalarının hansı vizual nəticələr verdiyini öyrənməyə başladı. Bu yanaşma, robotun insan müdaxiləsi olmadan üz hərəkətləri ilə motor nəzarəti arasındakı əlaqəni anlamasına imkan verən Görmə-Dil-Hərəkət (VLA) adlı öyrənmə metoduna əsaslanır. Növbəti mərhələdə EMO, dodaq sinxronizasiyası qabiliyyətini artırmaq üçün insanların danışdığı və oxuduğu videoları təhlil etdi. YouTube video təhlili saatları ərzində robot hansı ağız və dodaq formalarının spesifik səslər yaratdığını ayırd etməyi öyrəndi. Süni intellekt sistemi bu müşahidələri əvvəllər əldə edilmiş motor məlumatları ilə birləşdirərək sintetik səs modulundan çıxan sözlərə uyğun dodaq hərəkətlərini uğurla yerinə yetirib.
Əlbəttə ki, texnologiya hələ mükəmməl deyil. EMO, xüsusən də “B” və “W” kimi dodaqların tam bağlanmasını və ya yuvarlaqlaşdırılmasını tələb edən səslərlə mübarizə aparır. Lakin, tədqiqatçıların fikrincə, bu, robotu daha çox məlumatla öyrətməklə zamanla aradan qaldırıla bilən bir problemdir. İnsanlarda olduğu kimi, motor nəzarəti və səs-ifadə koordinasiyası təcrübə ilə yaxşılaşır. Bu, EMO-nun gələcəkdə daha səlis və təbii söhbətlər aparmasına yol açır. Yuhanq Hunun sözlərinə görə, dodaq sinxronizasiyası imkanlarını inkişaf etmiş nitq süni intellektlə birləşdirmək insan-robot qarşılıqlı əlaqələrində yeni bir ölçü yarada bilər. ChatGPT və ya Gemini kimi dil modelləri ilə inteqrasiya olunmuş robot yalnız düzgün cümlələr qurmaqla yanaşı, həm də söhbətin emosional kontekstinə uyğun üz ifadələrini göstərə bilər. Robot insan söhbətlərini nə qədər çox müşahidə edərsə, onun üz ifadələri və jestləri bir o qədər kontekst baxımından həssas olur. Bu, robotların təhsil, səhiyyə və müştəri xidmətləri kimi sahələrdə daha effektiv istifadəsinə imkan verə bilər.