EMO (Duygusal Portre Canlı), Alibaba'nın Akıllı Bilgisayar Enstitüsü (IIC) tarafından araştırılan, herhangi bir görüntüyü gerçekçi bir şekilde konuşan ve şarkı söyleyen bir görüntüye "sihirli bir şekilde" dönüştürebilen yeni bir üretken yapay zekadır.
Başka bir deyişle, Alibaba'nın yapay zekası statik bir referans görseli ve ses tonunu doğal ifadelerle konuşabilen ve şarkı söyleyebilen bir videoya dönüştürebiliyor.
Önceki yapay zekalar sadece ağzı ve yüzün bir kısmını şekillendirebiliyordu. EMO ise yüz ifadeleri, doğal ağız ifadeleri, hassas dudak senkronizasyonu yaratabiliyor, kaşları oynatabiliyor, gözleri çatabiliyor ve hatta müziğe göre sallanabiliyor.
Alibaba, görsellerin videoya nasıl dönüştürüleceğini ve anında içe aktarılan şarkıların nasıl söyleneceğini gösteren bazı videolar yayınladı. EMO İngilizce, Çince ve daha birçok dili destekliyor.
Alibaba, EMO'nun gerçekçi yüz ifadeleri yaratabilmesi için, Audio2Video adını verdiği kendi yayılım modeli aracılığıyla çok miktarda görüntü, ses ve video verisiyle eğitildiğini açıkladı.
Görüntü ve seslerden video oluşturmada gerçekçilik ve ifade gücü gibi günümüzün en büyük zorluğunu ele almak için araştırma ekibi, ara 3B model bağlantısını veya yüz işaretlerini atlayarak, kareler arasında sorunsuz geçişler yaparak ve videoda tutarlılığı koruyarak ses sinyalleri ile yüz hareketleri arasındaki ilişkiye ve nüanslara odaklandı.
Alibaba, bu yapay zekayı ne zaman kamuoyuna duyuracağını henüz açıklamadı ancak EMO'nun verilerini Github'da, araştırma makalelerini ise ArXiv'de yayınladı.