Microsoft tek bir statik görüntü ve bir konuşma ses klibi ile, çekici görsel duygusal becerilere (Visual Affective Skills -VAS) sahip sanal karakterlerin gerçeğe yakın konuşan yüzlerini oluşturmaya yönelik bir yapay zeka modeli olan VASA’yı tanıttı.
İlk model VASA-1, yalnızca sesle mükemmel şekilde senkronize edilmiş dudak hareketleri üretmekle kalmıyor, aynı zamanda özgünlük ve canlılık algısına katkıda bulunan geniş bir yelpazedeki yüz nüanslarını ve doğal baş hareketlerini de taklit ediyor.
Yeni model yalnızca gerçekçi yüz ve kafa dinamikleriyle yüksek video kalitesi sunmakla kalmıyor, aynı zamanda ihmal edilebilir başlangıç gecikmesiyle 40 FPS’ye kadar 512×512 videoların çevrimiçi oluşturulmasını da destekliyor. İnsanların konuşma davranışlarını taklit eden gerçekçi avatarlarla gerçek zamanlı etkileşimlerin önünü açıyor. VASA-1 bu performansını NVIDIA RTX 4090 ile sağlaybiliyor.
Ve Microsoft sayfada gördüğünüz tüm portre görselleri, StyleGAN2 veya DALL·E-3 (Mona Lisa hariç) tarafından oluşturulan sanal, var olmayan kimlikler olduğunu söylüyor. Sanal, etkileşimli karakterler için görsel duygusal beceri oluşturmayı araştırdığını ve herhangi bir ürün veya API planlarının olmadığını söylüyor.