Microsoft tek bir statik görüntü ve bir konuşma ses klibi ile, çekici görsel duygusal becerilere (Visual Affective Skills -VAS) sahip sanal karakterlerin gerçeğe yakın konuşan yüzlerini oluşturmaya yönelik bir yapay zeka modeli olan VASA’yı tanıttı.
İlk model VASA-1, yalnızca sesle mükemmel şekilde senkronize edilmiş dudak hareketleri üretmekle kalmıyor, aynı zamanda özgünlük ve canlılık algısına katkıda bulunan geniş bir yelpazedeki yüz nüanslarını ve doğal baş hareketlerini de taklit ediyor.
![](https://hardwaremania.com/wp-content/uploads/2024/04/Microsoft-vasa-1-teaser-1024x525.webp)
Yeni model yalnızca gerçekçi yüz ve kafa dinamikleriyle yüksek video kalitesi sunmakla kalmıyor, aynı zamanda ihmal edilebilir başlangıç gecikmesiyle 40 FPS’ye kadar 512×512 videoların çevrimiçi oluşturulmasını da destekliyor. İnsanların konuşma davranışlarını taklit eden gerçekçi avatarlarla gerçek zamanlı etkileşimlerin önünü açıyor. VASA-1 bu performansını NVIDIA RTX 4090 ile sağlaybiliyor.
Ve Microsoft sayfada gördüğünüz tüm portre görselleri, StyleGAN2 veya DALL·E-3 (Mona Lisa hariç) tarafından oluşturulan sanal, var olmayan kimlikler olduğunu söylüyor. Sanal, etkileşimli karakterler için görsel duygusal beceri oluşturmayı araştırdığını ve herhangi bir ürün veya API planlarının olmadığını söylüyor.