Microsoft VASA genererar talande ansikten i realtid

Postat:
11:37 - 2024-04-19
Skribent:
| Lars A
Kommentarer:
17

Microsoft har introducerat VASA: ett ramverk för att generera talande ansikten i realtid. Exemplen nedan visar personer som inte existerar. De talande ansiktena har skapats utifrån en enda bild och ett enda ljudklipp.

Bild-till-video-modellen kan simulera mänskliga ansiktsuttryck och får munnarna att röra sig korrekt tillsammans med talet. I realtidsläget kan VASA-1 generera videor med 40 bildrutor per sekund och med en latens på bara 170ms.

Microsoft skriver att tekniken både har stor potential och risker. Därför kommer inte VASA släppas förrän utvecklarna är säkra på att tekniken kommer användas på ett ansvarsfullt vis som följer lagar och regelverk.

Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness.