Microsoft a publié une étude sur son modèle d’IA VASA-1. Ce modèle permet de lier des photos de portrait à des fichiers audio. VASA-1 génère ensuite des vidéos dans lesquelles les photos peuvent « parler et chanter de manière réaliste ».
Le modèle IA est principalement destiné à la conception de personnages virtuels. “VASA-1 est capable de produire des mouvements de lèvres parfaitement synchronisés avec l’audio. Cependant, il peut également capturer un large spectre d’expressions faciales subtiles et de mouvements naturels de la tête qui contribuent à la perception d’authenticité et de vivacité.” a déclaré Microsoft.
La société a partagé plusieurs vidéos le démontrant, dont celle d’une Mona Lisa rappante. Les utilisateurs du modèle peuvent effectuer eux-mêmes des ajustements, comme les mouvements de la tête ou la direction du regard. En mode hors ligne, VASA-1 génère des vidéos de 512 x 512 pixels à 45 ips et prend en charge jusqu’à 40 ips dans la version en ligne. Microsoft souligne qu’il n’envisage pas de commercialiser VASA-1 par crainte d’une utilisation abusive du modèle d’IA pour créer des deepfakes.
Bron: Microsoft
2024-04-19 16:46:59
1713538953
#Microsoft #présente #modèle #dIA #qui #fait #parler #chanter #les #portraits #Ordinateur #Actualités