Home » Sciences et technologies » Microsoft peut déplacer la photo en temps réel en fonction de l’audio. C’est tellement bon qu’il préfère ne le donner à personne – Živě.cz

Microsoft peut déplacer la photo en temps réel en fonction de l’audio. C’est tellement bon qu’il préfère ne le donner à personne – Živě.cz

by Nouvelles
Microsoft peut déplacer la photo en temps réel en fonction de l’audio.  C’est tellement bon qu’il préfère ne le donner à personne – Živě.cz

Branche asiatique de Microsoft Research a publié son framework VASA-1qui crée une vidéo réaliste d’un personnage parlant à partir d’une seule photo ou simplement d’une image dessinée et d’une piste audio.

La principale innovation réside dans les capacités d’animation avancées transmettant les émotions et les mouvements de la tête pour une vidéo d’apparence naturelle. Microsoft n’a pas utilisé de personnes réelles pour ses démos, juste des visages inexistants générés par l’IA :

Il faut dire d’emblée que Microsoft n’a aucun projet commercial pour ce projet et n’a pas non plus l’intention de publier une démo publique ou une quelconque API. Il s’agit d’une recherche purement interne qui, par crainte d’abus, ne veut pas être mise à disposition gratuitement ou contre rémunération.

Nous avons récemment écrit sur l’AI EMO d’Alibaba, qui tente de faire quelque chose de similaire, mais il n’y a pas eu d’opinion aussi sévère, et il pourrait être déployé commercialement.

D’après les démos de Microsoft, même si cela semble très réaliste, vous pouvez quand même dire qu’il s’agit d’une vidéo générée artificiellement. Les dents ondulent avec le visage de diverses manières, même si elles ne sont bien sûr pas flexibles en réalité. Vous ne manquerez pas la distance étrangement fixe entre les yeux, qui ne diminue pas même avec un léger tour de visage. Vous pouvez le voir le plus dans l’avant-dernier bloc de l’échantillon intégré ici avec un visage sur fond vert qui bouge de manière très irréaliste. Ici, le fait que les générateurs de visages IA utilisent actuellement un espacement fixe des yeux facilite également la génération par Microsoft. Vous pouvez trouver plus d’extraits vidéo, notamment le rap de Mona Lisa, sur page du projet.


Vous pouvez également animer des visages irréalistes

Cependant, l’avantage de la solution de Microsoft est la possibilité de générer directement en temps réel, ils précisent actuellement dans le document qu’ils gèrent 40 FPS sur la RTX 4090. Nous n’en sommes donc pas encore au stade où un ordinateur portable léger installé dans un café pourrait le gérer, mais l’accent mis ici sur le temps réel indique un déploiement prévu.

Dans le cas de Microsoft, une réelle utilisation serait proposée, par exemple, au sein de Teams, où seules une photo animée et une transmission vocale peuvent facilement suffire à transmettre des émotions dans un chat vidéo, en plus d’une économie importante de bande passante de transmission tout en conservant l’image. qualité. Vous pourrez ainsi rejoindre la conférence par un simple appel vocal, et votre photo stockée sur le réseau de l’entreprise se chargera de transférer l’image en vidéo.

Il trouvera certainement son utilité dans les productions animées, lorsqu’il pourra animer des visages à la manière d’un film d’animation et assurer la synchronisation des lèvres avec la piste parlée. Cela facilitera également d’éventuels ajustements pour différentes versions linguistiques du doublage.

Mais la publication ici uniquement d’échantillons et non du moteur lui-même souligne une nouvelle tendance selon laquelle les chercheurs sont suffisamment conscients de la menace d’une utilisation abusive, et bien que cela ne les empêche pas d’enquêter plus en profondeur, ils soulignent un cadre législatif qui fuit qui ne permet pas encore pour une telle chose.

2024-04-18 15:46:35
1713454650


#Microsoft #peut #déplacer #photo #temps #réel #fonction #laudio #Cest #tellement #bon #quil #préfère #donner #personne #Živě.cz

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.