Home » Économie » L’IA génère des images très précises des rues simplement en écoutant leur bande sonore

L’IA génère des images très précises des rues simplement en écoutant leur bande sonore

by Nouvelles

Après les chatbots, la génération d’images et la création de vidéos, l’intelligence artificielle se dote d’un nouveau système (encore au stade expérimental) capable de générer des images à partir d’un enregistrement audio d’un lieu.

Rue de New YorkRue de New York Crédit : Lenzatic – pixabay

Le monde de l’intelligence artificielle se développe à toute vitesse. En un clin d’œil, des innovations basées sur l’IA sont déjà en développement. Le système de chatbot utilisant des modèles de langage naturel a été l’une des premières utilisations à grande échelle de l’IA. Aujourd’hui, tout le monde utilise ChatGPT ou Gemini pour répondre à ses questions.

Bref, l’intelligence artificielle est utilisée dans de nombreux domaines et à de nombreuses fins.

Utiliser l’audio pour générer des images

Il était déjà possible de converser vocalement avec votre chatbot. Ce n’est qu’une étape pour générer des images à partir de la voix et une autre étape pour que les systèmes d’IA génèrent des effets sonores correspondant à des images fixes de lieux.

Développé par des professeurs de l’Université d’Austin au Texas, un « modèle de streaming son-image » a été testé et entraîné sur des clips audiovisuels de 10 secondes représentant des environnements urbains ou des zones rurales.

Grâce à des algorithmes de deep learning, le système a appris à reconnaître quels sons correspondaient à quels éléments des images, mais aussi quelles qualités sonores correspondaient à quels environnements visuels.

Une fois la phase d’apprentissage terminée, une centaine de sons ambiants lui ont été proposés, générant ainsi une image par bande sonore et les correspondances sont plutôt étonnantes.

Exemples d'images de rue générées par l'IA comparées à de véritables images vidéo de rueExemples d'images de rue générées par l'IA comparées à de véritables images vidéo de rueExemples d’images de rue générées par l’IA comparées à de véritables images vidéo de rue. ©Université d’Austin, Texas

Pour valider l’expérience, les humains avaient pour mission d’associer une image parmi 3 (dont une évidemment générée par l’IA) aux différentes bandes sonores soumises à l’IA. Le taux de correspondance était de 80 %.

Dans quels cas ce système pourrait-il être utile ? On pense évidemment à une application d’investigation médico-légale pour identifier un environnement à partir d’un enregistrement audio, mais les scientifiques réfléchissent plutôt à en profiter pour améliorer le développement urbain et donc la vie des concitoyens.

#LIA #génère #des #images #très #précises #des #rues #simplement #écoutant #leur #bande #sonore

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.