Présentation de Voicebox : l’IA la plus polyvalente pour la génération de parole

Présentation de Voicebox : l’IA la plus polyvalente pour la génération de parole

Aujourd’hui, nous annonçons une percée dans l’IA générative pour la parole. Nous avons développé Voicebox, un modèle d’IA à la pointe de la technologie qui peut effectuer des tâches de génération de parole – comme l’édition, l’échantillonnage et la stylisation – pour lesquelles il n’a pas été spécifiquement formé par l’apprentissage en contexte.

Voicebox peut produire des clips audio de haute qualité et éditer des fichiers audio préenregistrés, comme supprimer des klaxons de voiture ou un chien qui aboie, tout en préservant le contenu et le style de l’audio. Le modèle est également multilingue et peut produire un discours en six langues.

À l’avenir, des modèles d’IA génératifs polyvalents comme Voicebox pourraient donner des voix au son naturel aux assistants virtuels et aux personnages non joueurs dans le métaverse. Ils pourraient permettre aux personnes malvoyantes d’entendre les messages écrits d’amis lus par l’IA dans leur voix, donner aux créateurs de nouveaux outils pour créer et éditer facilement des pistes audio pour les vidéos, et bien plus encore.

La polyvalence de Voicebox permet une variété de tâches, notamment :

Synthèse texte-parole en contexte : En utilisant un échantillon audio aussi court que deux secondes, Voicebox peut correspondre au style audio et l’utiliser pour la génération de synthèse vocale.

Édition de la parole et réduction du bruit : Voicebox peut recréer une partie du discours interrompue par du bruit ou remplacer des mots mal prononcés sans avoir à réenregistrer un discours entier. Par exemple, vous pouvez identifier un segment d’un discours qui est interrompu par un chien qui aboie, le recadrer et demander à Voicebox de régénérer ce segment, comme une gomme pour l’édition audio.

Transfert de style interlinguistique : Lorsqu’il est donné un échantillon du discours de quelqu’un et un passage de texte en anglais, français, allemand, espagnol, polonais ou portugais, Voicebox peut produire une lecture du texte dans l’une de ces langues, même lorsque l’échantillon de discours et le texte sont dans des langues différentes. Cette capacité pourrait être utilisée à l’avenir pour aider les gens à communiquer de manière naturelle et authentique, même s’ils ne parlent pas les mêmes langues.

Échantillonnage vocal diversifié: Ayant appris de diverses données, Voicebox peut générer un discours plus représentatif de la façon dont les gens parlent dans le monde réel et dans les six langues énumérées ci-dessus.

Voicebox est une avancée importante dans notre recherche sur l’IA générative, et nous sommes impatients de poursuivre notre exploration dans l’espace audio et de voir comment d’autres chercheurs s’appuient sur notre travail.

En savoir plus sur Boîte vocale.

2023-06-16 18:01:09
1686932303


#Présentation #Voicebox #lIA #polyvalente #pour #génération #parole

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.