2024-03-31 01:39:01
OpenAI a dévoilé une nouvelle plateforme appelée Voice Engine, qui promet de révolutionner le domaine de la synthèse vocale. Cet outil est capable de générer une voix synthétique à partir d’un court échantillon audio de seulement 15 secondes d’une personne, offrant la possibilité de lire des textes sur commande dans la langue originale de l’échantillon ou dans d’autres langues. Dans le but d’évaluer les applications positives et les mesures de sécurité nécessaires, OpenAI a lancé un accès limité à cette technologie, en collaborant avec plusieurs entreprises de divers secteurs.
Parmi les partenaires qui ont déjà eu l’occasion d’expérimenter Voice Engine figurent Age of Learning, une entreprise active dans le secteur de l’enseignement technologique ; HeyGen, une plateforme de narration visuelle ; Dimagi, créateur de logiciels pour le secteur de la santé de première ligne ; Livox, développeur d’applications de communication IA ; et le système de santé Lifespan. Ces collaborations nous ont permis d’explorer des applications pratiques de la technologie, telles que la création de contenus vocaux pré-scriptés et de réponses personnalisées en temps réel pour les étudiants, écrites via GPT-4.
Jeff Harris, membre de l’équipe produit d’OpenAI pour Voice Engine, a révélé que le développement de la plate-forme a commencé fin 2022. La technologie exploite des données sous licence et accessibles au public pour alimenter les voix prédéfinies de l’API de synthèse vocale et la fonction de lecture à haute voix de ChatGPT. L’accès à Voice Engine sera toutefois limité à une dizaine de développeurs, soulignant la prudence d’OpenAI dans l’introduction de cette technologie.
Le domaine de la génération texte-audio, en particulier le clonage vocal basé sur l’IA, connaît une évolution rapide, avec des sociétés comme Podcastle et ElevenLabs se distinguant par leurs innovations. Cet intérêt croissant se heurte toutefois aux préoccupations éthiques et de sécurité liées à l’utilisation inappropriée de la technologie, comme le démontre l’interdiction récente par la Federal Communications Commission des États-Unis des appels automatisés utilisant des voix d’IA clonées sans consentement.
OpenAI a demandé à ses partenaires d’adhérer à des politiques d’utilisation strictes, qui incluent l’interdiction de usurper l’identité d’individus ou d’organisations sans leur consentement, l’obligation d’obtenir le consentement explicite et éclairé de l’orateur d’origine et l’engagement de ne pas permettre aux utilisateurs de créer leur propre entrées. De plus, tous les clips audio générés porteront un filigrane pour faciliter la traçabilité et l’utilisation de voix synthétiques sera soigneusement surveillée. En réponse aux risques potentiels, OpenAI propose diverses mesures préventives, telles que l’élimination de l’authentification vocale pour accéder aux comptes bancaires, des politiques visant à protéger l’utilisation de la voix des personnes dans l’IA, des efforts accrus en matière d’éducation sur les deepfakes et le développement de systèmes de suivi de contenu d’IA.
#Intelligence #artificielle #secondes #elle #reproduira #une #voix #humaine #dans #nimporte #quelle #langue
1711948147