Home » Sciences et technologies » Hume lance l’octave du modèle de texte vocal qui génère des voix d’émotive et réglables à la demande en fonction de vos invites

Hume lance l’octave du modèle de texte vocal qui génère des voix d’émotive et réglables à la demande en fonction de vos invites

by Nouvelles

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus

Startup de New York Hume Ai émergé de la furtivité il y a deux ans et a depuis collecté plusieurs millions de fonds sur la base de sa technologie qui créatif des voix d’IA émotionnelles à utiliser dans les applications d’entreprise.

Aujourd’hui, il pousse ses offres un peu plus loin avec un nouveau modèle de grande langue et de discours appelé le «Texte omni et moteur vocal», ou octave Pour court, conçu pour produire des discours réalistes et nuancés émotionnellement pour une utilisation sur différentes formes de contenu, des livres audio à la boîte de dialogue de personnage de jeu vidéo préenregistré et au cinéma / télévision / vidéo.

Hume revendique Octave le premier système de texte vocal propulsé par un grand modèle de langue (LLM) formé non seulement sur le texte mais sur des jetons de parole et d’émotion, ce qui lui permet de comprendre les mots dans le contexte et d’ajuster le ton, le rythme et la cadence en conséquence – et que l’utilisateur peut ajuster au niveau de la phrase avec des invites de texte.

“Nous lançons le premier LLM pour le texte à la dissection – un modèle qui comprend les mots dans son contexte, prédisant les bonnes émotions, le rythme, la cadence et l’accent, ce qui rend la parole plus humaine que jamais”, a déclaré Alan Cowen, Hume Le co-fondateur et PDG de l’AI, dans une interview d’appel vidéo avec VentureBeat.

Les capacités d’Octave vont au-delà de la génération de voix de base. Il peut interpréter les traits de caractère et le style à partir d’un script seul, ajustant les inflexions vocales pour correspondre aux émotions implicites. Une remarque sarcastique sera parlée sarcastiquement, une phrase paniquée sonnera urgente, et un secret chuchoté sera étouffé – le tout sans avoir besoin d’une direction explicite.

De plus, si l’utilisateur n’aime pas la voix générée ou veut l’ajuster, il peut le faire granuré par le langage naturel en tapant simplement une instruction de texte à l’octave, comme «plus heureux, plus triste, plus frustré, plus en colère, plus sarcastique, plus sincère », etc.

“Vous pouvez décrire un personnage – comme un paysan médiéval sarcastique – et le modèle créera instantanément cette voix, ajustant les émotions comme la colère, la tristesse ou le bonheur en fonction de vos instructions”, a ajouté Cowen.

Alors que la version actuelle se concentre sur la parole en anglais, Octave soutient également l’espagnol et devrait étendre ses capacités linguistiques dans un avenir proche.

Adapté à la création de contenu

Octave est adapté aux créateurs de contenu et à la production de médias, offrant des applications dans des livres audio, des podcasts, des personnages de jeux vidéo et des voix off vidéo.

“Ce nouveau modèle est conçu pour le texte à la recherche hors ligne – parfait pour les livres audio, les podcasts, les voix off et les personnages de jeux vidéo – où les créateurs ont besoin de voix réalistes et spécifiques aux personnages”, a expliqué Cowen.

Cependant, l’utilisateur doit y accéder via le site Web de Hume sur sa page de projets ou via une interface de programmation d’application (API). Le composant «hors ligne» fait référence au fait que ce modèle est conçu pour produire des fichiers audio discrets qui peuvent être ajoutés à des projets tels que des vidéos ou des livres audio. Il n’est pas conçu pour poursuivre une conversation en temps réel, mais cela pourrait théoriquement être autorisé par la tuyauterie dans les requêtes de texte sur le site Web.

L’API de Hume permet aux développeurs de faire jusqu’à 50 demandes du nouveau modèle d’octave par minute, avec une longueur de texte maximale de 5 000 caractères et des descriptions plafonnées à 1 000 caractères. Chaque demande peut générer jusqu’à cinq sorties, et les formats audio pris en charge incluent MP3, WAV et PCM.

La série EVI antérieure de Hume permet des interactions en streaming, en temps réel et en va-et-vient et reste disponible et continuera d’être développé.

Hume AI propose un modèle de tarification basé sur l’abonnement avec des niveaux allant d’une option gratuite à Creator, Creator Pro et aux plans d’entreprise.

Voici une ventilation concise des offres:

  • GRATUIT (0 $ / mois) – 10 000 caractères de texte vocable par mois (~ 10 minutes) avec des voix personnalisées illimitées.
  • Démarreur (3 $ / mois) – 30 000 caractères (~ 30 minutes) plus le support pour jusqu’à 20 projets.
  • Créateur (10 $ / mois) – 100 000 caractères (~ 100 minutes), les prix basés sur l’utilisation pour des caractères supplémentaires (0,20 $ / 1 000) et le support pour jusqu’à 1 000 projets.
  • Pro (50 $ / mois) – 500 000 caractères (~ 500 minutes), une tarification basée sur l’utilisation inférieure (0,15 $ / 1 000) et un support pour jusqu’à 3 000 projets.
  • Échelle (150 $ / mois) – 2 000 000 de caractères (~ 2 000 minutes), réduit encore les prix basés sur l’utilisation (0,13 $ / 1 000) et soutenir jusqu’à 10 000 projets.
  • Entreprise (900 $ / mois) – 10 000 000 de caractères (~ 10 000 minutes), encore plus bas basé sur l’utilisation (0,10 $ / 1 000), et support jusqu’à 20 000 projets.
  • Entreprise (prix personnalisé) – Utilisation illimitée, conditions juridiques personnalisées, assurances de sécurité, prix en vrac considérablement réduit et soutien prioritaire.

Dans l’ensemble, Hume a souligné que son prix Octave TTS est d’environ la moitié du coût de la création de la création de la voix de l’IA concurrencée ElevenLabs, montrant la concurrence intensifiante dans l’espace du texte-parole.

De plus, Hume AI a mené une étude de comparaison aveugle avec 180 évaluateurs humains pour comparer l’octave contre les elevenlabs. Les résultats ont montré que l’octave était préférée en termes de qualité audio (71,6% des essais), de naturel (51,7% des essais), et de la façon dont la parole correspondait aux descriptions de la voix souhaitée (57,7% des essais), à travers 120 invites diverses.

10s de milliards de jetons linguistiques

Contrairement aux systèmes traditionnels de texte à dispection qui reposent sur des ensembles de données de discours limités, Octave TTS est construit sur un LLM formé sur des dizaines de milliards de jetons de langue.

“Les modèles traditionnels de texte vocale sont formés aux données de la parole limitées, mais la nôtre est construite sur un LLM formé sur des dizaines de milliards de jetons, ce qui lui permet de raisonner, de penser et de déduire les émotions du texte”, a déclaré Cowen.

Le modèle a été formé à l’aide de millions d’heures de données publiques de discours et de données longues et de données exclusives de Hume AI de nouvelles voix recueillies par les participants à l’enquête.

“Nous avons collecté des données auprès de personnes qui se sont enregistrées via des webcams, réagissant naturellement aux vidéos, racontant des histoires et parlant à d’autres, y compris des amis et de la famille, pour capturer un large éventail d’expressions émotionnelles”, a déclaré Cowen.

Cette formation approfondie permet au modèle de déduire le contexte émotionnel et de suivre des instructions détaillées, créant des voix qui correspondent aux descriptions et attributs spécifiques des personnages.

Le modèle, disponible aujourd’hui via la plate-forme et l’API de Hume AI, offre un contrôle émotionnel au niveau des phrases, avec une certaine flexibilité dans les phrases.

“La modulation vocale fonctionne au niveau de la phrase, mais vous pouvez également ajuster des parties d’une phrase, en demandant au modèle de transmettre des émotions nuancées comme une légère frustration mélangée à l’humour ou à l’exaspération”, a noté Cowen. Le modèle considère également le contexte au-delà des phrases individuelles. «Contrairement aux modèles traditionnels qui traitent le texte mot par mot, notre modèle considère des paragraphes entiers, capturant le contexte pour prononcer un discours plus naturel et émotionnellement précis», a-t-il expliqué.

Des voix et des limitations cohérentes

Octave TTS maintient des voix de caractère cohérentes à travers le contenu long.

“Avec notre plate-forme, vous pouvez générer des voix uniques pour chaque personnage dans un livre audio – comme un orc d’âge moyen – et maintenir la voix de ce personnage tout au long de l’histoire”, a déclaré Cowen.

Cette capacité est soutenue par la page «Projets» de Hume AI, qui gère le contenu long comme les livres audio en butant automatiquement le texte tout en préservant la cohérence et le contexte des personnages entre les chapitres.

Hume a des garde-corps techniques intégrés dans son site Web et API interdisant la création de voix et d’imitations réalistes d’enfants de personnes spécifiques, mais à part cela, il est ouvert à utiliser dans un large éventail de contenu et de sujet, y compris potentiellement non-sécurité Des scènes de travail telles que celles des romans de romance populaires.

«Nous donnons aux développeurs la liberté, permettant du contenu dans un large éventail d’expériences humaines, bien que nous restreignions la création de voix et d’imitations réalistes d’enfants de personnes spécifiques», a expliqué Cowen.

De plus, Cowen a déclaré que la société pourrait ajuster ces garde-corps pour des clients spécifiques sur demande, comme un éditeur de livres pour enfants qui cherche à créer des voix pour les livres audio pour enfants.

De plus, Hume AI travaille sur une prochaine fonction de clonage vocale, qui permettra aux utilisateurs de reproduire une voix à partir de cinq secondes d’audio. L’entreprise développe des garanties pour assurer une utilisation éthique avant de déployer la fonctionnalité publiquement.

Avec sa combinaison de conscience contextuelle, d’expression émotionnelle et de personnalisation des personnages, l’octave TTS vise à fournir aux créateurs de contenu plus de contrôle et de flexibilité, offrant des voix qui sonnent à la fois réaliste et émotionnellement engageante.

Informations quotidiennes sur les cas d’utilisation de l’entreprise avec VB quotidiennement

Si vous souhaitez impressionner votre patron, VB Daily vous a couvert. Nous vous donnons le scoop intérieur sur ce que les entreprises font avec une IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager des informations pour un retour sur investissement maximal.

Merci de vous abonner. Découvrez plus de newsletters VB ici.

Une erreur s’est produite.

#Hume #lance #loctave #modèle #texte #vocal #qui #génère #des #voix #démotive #réglables #demande #fonction #vos #invites

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.