OpenAI a annoncer Sa dernière itération du chatbot populaire ChatGPT : GPT-4o. « o », qui vient du mot « Omni » symbolise la mission d’OpenAI de créer des interactions plus naturelles entre les ordinateurs et les humains.
Cette itération surpasse les versions précédentes en termes de fonctionnalités et de convivialité, en particulier pour les consommateurs finaux. Les limitations de la version précédente pour le traitement des fichiers texte, audio et vidéo ont été dépassées. Les utilisateurs peuvent désormais interagir plus naturellement temps réel.
Journée de démonstration OpenAI et sortie de GPT-4o
OpenAI, soutenu par les investissements de Microsoft, est valorisé à 80 milliards de dollars. L’entreprise, fondée en 2015, tente de rester leader sur le marché. IA générative et créer un modèle économique rentable, plus entraînement L’IA et la construction de son infrastructure de développement ont coûté très cher.
Traditionnellement, grands modèles de langage (LLM) se concentre sur le traitement des données textuelles. Le modèle constitue une nouvelle avancée dans l’interaction et l’utilisation de l’IA dans le monde. Cependant, cette saisie limitée de texte a également limité la façon dont nous interagissons avec le modèle d’IA, qui semble parfois moins naturel et trop rigide.
Lors de sa journée de démonstration, OpenAI a proposé plusieurs nouvelles façons d’interagir avec GPT-4o. Le modèle le plus récent peut désormais comprendre l’intonation et la façon dont les utilisateurs parlent et fournissent des informations.
Mira Murati, directrice de la technologie, assistée de deux responsables de recherche OpenAI, Mark Chen et Barret Zoph, a démontré comment GPT-4o peut désormais répondre au rire, au chant ou même fournir une traduction en direct. temps réel via le mode vocal. Le mode vocal est en cours de préparation pour une diffusion publique sur les plateformes smartphones et ordinateurs de bureau.
Quelques fonctionnalités de GPT-4o lors de la journée de démonstration
La capacité du modèle GPT-4o à traiter et à produire des modalités audio, visuelles et textuelles peut être appliquée comme solution à divers problèmes. OpenAI prévoit de tester ce mode vocal la semaine prochaine et de le proposer aux clients ChatGPT Plus payants.
Mira a également déclaré que le modèle GPT-4o peut répondre à l’invite audio d’un utilisateur en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire à la réactivité humaine dans une conversation typique.
Un exemple de mode vocal lors de la journée de démonstration OpenAI a été lorsque Chen a démontré la capacité du GPT-4o à raconter des histoires au coucher et a donné des instructions pour changer l’intonation lors de la narration de l’histoire afin de la rendre plus dramatique tout en chantant.
Ensuite, Chen a démontré GPT-4o en tant que traducteur. En mode vocal, ChatGPT qui est renforcé par GPT-4o peut traduire Mira qui parle italien et relier la conversation avec Chen qui parle directement anglais. temps réel.
Avec les riches fonctionnalités fournies par GPT-4o, il existe bien sûr certains risques. Ce risque est également reconnu par OpenAI, avec la possibilité d’une mauvaise utilisation du mode vocal qui peut produire des sons naturels. Pour atténuer ce risque, OpenAI a intégré des garanties de processus entraînement AInya et sortira sortir audio périodiquement.
ChatGPT enrichi avec GPT-4o a été publié pour les clients ChatGPT Plus et Team. Les utilisateurs d’entreprise accepteront mise à jour c’est la prochaine étape, tandis que les utilisateurs gratuits pourront profiter de ces nouvelles fonctionnalités sur une base limitée. Les utilisateurs de ChatGPT Plus disposent d’une capacité de messages cinq fois supérieure à celle des utilisateurs gratuits.
2024-05-16 10:38:23
1715851499
#OpenAI #annonce #GPT4o