intelligence artificielle
OpenAI lance GPT-4o : un nouveau modèle d’IA doté de capacités multimodales.
OpenAI a annoncé lundi un nouveau modèle phare d’IA générative, appelé GPT-4o. Le modèle, où « o » signifie « omni », peut gérer le texte, la voix et la vidéo. GPT-4o sera déployé progressivement dans les produits destinés aux développeurs et aux consommateurs de l’entreprise au cours des prochaines semaines, selon des rapports. TechCrunch.
Mira Murati, CTO d’OpenAI, a déclaré que GPT-4o offre une intelligence de « niveau GPT-4 », mais améliore les capacités de GPT-4 sur plusieurs modalités et supports.
– GPT-4o résonne à travers la voix, le texte et la vision, a déclaré Murati lors d’une présentation en direct dans les bureaux d’OpenAI à San Francisco lundi. – C’est extrêmement important, car nous envisageons l’avenir de l’interaction entre nous et les machines.
GPT-4o améliore l’expérience du chatbot alimenté par l’IA d’OpenAI, ChatGPT. La plateforme propose depuis longtemps un mode vocal qui transcrit les réponses du chatbot à l’aide d’un modèle de synthèse vocale, mais GPT-4o l’améliore, permettant aux utilisateurs d’interagir avec ChatGPT davantage comme un assistant.
Par exemple, les utilisateurs peuvent poser une question à ChatGPT alimenté par GPT-4o et l’interrompre pendant qu’il répond. Le modèle offre une réactivité en temps réel, selon OpenAI, et peut capter les nuances de la voix de l’utilisateur et générer des voix dans une variété de styles émotionnels différents (y compris le chant).
GPT-4o met également à niveau les capacités visuelles de ChatGPT. À partir d’une image ou d’un écran d’ordinateur, ChatGPT peut désormais répondre rapidement à des questions connexes, sur des sujets tels que « Que se passe-t-il dans ce code ? à “Quelle marque de chemise cette personne porte-t-elle ?”
Ces fonctions continueront à se développer à l’avenir, estime Murati. Alors qu’aujourd’hui GPT-4o peut consulter un menu dans une autre langue et le traduire, à l’avenir le modèle pourrait permettre à ChatGPT de, par exemple, « regarder » un événement sportif en direct et vous en expliquer les règles.
– Nous savons que ces modèles deviennent de plus en plus complexes, mais nous voulons que l’expérience d’interaction devienne réellement plus naturelle, simple, et que vous ne deviez pas du tout vous concentrer sur l’interface utilisateur, mais uniquement sur la collaboration avec ChatGPT, dit Murati.
– Ces dernières années, nous avons été très concentrés sur l’amélioration de l’intelligence de ces modèles… Mais c’est la première fois que nous faisons vraiment un grand pas en avant en termes de convivialité.
GPT-4o est également plus multilingue, selon OpenAI, avec des performances améliorées dans une cinquantaine de langues. Et dans l’API d’OpenAI et dans le service Azure OpenAI de Microsoft, GPT-4o est deux fois plus rapide, à moitié prix et a des valeurs limites plus élevées que GPT-4 Turbo, selon la société.
Actuellement, la voix ne fait pas partie de l’API GPT-4o pour tous les clients. OpenAI, invoquant le risque d’abus, prévoit de déployer d’abord la prise en charge des nouvelles fonctionnalités audio de GPT-4o auprès de « un petit groupe de partenaires de confiance » dans les semaines à venir.
L’article a été créé avec l’aide de ChatGPT et sa qualité a été vérifiée par les éditeurs de Shifter.