GPT-4o en perspective
Entre autres choses, le nouveau modèle linguistique doit être capable d’interpréter les sons, les images et le texte en temps réel.
OpenAI a présenté GPT-4o, son modèle de langage le plus avancé à ce jour, capable d’interpréter et de traiter le son, l’image et le texte en temps réel. Le suffixe avec la lettre « o » dans GPT-4o représente « omni ».
Le nouveau modèle de langage devrait faciliter la conversation avec l’IA grâce à un temps de réponse extrêmement amélioré. Les développeurs affirment que le GPT-4o peut réagir au son en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui devrait être comparable au temps de réaction humain lors d’une conversation. Cette réactivité améliorée permet des conversations vocales plus fluides et naturelles avec ChatGPT. GPT-4o correspond aux performances de GPT-4 Turbo pour l’anglais et le code de programme, et dépasse ses capacités pour d’autres langues.
GPT-4o devrait également être supérieur aux modèles précédents dans la compréhension et l’interprétation des données visuelles. OpenAI annonce que le modèle peut non seulement gérer des combinaisons de texte, de son et d’image comme données d’entrée, mais également être capable de créer de telles combinaisons comme données de sortie. OpenAI note que « Comme GPT-4o est notre premier modèle à combiner toutes ces modalités, nous n’avons encore qu’effleuré la surface en termes d’exploration de ce que le modèle peut faire et de ses limites. »
OpenAI a commencé le déploiement progressif de GPT-4o dans ChatGPT. Le nouveau modèle linguistique sera disponible gratuitement pour tous les utilisateurs. Les appels vocaux améliorés et plus rapides sont encore en développement et seront testés en alpha par les clients payants dans les prochaines semaines.