Open AI lance GPT-4o – rendant Chat GPT encore meilleur

Open AI lance GPT-4o – rendant Chat GPT encore meilleur

“Nous prévoyons de déployer la prise en charge des nouvelles fonctionnalités audio et vidéo de GPT-4o auprès d’un petit groupe de partenaires API de confiance dans les semaines à venir”, a-t-elle déclaré.

Ce qui n’était pas clair dans l’annonce de GPT-4o par OpenAI, a déclaré Dekate, était la taille du contexte de la fenêtre de saisie, qui pour GPT-4 est de 128 000 jetons.

– La taille du contexte permet de définir la précision du modèle. Plus la taille du contexte est grande, plus vous pouvez saisir de données et meilleurs sont les résultats obtenus, dit-il.

Gemini 1.5 de Google, par exemple, offre une fenêtre contextuelle d’un million de jetons, ce qui en fait le modèle de référence à grande échelle le plus long à ce jour. Le suivant est Claude 2.1 d’Anthropic, qui offre une fenêtre contextuelle allant jusqu’à 200 000 jetons. La fenêtre contextuelle plus grande de Google se traduit par la possibilité d’adapter l’intégralité de la base de code d’une application pour les mises à jour ou les mises à niveau du modèle genAI ; GPT-4 n’acceptait qu’environ 1 200 lignes de code, a déclaré Dekate.

Lire aussi  San Miguel de Allende : un guide pour les amateurs d'art, de gastronomie et de culture

Selon un porte-parole d’Open AI, la taille de la fenêtre contextuelle de GPT-4o restera de 128 Ko.

Mistral a également annoncé son modèle multimodal LLaVA-NeXT la semaine dernière, au début du mois. Et Google devrait faire des annonces supplémentaires sur Gemini 1.5 lors de son événement Google I/O demain.

“Je dirais que, dans un certain sens, Open AI essaie désormais de rattraper Meta, Google et Mistral”, déclare Dekate.

Nathaniel Whittemore, PDG de la plateforme éducative en IA Superintelligent, a qualifié l’annonce d’OpenAI de « la plus controversée » qu’il ait jamais vue.

– Certains ont le sentiment d’avoir entrevu l’avenir ; la vision d’Elle dans la réalité. D’autres s’assoient et disent : “C’est tout ?”, dit-il.

– Cela tient en partie à ce que ce n’était pas : il ne s’agissait pas d’une annonce concernant GPT4.5 ou GPT-5. Il y a tellement d’attention portée aux courses de chevaux récentes que pour certains, rien de moins serait une déception quoi qu’il arrive.

Lire aussi  "Je suis sur la liste des invités du plus grand club du monde"

Murati a déclaré qu’OpenAI reconnaît que GPT-4o offrira également de nouvelles opportunités pour exploiter la reconnaissance audio et visuelle en temps réel. Elle a déclaré que la société continuerait à travailler avec divers acteurs, notamment le gouvernement, les médias et l’industrie du divertissement, pour tenter de résoudre les problèmes de sécurité.

La version précédente de Chat GPT disposait également d’un mode vocal qui utilisait trois modèles distincts : un modèle transcrit l’audio en texte, un autre prend le texte et le produit en texte, et un troisième modèle reconvertit le texte en audio. Ce modèle, a expliqué Murati, peut observer le ton, plusieurs haut-parleurs ou le bruit de fond, mais il ne peut pas produire de rire, de chant ou exprimer des émotions. GPT-4o, quant à lui, utilise un modèle unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal pour une expérience plus en temps réel.

Lire aussi  Dialogue Shangri-La : le ministre de la Défense de Singapour affirme qu'une détermination renforcée prévient les conflits en Asie

“Étant donné que GPT-4o est notre premier modèle à combiner toutes ces modalités, nous ne faisons encore qu’effleurer la surface en termes d’exploration de ce que le modèle peut faire et de ses limites”, a déclaré Murati.

« Au cours des prochaines semaines, nous poursuivrons les déploiements itératifs pour pouvoir vous les présenter. »

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.