D’autres fonctionnalités sont arrivées pour la solution d’IA générative OpenAI de San Francisco. La mise à jour, connue sous le nom de GPT-4o, peut désormais traiter toutes les combinaisons de texte, d’audio et d’image en entrée, et peut en générer n’importe quelle combinaison. GPT-4o devrait être disponible gratuitement pour les utilisateurs.
Oh, menthe omni
OpenAI a annoncé le 13 mai que ChatGPT avait atteint un nouveau niveau avec la version GPT-4o (le o signifie omni). En plus de la mise à jour du modèle, une application de bureau est également publiée, destinée à améliorer l’expérience utilisateur pour selon leurs informations émises à ce sujet.
L’objectif des développements est de créer une relation plus naturelle entre les utilisateurs et l’intelligence artificielle générative. La plus grande innovation réside dans le fait que les informations textuelles, images et sonores sont traitées par le même réseau neuronal. Par exemple, il peut répondre aux entrées vocales en 320 millisecondes en moyenne, ce qui est similaire au temps de réponse humain lors d’une conversation.
La nouvelle version montre également une amélioration significative dans les textes non anglais. Parmi ces dernières, OpenAI n’a pas spécifiquement nommé la langue hongroise sur son site Internet, mais plusieurs autres langues européennes l’ont fait.
Un modèle plus largement disponible
Les fonctions GPT-4o seront activées progressivement après l’annonce, elles ne sont pas encore disponibles, mais elles devraient arriver prochainement. GPT-4o sera également disponible pour les utilisateurs gratuits, même si on ne sait pas exactement sous quelle forme.
Dans les semaines à venir, une nouvelle version de reconnaissance vocale basée sur GPT-4o sera introduite au sein de ChatGPT Plus. Pour les utilisateurs Plus, le niveau de restriction des messages est également cinq fois supérieur à celui proposé par OpenAI.
Les développeurs pourront également accéder à GPT-4o dans l’API en tant que modèle de texte et de vision industrielle. GPT-4o sera deux fois plus rapide et coûtera deux fois moins cher que GPT-4 Turbo.
De nouveaux domaines d’utilisation
Faciliter des interactions plus naturelles ouvre de nombreux nouveaux domaines d’utilisation en intégrant des informations textuelles, sonores et images. OpenAI a partagé plusieurs vidéos et exemples. Entre autres choses, leurs collègues ont utilisé le GPT-4o pour traduire en direct, résoudre des exemples mathématiques, apprendre des langues, préparer des entretiens d’embauche, décrire l’environnement (par exemple pour les aveugles) et résumer des vidéos.
(Source: OpenAI)