2024-09-13 14:51:40
13 septembre 2024 | 13h51
LECTURE : 4 minutes
OpenAI a annoncé la sortie de o1, le premier d’une série de LLM de « raisonnement » formés pour répondre à des questions complexes plus rapidement qu’un humain. Avec o1, o1-mini, une version plus petite et moins chère, est également lancée. Pour OpenAI, o1 représente une étape vers l’objectif à long terme d’une intelligence artificielle de type humain. Concrètement, le modèle peut écrire du code et résoudre des problèmes en plusieurs étapes plus efficacement que les modèles précédents. Cependant, il est également plus coûteux et plus lent à exploiter que le GPT-4o. OpenAI appelle cette version de o1 un aperçu pour mettre en évidence son premier état de développement.
L’accès à o1-preview et o1-mini est disponible à partir du 12 septembre pour les utilisateurs ChatGPT Plus et Team, tandis que les utilisateurs Enterprise et Edu y auront accès en début de semaine prochaine. OpenAI prévoit d’étendre l’accès à o1-mini à tous les utilisateurs gratuits de ChatGPT, mais n’a pas encore fixé de date de sortie. L’accès des développeurs à o1 est particulièrement coûteux : dans l’API, o1-preview coûte 15 $ pour 1 million de jetons d’entrée et 60 $ pour 1 million de jetons de sortie. En comparaison, GPT-4o coûte 5 $ pour 1 million de jetons d’entrée et 15 $ pour 1 million de jetons de sortie.
La formation derrière o1 est fondamentalement différente de celle de ses prédécesseurs, comme l’explique Jerry Tworek, responsable de la recherche chez OpenAI. Bien que l’entreprise garde les détails exacts confidentiels, Tworek affirme que o1 “a été formé à l’aide d’un tout nouvel algorithme d’optimisation et d’un nouvel ensemble de données de formation spécialement conçu pour lui”. Alors que les modèles GPT précédents étaient entraînés pour imiter les modèles présents dans les données d’entraînement, avec o1, OpenAI a entraîné le modèle à résoudre les problèmes par lui-même à l’aide d’une technique connue sous le nom d’apprentissage par renforcement, qui enseigne au système par le biais de récompenses et de pénalités. Le modèle utilise ensuite une « chaîne de pensée » pour traiter les requêtes, de la même manière que les humains traitent les problèmes étape par étape.
Grâce à cette nouvelle méthodologie de formation, OpenAI affirme que le modèle devrait être plus précis. «Nous avons remarqué que ce modèle fait moins d’erreurs», explique Tworek. Cependant, le problème persiste. “Nous ne pouvons pas dire que nous avons complètement résolu un problème de compréhension.” La principale caractéristique qui distingue ce nouveau modèle du GPT-4o est sa capacité à aborder des problèmes complexes, tels que le codage et les mathématiques, beaucoup plus efficacement que ses prédécesseurs, tout en fournissant également des explications sur son raisonnement. “Le modèle est nettement meilleur que moi pour résoudre le test de mathématiques AP, et j’ai étudié les mathématiques à l’université”, déclare Bob McGrew, responsable de la recherche chez OpenAI. McGrew rapporte qu’OpenAI a également testé o1 lors d’un examen de qualification pour l’Olympiade mathématique internationale, et bien que GPT-4o n’ait résolu correctement que 13 % des problèmes, o1 a obtenu un score de 83 %.
Dans les concours de programmation en ligne connus sous le nom de Codeforces, ce nouveau modèle a atteint le 89e percentile des participants, et OpenAI affirme que la prochaine mise à jour de ce modèle fonctionnera « de manière similaire à celle des doctorants sur des défis de physique, de chimie et de biologie ». Dans le même temps, o1 n’est pas aussi performant que GPT-4o dans de nombreux domaines. Il n’est pas aussi performant en matière de connaissance factuelle du monde et n’a pas la capacité de naviguer sur le Web ou de traiter des fichiers et des images. Cependant, l’entreprise estime qu’il s’agit d’un nouveau départ pour l’intelligence artificielle : il a été nommé o1 pour indiquer une « remise à zéro du compteur ».
Bien qu’il ne soit pas encore possible de tester o1 directement, McGrew et Tworek ont fait une démonstration lors d’une présentation en direct. Ils ont demandé au modèle de résoudre un casse-tête mathématique complexe, et le modèle a fourni une réponse correcte après 30 secondes de traitement. L’interface a été conçue pour montrer les étapes de raisonnement telles que la pensée du modèle. Ce qui frappe, ce n’est pas tant le fait qu’il montre son travail, mais la manière dont il semble délibérément imiter la pensée humaine. Des expressions telles que « Je suis curieux de savoir », « J’y réfléchis » et « D’accord, voyons voir » créent l’illusion étape par étape d’un processus de pensée.
#OpenAI #lance #nouveau #modèle #dintelligence #artificielle #humain
1726448195