L’intelligence artificielle progresse à une vitesse fulgurante. Un nouveau test de connaissances a été conçu pour la mettre à l’épreuve. Si l’IA réussit ce test,l’humanité ne pourra plus en concevoir de plus difficile.Ce test se veut l’évaluation ultime des connaissances académiques, avec les questions les plus ardues de tous les domaines. Les chercheurs l’ont baptisé « Humanity’s last Exam », le dernier examen de l’humanité. Développer un test encore plus difficile pour l’IA serait unachievable pour les humains.
Il y a deux ans, même l’IA la plus performante au monde échouait à l’Abitur allemand.Les capacités des modèles d’IA ont considérablement augmenté depuis. L’abitur ou la Matura ne représentent plus un défi pour eux. Ils réussissent facilement les tests d’admission des universités les plus prestigieuses. Les chatbots modernes obtiennent de plus en plus de notes maximales aux tests spécialement conçus pour l’IA.
Cela pose un problème aux développeurs d’IA.Pour mesurer les progrès du développement de l’IA et comparer différents chatbots, il faut des tests qui les poussent à leurs limites.## Un défi pour les humains et l’IA
Des chercheurs du Center américain pour la sécurité de l’IA ont mis au point un nouvel examen pour l’IA. L’un des concepteurs de l’examen est le chercheur américain en IA Dan Hendrycks. il a révélé au « New York Times » que l’idée était née d’une conversation avec Elon Musk. Les tests établis couvraient des connaissances au niveau des étudiants de licence, aurait déclaré Musk.Il souhaitait un test au niveau des experts de classe mondiale.
Hendrycks et son équipe ont contacté plus de mille experts dans divers domaines provenant de plus de cinquante pays. Ils devaient soumettre les questions les plus difficiles qui leur venaient à l’esprit dans leur domaine respectif. Les questions devaient avoir une réponse correcte unique et ne pas pouvoir être résolues par une simple recherche sur Internet.
Le résultat est un catalog de questions aussi diversifié qu’exigeant. « Humanity’s Last Exam » se compose de 3000 questions. Il aborde les mathématiques, la physique et la biologie, mais aussi les sciences humaines et même la tactique des échecs.Il y a des questions sur la fonction anatomique d’un minuscule os dans la poitrine des colibris, sur la traduction d’une inscription dans l’alphabet de Palmyre vieux de deux mille ans, sur la théorie des graphes, les réactions électrocycliques et les vecteurs de contrainte. Pour exceller ici, il faudrait être un érudit universel à la manière de Léonard de Vinci, mais avec les connaissances collectives de l’humanité d’aujourd’hui plutôt que celles d’il y a 500 ans.
Graphentheorie oder die Übersetzung einer Inschrift im zweitausend Jahre Palmyra-Alphabet: Die KI ist aufs Äusserste gefordert.
Illustration Dario Veréb / NZZ
Les premiers résultats sont disponibles. Les chercheurs ont fait passer « Humanity’s Last Exam » aux modèles d’IA les plus performants. Le résultat est sobre.Même le meilleur chatbot n’a répondu correctement qu’à un tiers des questions. Cela signifie que même l’IA la plus intelligente est encore loin d’atteindre le niveau de connaissances d’un expert de classe mondiale.
Il reste des problèmes fondamentaux à résoudre.
les résultats de « Humanity’s Last Exam » le montrent également. Outre le nombre de réponses correctes, les chercheurs mesurent également dans le test le degré de certitude d’un chatbot quant à ses réponses. Il s’avère que, bien qu’ils répondent incorrectement à la majorité des questions, les chatbots indiquent qu’ils sont très sûrs d’eux dans plus de 90 % de leurs réponses.Reconnaître ses propres erreurs et pouvoir les admettre semble donc être un domaine dans lequel l’homme est encore nettement supérieur à la machine.
Ces hallucinations posent un problème majeur aux utilisateurs. Tant que l’IA proclame des faits erronés avec assurance, ils ne peuvent pas faire confiance à ses résultats. Il est donc très pertinent que les chercheurs enregistrent explicitement la fréquence et la gravité des hallucinations dans « Humanity’s Last Exam ». Cela devrait inciter les développeurs d’IA à réduire les hallucinations dans la prochaine génération de modèles d’IA.
Les développeurs devraient peut-être prendre cet indicateur encore plus au sérieux que le simple nombre de réponses correctes. La plupart des utilisateurs opteraient probablement pour le modèle d’IA qui invente le moins de faits plutôt que pour le modèle qui connaît le plus précisément l’anatomie d’un colibri.
Humanity’s Last Exam : L’IA face à l’ultime test de connaissances
Table of Contents
L’intelligence artificielle progresse à une vitesse fulgurante, dépassant régulièrement les attentes. Il y a deux ans, même l’IA la plus performante échouait à l’Abitur allemand. Aujourd’hui,elle réussit aisément les tests d’admission des universités les plus prestigieuses. Pour mesurer les progrès et comparer les différents modèles, un nouveau test, “humanity’s Last Exam”, a été développé.Ce test, conçu pour être le plus difficile jamais créé, vise à évaluer les connaissances académiques les plus pointues de tous les domaines. Si une IA réussit ce test, il serait impossible pour l’humanité d’en concevoir un plus difficile.
La création du test ultime
Développé par des chercheurs du Center américain pour la sécurité de l’IA, et initié suite à une discussion entre Dan Hendrycks et Elon Musk, “humanity’s last Exam” est composé de 3000 questions extrêmement difficiles. Plus de mille experts de cinquante pays ont contribué en soumettant les questions les plus ardues de leurs domaines respectifs. Ces questions, exigeant une réponse unique et impossible à trouver par une simple recherche sur internet, couvrent des sujets aussi variés que les mathématiques, la physique, la biologie, les sciences humaines et même la tactique des échecs. Des exemples incluent la fonction anatomique d’un os de colibri, la traduction d’une inscription en alphabet de Palmyre, la théorie des graphes ou les réactions électrocycliques. Le niveau requis est celui d’un érudit universel, surpassant même les connaissances de Léonard de Vinci.
Les résultats : une IA encore loin du niveau humain
Les premiers résultats montrent que même le meilleur chatbot n’a répondu correctement qu’à un tiers des questions. L’IA, même la plus performante, est encore loin d’atteindre le niveau d’un expert de classe mondiale. De plus, les chatbots montrent une confiance excessive (plus de 90%) dans leurs réponses, même lorsqu’elles sont incorrectes. Ce phénomène, appelé “hallucinations”, pose un problème majeur pour les utilisateurs, car il compromet la fiabilité des résultats. La fréquence et la gravité de ces hallucinations sont donc désormais un indicateur clé à prendre en compte par les développeurs.
Tableau récapitulatif :
| Aspect | Description |
|—————————–|———————————————————————————————–|
| Nom du test | Humanity’s Last Exam |
| Nombre de questions | 3000 |
| Domaines couverts | Mathématiques, Physique, Biologie, Sciences humaines, Tactique des échecs, etc. |
| Niveau de toughé | Expert de classe mondiale |
| Performance des meilleurs chatbots | Environ 33% de réponses correctes, confiance excessive (plus de 90%) même en cas d’erreur. |
FAQ
Q : Quel est l’objectif de Humanity’s Last Exam ?
R : Évaluer les capacités des IA actuelles et identifier leurs limitations.
Q : Qui a créé ce test ?
R : Des chercheurs du Center américain pour la sécurité de l’IA, avec la contribution d’experts internationaux.
Q : Pourquoi les hallucinations de l’IA sont-elles un problème ?
R : Elles compromettent la fiabilité des résultats et empêchent les utilisateurs de faire confiance à l’IA.
Q : Quel est le prochain défi pour les développeurs d’IA ?
R : Réduire les hallucinations et améliorer la fiabilité des réponses.