Les chercheurs espagnols découvrent l'astuce que l'IA utilise pour obtenir de si bonnes notes: "C'est vrai Kriptonite"

2025-02-20 07:20:00

“Grok 3 est l’IA la plus intelligente au monde”, Il a lancé mardi le compte X Grok. Elon Musk, propriétaire de l’entreprise qui le développe, Xai, répétait les messages sur la façon dont Grok est “Le meilleur chatbot du monde” ou “est au sommet du monde”. Quelques heures avant Sam Altman, de Chatgpt, avait écrit: “GPT-4.5 Il s’agit, pour les premiers testateurs les plus exigeants, une expérience plus proche d’une IA avec un sens commun de ce à quoi je m’attendais.”

Beaucoup de ces déclarations sont du marketing pur. Le chatbots Ils sont un domaine extrêmement compétitif aujourd’hui et disent que l’on est le meilleur attire beaucoup d’investissements. Mais il y a aussi une poignée d’indicateurs de référence (appelés repères en anglais) qui servent de test pour vérifier quels modèles d’IA répondent mieux dans des tests similaires. Si vous n’êtes pas dans ces tests, vous n’êtes personne.

“Les chiffres Grok 3 dans son lancement sont un exemple parfait des problèmes de l’évaluation actuelle”, explique Julio Gonzalo, professeur de langues informatiques et de systèmes de l’UNED. «S’il y a beaucoup de pression concurrentielle, il y a une attention excessive à Benchmarks, Les entreprises seraient faciles à les manipuler, nous ne pouvons donc pas faire confiance aux chiffres qui nous rapportent. Avec deux autres chercheurs espagnols, Gonzalo a essayé une astuce simple mais implacable pour vérifier l’efficacité de certains de ces tests plus importants. L’objectif de base était de savoir si les modèles lisaient et répondaient comme tout étudiant ou, au lieu de cela, ils ont seulement demandé la réponse que dans l’énorme corpus de données qui a été utilisé pour leur formation.

Le résultat est qu’ils sont encore au-dessus des machines les plus fluctuées jamais conçues auparavant: «Dans leur première phase de formation, dans laquelle ils apprennent le langage, la procédure est la pêche à la traînée: le contenu entier est lus essentiellement en ligne. Par conséquent, les développeurs savent que la probabilité d’avoir vu la réponse à un examen disponible en ligne Il est très élevé », explique Gonzalo.

Comment mettre les modèles

Quels détails ont changé dans l’expérience pour tromper les modèles? Les chercheurs ont remplacé la bonne réponse à un général qui dit: “Aucune des autres.” Ainsi, le modèle devait comprendre la question et la raison, non seulement trouver la réponse la plus probable dans votre mémoire. “La bonne réponse a un vocabulaire complètement déconnecté de la question, qui vous oblige à raisonner sur chacune des autres réponses possibles et à les jeter, c’est une variation beaucoup plus exigeante”, explique Gonzalo. “C’est vrai Kriptonite pour les modèles”, ajoute-t-il.

Selon l’article, «les résultats montrent que tous les modèles perdent une précision notamment avec notre variation proposée, avec une baisse moyenne de 57% et 50% [en dos indicadores tradicionales de referencia]et oscillant entre 10% et 93% selon le modèle », écrivent les écrivains dans le texte.

Ce type de variation avait déjà été testé avant tout avec les questions, mais c’est ce changement dans les réponses qui ont donné des résultats plus clairs. «Ce simple changement supprime soudain un voile pour expérimenter repères Et cela nous permet de voir des progrès réels dans les capacités de raisonnement approximatives des systèmes sans le bruit produit par le succès par la mémorisation », explique Gonzalo.

Ce changement ne prouve pas que les AIS sont inutiles, mais leur capacité de raisonnement était gonflée et qui évolue plus lentement que les départements marketing et les experts pour donner des bombardements, ils ont l’intention: «Nos résultats montrent que les chatbotsEn général, ils continuent d’appliquer un type de raisonnement intuitif et ont une capacité de généralisation rare », explique Gonzalo. «En d’autres termes, ils continuent de répondre, intuitivement, et sont toujours, essentiellement, supercuñados Ils ont tout lu, mais ils n’ont rien assimilé.

Le débat sur les limites de repères C’est plus répandu qu’il n’y paraît. Ce même mardi, l’un des plus grands disseminateurs de l’IA, Ethan Mollick, a demandé des tests plus fiables.

Une autre chose que Grok 3 met en évidence est le besoin urgent de meilleures batteries de tests et des autorités de test indépendantes.
Les références publiques sont à la fois “meh” et saturées, laissant beaucoup de tests sur l’IA comme des revues alimentaires, en fonction du goût. Si l’IA est essentielle au travail, nous en avons besoin de plus.
– Ethan Mollick (@emollick) 18 février 2025

Il y a quelques semaines, un autre test a appelé “un examen définitif de l’humanité” qui, encore une fois, les modèles semblent surmonter rapidement plus rapidement que prévu. Ce sont des questions plus difficiles à niveau doctoral et avec des réponses qui ne sont pas trouvées en principe en ligne. Un problème supplémentaire à propos de ce test est que le correcteur est un autre modèle: ChatGpt-O3 Mini. La solution aux problèmes de mesure ne semble pas non plus: «C’est un doctorat beaucoup plus important», explique Gonzalo.

La différence entre les langues est également substantielle. Ces modèles notent mieux en anglais. Les chercheurs ont essayé l’espagnol de se comparer et de s’aggraver. Dans plus de langues minoritaires, les résultats devraient être encore plus lâches: «Nous avons fait le travail dans le projet Odesia, un accord entre les Red.ES et le UNED pour mesurer la distance entre l’anglais et l’espagnol en IA», explique Gonzalo. “Nous avons détecté une tendance très claire: le pire du modèle (en général, lorsqu’ils sont des cerveaux artificiels avec moins de neurones), plus la différence entre l’espagnol et l’anglais est perceptible.” Cette différence est plus importante qu’il semble car les modèles de taille réduite peuvent être installés localement sur les appareils et qui garantissent la confidentialité des données. “Ainsi, ils finissent par utiliser des modèles qui fonctionnent bien pire en espagnol que Chatgpt ou Claude”, ajoute Gonzalo.

Tout cela ne signifie pas que les modèles d’IA ont un toit clair. Les modèles de langage pur semblent avoir une limite, mais le nouveau raisonnement est plus complet que les précédents. «Par exemple, ChatGpt-O3 Mini, bien que ses performances diminuent beaucoup, c’est la seule à approuver [uno de los benchmarks]. De nouvelles techniques sont recherchées pour surmonter le fonctionnement des modèles de langage », explique Gonzalo. Dans les tests des chercheurs, ainsi que le seul Mini Pelado de GPT-O3 approuvé, l’autre modèle qui reste est Deepseek R1-70B, car il baisse moins que le reste de ses performances avec le nouveau test.

#Les #chercheurs #espagnols #découvrent #lastuce #lIA #utilise #pour #obtenir #bonnes #notes #Cest #vrai #Kriptonite #Technologie
1740031957

Les chercheurs espagnols découvrent l’astuce que l’IA utilise pour obtenir de si bonnes notes: “C’est vrai Kriptonite” | Technologie

Comment mettre les modèles

Share this:

Related

Enquête ouverte pour le terrorisme sur les explosions de la SeaJewel de Setroliera

Anna et Gerald Heiser: “Bauer est à la recherche d’une femme” Les stars quittent la Namibie

You may also like

Leave a Comment Cancel Reply