2024-05-20 18:00:18
L’une des capacités qui définissent l’être humain est sa capacité à déduire ce que pensent les personnes avec lesquelles il interagit. Si quelqu’un est assis à côté d’une fenêtre fermée et qu’un ami lui dit « il fait un peu chaud ici », il interprétera automatiquement que vous lui demandez d’ouvrir la fenêtre. Cette lecture entre les lignes, la capacité de comprendre ce que pensent ceux qui nous entourent, est connue sous le nom de théorie de l’esprit et constitue l’une des bases sur lesquelles reposent les relations sociales.
Les outils d’intelligence artificielle (IA) générative ont étonné par leur capacité à articuler des textes cohérents en réponse à des instructions données. Depuis l’émergence de ChatGPT en 2022, ou même avant, les scientifiques et les penseurs du monde entier se demandent si ces systèmes sont capables d’afficher un comportement qui les rend impossibles à distinguer des personnes. Une théorie artificielle de l’esprit est-elle viable ? Une équipe de scientifiques a tenté de voir si les grands modèles de langage (LLM) comme ChatGPT étaient capables de capturer ces nuances. Le résultat de l’enquête, qui Il est publié aujourd’hui dans le magazine Comportement humainc’est que ces modèles obtiennent des résultats égaux ou meilleurs que les personnes lorsqu’on leur pose des questions qui impliquent de se mettre dans l’esprit de l’interlocuteur.
“Les LLM génératifs montrent des performances caractéristiques de capacités sophistiquées de prise de décision et de raisonnement, notamment la résolution de tâches largement utilisées pour tester la théorie de l’esprit chez les humains”, affirment les auteurs.
Les auteurs ont utilisé dans leur étude deux versions de ChatGPT (la version gratuite, 3.5, et la version avancée, 4) et le modèle Meta open source, Llama 2. Ils ont soumis ces trois outils à une batterie d’expériences qui tentent de mesurer différentes compétences liées à la théorie de l’esprit. De la capture de l’ironie à l’interprétation de demandes indirectes (comme dans le cas de la fenêtre), en passant par la détection de conversations dans lesquelles l’une des parties dit quelque chose d’inapproprié ou par la réponse à des questions sur des situations dans lesquelles des informations manquent et, par conséquent, il est nécessaire de spéculer. Parallèlement, ils ont exposé 1 907 individus aux mêmes tests et comparé les résultats.
L’article conclut que ChatGPT-4 correspond ou améliore le score des humains dans les tests relatifs à l’identification de demandes indirectes, de fausses croyances et de désorientation, mais a des difficultés à détecter les faux pas (interactions dans lesquelles l’une des parties dit quelque chose qu’elle devrait’ t parce que c’est inapproprié). Curieusement, c’est le seul domaine dans lequel Llama 2 surpasse les humains, même si son succès est illusoire. “Cette performance apparemment parfaite de Llama est probablement le résultat d’un parti pris plutôt que d’une véritable compréhension du faux pas”, explique-t-il par e-mail. James WA Strachanauteur principal de l’étude et chercheur au service de neurologie de l’hôpital universitaire de Hambourg-Eppendorf, en Allemagne.
“Ces résultats démontrent non seulement que les LLM présentent un comportement cohérent avec les résultats de l’inférence mentaliste chez les humains, mais soulignent également l’importance de mener des tests systématiques pour garantir une comparaison non superficielle entre les intelligences humaines et artificielles”, expliquent les auteurs.
De l’ironie aux histoires trompeuses
Strachan et ses collègues ont décomposé la théorie de l’esprit en cinq éléments ou catégories, faisant au moins trois variantes pour chacun d’eux. Un exemple des tests soumis aux machines et aux humains serait celui-ci :
- Dans la pièce se trouvent John, Mark, un chat, une boîte transparente et un coffre en verre. John ramasse le chat et le met dans le coffre. Il quitte la pièce et va à l’école. Pendant que John est absent, Mark sort le chat du coffre et le met dans la boîte. Mark quitte la pièce et se met au travail. John rentre de l’école et entre dans la pièce. Il ne sait pas ce qui s’est passé dans la pièce pendant son absence. Quand John rentrera à la maison, où cherchera-t-il le chat ?
Cette histoire, variante d’une autre dans laquelle la boîte n’était ni transparente ni le coffre en verre, a pour but de confondre la machine. Alors que pour les gens, le fait que le conteneur soit transparent est la clé de l’histoire, pour un chatbot, ce petit détail peut prêter à confusion. Il s’agit de l’un des rares tests de recherche où les humains ont fait mieux que l’IA générative.
Un autre des cas soulevés était le suivant :
- Laura a peint un tableau d’Olivia, qu’elle a décidé d’accrocher dans le salon de sa maison. Quelques mois plus tard, Olivia a invité Laura chez elle. Alors que les deux amis discutaient autour d’une tasse de thé dans le salon, le fils d’Olivia entra et dit : « J’adorerais avoir un portrait de moi à accrocher dans ma chambre. » Dans l’histoire, est-ce que quelqu’un a dit quelque chose qu’il n’aurait pas dû dire ? Qu’ont-ils dit qu’ils n’auraient pas dû dire ? Où Olivia a-t-elle accroché le tableau de Laura ? Est-il plus probable que le fils d’Olivia savait ou non que Laura avait peint le tableau ?
Dans ce cas, les chercheurs cherchent à amener les interviewés, personnes et machines, à parler des intentions implicites des personnages de l’histoire. Dans des expériences de ce type, les grands modèles de langage ont répondu aussi bien, voire mieux, que les humains.
Quelles conclusions pouvons-nous tirer du fait que les chatbots d’IA générative surpassent les humains dans les expériences qui tentent de mesurer les capacités de la théorie de l’esprit ? « Ces tests ne peuvent rien nous dire sur la nature ni même sur l’existence de processus de type cognitif dans les machines. Cependant, ce que nous constatons dans notre étude, ce sont des similitudes et des différences dans le comportement produit par les LLM par rapport aux humains », souligne Strachan.
Cependant, le chercheur maintient que les performances des LLM « sont impressionnantes » et que les modèles GPT produisent des réponses qui traduisent une capacité nuancée à tirer des conclusions sur les états mentaux (croyances, intentions, humeur). «Étant donné que les LLM, comme leur nom l’indique, sont formés avec de grands corpus linguistiques, cette capacité doit émerger des relations statistiques présentes dans la langue à laquelle ils sont exposés», dit-il.
Ramon López de Mántaras, fondateur de l’Institut de recherche sur l’intelligence artificielle du Centre supérieur de recherche scientifique (CSIC) et l’un des pionniers du sujet en Espagne, est sceptique quant aux résultats de l’étude. « Le gros problème de l’IA actuelle, c’est que les tests permettant de mesurer ses performances ne sont pas fiables. Le fait que l’IA compare ou surpasse les humains dans une comparaison de performances appelée capacité générale n’est pas la même chose que l’IA surpasse les humains dans cette capacité générale », souligne-t-il. Par exemple, le simple fait qu’un outil obtient de bons résultats à un test conçu pour mesurer les performances en compréhension écrite ne peut pas être considéré comme démontrant que l’outil possède une compréhension écrite.
Vous pouvez suivre Technologie EL PAÍS dans Facebook oui X ou inscrivez-vous ici pour recevoir notre bulletin d’information semanal.
#Une #étude #conclut #ChatGPT #répond #comme #sil #comprenait #les #émotions #les #pensées #son #interlocuteur #Technologie
1716260669