Faciliter la vérification des réponses d’un modèle d’IA | Actualités du MIT

Malgré leurs capacités impressionnantes, les grands modèles linguistiques sont loin d’être parfaits. Ces modèles d’intelligence artificielle « hallucinent » parfois en générant des informations incorrectes ou non étayées en réponse à une requête.

En raison de ce problème d’hallucination, les réponses d’un LLM sont souvent vérifiées par des vérificateurs de faits humains, surtout si un modèle est déployé dans un contexte à enjeux élevés comme les soins de santé ou la finance. Cependant, les processus de validation nécessitent généralement que les utilisateurs lisent de longs documents cités par le modèle, une tâche si lourde et si sujette aux erreurs qu’elle peut empêcher certains utilisateurs de déployer des modèles d’IA génératifs en premier lieu.

Pour aider les validateurs humains, les chercheurs du MIT ont créé un système convivial qui permet de vérifier beaucoup plus rapidement les réponses d’un LLM. Avec cet outil, appelé SymGenun LLM génère des réponses avec des citations qui pointent directement vers l’endroit dans un document source, comme une cellule donnée dans une base de données.

Les utilisateurs survolent les parties en surbrillance de sa réponse textuelle pour voir les données utilisées par le modèle pour générer ce mot ou cette phrase spécifique. Dans le même temps, les parties non mises en évidence montrent aux utilisateurs quelles phrases nécessitent une attention supplémentaire pour être vérifiées.

« Nous donnons aux gens la possibilité de se concentrer de manière sélective sur les parties du texte qui devraient les inquiéter davantage. En fin de compte, SymGen peut donner aux gens une plus grande confiance dans les réponses d’un modèle, car ils peuvent facilement y regarder de plus près pour s’assurer que les informations sont vérifiées », explique Shannon Shen, étudiante diplômée en génie électrique et en informatique et co-auteur principal d’un ouvrage. article sur SymGen.

Grâce à une étude auprès des utilisateurs, Shen et ses collaborateurs ont découvert que SymGen accélérait le temps de vérification d’environ 20 % par rapport aux procédures manuelles. En permettant aux humains de valider les résultats du modèle plus rapidement et plus facilement, SymGen pourrait aider les utilisateurs à identifier les erreurs dans les LLM déployés dans diverses situations réelles, de la génération de notes cliniques à la synthèse des rapports sur les marchés financiers.

Shen est rejoint sur l’article par Lucas Torroba Hennigen, co-auteur principal et étudiant diplômé de l’EECS ; Aniruddha « Ani » Nrusimha, étudiant diplômé de l’EECS ; Bernhard Gapp, président de la Good Data Initiative ; et les auteurs principaux David Sontag, professeur à l’EECS, membre de la MIT Jameel Clinic et chef du groupe d’apprentissage automatique clinique du laboratoire d’informatique et d’intelligence artificielle (CSAIL) ; et Yoon Kim, professeur adjoint de l’EECS et membre du CSAIL. La recherche a été récemment présentée à la Conférence sur la modélisation du langage.

Références symboliques

Pour faciliter la validation, de nombreux LLM sont conçus pour générer des citations qui pointent vers des documents externes, ainsi que leurs réponses linguistiques afin que les utilisateurs puissent les vérifier. Cependant, ces systèmes de vérification sont généralement conçus après coup, sans tenir compte des efforts nécessaires aux personnes pour passer au crible de nombreuses citations, explique Shen.

« L’IA générative vise à réduire le temps nécessaire à l’utilisateur pour accomplir une tâche. Si vous devez passer des heures à lire tous ces documents pour vérifier que le modèle dit quelque chose de raisonnable, il est alors moins utile de mettre en pratique les générations », explique Shen.

Les chercheurs ont abordé le problème de la validation du point de vue des humains qui effectueront le travail.

Un utilisateur SymGen fournit d’abord au LLM les données auxquelles il peut faire référence dans sa réponse, comme un tableau contenant les statistiques d’un match de basket-ball. Ensuite, plutôt que de demander immédiatement au modèle d’accomplir une tâche, comme générer un résumé de jeu à partir de ces données, les chercheurs effectuent une étape intermédiaire. Ils incitent le modèle à générer sa réponse sous une forme symbolique.

Avec cette invite, chaque fois que le modèle souhaite citer des mots dans sa réponse, il doit écrire la cellule spécifique de la table de données qui contient les informations auxquelles il fait référence. Par exemple, si le modèle souhaite citer l’expression « Portland Trailblazers » dans sa réponse, il remplacera ce texte par le nom de la cellule dans le tableau de données contenant ces mots.

« Grâce à cette étape intermédiaire qui consiste à présenter le texte dans un format symbolique, nous pouvons avoir des références très fines. Nous pouvons dire que pour chaque étendue de texte de la sortie, c’est exactement l’endroit dans les données auquel elle correspond », explique Torroba Hennigen.

SymGen résout ensuite chaque référence à l’aide d’un outil basé sur des règles qui copie le texte correspondant de la table de données dans la réponse du modèle.

“De cette façon, nous savons qu’il s’agit d’une copie textuelle, donc nous savons qu’il n’y aura aucune erreur dans la partie du texte qui correspond à la variable de données réelle”, ajoute Shen.

Rationalisation de la validation

Le modèle peut créer des réponses symboliques en raison de la manière dont il est formé. Les grands modèles de langage sont alimentés par des quantités de données provenant d’Internet, et certaines données sont enregistrées dans un « format d’espace réservé » où les codes remplacent les valeurs réelles.

Lorsque SymGen demande au modèle de générer une réponse symbolique, il utilise une structure similaire.

« Nous concevons l’invite d’une manière spécifique pour tirer parti des capacités du LLM », ajoute Shen.

Lors d’une étude auprès des utilisateurs, la majorité des participants ont déclaré que SymGen facilitait la vérification du texte généré par LLM. Ils pourraient valider les réponses du modèle environ 20 % plus rapidement que s’ils utilisaient des méthodes standard.

Cependant, SymGen est limité par la qualité des données sources. Le LLM pourrait citer une variable incorrecte, et un vérificateur humain pourrait ne pas en être plus sage.

De plus, l’utilisateur doit disposer de données sources dans un format structuré, comme un tableau, pour alimenter SymGen. Pour l’instant, le système ne fonctionne qu’avec des données tabulaires.

À l’avenir, les chercheurs améliorent SymGen afin qu’il puisse gérer du texte arbitraire et d’autres formes de données. Avec cette capacité, il pourrait aider à valider des parties de résumés de documents juridiques générés par l’IA, par exemple. Ils prévoient également de tester SymGen auprès de médecins pour étudier comment il pourrait identifier les erreurs dans les résumés cliniques générés par l’IA.

Ce travail est financé, en partie, par Liberty Mutual et la MIT Quest for Intelligence Initiative.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.