Home » Sciences et technologies » Les chercheurs de Google DeepMind présentent une nouvelle référence pour améliorer la factualité du LLM et réduire les hallucinations

Les chercheurs de Google DeepMind présentent une nouvelle référence pour améliorer la factualité du LLM et réduire les hallucinations

by Nouvelles

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus

Les hallucinations, ou réponses factuellement inexactes, continuent de tourmenter les grands modèles de langage (LLM). Les modèles échouent particulièrement lorsqu’on leur confie des tâches plus complexes et lorsque les utilisateurs recherchent des réponses spécifiques et très détaillées.

C’est un défi que les data scientists ont eu du mal à surmonter, et maintenant, des chercheurs du Google DeepMind disent qu’ils ont fait un pas de plus vers la réalisation d’une véritable factualité dans les modèles de fondation. Ils ont introduit FACTS Grounding, une référence qui évalue la capacité des LLM à générer des réponses factuellement précises basées sur des documents longs. Les modèles sont également jugés selon que leurs réponses sont suffisamment détaillées pour fournir des réponses utiles et pertinentes aux invites.

Parallèlement à la nouvelle référence, les chercheurs ont publié un Classement FAITS à la communauté de science des données Kaggle.

Cette semaine, Gemini 2.0 Flash était en tête du classement, avec un score de factualité de 83,6 %. D’autres dans le top 9 incluent Gemini 1.0 Flash et Gemini 1.5 Pro de Google ; Clade 3.5 Sonnet et Claude 3.5 Haiku d’Anthropic ; et les GPT-4o, 4o-mini, o1-mini et o1-preview d’OpenAI. Tous ces éléments se sont classés au-dessus de 61,7 % en termes de précision.

Les chercheurs affirment que le classement sera activement maintenu et continuellement mis à jour pour inclure de nouveaux modèles et leurs différentes itérations.

“Nous pensons que ce benchmark comble une lacune dans l’évaluation d’une plus grande variété de comportements de modèles relatifs à la factualité, par rapport aux benchmarks qui se concentrent sur des cas d’utilisation plus restreints… comme le résumé seul”, écrivent les chercheurs dans un article. document technique publié cette semaine.

Éliminer les réponses inexactes

« Bien que cet objectif puisse enseigner aux modèles des connaissances mondiales saillantes, il n’optimise pas directement le modèle en fonction des différents scénarios de factualité, mais encourage plutôt le modèle à générer des connaissances générales. plausible texte », écrivent les chercheurs.

Pour résoudre ce problème, l’ensemble de données FACTS intègre 1 719 exemples – 860 publics et 859 privés – chacun nécessitant des réponses détaillées basées sur le contexte dans les documents fournis. Chaque exemple comprend :

  • Une invite système (system_instruction) avec des directives générales et l’ordre de répondre uniquement en fonction du contexte fourni ;
  • Une tâche (user_request) qui comprend une question spécifique à laquelle il faut répondre ;
  • Un long document (context_document) avec les informations nécessaires.

Pour réussir et être qualifié de « précis », le modèle doit traiter le document détaillé et créer une réponse détaillée ultérieure qui est à la fois complète et entièrement attribuable au document. Les réponses sont qualifiées de « inexactes » si les affirmations du modèle ne sont pas directement étayées par le document et ne sont pas très pertinentes ou utiles.

Par exemple, un utilisateur peut demander à un modèle de résumer les principales raisons pour lesquelles les revenus d’une entreprise ont diminué au troisième trimestre et lui fournir des informations détaillées, notamment le rapport financier annuel d’une entreprise détaillant les bénéfices trimestriels, les dépenses, les investissements prévus et l’analyse de marché.

Si un modèle revenait, par exemple : « L’entreprise a été confrontée à des défis au troisième trimestre qui ont eu un impact sur ses revenus », il serait jugé inexact.

“La réponse évite de préciser les raisons, telles que les tendances du marché, la concurrence accrue ou les revers opérationnels, qui seraient susceptibles de figurer dans le document”, soulignent les chercheurs. “Cela ne démontre pas une tentative d’interagir avec ou d’extraire des détails pertinents.”

En revanche, si un utilisateur demandait : « Quels sont quelques conseils pour économiser de l’argent ? et fourni une compilation de conseils catégorisés pour économiser de l’argent pour les étudiants, une réponse correcte serait très détaillée : « Profitez des activités gratuites sur le campus, achetez des articles en gros et cuisinez à la maison. Fixez-vous également des objectifs de dépenses, évitez les cartes de crédit et préservez les ressources.

DeepMind utilise les LLM pour juger les LLM

Pour permettre diverses contributions, les chercheurs ont inclus des documents de différentes longueurs, jusqu’à 32 000 jetons (ou l’équivalent de 20 000 mots). Ceux-ci couvrent des domaines tels que la finance, la technologie, la vente au détail, la médecine et le droit. Les demandes des utilisateurs sont également larges, y compris la génération de questions-réponses, les demandes de résumé et de réécriture.

Chaque exemple est jugé en deux phases. Tout d’abord, l’éligibilité des réponses est évaluée : si elles ne satisfont pas aux demandes des utilisateurs, elles sont disqualifiées. Deuxièmement, les réponses doivent être exemptes d’hallucinations et pleinement fondées sur les documents fournis.

Ces scores de factualité sont calculés par trois juges LLM différents – en particulier Gemini 1.5 Pro, GPT-4o et Claude 3.5 Sonnet – qui déterminent les scores individuels en fonction du pourcentage de résultats précis du modèle. Par la suite, la détermination finale du caractère factuel est basée sur une moyenne des notes des trois juges.

Les chercheurs soulignent que les modèles sont souvent biaisés en faveur des autres membres de leur famille modèle – avec une augmentation moyenne d’environ 3,23 % – de sorte que la combinaison de différents juges était essentielle pour garantir que les réponses étaient effectivement factuelles.

En fin de compte, les chercheurs soulignent que la factualité et l’ancrage sont des facteurs clés du succès et de l’utilité futurs des LLM. “Nous pensons que des méthodes d’analyse comparative complètes, associées à une recherche et un développement continus, continueront à améliorer les systèmes d’IA”, écrivent-ils.

Cependant, ils concèdent également : « Nous sommes conscients que les références peuvent être rapidement dépassées par les progrès, c’est pourquoi ce lancement de notre référence et classement FACTS Grounding n’est que le début. »

Informations quotidiennes sur les cas d’utilisation professionnels avec VB Daily

Si vous voulez impressionner votre patron, VB Daily est là pour vous. Nous vous donnons un aperçu de ce que font les entreprises avec l’IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager des informations pour un retour sur investissement maximal.

Merci de vous être abonné. Consultez plus de newsletters VB ici.

Une erreur s’est produite.

#Les #chercheurs #Google #DeepMind #présentent #une #nouvelle #référence #pour #améliorer #factualité #LLM #réduire #les #hallucinations

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.