Home » Sciences et technologies » Les 3 principaux avantages de l’utilisation de GraphRAG dans l’IA générative — Science et données

Les 3 principaux avantages de l’utilisation de GraphRAG dans l’IA générative — Science et données

by Nouvelles

2024-07-29 17:45:00

Ceci est le troisième article sur GraphRAG. Pour accéder au premier article, cliquez ici.

Les avantages que nous constatons de GraphRAG par rapport au RAG vectoriel uniquement se répartissent en trois groupes principaux :

– Plus de précision et des réponses plus complètes (gain en temps d’exécution/production).
– Après avoir créé le knowledge graph, il sera plus facile de construire puis de maintenir ultérieurement l’application RAG (gain de temps de développement/maintenance).
– Meilleure explicabilité, traçabilité et contrôles d’accès (avantage en matière de gouvernance).

Détaillons ensuite les 3 principaux avantages de l’utilisation de GraphRAG dans l’IA générative :

#1 : Une plus grande précision et des réponses plus utiles

Le premier avantage (et le plus immédiatement tangible) que nous constatons avec GraphRAG est des réponses de meilleure qualité. Un exemple est la société de catalogue de données Data.world. Fin 2023, ils ont publié une étude (lien à la fin de l’article) qui montrait que GraphRAG améliorait, en moyenne, la précision des réponses LLM par 3 sur 43 questions commerciales. L’analyse comparative a mis en évidence une amélioration significative de l’exactitude des réponses lorsqu’elle est étayée par un graphique de connaissances.

Plus récemment, et peut-être mieux connu, il y a eu une série d’articles de Microsoft commençant en février 2024 avec un article intitulé GraphRAG : Unlocking LLM Discovery in Narrative Private Data, accompagné d’un document de recherche et d’une version logicielle associés (lien à la fin de ce document). article). Dans ce travail, ils ont observé que le RAG standard (c’est-à-dire avec des vecteurs) présente les deux problèmes suivants :

  • Baseline RAG a du mal à relier les points. Cela se produit lorsque répondre à une question nécessite de transmettre des informations disparates via vos attributs partagés afin de fournir de nouvelles informations synthétisées.
  • Baseline RAG fonctionne mal lorsqu’on lui demande de comprendre de manière holistique les concepts sémantiques résumés dans de grandes collections de données ou même de grands documents singuliers.

Microsoft a constaté qu’« en utilisant le graphique de connaissances généré par LLM, GraphRAG améliore considérablement la partie « récupération » de RAG, en remplissant la fenêtre contextuelle avec un contenu plus pertinent, ce qui entraîne de meilleures réponses et capture la provenance des preuves. » Ils ont également constaté que GraphRAG nécessitait entre 26 % et 97 % de jetons en moins que les approches alternatives, ce qui le rendait non seulement plus efficace pour fournir des réponses, mais également moins cher et plus évolutif.

En approfondissant le sujet de l’exactitude, il n’est pas seulement important de savoir si une réponse est correcte ; c’est aussi à quel point les réponses sont utiles. Ce que les gens ont découvert avec GraphRAG, c’est que les réponses sont non seulement plus précises, mais aussi plus riches, plus complètes et plus utiles. Le récent article de LinkedIn décrivant l’impact de GraphRAG sur son application de service client en fournit un excellent exemple.

GraphRAG améliore l’exactitude et la richesse (et donc l’utilité) des réponses aux questions du service client, réduisant ainsi le temps de résolution moyen par problème de 28,6 % pour une équipe de service client.

Un autre exemple notable que j’inclurai vient de Writer. Ils ont récemment annoncé un rapport d’analyse comparative RAG basé sur le framework RobustQA, comparant leur approche basée sur GraphRAG aux meilleurs outils compétitifs du secteur. GraphRAG a abouti à un score de 86%, soit une amélioration significative par rapport à la concurrence dont les scores variaient entre 33% et 76%, avec une latence équivalente ou meilleure.

#2 : Meilleure compréhension des données, itérations plus rapides

Les graphiques de connaissances sont intuitifs à la fois conceptuellement et visuellement. Pouvoir les explorer révèle souvent de nouvelles perspectives. Un avantage secondaire inattendu signalé par de nombreux utilisateurs est qu’après avoir investi dans la création de leur graphique de connaissances, ils constatent que cela les aide à créer et à déboguer leurs applications GenAI de manière inattendue. Cela est en partie dû à la façon dont la visualisation des données sous forme de graphique donne une image vivante des données à l’application. Le graphique fournit également des points d’ancrage pour retracer les réponses aux données et retracer ces données dans la chaîne causale.

En travaillant avec vos données sous forme de graphique, vous pouvez les comprendre d’une manière qui n’est pas possible avec une représentation vectorielle.

Voici un exemple d’un récent webinaire LlamaIndex, montrant sa capacité à extraire le graphe à partir de morceaux vectorisés (le graphe lexical) et d’entités extraites du LLM (le graphe de domaine) et à joindre les deux avec des relations « MENTIONS » :

En regardant ce diagramme, vous commencerez probablement à voir comment le fait de disposer d’une structure riche dans laquelle résident vos données ouvre un large éventail de nouvelles possibilités de développement et de débogage. Les données individuelles conservent leur valeur et la structure elle-même stocke et transmet une signification supplémentaire, que vous pouvez utiliser pour ajouter plus d’intelligence à votre application.

Ce n’est pas seulement la visualisation. C’est aussi l’effet d’avoir vos données structurées de manière à transmettre et à stocker du sens.

#3 : Gouvernance – Explicabilité et sécurité

Plus l’impact d’une décision GenAI est grand, plus vous devez être capable de convaincre la personne qui utilise la solution de faire confiance à la décision. Cela implique généralement la capacité de vérifier chaque décision. Cela nécessite également un historique solide et reproductible de bonnes décisions. Mais cela ne suffit pas. Vous devez également être capable d’expliquer le raisonnement à cette personne lorsqu’elle prend une décision.

Les LLM n’offrent pas un bon moyen de le faire par vous-même. Oui, vous pouvez obtenir des références à partir des documents utilisés pour prendre la décision. Mais cela n’explique pas la décision elle-même – sans parler du fait que les LLM sont connus pour faire de telles références ! Les graphes de connaissances fonctionnent à un niveau totalement différent, rendant la logique de raisonnement au sein des pipelines GenAI beaucoup plus claire et les entrées beaucoup plus explicables.

Continuons avec l’un des exemples ci-dessus, où Charles da Lettria charge un graphe de connaissances avec des entités extraites de 10 000 éléments financiers et l’utilise avec un LLM pour effectuer GraphRAG. Nous avons vu comment cela fournit de meilleures réponses. Jetons un coup d’œil aux données :

recherche-de-vecteurs-récupérés-de-nœuds

Voir les données sous forme de graphique est la première partie. Les données sont également navigables et interrogeables et peuvent être corrigées et mises à jour au fil du temps. L’avantage de la gouvernance est qu’il est beaucoup plus facile de visualiser et d’auditer le « modèle mondial » des données.

L’utilisation d’un graphique augmente la probabilité que l’humain responsable de la décision le comprenne, plutôt que de recevoir la version vectorielle des mêmes données. Côté assurance qualité, avoir les données dans un knowledge graph permet de détecter beaucoup plus facilement les erreurs et les surprises dans les données (agréables ou non) et de les remonter jusqu’à leur source.

Vous pouvez également capturer des informations de provenance et de confiance dans le graphique et les utiliser non seulement dans vos calculs mais également dans votre explication. Cela n’est tout simplement pas possible si l’on considère la version vectorielle uniquement des mêmes données qui, comme nous l’avons vu plus tôt, est assez impénétrable pour l’être humain moyen – et même supérieur à la moyenne !

Les graphiques de connaissances peuvent également améliorer considérablement la sécurité et la confidentialité. Cela a tendance à être moins important lors de la construction d’un prototype, mais il s’agit d’un élément essentiel du cheminement vers la production. Si vous travaillez dans un secteur réglementé, tel que le secteur bancaire ou les soins de santé, l’accès de tout employé aux informations dépend probablement de son rôle.

Ni les LLM ni les bases de données vectorielles ne disposent d’un bon moyen de limiter la portée des informations pour correspondre à la fonction. Vous pouvez gérer cela facilement avec les autorisations dans un graphique de connaissances, où la capacité de tout acteur à accéder aux données est régie par la base de données et à supprimer les résultats qu’il n’est pas autorisé à voir. Voici un modèle de politique de sécurité simple que vous pouvez implémenter dans un graphe de connaissances avec des contrôles d’accès précis :

exemple-politique-de-sécurité

Bien qu’il soit loin d’être parfait et qu’il en soit encore à ses débuts, GraphRAG peut apporter des avantages considérables lors de la personnalisation de l’utilisation de LLM pour les applications d’entreprise.

David Matos

Références :

Formation LLM 4.0

Le manifeste GraphRAG : ajouter des connaissances à GenAI

GraphRAG : une nouvelle approche des questions et réponses sur les données privées

Benchmark de l’IA générative : augmenter la précision des LLM dans l’entreprise avec un Knowledge Graph

GraphRAG : débloquer la découverte LLM sur les données privées narratives

Du local au global : une approche Graph RAG pour une synthèse axée sur les requêtes

Génération augmentée par récupération avec des graphiques de connaissances pour la réponse aux questions du service client



#Les #principaux #avantages #lutilisation #GraphRAG #dans #lIA #générative #Science #données
1735944570

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.