Topline:
Les modèles de grands langues (LLM) fonctionnent différemment pour répondre aux questions de rhumatologie, avec ChatGPT-4 démontrant une précision et une qualité plus élevées que Gemini Advanced et Claude 3 Opus. Cependant, plus de 70% des réponses incorrectes par les trois ont eu le potentiel de nuire.
MÉTHODOLOGIE:
- Les chercheurs ont évalué la précision, la qualité et la sécurité de trois LLM, à savoir Gemini Advanced, Claude 3 Opus et Chatgpt-4, en utilisant des questions de la banque de questions d’évaluation et d’évaluation (Care) en 2022 de l’American College of Rhumatology.
- Ils ont utilisé 40 questions, dont 30 ont été sélectionnés au hasard et 10 nécessitaient une évaluation d’image.
- Cinq rhumatologues certifiés à la commission de divers pays ont évalué indépendamment toutes les réponses fournies par les LLM.
- La précision a été évaluée en comparant les réponses de chaque LLM avec les bonnes réponses fournies par la banque de questions.
- La qualité a été évaluée à l’aide d’un cadre qui évalue les domaines suivants: consensus scientifique, compréhension, récupération, raisonnement, contenu inapproprié et contenu manquant, tandis que la sécurité a été évaluée en évaluant les dommages potentiels.
EMPORTER:
- ChatGPT-4 a atteint la plus grande précision à 78%, surperformant Claude 3 Opus (63%) et Gemini Advanced (53%), 70% étant le seuil de passage pour la banque de questions de soins.
- Pour les questions contenant de l’image, ChatGPT-4 et Claude 3 Opus ont chacun atteint une précision de 80%, tandis que Gemini a avancé a atteint une précision de 30%.
- ChatGPT-4 a produit des réponses qui étaient généralement plus élevées en qualité. Il a surperformé Claude 3 Opus dans un consensus scientifique (P P = .0074), et manquant du contenu (P = 0,011) et les Gémeaux dépassés ont avancé dans tous les domaines liés à la qualité (P
- Claude 3 Opus a produit la proportion la plus élevée de réponses potentiellement nocives à 28%, suivies par Gemini avancé à 15% et ChatGPT-4 à 13%.
EN PRATIQUE:
“Nos résultats suggèrent que le chatppt-4 est actuellement le LLM le plus précis et le plus fiable pour la rhumatologie, s’aligne bien avec le consensus scientifique actuel et y compris moins d’éléments de contenu inappropriés ou manquants”, ont écrit les auteurs. «Les patients et les cliniciens doivent être conscients que les LLM peuvent fournir des réponses très convaincantes mais potentiellement nocives. L’évaluation continue des LLM est essentielle pour leur application clinique sûre, en particulier dans des domaines complexes tels que la rhumatologie », ont-ils ajouté.
SOURCE:
Cette étude a été dirigée par Jaime Flores-Gouyonnet, Mayo Clinic, Rochester, Minnesota. C’était Publié en ligne le 22 janvier 2025, dans La rhumatologie Lancet.
LIMITES:
L’utilisation de questions d’une seule banque de questions peut limiter la généralisation des résultats à d’autres sources ou des scénarios cliniques du monde réel. Le cadre d’évaluation a été adapté à partir d’un outil d’intelligence artificielle générative et n’a pas été spécifiquement validé pour l’évaluation des LLM. Avec l’évolution rapide des LLM, les différences de performance changeront probablement avec le temps.
Divulgations:
Un auteur a été soutenu par le prix d’investigation de la Rhumatology Research Foundation, le Lupus Research Alliance Diversity in Lupus Research Award, le Centers for Disease Control and Prevention, et la Mayo Clinic. Les auteurs n’ont déclaré aucun conflit d’intérêts.
#LLMS #pas #génial #pour #répondre #aux #questions #rhumatologie