Andy Huang, MD
Crédit : LinkedIn
Selon une nouvelle recherche, les modèles d’intelligence artificielle (IA) peuvent égaler ou dépasser les ophtalmologistes formés en bourse dans le diagnostic et la prise en charge du glaucome et des maladies de la rétine.1
Dans l’étude transversale comparative, GPT-4, un système d’IA à grand modèle de langage (LLM), a présenté une précision et une exhaustivité diagnostique comparatives dans les questions cliniques et les cas cliniques à 12 spécialistes traitants et trois stagiaires senior en ophtalmologie.
« Les performances du GPT-4 dans notre étude ont été assez révélatrices », a déclaré l’auteur principal de l’étude, Andy Huang, MD, résident en ophtalmologie au New York Eye and Ear Infirmary du Mount Sinai.2 « Nous avons reconnu l’énorme potentiel de ce test. Système d’IA dès le moment où nous avons commencé à le tester et avons été fascinés de constater que GPT-4 pouvait non seulement aider mais, dans certains cas, égaler ou dépasser l’expertise de spécialistes ophtalmologiques chevronnés.
La prise de décision médicale et l’éducation des patients intègrent de plus en plus les LLM dans les soins, ce qui suggère le potentiel d’utilisation de l’IA en ophtalmologie. Des preuves récentes ont étayé les performances constantes des chatbots LLM en fournissant des réponses comparables à celles des ophtalmologistes pour une gamme de questions sur les soins oculaires des patients, ainsi que leurs solides performances lors d’une évaluation des connaissances ophtalmologiques.3
Cependant, Huang et ses collègues ont indiqué qu’une évaluation plus large de l’exactitude d’un LLM par rapport à celle de professionnels formés est nécessaire pour aborder des situations cliniques réelles.1 Pour explorer ce potentiel réel, l’équipe d’enquête a évalué les réponses du GPT-4 par rapport à celles des étudiants formés en bourse. des spécialistes du glaucome et de la rétine sur des questions ophtalmiques et la gestion des cas des patients.
Dans l’étude transversale comparative monocentrique, les enquêteurs ont recruté 12 médecins traitants (8 dans le glaucome et 4 dans la rétine) et 3 stagiaires en ophtalmologie dans des cliniques ophtalmologiques associées à l’établissement de l’équipe d’enquête. Les questions sur le glaucome et la rétine (10 de chaque) ont été sélectionnées au hasard parmi les questions fréquemment posées de l’American Academy of Ophthalmology (AAO). Des cas de glaucome et de rétine anonymisés (10 de chaque) ont été sélectionnés au hasard parmi des patients en ophtalmologie vus dans les cliniques affiliées.
Le rôle du LLM a été défini comme celui d’un assistant médical chargé de fournir des réponses concises qui imitent la réponse d’un ophtalmologiste. L’exactitude des réponses a été mesurée sur une échelle de Likert à 10 points pour l’exactitude et l’exhaustivité médicales, les scores les plus faibles représentant une exactitude très faible. Les données ont été collectées de juin à août 2023.
Après analyse, le classement moyen combiné des cas de questions pour l’exactitude était de 506,2 pour le chatbot LLM et de 403,4 pour les spécialistes du glaucome (n = 831 ; Mann-Whitney U = 27976,5 ; P. <.001). Le classement moyen pour l'exhaustivité était respectivement de 528,3 et 398,7 pour ces groupes (n = 828 ; Mann-Whitney U = 25218,5 ; P. <.001).
Parallèlement, le classement moyen en termes de précision était de 235,3 pour le chatbot LLM et de 216,1 pour les spécialistes de la rétine (n = 440 ; Mann-Whitney U = 15518,0 ; P. = 0,17) et le classement moyen pour l’exhaustivité était respectivement de 258,3 et 208,7 dans ces groupes (n = 439 ; Mann-Whitney U = 13123,5 ; P. = 0,005).
L’analyse a identifié des différences entre les spécialistes et les stagiaires en termes de précision de la notation Likert (n = 1 271 ; Kruskal-Wallis H, 44,36 ; P. <.001) et score de Likert d'exhaustivité (n = 1268 ; Kruskal-Wallis H, 88,27 ; P. <.001). Après avoir effectué le test de Dunn, les enquêteurs ont identifié une différence significative entre toutes les comparaisons par paires, à l'exception du spécialiste par rapport au stagiaire dans l'évaluation de l'exhaustivité du chatbot.
Dans l’ensemble, les comparaisons par paires ont révélé que les stagiaires et les spécialistes ont évalué l’exactitude et l’exhaustivité du chatbot plus haut que leurs homologues spécialistes, les spécialistes indiquant une différence significative dans l’exactitude du chatbot (z = 3,23 ; P.= 0,007) et exhaustivité (z = 5,86 ; P.<.001).
Huang et ses collègues ont noté que les performances améliorées du chatbot pourraient être attribuées aux techniques d’incitation utilisées dans l’analyse, en particulier en demandant au LLM d’agir en tant que clinicien sous forme de note d’ophtalmologie.
Ils ont souligné la nécessité de tests supplémentaires, mais ont partagé leur conviction que ces données soutiennent la possibilité d’outils d’IA comme compléments diagnostiques et thérapeutiques en ophtalmologie.
« Il pourrait servir d’assistant fiable aux spécialistes de la vue en fournissant une aide au diagnostic et en allégeant potentiellement leur charge de travail, en particulier dans les cas complexes ou les zones à fort volume de patients », a déclaré Huang.2 « Pour les patients, l’intégration de l’IA dans la pratique ophtalmologique traditionnelle pourrait entraîner un accès plus rapide aux appareils experts, associé à une prise de décision plus éclairée pour guider leur traitement.
Les références
2024-02-24 02:04:57
1708731199
#Les #chatbots #sont #des #ophtalmologistes #égaux #dans #gestion #glaucome #des #maladies #rétiniennes