Préparer les patients atteints de cancer à des décisions difficiles est le travail d’un oncologue. Cependant, ils ne se souviennent pas toujours de le faire. Au système de santé de l’Université de Pennsylvanie, les médecins sont incités à parler du traitement d’un patient et de ses préférences en matière de fin de vie grâce à un algorithme artificiellement intelligent qui prédit les chances de décès.
Mais c’est loin d’être un outil à configurer et à oublier. Un contrôle technique de routine a révélé que l’algorithme s’est dégradé pendant la pandémie de covid-19, ce qui a aggravé de 7 points de pourcentage la prédiction des décès, selon une étude de 2022.
Il y a probablement eu des impacts réels. Ravi Parikh, un oncologue de l’Université Emory qui était l’auteur principal de l’étude, a déclaré à KFF Health News que l’outil n’a pas réussi des centaines de fois à inciter les médecins à entamer cette discussion importante – évitant éventuellement une chimiothérapie inutile – avec les patients qui en avaient besoin.
Il pense que plusieurs algorithmes conçus pour améliorer les soins médicaux se sont affaiblis pendant la pandémie, pas seulement celui de Penn Medicine. “De nombreuses institutions ne surveillent pas systématiquement les performances” de leurs produits, a déclaré Parikh.
Les problèmes d’algorithme sont une facette d’un dilemme que les informaticiens et les médecins reconnaissent depuis longtemps, mais qui commence à intriguer les dirigeants d’hôpitaux et les chercheurs : les systèmes d’intelligence artificielle nécessitent une surveillance et un personnel cohérents pour être mis en place et continuer à fonctionner correctement.
En substance : vous avez besoin de personnes, et de plus de machines, pour vous assurer que les nouveaux outils ne gâchent pas.
“Tout le monde pense que l’IA nous aidera à améliorer notre accès et nos capacités, à améliorer les soins, etc.”, a déclaré Nigam Shah, scientifique en chef des données à Stanford Health Care. “Tout cela est beau, mais si cela augmente le coût des soins de 20 %, est-ce viable ?”
Les responsables gouvernementaux craignent que les hôpitaux ne disposent pas des ressources nécessaires pour mettre ces technologies à l’épreuve. “J’ai regardé très loin”, a déclaré le commissaire de la FDA, Robert Califf, lors d’un récent panel de l’agence sur l’IA. “Je ne crois pas qu’il existe un seul système de santé, aux États-Unis, capable de valider un algorithme d’IA mis en place dans un système de soins cliniques.”
L’IA est déjà répandue dans les soins de santé. Les algorithmes sont utilisés pour prédire le risque de décès ou de détérioration des patients, pour suggérer des diagnostics ou trier les patients, pour enregistrer et résumer les visites pour économiser le travail des médecins et pour approuver les réclamations d’assurance.
Si les évangélistes de la technologie ont raison, la technologie deviendra omniprésente et rentable. La société d’investissement Bessemer Venture Partners a identifié une vingtaine de startups d’IA axées sur la santé, en passe de générer 10 millions de dollars de revenus chacune par an. La FDA a approuvé près d’un millier de produits artificiellement intelligents.
Évaluer si ces produits fonctionnent est un défi. Évaluer s’ils continuent à fonctionner – ou s’ils ont développé l’équivalent logiciel d’un joint grillé ou d’un moteur qui fuit – est encore plus délicat.
Prenez par exemple une étude récente de Yale Medicine évaluant six « systèmes d’alerte précoce », qui alertent les cliniciens lorsque l’état des patients est susceptible de se détériorer rapidement. Un superordinateur a analysé les données pendant plusieurs jours, a déclaré Dana Edelson, médecin à l’Université de Chicago et co-fondatrice d’une société qui a fourni un algorithme pour l’étude. Le processus a été fructueux, montrant d’énormes différences de performances entre les six produits.
Il n’est pas facile pour les hôpitaux et les prestataires de sélectionner les meilleurs algorithmes pour leurs besoins. Le médecin moyen ne dispose pas d’un superordinateur et il n’existe pas de Consumer Reports sur l’IA.
“Nous n’avons aucune norme”, a déclaré Jesse Ehrenfeld, président sortant de l’American Medical Association. “Je ne peux rien vous indiquer aujourd’hui qui soit une norme sur la façon dont vous évaluez, surveillez, examinez les performances d’un modèle d’algorithme, compatible avec l’IA ou non, lorsqu’il est déployé.”
Le produit d’IA le plus courant dans les cabinets de médecins est peut-être appelé documentation ambiante, un assistant technologique qui écoute et résume les visites des patients. L’année dernière, les investisseurs de Rock Health ont suivi 353 millions de dollars entrant dans ces sociétés de documentation. Mais Ehrenfeld a déclaré: “Il n’existe actuellement aucune norme pour comparer les résultats de ces outils.”
Et c’est un problème, car même de petites erreurs peuvent être dévastatrices. Une équipe de l’Université de Stanford a essayé d’utiliser de grands modèles de langage – la technologie qui sous-tend les outils d’IA populaires comme ChatGPT – pour résumer les antécédents médicaux des patients. Ils ont comparé les résultats avec ce qu’un médecin écrirait.
“Même dans le meilleur des cas, les modèles présentaient un taux d’erreur de 35%”, a déclaré Shah de Stanford. En médecine, « quand vous rédigez un résumé et que vous oubliez un mot, comme « fièvre », je veux dire, c’est un problème, n’est-ce pas ?
Parfois, les raisons pour lesquelles les algorithmes échouent sont assez logiques. Par exemple, les modifications apportées aux données sous-jacentes peuvent éroder leur efficacité, comme lorsque les hôpitaux changent de prestataire de laboratoire.
Parfois, cependant, les pièges se révèlent sans raison apparente.
Sandy Aronson, responsable technique du programme de médecine personnalisée du Mass General Brigham à Boston, a déclaré que lorsque son équipe a testé une application destinée à aider les conseillers en génétique à localiser la littérature pertinente sur les variantes de l’ADN, le produit a souffert de « non-déterminisme » – c’est-à-dire lorsqu’on lui a demandé la même chose. question plusieurs fois sur une courte période, cela a donné des résultats différents.
Aronson est enthousiasmé par le potentiel des grands modèles linguistiques pour résumer les connaissances des conseillers en génétique surchargés, mais “la technologie doit s’améliorer”.
Si les mesures et les normes sont rares et que des erreurs peuvent survenir pour des raisons étranges, que doivent faire les institutions ? Investissez beaucoup de ressources. À Stanford, a déclaré Shah, il a fallu huit à dix mois et 115 heures de travail pour vérifier l’équité et la fiabilité de deux modèles.
Des experts interrogés par KFF Health News ont lancé l’idée d’une intelligence artificielle surveillant l’intelligence artificielle, avec un expert des données (humaines) surveillant les deux. Tous ont reconnu que cela obligerait les organisations à dépenser encore plus d’argent – une demande difficile compte tenu des réalités des budgets des hôpitaux et du nombre limité de spécialistes en technologie de l’IA.
“C’est formidable d’avoir une vision dans laquelle nous faisons fondre des icebergs afin d’avoir un modèle qui surveille leur modèle”, a déclaré Shah. “Mais est-ce vraiment ce que je voulais ? De combien de personnes supplémentaires allons-nous avoir besoin ?”
#LIA #dans #domaine #santé #destinée #économiser #largent #savère #nécessiter #beaucoup #dhumains #coûteux