Des chercheurs affirment qu’un outil de transcription basé sur l’IA utilisé dans les hôpitaux invente des choses que personne n’a jamais dites

Des chercheurs affirment qu’un outil de transcription basé sur l’IA utilisé dans les hôpitaux invente des choses que personne n’a jamais dites

SAN FRANCISCO (AP) — Le géant technologique OpenAI a vanté son outil de transcription basé sur l’intelligence artificielle, Whisper, comme ayant une « robustesse et une précision proches du niveau humain ».

Mais Whisper a un défaut majeur : il a tendance à composer des morceaux de texte, voire des phrases entières, selon des entretiens avec plus d’une douzaine d’ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains textes inventés – connus dans l’industrie sous le nom d’hallucinations – peuvent inclure des commentaires racistes, une rhétorique violente et même des traitements médicaux imaginaires.

Les experts ont déclaré que de telles fabrications sont problématiques car Whisper est utilisé dans de nombreux secteurs à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est plus inquiétant, selon eux, est la ruée des centres médicaux à utiliser les outils basés sur Whisper pour transcrire les consultations des patients avec les médecins, malgré les avertissements d’OpenAI selon lesquels l’outil ne devrait pas être utilisé dans des « domaines à haut risque ».

L’ampleur du problème est difficile à discerner, mais les chercheurs et les ingénieurs ont déclaré avoir fréquemment rencontré les hallucinations de Whisper dans leur travail. Un chercheur de l’Université du Michigan menant une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu’il a inspectées, avant de commencer à essayer d’améliorer le modèle.

Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu’il avait analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu’il a créées avec Whisper.

Les problèmes persistent même dans les échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a découvert 187 hallucinations dans plus de 13 000 extraits audio clairs qu’ils ont examinés.

Cette tendance entraînerait des dizaines de milliers de transcriptions défectueuses sur des millions d’enregistrements, ont indiqué les chercheurs.

De telles erreurs pourraient avoir « des conséquences très graves », en particulier en milieu hospitalier, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l’administration Biden jusqu’à l’année dernière.

“Personne ne veut d’un diagnostic erroné”, a déclaré Nelson, professeur à l’Institute for Advanced Study de Princeton, New Jersey. “Il devrait y avoir une barre plus haute.”

Whisper est également utilisé pour créer des sous-titres codés pour les sourds et les malentendants – une population particulièrement exposée aux transcriptions défectueuses. C’est parce que les sourds et les malentendants n’ont aucun moyen d’identifier les fabrications « cachées parmi tous ces autres textes », a déclaré Christian Vogler, qui est sourd et dirige le programme d’accès à la technologie de l’université Gallaudet.

OpenAI invité à résoudre le problème

La prévalence de telles hallucinations a conduit des experts, des défenseurs et d’anciens employés d’OpenAI à appeler le gouvernement fédéral à envisager de réglementer l’IA. Au minimum, ont-ils déclaré, OpenAI doit corriger la faille.

“Cela semble résoluble si l’entreprise est prête à y donner la priorité”, a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de préoccupations concernant l’orientation de l’entreprise. “C’est problématique si vous diffusez cela et que les gens sont trop confiants quant à ce qu’il peut faire et l’intègrent dans tous ces autres systèmes.”

Un porte-parole d’OpenAI a déclaré que la société étudiait continuellement comment réduire les hallucinations et appréciait les conclusions des chercheurs, ajoutant qu’OpenAI intègre les commentaires dans les mises à jour du modèle.

Alors que la plupart des développeurs supposent que les outils de transcription orthographient mal les mots ou font d’autres erreurs, les ingénieurs et les chercheurs ont déclaré qu’ils n’avaient jamais vu un autre outil de transcription alimenté par l’IA halluciner autant que Whisper.

Hallucinations chuchotées

L’outil est intégré à certaines versions du chatbot phare d’OpenAI, ChatGPT, et constitue une offre intégrée aux plates-formes de cloud computing d’Oracle et de Microsoft, qui servent des milliers d’entreprises dans le monde. Il est également utilisé pour transcrire et traduire du texte dans plusieurs langues.

Au cours du dernier mois seulement, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois à partir de la plateforme d’IA open source HuggingFace. Sanchit Gandhi, ingénieur en apprentissage automatique, a déclaré que Whisper est le modèle de reconnaissance vocale open source le plus populaire et qu’il est intégré à tout, des centres d’appels aux assistants vocaux.

Les professeurs Allison Koenecke de l’Université Cornell et Mona Sloane de l’Université de Virginie ont examiné des milliers de courts extraits obtenus auprès de TalkBank, un référentiel de recherche hébergé à l’Université Carnegie Mellon. Ils ont déterminé que près de 40 % des hallucinations étaient nocives ou inquiétantes, car le locuteur pouvait être mal interprété ou déformé.

Dans un exemple qu’ils ont découvert, un orateur a déclaré : « Lui, le garçon, allait, je ne suis pas sûr exactement, prendre le parapluie. »

Mais le logiciel de transcription ajoute : “Il a pris un gros morceau de croix, un tout petit morceau… Je suis sûr qu’il n’avait pas de couteau terroriste, alors il a tué un certain nombre de personnes.”

Un intervenant dans un autre enregistrement a décrit « deux autres filles et une dame ». Whisper a inventé un commentaire supplémentaire sur la race, ajoutant “deux autres filles et une dame, euh, qui étaient noires”.

Dans une troisième transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques hyperactivés ».

Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires hallucinent, mais les développeurs de logiciels ont déclaré que les fabrications ont tendance à se produire au milieu de pauses, de bruits de fond ou de musique.

OpenAI a recommandé dans ses publications en ligne de ne pas utiliser Whisper dans « des contextes de prise de décision, où des défauts d’exactitude peuvent conduire à des défauts prononcés dans les résultats ».

Transcription des rendez-vous chez le médecin

Cet avertissement n’a pas empêché les hôpitaux ou les centres médicaux d’utiliser des modèles de synthèse vocale, notamment Whisper, pour transcrire ce qui est dit lors des visites chez le médecin afin de permettre aux prestataires médicaux de consacrer moins de temps à la prise de notes ou à la rédaction de rapports.

Plus de 30 000 cliniciens et 40 systèmes de santé, dont la clinique Mankato au Minnesota et l’hôpital pour enfants de Los Angeles, ont commencé à utiliser un outil basé sur Whisper développé par Nabla, qui possède des bureaux en France et aux États-Unis.

Cet outil a été adapté au langage médical pour transcrire et résumer les interactions des patients, a déclaré Martin Raison, directeur technologique de Nabla.

Les responsables de la société ont déclaré qu’ils étaient conscients que Whisper pouvait avoir des hallucinations et qu’ils atténuaient le problème.

Il est impossible de comparer la transcription générée par l’IA de Nabla à l’enregistrement original, car l’outil de Nabla efface l’audio original pour « des raisons de sécurité des données », a déclaré Raison.

Nabla a déclaré que l’outil avait été utilisé pour transcrire environ 7 millions de visites médicales.

Saunders, l’ancien ingénieur d’OpenAI, a déclaré que l’effacement de l’audio original pourrait être inquiétant si les transcriptions ne sont pas vérifiées ou si les cliniciens ne peuvent pas accéder à l’enregistrement pour vérifier qu’ils sont corrects.

« Vous ne pouvez pas déceler les erreurs si vous supprimez la vérité terrain », a-t-il déclaré.

Nabla a déclaré qu’aucun modèle n’est parfait et que le leur exige actuellement que les prestataires médicaux éditent et approuvent rapidement les notes transcrites, mais que cela pourrait changer.

Problèmes de confidentialité

Les réunions des patients avec leurs médecins étant confidentielles, il est difficile de savoir dans quelle mesure les transcriptions générées par l’IA les affectent.

Une législatrice de l’État de Californie, Rebecca Bauer-Kahan, a déclaré qu’elle avait emmené l’un de ses enfants chez le médecin plus tôt cette année et avait refusé de signer un formulaire fourni par le réseau de santé qui lui demandait la permission de partager l’audio de la consultation avec des fournisseurs parmi lesquels Microsoft Azure, le système de cloud computing géré par le plus grand investisseur d’OpenAI. Bauer-Kahan ne voulait pas que des conversations médicales aussi intimes soient partagées avec des entreprises technologiques, a-t-elle déclaré.

“Le communiqué était très précis sur le fait que les entreprises à but lucratif auraient le droit d’avoir cela”, a déclaré Bauer-Kahan, un démocrate qui représente une partie de la banlieue de San Francisco à l’Assemblée de l’État. «Je me suis dit ‘absolument pas’.»

Le porte-parole de John Muir Health, Ben Drew, a déclaré que le système de santé était conforme aux lois nationales et fédérales sur la protection de la vie privée.

___

Schellmann a rapporté à New York.

___

Cette histoire a été réalisée en partenariat avec le AI Accountability Network du Pulitzer Center, qui a également soutenu en partie l’étude universitaire Whisper.

___

L’Associated Press reçoit une aide financière du réseau Omidyar pour soutenir la couverture de l’intelligence artificielle et de son impact sur la société. AP est seul responsable de tout le contenu. Trouvez les normes d’AP pour travailler avec des organisations philanthropiques, une liste de sympathisants et les zones de couverture financées sur AP.org.

___

L’Associated Press et OpenAI ont un accord de licence et de technologie permettant à OpenAI d’accéder à une partie des archives textuelles de l’AP.

#Des #chercheurs #affirment #quun #outil #transcription #basé #sur #lIA #utilisé #dans #les #hôpitaux #invente #des #choses #personne #jamais #dites

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.