Pourquoi l’IA a du mal à comprendre qu’un enfant de six ans ne peut pas être médecin ou prétendre à une pension

2024-07-31 16:10:44

Lorsque vous vous rendez à l’hôpital pour une analyse de sang, les résultats sont enregistrés dans un ensemble de données et comparés aux résultats d’autres patients et aux données démographiques. Cela permet aux médecins de vous comparer (votre sang, votre âge, votre sexe, vos antécédents médicaux, vos scanners, etc.) aux résultats et aux antécédents d’autres patients, ce qui leur permet de prévoir, de gérer et de développer de nouveaux traitements.

Depuis des siècles, c’est la base de la recherche scientifique : identifier un problème, recueillir des données, rechercher des modèles et construire un modèle pour le résoudre. L’espoir est que l’intelligence artificielle (IA) – celle que l’on appelle Apprentissage automatique qui crée des modèles à partir de données – sera capable de le faire beaucoup plus rapidement, efficacement et précisément que les humains.

Cependant, l’entraînement de ces modèles d’IA nécessite une grande quantité de données, à tel point que certaines d’entre elles doivent être synthétiques : il ne s’agit pas de données réelles provenant de personnes réelles, mais de données reproduisant des modèles existants. La plupart des ensembles de données synthétiques sont eux-mêmes générés par l’IA basée sur le Machine Learning.

Les erreurs grossières des générateurs d’images et des chatbots sont faciles à repérer, mais les données synthétiques produisent également des hallucinations : des résultats improbables, biaisés ou tout simplement impossibles. Comme pour les images et les textes, elles peuvent être amusantes, mais l’utilisation généralisée de ces systèmes dans tous les domaines de la vie publique signifie que le potentiel de nuisance est énorme.



En savoir plus : La formation de l’IA nécessite plus de données que nous n’en avons – générer des données synthétiques pourrait aider à résoudre ce défi


Qu’est-ce que les données synthétiques ?

Les modèles d’IA ont besoin de beaucoup plus de données que ce que le monde réel peut offrir. Les données synthétiques offrent une solution : l’IA générative examine les distributions statistiques dans un ensemble de données réel et crée un nouveau modèle. synthétique pour former d’autres modèles d’IA.

Ces données « pseudo » synthétiques sont similaires mais pas identiques à l’original, ce qui signifie qu’elles peuvent également garantir la confidentialité, contourner les réglementations sur les données et être librement partagées ou distribuées.

Les données synthétiques peuvent également compléter les ensembles de données réels, les rendant suffisamment volumineux pour entraîner un système d’IA. Ou, si un ensemble de données réel est biaisé (par exemple, s’il comporte trop peu de femmes ou s’il surreprésente les cardigans au lieu des pulls), les données synthétiques peuvent l’équilibrer. Le débat sur la mesure dans laquelle les données synthétiques peuvent s’écarter de l’original fait actuellement rage.

Des omissions flagrantes

Sans une curation appropriée, les outils qui créent des données synthétiques surreprésenteront toujours des éléments qui sont déjà dominants dans un ensemble de données et sous-représenter (ou même omettre) les « cas limites » moins courants.

C’est ce qui a initialement suscité mon intérêt pour les données synthétiques. La recherche médicale sous-représente déjà les femmes et les autres minoritéset j’avais peur que les données synthétiques aggravent ce problème. J’ai donc fait équipe avec un scientifique en apprentissage automatique, Dr Saghi Hajisharifpour explorer le phénomène de disparition des cas limites.

Les hallucinations visuelles sont souvent plus faciles à repérer : cette image générée par l’IA ajoute une voie ferrée supplémentaire au viaduc de Glenfinnan, un célèbre pont ferroviaire en Écosse.
Wikimedia Commons

Dans notre recherchenous avons utilisé un type d’IA appelé GAN pour créer des versions synthétiques des données du recensement américain des adultes de 1990. Comme prévu, des cas limites manquaient dans les ensembles de données synthétiques. Dans les données originales, nous avions 40 pays d’origine, mais dans une version synthétique, il n’y en avait que 31 – les données synthétiques excluaient les immigrants de 9 pays.

Une fois que nous avons eu connaissance de cette erreur, nous avons pu modifier nos méthodes et les inclure dans un nouvel ensemble de données synthétiques. C’était possible, mais seulement avec une sélection minutieuse.

« Hallucinations intersectionnelles » – L’IA crée des données impossibles

Nous avons ensuite commencé à remarquer autre chose dans les données : hallucinations intersectionnelles.

Intersectionnalité est un concept des études de genre. Il décrit dynamiques de pouvoir qui produisent des discriminations et des privilèges pour différentes personnes de différentes manièresIl ne s’intéresse pas uniquement au genre, mais aussi à l’âge, à la race, à la classe, au handicap, etc., et à la manière dont ces éléments se « croisent » dans n’importe quelle situation.

Cela peut éclairer la manière dont nous analysons les données synthétiques – toutes les données, pas seulement les données de population – car les aspects qui se croisent d’un ensemble de données produisent des combinaisons complexes de peu importe que les données décrivent.

Dans notre ensemble de données synthétiques, la représentation statistique des différentes catégories était assez bonne. La répartition par âge, par exemple, était similaire dans les données synthétiques à celle d’origine. Pas identique, mais proche. C’est une bonne chose, car les données synthétiques doivent être similaires à l’original, et non le reproduire exactement.

Nous avons ensuite analysé nos données synthétiques pour les intersections. Certaines des intersections les plus complexes ont également été reproduites. Par exemple, dans notre ensemble de données synthétiques, l’intersection de âge-revenu-sexe a été reproduite assez fidèlement. Nous avons appelé cette précision « fidélité intersectionnelle ».

Mais nous avons également remarqué que les données synthétiques comportaient 333 points de données étiquetés « mari/femme et célibataire » – une hallucination intersectionnelle. L’IA n’avait pas appris (ou n’avait pas été informée) que c’était impossible. Parmi ceux-ci, plus de 100 points de données étaient des « maris jamais mariés gagnant moins de 50 000 USD par an », une hallucination intersectionnelle qui n’existait pas dans les données originales.

En revanche, les données originales incluaient plusieurs « femmes veuves travaillant dans le support technique », mais elles étaient complètement absentes de la version synthétique.

Cela signifie que notre ensemble de données synthétiques pourrait être utilisé pour la recherche sur âge-revenu-sexe questions (où il y avait une fidélité intersectionnelle) mais pas si l’on s’intéressait aux « femmes veuves travaillant dans le support technique ». Et il faut faire attention aux « maris jamais mariés » dans les résultats.

La grande question est : où cela s’arrête-t-il ? Ces hallucinations sont des intersections en 2 et 3 parties, mais qu’en est-il des intersections en 4 parties ? Ou en 5 parties ? À quel moment (et à quelles fins) les données synthétiques deviendraient-elles non pertinentes, trompeuses, inutiles ou dangereuses ?

Adopter les hallucinations intersectionnelles

Les ensembles de données structurés existent parce que les relations entre les colonnes d’une feuille de calcul nous disent quelque chose d’utile. Souvenez-vous de l’analyse sanguine. Les médecins veulent savoir comment votre sang se compare au sang normal et aux résultats d’autres maladies et traitements. C’est la raison pour laquelle nous organisons les données en premier lieu, et ce depuis des siècles.

Cependant, lorsque nous utilisons des données synthétiques, des hallucinations intersectionnelles vont toujours se produire car les données synthétiques doivent être légèrement différentes de l’original, sinon ce ne serait qu’une simple copie des données originales. Les données synthétiques a besoin des hallucinations, mais seulement du bon type – celles qui amplifient ou élargissent l’ensemble de données, mais ne créent pas quelque chose d’impossible, de trompeur ou de biaisé.

L’existence d’hallucinations intersectionnelles signifie qu’un seul ensemble de données synthétiques ne peut pas fonctionner pour de nombreuses utilisations différentes. Chaque cas d’utilisation nécessitera des ensembles de données synthétiques sur mesure avec des hallucinations étiquetées, ce qui nécessite un système reconnu.

Construire des systèmes d’IA fiables

Pour que l’IA soit digne de confiance, nous devons savoir quelles hallucinations intersectionnelles existent dans ses données d’entraînement, en particulier lorsqu’elles sont utilisées pour prédire la façon dont les gens vont agir, ou pour nous réguler, nous gouverner, nous traiter ou nous surveiller. Nous devons nous assurer qu’elles ne sont pas entraînées à des hallucinations intersectionnelles dangereuses ou trompeuses – comme un médecin de 6 ans qui reçoit des versements de pension.

Mais que se passe-t-il lorsque des ensembles de données synthétiques sont utilisés sans précaution ? Il n’existe actuellement aucun moyen standard de les identifier et ils sont souvent confondus avec des données réelles. Lorsqu’un ensemble de données est partagé pour être utilisé par d’autres, il est impossible de savoir s’il est fiable et de distinguer une hallucination d’une hallucination. Nous avons besoin de moyens clairs et universellement reconnaissables pour identifier les données synthétiques.

Les hallucinations intersectionnelles ne sont peut-être pas aussi amusantes qu’une main à 15 doigts ou qu’une recommandation de mettre de la colle sur une pizza. Ce sont des chiffres et des statistiques ennuyeux et peu attrayants, mais ils nous affecteront tous. Tôt ou tard, les données synthétiques vont se répandre partout et, de par leur nature même, elles contiendront toujours des hallucinations intersectionnelles. Certaines sont désirables, d’autres non, mais le problème est de les distinguer. Nous devons rendre cela possible avant qu’il ne soit trop tard.



#Pourquoi #lIA #mal #comprendre #quun #enfant #ans #peut #pas #être #médecin #prétendre #une #pension
1722793029

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.