Un « scientifique en IA » nouvellement créé est sur le point de commencer à produire des recherches : ScienceAlert

La découverte scientifique est l’une des activités humaines les plus sophistiquées. Les scientifiques doivent d’abord comprendre les connaissances existantes et identifier les lacunes importantes.

Ensuite, ils doivent formuler une question de recherche et concevoir et mener une expérience pour trouver une réponse.

Ensuite, ils doivent analyser et interpréter les résultats de l’expérience, ce qui peut soulever une autre question de recherche.

Un processus aussi complexe peut-il être automatisé ? La semaine dernière, Annonce de la création de Sakana AI Labs la création d’un « scientifique IA » – un système d’intelligence artificielle qui, selon eux, peut faire des découvertes scientifiques dans le domaine de l’apprentissage automatique de manière entièrement automatisée.

En utilisant des modèles de langage génératifs de grande taille (LLM) comme ceux derrière ChatGPT et d’autres chatbots d’IA, le système peut réfléchir, sélectionner une idée prometteuse, coder de nouveaux algorithmes, tracer les résultats et rédiger un article résumant l’expérience et ses conclusions, avec des références complètes.

Sakana affirme que l’outil d’IA peut prendre en charge le cycle de vie complet d’une expérience scientifique pour un coût de seulement 15 dollars par article, soit moins que le coût du déjeuner d’un scientifique.

Voilà de grandes affirmations. Sont-elles fondées ? Et même si c’était le cas, une armée de scientifiques IA produisant des articles de recherche à une vitesse inhumaine serait-elle vraiment une bonne nouvelle pour la science ?

Comment un ordinateur peut « faire de la science »

Une grande partie des travaux scientifiques sont réalisés en public, et presque toutes les connaissances scientifiques ont été écrites quelque part (sinon nous n’aurions aucun moyen de les « connaître »). Des millions d’articles scientifiques sont disponibles gratuitement en ligne dans des référentiels tels que arXiv et PubMed.

Les LLM formés avec ces données saisissent le langage de la science et ses modèles. Il n’est donc peut-être pas du tout surprenant qu’un LLM génératif puisse produire quelque chose qui ressemble à un bon article scientifique – il a ingéré de nombreux exemples qu’il peut copier.

Ce qui est moins clair, c’est de savoir si un système d’IA peut produire un intéressant Article scientifique. Une bonne science requiert avant tout de la nouveauté.

Mais est-ce intéressant ?

Les scientifiques ne veulent pas qu’on leur parle de choses déjà connues. Ils veulent plutôt apprendre de nouvelles choses, en particulier des choses qui sont très différentes de ce qu’ils connaissent déjà. Cela nécessite de savoir évaluer la portée et la valeur d’une contribution.

Le système Sakana tente d’aborder l’intérêt de deux manières. Tout d’abord, il « note » les nouvelles idées d’articles en fonction de leur similitude avec les recherches existantes (indexées dans le Érudit sémantique (référentiel). Tout ce qui est trop similaire est rejeté.

Deuxièmement, le système de Sakana introduit une étape de « révision par les pairs » – en utilisant un autre LLM pour juger de la qualité et de la nouveauté du document généré. Là encore, il existe de nombreux exemples de révision par les pairs en ligne sur des sites tels que openreview.net qui peuvent vous guider dans la manière de critiquer un article. Les LLM les ont également intégrés.

L’IA peut être un mauvais juge de ses résultats

Les retours sont mitigés sur les résultats de Sakana AI. Certains l’ont décrit comme produisant «un blabla scientifique sans fin“.

Même si le système lui-même évalue ses résultats, les articles sont au mieux médiocres. Cette situation devrait s’améliorer à mesure que la technologie évolue, mais la question de la valeur des articles scientifiques automatisés demeure.

La capacité des LLM à juger de la qualité de la recherche est également une question ouverte. Mon propre travail (bientôt publié dans Méthodes de synthèse de la recherche) montre que les LLM ne sont pas très doués pour évaluer le risque de biais dans les études de recherche médicale, même si cela peut également s’améliorer avec le temps.

Le système de Sakana automatise les découvertes dans la recherche informatique, ce qui est beaucoup plus facile que dans d’autres types de sciences qui nécessitent des expériences physiques. Les expériences de Sakana sont réalisées avec du code, qui est également un texte structuré que les LLM peuvent être formés à générer.

Des outils d’IA pour soutenir les scientifiques, et non les remplacer

Les chercheurs en intelligence artificielle développent depuis des décennies des systèmes destinés à soutenir la science. Compte tenu du volume considérable de recherches publiées, il peut s’avérer difficile de trouver des publications pertinentes sur une question scientifique spécifique.

Des outils de recherche spécialisés utilisent l’IA pour aider les scientifiques à trouver et à synthétiser les travaux existants. Il s’agit notamment de Semantic Scholar, mentionné ci-dessus, mais aussi de systèmes plus récents tels que Obtenir, Lapin de recherche, savoir et Consensus.

Outils d’exploration de texte tels que PubTator approfondissez les articles pour identifier les points clés, tels que les mutations génétiques et les maladies spécifiques, ainsi que leurs relations établies. Cela est particulièrement utile pour organiser et organiser les informations scientifiques.

L’apprentissage automatique a également été utilisé pour soutenir la synthèse et l’analyse des preuves médicales, dans des outils tels que Testeur de robots. Résumés qui comparent et contrastent les affirmations contenues dans les articles de Bourse d’études aider à réaliser des revues de littérature.

Tous ces outils visent à aider les scientifiques à faire leur travail plus efficacement, et non à les remplacer.

La recherche sur l’IA pourrait aggraver les problèmes existants

Tandis que Sakana AI États Même si le rôle des scientifiques humains ne diminue pas, la vision de l’entreprise d’un « écosystème scientifique entièrement piloté par l’IA » aurait des implications majeures pour la science.

L’une des préoccupations est que, si les articles générés par l’IA inondent la littérature scientifique, les futurs systèmes d’IA pourraient être formés sur la sortie de l’IA et subir effondrement du modèleCela signifie qu’ils risquent de devenir de plus en plus inefficaces en matière d’innovation.

Toutefois, les implications pour la science vont bien au-delà des impacts sur les systèmes scientifiques d’IA eux-mêmes.

Il existe déjà de mauvais acteurs dans le monde scientifique, notamment des « usines à papier » qui produisent faux papiersCe problème ne se posera que empirer lorsqu’un article scientifique peut être produit avec 15 dollars américains et une invite initiale vague.

La nécessité de vérifier les erreurs dans une montagne de recherches générées automatiquement pourrait rapidement dépasser les capacités des scientifiques actuels. Le système d’évaluation par les pairs est sans doute déjà casséet injecter davantage de recherches de qualité douteuse dans le système ne résoudra pas le problème.

La science est fondamentalement basée sur la confiance. Les scientifiques mettent l’accent sur l’intégrité du processus scientifique afin que nous puissions être sûrs que notre compréhension du monde (et désormais des machines du monde) est valable et s’améliore.

Un écosystème scientifique dans lequel les systèmes d’IA jouent un rôle clé soulève des questions fondamentales sur le sens et la valeur de ce processus, et sur le niveau de confiance que nous devrions accorder aux scientifiques spécialisés en IA. Est-ce le type d’écosystème scientifique que nous souhaitons ?

Karin VerspoorDoyen, École des technologies informatiques, Université RMIT, Université RMIT

2024-08-24 14:31:19
1724501460


#scientifique #nouvellement #créé #est #sur #point #commencer #produire #des #recherches #ScienceAlert

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.