2024-01-01 07:30:00
Les protéines conçues par l’IA pourraient être utilisées dans l’industrie – ou en médecine du cancer.
Chat GPT a pris d’assaut le monde. Le chatbot écrit des essais, des poèmes et même du code de programmation. Il a l’incroyable capacité de générer un texte qui est non seulement grammaticalement correct, mais qui peut même jouer avec les nuances. Le chatbot est basé sur un type spécifique d’intelligence artificielle, ce que l’on appelle les grands modèles de langage.
Aujourd’hui, les chercheurs ont développé des modèles de langage qui n’ont pas appris l’anglais, le français ou l’allemand, mais le langage de la biologie.
Plus précisément : le langage des protéines. Parce qu’il existe des parallèles surprenants entre la structure des éléments constitutifs centraux de la biologie et la structure de notre langage.
Il semble évident que les modèles qui fonctionnent bien en langage ont également du potentiel en biologie. L’un des premiers à mener des recherches dans ce domaine a été le groupe dirigé par le professeur Burkhard Rost de l’Université technique de Munich. «J’étais extrêmement sceptique au début, je ne pensais pas que ça marcherait. L’analogie à elle seule ne signifie pas que cela fonctionnera. Il y a tellement d’analogies qui ne fonctionnent pas », déclare Rost.
Il ne faut pas non plus oublier qu’en plus des parallèles, il existe également des différences importantes. Il n’y a que 20 acides aminés différents dans les protéines, ce qui est ridiculement peu comparé aux 500 000 mots que le Duden considère comme le vocabulaire de l’allemand contemporain. Cependant, les protéines contenant plusieurs centaines d’acides aminés sont beaucoup plus longues qu’une phrase normale, qui dure généralement moins de 30 mots.
En fin de compte, un petit groupe de ses étudiants diplômés persuade Rost d’essayer d’utiliser des modèles linguistiques. En 2019, ils seront l’un des premiers groupes de recherche à appliquer des modèles de langage aux données biologiques. De nombreuses autres équipes scientifiques suivront.
Les modèles de langage apprennent à partir de textes cloze
Les modèles linguistiques tels que ceux qui sous-tendent Chat-GPT apprennent via des textes à remplir. Et il y a certainement suffisamment de texte sur Internet. Chacun d’eux peut être utilisé pour entraîner un modèle de langage. Ces énormes quantités de données sont ce qui fait le succès des modèles linguistiques.
Les modèles de langage biologique ont adopté cette recette du succès. Les séquences de nombreuses protéines sont désormais connues. La plus grande base de données sur les protéines, Uniprot, répertorie désormais plus de 250 millions d’entrées de séquences protéiques. Chacun peut être utilisé pour créer un texte cloze qui peut être utilisé pour alimenter le modèle de langage.
Afin de remplir correctement les espaces vides, le modèle doit apprendre beaucoup de choses sur la langue : signification des mots, grammaire et liens entre les mots. En fin de compte, toutes ces informations se trouvent quelque part dans le modèle linguistique entièrement formé. De la même manière, le modèle de langage formé avec des protéines a appris beaucoup de choses fondamentales sur les propriétés et l’interaction des acides aminés et des protéines.
Comprendre le langage des protéines peut résoudre de nombreux problèmes
Cette connaissance est utile. De la même manière que les chatbots basés sur des modèles de langage peuvent générer de nouvelles phrases significatives, de nouvelles protéines fonctionnelles peuvent être conçues sur la base de modèles de langage biologiques. Et tout comme vous pouvez demander aux chatbots de formuler des phrases sur un certain sujet et dans un certain style, vous pouvez également indiquer aux chatbots protéiques quelles propriétés doivent avoir les protéines générées.
Pour quelle raison? Les protéines sont extrêmement polyvalentes et peuvent donc être utilisées pour une grande variété d’applications. Par exemple, les chercheurs espèrent utiliser cette technologie pour concevoir de nouveaux anticorps qui alertent le système immunitaire de la présence de cellules cancéreuses. Pour ce faire, un anticorps doit s’adapter exactement à la cellule cancéreuse, comme la clé d’une serrure. Jusqu’à présent, des anticorps adaptés n’ont été trouvés que pour quelques sous-catégories, comme certaines formes de cancer du sein. Les chatbots protéiques pourraient bientôt suggérer de nouveaux anticorps contre de nombreux types de cancer, ce qui pourrait améliorer considérablement les chances de survie des patients.
De nombreuses applications sont également envisageables en dehors de la médecine. Dans l’industrie, on souhaite développer des protéines capables d’effectuer certaines réactions chimiques. Ou bien vous souhaitez concevoir des protéines pouvant servir de capteurs de substances dangereuses.
La conception de nouvelles protéines est depuis longtemps un domaine de recherche établi. Mais jusqu’à présent, les scientifiques devaient se limiter à apporter de petites modifications à des protéines déjà connues afin de produire de nouvelles protéines possédant les propriétés souhaitées. Parce que toutes les séquences possibles d’acides aminés ne donnent pas lieu à une protéine fonctionnelle – tout comme toutes les séquences de mots ne forment pas une phrase. Les modèles de langage ouvrent désormais la porte à la création de protéines complètement nouvelles.
Mais avec l’aide de modèles de langage biologique, vous pouvez non seulement concevoir de nouvelles protéines, mais également prédire les propriétés de protéines dont nous ne connaissons actuellement que la séquence protéique. Ceci est particulièrement important lors du développement de nouveaux médicaments. Par exemple, on aimerait prédire quelles protéines de la cellule seraient de bonnes cibles pour un nouveau médicament ou lesquelles pourraient interagir avec des médicaments existants.
Les applications envisageables sont très différentes. Mais les chatbots protéiques bénéficient d’une chose : le langage de la biologie est toujours le même. Toutes les différentes applications peuvent donc s’appuyer sur le même modèle de langage et s’en inspirer de différentes manières. Cela signifie que tous les groupes de recherche ne doivent pas consacrer du temps à la formation de leur propre modèle linguistique. Vous pouvez plutôt vous appuyer sur des modèles déjà publiés par les grands géants de la technologie. Par exemple, le modèle de langage à grandes protéines est populaire ESM-2publié l’année dernière par des chercheurs de la société Meta.
La technologie est encore très nouvelle et il est difficile de prédire où les développements nous mèneront. Comme pour toute nouvelle technologie, il deviendra clair que les modèles linguistiques ne sont pas omnipotents. Cependant, le potentiel et les limites des nouveaux modèles de langage protéique sont loin d’être explorés. Le développement n’en est qu’à ses débuts. Cela pourrait être le début d’un battage médiatique éphémère – ou le début d’une révolution.
Quoi qu’il en soit, l’enthousiasme des scientifiques est grand et grandit chaque jour. Rien que cette année, plus de 100 publications scientifiques sur les modèles de langage protéique ont été publiées. Tendance ascendante.
Le professeur Rost espère que cette histoire à succès se poursuivra. “Dans quelques années, les modèles linguistiques seront à l’avant-garde de toutes les recherches impliquant des séquences protéiques”, dit-il. Il en est certain : « Cela va changer la biologie. »
#Voice #pour #biologie #PNL #révolutionne #conception #des #protéines
1704083826