Nouvelles Du Monde

Meta dit qu’il a créé un modèle de repliement de protéines de nouvelle génération

Meta dit qu’il a créé un modèle de repliement de protéines de nouvelle génération

Les chercheurs en intelligence artificielle de Meta affirment avoir développé le plus grand modèle de repliement de protéines de ce type à ce jour et qu’il est capable de prédire la structure de plus de 600 millions de protéines.

L’équipe publié le modèle basé sur le transformateur ESM-2 à 15 milliards de paramètres et une base de données de ses prédictions de structure protéique, surnommé le Atlas métagénomique ESM, mardi. Cette base de données comprend des formes de protéines qui n’ont pas encore été observées par les scientifiques.

Les protéines sont des molécules biologiques complexes contenant jusqu’à 20 types d’acides aminés et remplissent toutes sortes de fonctions biologiques dans les organismes. Fondamentalement, ils se replient en structures 3D complexes, dont la forme est essentielle à leur fonctionnement ; connaître leur forme aide les scientifiques à comprendre comment ils fonctionnent et, à partir de là, les aide à trouver des moyens d’imiter, de modifier ou de contrer ce comportement.

Malheureusement, vous ne pouvez pas simplement prendre la formule d’acides aminés et déterminer immédiatement la structure finale. Vous pouvez faire des simulations ou des expérimentations pour éventuellement le comprendre, mais cela prend du temps. De nos jours, vous pouvez donner à un logiciel d’apprentissage automatique correctement formé la composition chimique d’une protéine et le modèle prédira rapidement et avec précision, relativement parlant, la structure.

En effet, DeepMind l’a démontré avec son modèle AlphaFold, qui a gagné le concours international biennal CASP de repliement de protéines de calcul en 2020. Étant donné une chaîne d’entrée d’acides aminés, AlphaFold et d’autres logiciels d’apprentissage automatique peuvent générer sa structure tridimensionnelle correspondante.

Les chercheurs de DeepMind, basé à Londres, ont depuis amélioré leur système pour prédire la structure de plus de 200 millions de protéines connues de la science. Le dernier système ESM de Meta est allé plus loin, prédisant des centaines de millions d’autres après avoir été formé sur des millions de séquences de protéines.

Un article préimprimé par l’équipe Meta – Lin et al – expliquant la conception de l’ESM-2 peut être trouvé ici. Chose intéressante, selon les chercheurs, le système est en fait un grand modèle de langage conçu pour “apprendre des modèles évolutifs et générer des prédictions de structure précises de bout en bout directement à partir de la séquence d’une protéine”. AlphaFold, pour sa part, n’est pas un modèle de langage et utilise une approche différente.

Lire aussi  SF DA prévoit d'orienter les récidivistes vers un traitement - NBC Bay Area

Comme le notent les boffins dans leur article, ces grands modèles de langage peuvent être utilisés pour bien plus que la gestion des langages humains : “Les modèles de langage modernes contenant des dizaines à des centaines de milliards de paramètres développent des capacités telles que la traduction de langage en quelques coups, le raisonnement de bon sens et les mathématiques. résolution de problèmes, le tout sans supervision explicite.

“Ces observations soulèvent la possibilité qu’une forme parallèle d’émergence puisse être présentée par des modèles de langage entraînés sur des séquences de protéines.”

Le résultat est ESM-2, qui, bien qu’un modèle de langage ait appris à prédire la forme physique d’une protéine à partir d’une chaîne de texte représentant ses acides aminés.

ESM-2 est le plus grand modèle de ce type et prédit apparemment les structures plus rapidement que des systèmes similaires ; il est jusqu’à 60 fois plus rapide que les systèmes de pointe précédents comme AlphaFold ou Rosetta, qui peuvent prendre plus de dix minutes pour générer une sortie, selon Meta.

Le modèle a pu créer l’Atlas métagénomique ESM, prédisant plus de 600 millions de structures à partir du MGnify90 base de données de protéines en seulement deux semaines fonctionnant sur 2 000 GPU. Sur un seul GPU Nvidia V100, il suffit de 14,2 secondes pour simuler une protéine composée de 384 acides aminés. Il semble d’après l’article que Meta a déclaré que son système correspondait principalement, mais pas entièrement, à AlphaFold en termes de précision, bien que sa vitesse soit l’élément clé, lui permettant de prédire plus de protéines.

Lire aussi  De nouvelles images spectaculaires du télescope Webb montrent une collision de galaxies à 270 millions d'années-lumière

“Avec les outils informatiques de pointe actuels, prédire les structures de centaines de millions de séquences de protéines dans un laps de temps pratique pourrait prendre des années, même en utilisant les ressources d’une grande institution de recherche. Pour faire des prédictions à l’échelle de la métagénomique, un une percée dans la vitesse de prédiction est essentielle », a déclaré le propriétaire de Facebook.

Meta espère que l’ESM-2 et l’atlas métagénomique de l’ESM contribueront à faire avancer la science en aidant les scientifiques à étudier l’histoire de l’évolution ou à lutter contre les maladies et le changement climatique. “Pour étendre ce travail encore plus loin, nous étudions comment les modèles de langage peuvent être utilisés pour concevoir de nouvelles protéines et contribuer à résoudre les problèmes de santé, de maladie et d’environnement”, a conclu l’entreprise. ®

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT