Des outils d’intelligence artificielle mettent en lumière des millions de protéines

Des outils d’intelligence artificielle mettent en lumière des millions de protéines

Un instantané du réseau interactif « Protein Universe Atlas ». CRÉDIT Université de Bâle, Biozentrum

Note de l’éditeur: la vie sur Terre utilise une multitude de protéines. Mais il existe bien plus de protéines – des millions – qui peuvent exister – bien plus que ce qui est utilisé par la biologie terrestre. Quelles protéines seront utilisées dans le métabolisme des formes de vie sur d’autres mondes ? Seront-ils très semblables à nous, légèrement similaires ou totalement « extraterrestres » ?

______________

Une équipe de recherche de l’Université de Bâle et de l’Institut suisse de bioinformatique SIB a découvert un trésor de protéines non caractérisées. Profitant de la récente révolution de l’apprentissage profond, ils ont découvert des centaines de nouvelles familles de protéines et même un nouveau repli protéique prédit. L’étude a maintenant été publiée dans Nature.

Ces dernières années, AlphaFold a révolutionné la science des protéines. Cet outil d’intelligence artificielle (IA) a été formé à partir de données protéiques collectées par des scientifiques du vivant depuis plus de 50 ans et est capable de prédire la forme 3D des protéines avec une grande précision. Son succès a incité à modéliser un nombre incroyable de 215 millions de protéines l’année dernière, fournissant ainsi un aperçu de la forme de presque toutes les protéines. Ceci est particulièrement intéressant pour les protéines qui n’ont pas été étudiées expérimentalement, un processus complexe et long.

Lire aussi  En mission : plus de femmes astronautes

“Il existe désormais de nombreuses sources d’informations sur les protéines, contenant des informations précieuses sur la façon dont les protéines évoluent et fonctionnent”, explique Joana Pereira, responsable de l’étude. Néanmoins, la recherche est depuis longtemps confrontée à une jungle de données. L’équipe de recherche dirigée par le professeur Torsten Schwede, chef de groupe au Biozentrum de l’Université de Bâle et à l’Institut suisse de bioinformatique (SIB), a réussi à décrypter certaines informations dissimulées.

a, À partir des clusters d’UniRef50, nous avons collecté toutes les annotations fonctionnelles pour toutes les entrées UniProtKB et UniParc incluses, y compris les prédictions de domaine (D), de bobine enroulée (CC) et intrinsèquement désordonnées (IDP) et en excluant toutes celles avec putatif, hypothétiques, non caractérisés et DUF dans leurs noms. Cx correspond à la couverture d’une annotation, Ci correspond à la luminosité fonctionnelle sur toute la séquence. Nous avons sélectionné la protéine présentant la couverture d’annotation complète la plus élevée (c’est-à-dire la luminosité, Ci) comme représentant fonctionnel de chaque cluster. b, À partir des clusters UniRef50 collectés, nous avons sélectionné ceux avec un représentant structurel avec pLDDT supérieur à 90 dans l’AFDB v.4 et avons construit un réseau de similarité de séquences à grande échelle par des recherches MMseqs2 tous contre tous, représentant le paysage de séquences de plus de 6 millions de clusters UniRef50. – Nature

Une vue plongeante révèle de nouvelles familles et replis de protéines

Lire aussi  Le Gouvernement présente la trajectoire basque en science, technologie et innovation à Bruxelles et réaffirme son engagement envers la collaboration interrégionale - Gouvernement Basque

Les chercheurs ont construit un réseau interactif de 53 millions de protéines dotées de structures AlphaFold de haute qualité. « Ce réseau constitue une source précieuse pour prédire théoriquement des familles de protéines inconnues et leurs fonctions à grande échelle », souligne le Dr Janani Durairaj, premier auteur. L’équipe a pu identifier 290 nouvelles familles de protéines et un nouveau repli protéique ressemblant à la forme d’une fleur.

S’appuyant sur l’expertise du groupe Schwede dans le développement et la maintenance du logiciel leader SWISS-MODEL, ils ont rendu le réseau disponible sous la forme d’une ressource Web interactive, appelée « Atlas de l’univers des protéines ».

L’IA comme outil précieux dans la recherche

L’équipe a utilisé des outils basés sur le Deep Learning pour trouver des nouveautés dans ce réseau, ouvrant ainsi la voie à des innovations dans les sciences de la vie, de la recherche fondamentale à la recherche appliquée. “Comprendre la structure et la fonction des protéines est généralement l’une des premières étapes pour développer un nouveau médicament, ou modifier leurs fonctions par ingénierie protéique, par exemple”, explique Pereira. Le travail a été soutenu par une subvention « kickstarter » du SIB pour encourager l’adoption de l’IA dans les ressources des sciences de la vie. Il souligne le potentiel transformateur du Deep Learning et des algorithmes intelligents dans la recherche.

Lire aussi  Panique la nuit

Grâce au Protein Universe Atlas, les scientifiques peuvent désormais en apprendre davantage sur les protéines pertinentes pour leurs recherches. “Nous espérons que cette ressource aidera non seulement les chercheurs et les bioconservateurs, mais également les étudiants et les enseignants en fournissant une nouvelle plateforme pour en apprendre davantage sur la diversité des protéines, de la structure à la fonction, en passant par l’évolution”, déclare Janani Durairaj.

Atlas de l’univers des protéines :

Découvrir de nouvelles familles et replis dans l’univers des protéines naturellesNature (accès libre)

Astrobiologie

2023-11-13 04:30:12
1699839516


#Des #outils #dintelligence #artificielle #mettent #lumière #des #millions #protéines

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.