Home » Sciences et technologies » Une percée dans la prédiction 3D de la structure des protéines de grandes structures protéiques complexes

Une percée dans la prédiction 3D de la structure des protéines de grandes structures protéiques complexes

by Nouvelles
Une percée dans la prédiction 3D de la structure des protéines de grandes structures protéiques complexes

BaseFold exploite l’ensemble de données fondamentales spécialement conçu par Basecamp Research pour augmenter considérablement la précision de la prédiction des structures protéiques grandes et complexes et des interactions entre petites molécules : il est jusqu’à six fois plus précis qu’AlphaFold2 et offre une amélioration jusqu’à trois fois supérieure à l’amarrage des petites molécules.

Des prédictions de structure 3D plus fiables pour des protéines plus grandes et plus complexes sont sur le point d’accélérer considérablement les efforts de découverte de médicaments basés sur l’IA

LONDRES, 12 mars 2024 /PRNewswire/ — Recherche du camp de base, un leader mondial de la conception de protéines et d’autres systèmes biologiques basée sur l’intelligence artificielle (IA), a annoncé aujourd’hui le lancement de BaseFold, son nouveau modèle d’apprentissage profond qui prédit les structures 3D de grandes protéines complexes avec plus de précision que d’autres outils basés sur l’IA, y compris la référence de l’industrie, AlphaFold2. Ces données ont été récemment publiées dans bioRxiv.

Comparaison visuelle de la différence de performances de prédiction structurelle d’AlphaFold2 (orange) par rapport à BaseFold (cyan) dans les compétitions CASP15 et CAMEO. Illustrées ici avec les cibles protéiques T1113 (inhibiteur de la polymérase du bactériophage T7, à gauche) et 8SSD (méthionine synthase, à droite), les prédictions de BaseFold sont beaucoup plus proches des structures validées en laboratoire (beige). Les flèches blanches mettent en évidence les zones dans lesquelles les prédictions d’AlphaFold2 sont considérablement inexactes.

BaseFold a été créé en augmentant le modèle AlphaFold2, qui prédit la structure 3D d’une protéine en fonction de sa séquence d’acides aminés, avec BaseGraph. BaseGraph est l’ensemble de données fondamentales spécialement conçu par Basecamp Research pour l’IA biologique, collectés via des partenariats d’accès et de partage des avantages avec plus de 25 pays riches en biodiversité. Les améliorations de précision publiées ne sont qu’un point de départ, car BaseFold s’améliore continuellement de semaine en semaine à mesure que Basecamp Research étend son réseau mondial de partenariats pour la biodiversité. De plus, Basecamp Research travaillera avec NVIDIA pour optimiser et produire BaseFold pour NVIDIA BioNeMoune plateforme d’IA générative pour la découverte de médicaments.

La référence scientifique pour déterminer la structure des protéines reste l’utilisation de méthodes expérimentales lentes et fastidieuses telles que la cristallographie aux rayons X. Cependant, le développement d’AlphaFold2 en 2020 a constitué une avancée majeure dans l’utilisation de l’IA dans les biotechnologies, donnant aux scientifiques confiance dans les prédictions structurelles basées sur l’IA. Un large éventail de modèles de prédiction de structure ont depuis suivi AlphaFold2, notamment CollabFold, ESMFold, OpenFold et RoseTTAFold.

Cependant, les performances de ces modèles dépendent fortement de leurs données d’entraînement ; tous sont formés sur des bases de données publiques sur les protéines qui sont largement considérées comme inadaptées à l’ère de l’IA biotechnologique. Ces ensembles de données de formation publics sont petits, peu fiables et fortement biaisés en faveur des protéines provenant d’organismes modèles de laboratoire. On estime que les données de séquence capturées dans ces bases de données publiques représentent moins de 0,000001% de la vie sur Terre. Ces limitations de données signifient que les outils d’IA existants fonctionnent bien pour prédire les structures de protéines plus petites et plus simples qui sont bien représentées dans les ensembles de données publiques, mais ont souvent du mal à aller au-delà, créant des problèmes majeurs pour ceux qui utilisent l’IA pour développer de nouveaux médicaments complexes.

AlphaFold2 s’appuie largement sur la base de données publique MGnify, connue pour avoir des problèmes avec des séquences incomplètes, ce qui peut avoir un impact sur la qualité des structures prédites pour les protéines plus grosses. BaseFold de Basecamp Research s’attaque au prochain grand défi informatique, qui consiste à atteindre une précision au niveau de la cristallographie pour des protéines plus grandes et plus complexes, en particulier celles sous-représentées dans les bases de données de séquences protéiques existantes.

Pour ce faire, BaseFold extrait des informations évolutives de plusieurs ordres de grandeur plus significatives à partir de plus de 6 milliards de relations dans BaseGraph. Dotés d’un contexte génomique étendu et de métadonnées complètes, il a été démontré que les algorithmes d’entraînement sur BaseGraph génèrent des avancées significatives dans les performances d’un large éventail de modèles d’IA biologique, y compris AlphaFold2 présenté ici.

Dans cette prépublication, les scientifiques de Basecamp Research ont évalué les performances de BaseFold dans la prédiction de la structure de diverses protéines sélectionnées parmi les Concours CASP15 (Évaluation Critique de la Prédiction des Structures) et Projet communautaire CAMEO (Continuous Automated Model EvaluatiOn).

Faits saillants des résultats de la publication

  • L’ensemble de données fondamentales spécialement conçu par Basecamp Research a permis à BaseFold d’améliorer jusqu’à 6 fois la précision des structures prédites par AlphaFold2.
  • L’équipe a démontré une amélioration jusqu’à 3 fois supérieure de la précision de la modélisation pour les interactions de petites molécules avec des cibles protéiques.
  • BaseFold permet des prédictions de structure 3D plus fiables et un amarrage de petites molécules pour des protéines plus grandes et plus complexes que jamais, en particulier celles qui sont sous-représentées dans les ensembles de données publics.
  • Ce changement radical est sur le point d’accélérer considérablement les efforts de découverte de médicaments, où la compréhension de ces interactions permettra de développer des molécules thérapeutiques plus avancées à l’aide de l’IA.

« Nous avons repensé et reconstruit l’ensemble du processus d’acquisition de données, faisant de nous la première équipe à collecter et annoter des données sur la biodiversité avec la même qualité que les données génétiques cliniques humaines – toutes spécialement conçues pour l’ère de l’IA », a déclaré le Dr Phil Lorenz, CTO de Basecamp Research. « BaseGraph, l’ensemble de données le plus diversifié et le plus complet de son genre, est le principal moteur de nos progrès en matière d’IA. Les résultats de cette publication prouvent que des données génomiques plus diverses et représentatives permettent des améliorations progressives des algorithmes sans avoir besoin de laboratoires approfondis. infrastructure in-the-loop. Notre base de données s’agrandit chaque semaine et, par conséquent, BaseFold s’améliore également chaque semaine.

« AlphaFold est l’un des outils d’IA les plus utiles dans la découverte de médicaments, et pour cause. Il permet aux chercheurs de mieux prédire comment les médicaments peuvent interagir avec les protéines de l’organisme, réduisant ainsi des années de travail. Cependant, AlphaFold a encore une marge d’amélioration significative. ” – en particulier lorsqu’elles sont utilisées pour prédire des protéines volumineuses, complexes et sous-représentées, qui sont souvent les plus critiques pour le développement de nouveaux traitements. Même quelques points de pourcentage d’erreur peuvent avoir des implications majeures dans la prévision précise des interactions protéine-molécule”, a déclaré le Dr Glen Gowers, co-fondateur de Basecamp Research.

“Nous savons qu’en matière d’IA, les meilleures données produisent les meilleurs résultats, et il est gratifiant de savoir que le nouvel ensemble de données fondamentales spécialement conçu que nous avons construit a déjà de vastes implications pour le développement de médicaments et la santé humaine”, a déclaré le Dr. » ajouta Gowers. “Mais nous ne nous arrêtons pas là : nous continuons à développer nos partenariats en matière de biodiversité et à appliquer cet avantage en matière de données à de plus en plus de modèles d’IA biologique.”

La prépublication complète peut être trouvée ici : https://www.biorxiv.org/content/10.1101/2024.03.06.583325v1

À propos de la recherche Basecamp

Basecamp Research est un leader du marché dans la cartographie de la biodiversité pour la conception de systèmes biologiques basée sur l’IA. Nous adaptons et affinons de nouvelles protéines pour les applications industrielles, thérapeutiques ou diagnostiques précises de nos partenaires à l’aide de BaseGraph™, une nouvelle génération de conception d’IA alimentée par la toute première carte haute résolution de la biodiversité génétique mondiale.

Comprendre le contexte génétique, évolutif et environnemental complet de chaque protéine permet à Basecamp Research de concevoir des protéines sur mesure pour des applications spécifiques sans avoir besoin de campagnes d’évolution dirigée coûteuses et longues. Nous sommes une équipe d’explorateurs, de scientifiques et d’experts politiques animés par notre ambition de protéger et d’apprendre de la diversité de la nature, tout en apportant des avancées révolutionnaires à ceux qui en ont le plus besoin.

Pour plus d’informations, visitez www.basecamp-research.com.

Pour les médias et autres demandes de renseignements, veuillez contacter [email protected]07867 488769

Photo – https://mma.prnewswire.com/media/2357306/Basecamp.jpg
Logo- https://mma.prnewswire.com/media/2357382/Basecamp_Research_Logo.jpg

SOURCE Recherche sur le camp de base

2024-03-12 12:00:00
1710236217


#Une #percée #dans #prédiction #structure #des #protéines #grandes #structures #protéiques #complexes

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.