Structures prédites par clustering à l’échelle de l’univers protéique connu

Structures prédites par clustering à l’échelle de l’univers protéique connu

Algorithme de clustering structurel

La procédure de clustering est similaire au clustering de MMseqs2 mais, au lieu d’utiliser des séquences, l’alphabet 3Di de Foldseek (Extended Data Fig. 1) a été utilisé pour représenter les structures sous forme de séquences unidimensionnelles. L’algorithme de clustering combine Linclust17 et MMseqs2 en cascade (réf. 42) regroupement. Le pipeline applique cette stratégie pour permettre un regroupement efficace de millions de structures. Tout d’abord, les structures protéiques sont converties en séquences 3Di et traitées selon le flux de travail Linclust. Cela inclut l’extraction m k-mers (par défaut m= 300, k= 10) de chaque séquence et en les regroupant en fonction de leur valeur de hachage. Le kLes groupes -mer sont ensuite utilisés pour attribuer chaque structure à la séquence la plus longue (représentative) du groupe. La diagonale partagée sur laquelle le k-mer est trouvé et est également stocké pour une utilisation ultérieure lors de l’étape d’alignement.

Le pipeline procède ensuite avec un algorithme d’alignement sans écart qui réévalue les structures sur la base de la diagonale partagée entre les membres et les représentants en utilisant les informations 3Di et les acides aminés. Les séquences qui répondent aux critères d’alignement définis, tels que E-valeur, couverture d’alignement, identité de séquence, alignement LDDT43 ou score TM44, sont regroupés à l’aide du module de clustering MMseqs2 (par défaut en utilisant l’algorithme set-cover). Après cette étape, les structures qui ont déjà été attribuées sont supprimées de l’ensemble et les résultats des membres représentatifs restants sont alignés à l’aide de l’algorithme structurel Gotoh – Smith – Waterman de Foldseek.15, et tous les coups sûrs qui passent sont également regroupés. Les représentants de cluster restants sont successivement regroupés par trois étapes en cascade de préfiltrage, d’alignement structurel Smith-Waterman et de regroupement.

Distinguer les homologues des analogues

La similarité structurelle entre deux séquences peut être attribuée soit à une ascendance évolutive commune (homologues), soit à une évolution convergente (analogues). Nous avons étudié l’association entre les membres du cluster, calculée par notre pipeline sur la base de la similarité structurelle, et les relations d’homologie à l’aide de la base de données ECOD.24. ECOD est une base de données de domaines hiérarchiques qui décrit les relations évolutives entre des paires de domaines protéiques. Ses niveaux hiérarchiques de la racine à la feuille sont classés comme suit : groupe A (même architecture), groupe X (homologie possible), groupe H (homologie), groupe T (topologie) et groupe F (similitude de séquence). Des analogues devraient se produire entre les membres de différents groupes X, tandis que des homologues devraient être trouvés au sein du groupe H.

Pour notre benchmark, nous avons téléchargé la base de données PDB ECOD (F99 v.20230309) et appliqué la même procédure de clustering MMseqs2 et Foldseek que celle utilisée pour l’AFDB. Nous avons effectué une analyse de pureté du cluster ECOD sur tous les clusters non singleton en mesurant la cohérence des membres du cluster par paire à différents niveaux hiérarchiques. L’analyse a révélé des taux de cohérence moyens élevés de 99,6 %, 98,6 %, 97,4 %, 96,8 % et 72,8 % pour les groupes A, X, H, T et F d’ECOD, respectivement. Cela indique un regroupement efficace de protéines homologues, démontrant une distinction presque exclusive entre homologues et analogues. Le haut niveau de cohérence de notre regroupement est principalement attribué à la rigueur E-valeur de 10−2; en l’élevant à 10, les consistances diminuent respectivement à 69,7%, 55,7%, 53,3%, 51,9% et 36,6%. Un résultat similaire a été observé en utilisant la base de données MALISAM45, une base de données à domaine unique de domaines protéiques analogues. Lors du regroupement des 260 structures protéiques dans la base de données MALISAM avec les paramètres par défaut de Foldseek, aucun regroupement d’analogues ne se produit. Cependant, si l’on augmente le E-seuil de valeur, nous commençons à former des clusters contenant des analogues.

Lire aussi  Résumé : Crisis Core : Final Fantasy VII Reunion

Analyse de pureté des clusters

Pour évaluer la pureté des clusters, nous avons suivi une approche en deux étapes. Tout d’abord, nous avons calculé le score moyen LDDT et TM par cluster pour évaluer la similarité structurelle. Pour cela, nous avons aligné le représentant sur les membres du cluster à l’aide du module structurealign -e INF -a dans Foldseek et avons signalé l’alignement LDDT et le score TM à l’aide de –format-output lddt,alntmscore. Pour chaque cluster, nous avons calculé la moyenne illustrée sur la figure 1c.

Deuxièmement, nous avons évalué la cohérence Pfam de chaque cluster en utilisant les étiquettes Pfam obtenues auprès d’UniProtKB. Nous avons pris en compte uniquement les clusters comportant au moins deux séquences avec des annotations Pfam et nous avons calculé la fraction de domaines Pfam correctement couverts pour toutes les paires de séquences Pfam en ignorant l’auto-comparaison. Nous définissons les vrais positifs comme une paire de domaines Pfam appartenant au même clan. Pour chaque paire, nous avons calculé les scores de cohérence en divisant le nombre de vrais positifs par le nombre de Pfam dans la séquence de référence. Enfin, nous avons calculé les scores globaux moyens des paires. Cette approche nous a permis de déterminer la proportion de séquences au sein d’un cluster donné partageant la même annotation Pfam.

Enfin, nous avons également calculé la cohérence du numéro EC de chaque cluster. Les numéros EC ont été extraits d’UniProtKB. La consistance EC a été évaluée de manière similaire à la consistance Pfam mais a été réalisée quatre fois selon les quatre classes du numéro EC. Nous avons considéré uniquement les clusters comportant au moins deux séquences comportant des annotations EC. A chaque classe du numéro EC, l’annotation sans aucun code à la classe était ignorée. Pour chaque paire en tant que cohérence Pfam, les scores de cohérence ont été calculés en divisant le nombre de vrais positifs par le nombre de CE dans les séquences de la paire en évitant toute auto-comparaison. Les scores ont finalement été calculés par rapport aux scores globaux moyens des paires.

Lire aussi  Test du Samsung Galaxy S23 : petit mais toujours très agréable

Amas sombres et LCA

Pour éliminer les clusters similaires aux structures expérimentales précédemment connues, nous avons effectué une recherche à l’aide de Foldseek sur le PDB (v.2022-10-14) pour chaque représentant de cluster, avec un E-seuil de valeur de 0,1. Nous avons ensuite exclu les clusters annotés avec des domaines Pfam en recherchant les représentants du cluster à l’aide de MMseqs2 avec les paramètres -s 7.5 –max-seqs 100000 -e 0.001 par rapport à la base de données Pfam. Enfin, nous avons supprimé les clusters dont les membres sont annotés avec les annotations Pfam ou TIGRFAM20 dans les bases de données UniProt/TrEMBL et SwissProt. Pour déterminer l’ACV de chaque cluster, nous avons utilisé le module lca de MMseqs2 (réf. 46) en ignorant les deux taxons (1) 12 908 séquences non classées et (2) 28 384 autres séquences. Nous avons visualisé les résultats de l’ACV à l’aide d’un tracé Sankey généré par Pavian47.

Prédiction des fonctions et des poches

Nous avons prédit les sites de liaison aux petites molécules pour les membres représentatifs du cluster sombre en adaptant une approche décrite précédemment9. Nous avons utilisé AutoSite pour prédire les poches48et des poches sélectionnées avec un score composite empirique AutoSite > 60 et un résidu de poche moyen pLDDT > 90 pour des analyses supplémentaires. Pour attribuer une fonction putative et prédire les résidus catalytiques, nous avons utilisé DeepFRI49 pour prédire les termes GO/EC enrichis et les poids de saillance au niveau des résidus dans les catégories GO/EC disponibles (BP, CC, EC, MF). Les prédictions de poche et fonctionnelles ont ensuite été examinées visuellement à l’aide d’une application Web (Data Availability).

Prédiction de domaine à partir d’alignements locaux

Tout d’abord, nous avons filtré les hits Foldseek à faible score à l’aide d’un E-valeur de 10−3 comme seuil. Nous avons défini les positions potentielles des limites de domaine pour chaque séquence protéique en regroupant les positions début-arrêt (regroupement hiérarchique, paramètre de hauteur de 250 pour établir des clusters). Les domaines prédits ont ensuite été liés aux autres sur la base de similitudes structurelles, conservant les scores les plus élevés lorsque des doublons étaient trouvés. Le réseau résultant a ensuite été réduit à l’exclusion des connexions avec E-valeur supérieure à 10−5, domaines prédits avec plus de 350 acides aminés et composants connectés avec moins de 5 nœuds. Nous avons appliqué un clustering basé sur des graphiques (walktrap, 6 étapes), en conservant les communautés d’au moins 5 membres. Chaque domaine prédit au sein des communautés sélectionnées a été annoté à l’aide de régions Pfam-A mappées sur des identifiants UniProt (v.35.0). Plus de 75 % du domaine Pfam doit chevaucher le domaine prédit. Nous avons calculé au sein de chaque communauté la fréquence des annotations Pfam et les avons définies sur la base de la plus élevée. En raison de sa taille, nous avons décidé de ne pas inclure dans l’analyse suivante une communauté comptant 152 959 structures (ID de groupe 1 ; 1, voir les fichiers supplémentaires sur https://cluster.foldseek.com/). Nous avons connecté les communautés restantes sur la base des similitudes structurelles, permettant des connexions avec un P.< 10−3.

Lire aussi  Top tech news de mardi : Elon affronte Apple

serveur Web

Nous avons développé un serveur Web pour permettre une exploration conviviale des clusters, de leurs membres et des clusters similaires associés. Le serveur a été implémenté à l’aide d’une architecture client-serveur basée sur REST, avec un front-end VueJS et un back-end NodeJS. Les informations relatives au clustering sont accessibles via une base de données SQLite et les informations relatives aux structures individuelles via des bases de données compatibles Foldseek via une extension NodeJS basée sur C++ pour une lecture et une recherche rapides. Semblable au serveur Web Foldseek, nous avons utilisé NGL50 pour visualiser les structures et les versions basées sur WebAssembly de PULCHRA51 pour restaurer les structures protéiques complètes à partir de nos traces C-alpha stockées et aligner TM pour les alignements de structure par paires des membres du cluster avec leurs représentants. Pour visualiser la distribution taxonomique, nous avons implémenté des diagrammes de Sankey inspirés de Pavian. Les clusters peuvent être trouvés via les accessions membres UniProt, via une recherche Foldseek sur des clusters similaires ou en recherchant des termes GO. Les membres individuels du cluster peuvent être explorés plus en détail grâce à des liens vers UniProt, le serveur Web Foldseek et l’Atlas UniProt3D.52.

Résumé du rapport

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.

2023-09-13 18:15:40
1694621581


#Structures #prédites #par #clustering #léchelle #lunivers #protéique #connu

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.