Home » Économie » ScLinear prédit l’abondance des protéines à une résolution unicellulaire

ScLinear prédit l’abondance des protéines à une résolution unicellulaire

by Nouvelles
ScLinear prédit l’abondance des protéines à une résolution unicellulaire

Évaluation des performances des méthodes

La précision des méthodes a été évaluée en estimant le RMSE des prédictions, conformément au concours NeurIPS. Nous avons surveillé le temps d’exécution et l’utilisation de la RAM de chaque méthode. Toutes les méthodes ont été évaluées sur la même configuration matérielle et logicielle (ordinateur portable Intel i7 7e génération, Nvidia GTX 1060 mobile, 32 Go de RAM, Ubuntu 22.04), et la surveillance des métriques du système au fil du temps a été effectuée à l’aide de la bibliothèque de suivi des expériences Wandb. Il est important de noter que le temps de formation des méthodes Babel_Dance et Vanilla_NN dépend fortement du GPU, puisqu’elles sont basées sur des réseaux de neurones.

ScLinear – Contrôle qualité, prétraitement et annotation du type de cellule

ScLinear comprend des fonctions de prétraitement conçues pour préparer une expérience de séquençage d’ARN unicellulaire pour la prédiction de l’ADT. Ces fonctions sont accompagnées de paramètres par défaut qui fournissent généralement un bon contrôle qualité et un bon prétraitement pour la plupart des ensembles de données. Le framework Seurat est utilisé pour effectuer ces étapes de pré-traitement19. Les premières gouttelettes vides peuvent être supprimées à l’aide du package DropletUtils20. Ensuite, les décomptes sont normalisés en log et les caractéristiques les plus variables sont identifiées et mises à l’échelle avec Seurat. Les doublets hétérotypiques sont identifiés et supprimés avec l’outil scDblFinder21. Pour évaluer la qualité des cellules, trois mesures basées sur les cellules sont utilisées, notamment le pourcentage de lectures mitochondriales, le nombre de lectures par cellule et la quantité de caractéristiques uniques détectées par cellule. Les cellules aberrantes de faible qualité sont déterminées sur la base de la mise en œuvre de l’écart absolu médian (MAD) du package scater22 avec un seuil par défaut de 3 MAD. Pour le pourcentage de lectures mitochondriales, seul le seuil supérieur est utilisé, tandis que pour les deux autres mesures, les seuils supérieur et inférieur sont utilisés. Si plusieurs lots ont été séquencés, les données peuvent être intégrées à la méthode PCA réciproque basée sur une ancre de Seurat. Pour estimer le nombre de composants principaux (PC) pertinents, la fonction maxLikGlobalDimEst du package intrinsicDimension23 est utilisée. Le regroupement des données est effectué à l’aide de l’algorithme de Louvain implémenté dans Seurat, et les clusters résultants sont ensuite annotés à l’aide du jeu de marqueurs hiérarchiques de type de cellule humaine de PanglaoDB24 et du package scMRMA25.

ScLinear – Prédiction de l’abondance des protéines

Le pipeline de prédiction ADT de ScLinear est basé sur les meilleures pratiques en matière de prédiction de l’abondance des protéines unicellulaires issues des méthodes gagnantes du défi d’intégration de données multimodales unicellulaires NeurIPS 2021. Pour les données d’expression génique (GEX), nous utilisons les mêmes étapes de réduction de dimensionnalité et de normalisation proposées par l’équipe gagnante de la tâche de prédiction de modalité GEX2ADT (Guanlab – dengkw). Plus précisément, la première étape consiste à ajuster une décomposition en valeurs singulières tronquées (SVD) sur la matrice GEX pour réduire la dimensionnalité des caractéristiques à 300 composants. La deuxième étape consiste à appliquer une normalisation z-score par cellule sur la matrice GEX de basse dimension, cela produit une matrice où chaque vecteur cellulaire a une moyenne de 0 et un écart type de 1. Après ces transformations de la matrice GEX, nous formons un modèle de régression linéaire multivariée pour prédire la matrice ADT.

Nous fournissons les pipelines de prédiction ADT pré-entraînés sur les cellules B, les cellules NK et les cellules T de l’ensemble de données du concours NeurIPS 2021, ainsi que le pipeline pré-entraîné sur l’ensemble des données. L’ensemble de données contient des mesures CITE-seq de 66 175 cellules mononucléées de moelle osseuse (BMMC) provenant de différents donneurs et collectées dans différents sites. Notez que les données GEX sont normalisées en divisant le nombre d’UMI par le facteur de taille calculé avec scran puis transformé en log1p. Les données ADT sont normalisées à l’aide d’une transformation de rapport logarithmique centré (CLR) entre les cellules, telle qu’implémentée dans Seurat. Par conséquent, les pipelines de prédiction ADT pré-entraînés doivent être utilisés sur des données GEX normalisées de manière similaire et la sortie ADT prévue doit être interprétée comme normalisée par CLR.

Les pipelines de prédiction ADT pré-entraînés de scLinear peuvent être appliqués à n’importe quelle matrice GEX. La fonction implémentée dans R prend en entrée un objet de test Seurat. Les noms de gènes sont utilisés pour calculer les gènes de la matrice GEX d’entrée qui sont en commun avec les gènes sur lesquels le pipeline a été formé. La sortie du pipeline consiste en un objet de test Seurat contenant la matrice ADT prédite. Les fonctionnalités ADT prévues sont les mêmes que celles utilisées dans les données d’entraînement.

Importance des fonctionnalités

Nous exprimons l’importance des caractéristiques sous la forme de la matrice jacobienne de l’ADT prédit par rapport aux caractéristiques GEX d’entrée. Étant donné que scLinear implique trois composants : SVD tronqué, normalisation du score z et régression linéaire, nous pouvons décomposer le jacobien du modèle complet comme le produit des jacobiens de ces trois composants. Pour le SVD tronqué, le jacobien est simplement la matrice vectorielle singulière droite. Pour la régression linéaire, il s’agit de la matrice de poids. Pour la normalisation du score z, nous calculons le jacobien en utilisant la différenciation automatique fournie par la bibliothèque PyTorch. Ainsi, la matrice d’importance des caractéristiques résultante contient les dérivées partielles de chaque protéine prédite par rapport à chaque gène d’entrée. Les valeurs d’importance des caractéristiques quantifient directement l’effet sur l’ADT prévu de la perturbation de chaque caractéristique GEX individuelle. Cela permet une interprétation simple des gènes les plus influents pour prédire chaque protéine. L’analyse d’enrichissement fonctionnel des gènes les plus informatifs a été réalisée à l’aide d’Enrichr26 (version du 8 juin 2023) et de l’ensemble de gènes Gene Ontology Biological Processes27 (version 2023). Les valeurs p sont calculées avec le test exact unilatéral de Fisher et sont ajustées pour des comparaisons multiples (méthode Benjamin-Hochberg).

Simulation d’abandon

Le taux d’abandon des données PBMC10K et PBMC5K a été augmenté de manière itérative pour étudier la robustesse des prédictions. À chaque itération, les valeurs non nulles de la matrice de comptage ont été échantillonnées de manière aléatoire à partir d’une distribution de Bernoulli avec une probabilité de succès de 10 %. Par la suite, les valeurs échantillonnées ont été fixées à 0, augmentant le taux d’abandon et le nouvel ensemble de données a été utilisé pour prédire les valeurs ADT. Ce processus a été répété de manière itérative jusqu’à ce qu’un taux d’abandon supérieur à 99 % soit atteint. Dans chaque cellule, la corrélation de Pearson entre les valeurs ADT prédites et mesurées a été calculée.

Statistiques et reproductibilité

Les valeurs de corrélation sont estimées avec la méthode bilatérale de Pearson. Les valeurs moyennes +/- l’écart type sont affichées sous forme de barplots avec des barres d’erreur. Les données sources des figures, le code source de ScLinear et un cahier pour reproduire les figures sont disponibles sur github (https://github.com/DanHanh/scLinear, https://github.com/DanHanh/scLinear_appendix), Zénodo (https://zenodo.org/records/10602787, https://zenodo.org/records/10602824) et dans Données supplémentaires 1.

Traitement de l’information

Les données PBMC ont été chargées avec R (v4.3.1) avec Seurat (v4.4.0) et traitées automatiquement par la fonction prepare_data de scLinear, comme décrit sous « ScLinear – Contrôle qualité, prétraitement et annotation du type de cellule ». Les versions de package suivantes ont été utilisées : scDblFinder (v1.14.0), scater (v1.28.0), intrinsicDimension (v1.2.0), scMRMA (v1.0). Le contrôle qualité du test ADT a été effectué avec la fonction cleanTagCounts de DropletUtils (v1.20.0) avec les paramètres par défaut. Après le contrôle de qualité, les contrôles isotypes ont été retirés du test ADT. Les données sur les amygdales ont été traitées à l’aide de Seurat, les taches contenant plus de 25 % de lectures mitochondriales et moins de 500 caractéristiques uniques ont été supprimées. Les données d’expression génique ont été normalisées avec SCTransform et le test ADT en utilisant la transformation du rapport logarithmique centrée telle que mise en œuvre dans Seurat. Les données ont ensuite été regroupées via l’algorithme de Louvain en utilisant les 30 premiers PC. Le type de cellule prédominant pour chaque point a été annoté avec le package scMRMA.

Résumé du rapport

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.

2024-03-04 21:50:53
1709578793


#ScLinear #prédit #labondance #des #protéines #une #résolution #unicellulaire

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.