Des chercheurs de InstaDeep et Nvidia avoir du open source Transformateurs nucléotidiques (NT), un ensemble de modèles de base pour les données génomiques. Le plus grand modèle NT comporte 2,5 milliards de paramètres et a été formé sur les données de séquence génétique de 850 espèces. Il surpasse les autres modèles de fondation génomique de pointe sur plusieurs critères de référence génomique.
L’InstaDeep a publié un description technique des modèles dans Nature. NT utilise une architecture Transformer uniquement encodeur et est pré-entraîné en utilisant le même objectif de modèle de langage masqué que BERTE. Les modèles NT pré-entraînés peuvent être utilisés de deux manières : pour produire des intégrations à utiliser en tant que fonctionnalités dans des modèles plus petits, ou pour être ajustés avec un responsable spécifique à une tâche remplaçant le responsable du modèle de langage. InstaDeep a évalué NT sur 18 tâches en avaltelles que la prédiction des marques épigénétiques et la prédiction des séquences de promoteurs, et l’a comparé à trois modèles de base. NT a atteint les « performances globales les plus élevées sur l’ensemble des tâches » et a surpassé tous les autres modèles sur les tâches de promoteur et d’épissage. Selon InstaDeep :
Le Nucleotide Transformer ouvre les portes à de nouvelles applications en génomique. Curieusement, même l’analyse des couches intermédiaires révèle de riches intégrations contextuelles qui capturent les caractéristiques génomiques clés, telles que les promoteurs et les amplificateurs, malgré l’absence de supervision pendant la formation. [We] montrent que les capacités d’apprentissage zéro-shot de NT permettent [predicting] l’impact des mutations génétiques, offrant potentiellement de nouveaux outils pour comprendre les mécanismes de la maladie.
Le modèle NT le plus performant, Multispecies 2.5B, contient 2,5 milliards de paramètres et a été formé sur les données de 850 espèces de « phylums divers », notamment des bactéries, des champignons et des invertébrés ainsi que des mammifères tels que des souris et des humains. Parce que ce modèle a surpassé un modèle NT à paramètre 2,5B formé uniquement sur des données humaines, InstaDeep affirme que les données multi-espèces sont « essentielles pour améliorer notre compréhension du génome humain ».
InstaDeep a comparé les performances de Multispecies 2.5B à trois autres modèles génomiques fondamentaux : informateur, ADN de hyèneet ADNBERT-2. Tous les modèles ont été peaufinés pour chacune des 18 tâches en aval. Alors qu’Enformer avait les meilleures performances sur la prédiction des activateurs et “certaines” tâches de chromatine, NT était globalement le meilleur. Il a surpassé HyenaDNA dans toutes les tâches, même si HyenaDNA a été formé sur le « génome humain de référence ».
Outre son utilisation sur des tâches en aval, InstaDeep a également étudié la capacité du modèle à prédire la gravité des mutations génétiques. Cela a été fait en utilisant des « scores zéro-shot » de séquences, calculés à l’aide de distances cosinusoïdales dans l’espace d’intégration. Ils ont noté que ce score produisait une corrélation « modérée » avec la gravité.
[Y]ous pouvez poser des questions en langage naturel telles que “Déterminez le taux de dégradation de la séquence d’ARN humain @myseq.fna sur une échelle de -5 à 5.” et le ChatNT répondra par “Le taux de dégradation pour cette séquence est de 1,83”.
Un autre utilisateur a déclaré :
J’ai testé plusieurs de ces modèles au travail. Ils apprennent essentiellement où l’ADN a des fonctions importantes et quelles sont ces fonctions. C’est très approximatif, mais jusqu’à présent, cela a été très difficile à faire à partir de la seule séquence et d’aucune autre donnée.
Les transformateurs nucléotidiques code est disponible sur GitHub. Le fichiers de modèle peut être téléchargé depuis Huggingface.
#Transformateurs #nucléotides #modèle #dIA #génomique #open #source #InstaDeep