Notre corps est composé d’environ 75 milliards de cellules. Mais quelle est la fonction de chaque cellule individuelle et dans quelle mesure les cellules d’une personne en bonne santé diffèrent-elles de celles d’une personne malade ? Pour tirer des conclusions, d’énormes quantités de données doivent être analysées et interprétées. Pour cela, des méthodes d’apprentissage automatique sont appliquées. Des chercheurs de l’Université technique de Munich (TUM) et de Helmholtz Munich ont testé l’apprentissage auto-supervisé comme une approche prometteuse pour tester 20 millions de cellules ou plus.
Ces dernières années, les chercheurs ont réalisé des progrès considérables dans le domaine de la technologie unicellulaire. Cela permet d’étudier les tissus sur la base de cellules individuelles et de déterminer simplement les différentes fonctions de chaque type de cellule. L’analyse peut être utilisée, par exemple, pour effectuer des comparaisons avec des cellules saines afin de découvrir comment le tabagisme, le cancer du poumon ou une infection au COVID modifient les structures cellulaires individuelles des poumons.
Dans le même temps, l’analyse génère des quantités toujours croissantes de données. Les chercheurs ont l’intention d’appliquer des méthodes d’apprentissage automatique pour soutenir le processus de réinterprétation des ensembles de données existants, de dériver des déclarations concluantes à partir des modèles et d’appliquer les résultats à d’autres domaines.
L’apprentissage auto-supervisé comme nouvelle approche
Fabian Theis est titulaire de la chaire de modélisation mathématique des systèmes biologiques à la TUM. Avec son équipe, il a étudié si l’apprentissage auto-supervisé était plus adapté à l’analyse de grandes quantités de données que d’autres méthodes. L’étude a été récemment publiée dans Nature Machine Intelligence. Cette forme d’apprentissage automatique fonctionne avec des données non étiquetées. Aucune donnée d’échantillon classifiée n’est requise à l’avance. Cela signifie qu’il n’est pas nécessaire d’attribuer à l’avance les données à certains groupes. Les données non étiquetées sont disponibles en grandes quantités et permettent la représentation robuste d’énormes volumes de données.
L’apprentissage auto-supervisé repose sur deux méthodes. Dans l’apprentissage masqué – comme son nom l’indique – une partie des données d’entrée est masquée et le modèle est entraîné pour pouvoir reconstruire les éléments manquants. De plus, les chercheurs appliquent un apprentissage contrastif dans lequel le modèle apprend à combiner des données similaires et des données distinctes.
L’équipe a utilisé les deux méthodes d’apprentissage auto-supervisé pour tester plus de 20 millions de cellules individuelles et les a comparées aux résultats des méthodes d’apprentissage classiques. Dans leur évaluation des différentes méthodes, les chercheurs se sont concentrés sur des tâches telles que la prédiction des types de cellules et la reconstruction de l’expression des gènes.
Perspectives de développement de cellules virtuelles
Les résultats de l’étude montrent que l’apprentissage auto-supervisé améliore les performances, en particulier dans les tâches de transfert, c’est-à-dire lors de l’analyse de petits ensembles de données informés par les informations provenant d’un ensemble de données auxiliaires plus vaste. De plus, les résultats des prédictions de cellules zéro-shot – c’est-à-dire des tâches effectuées sans pré-entraînement – sont également prometteurs. La comparaison entre l’apprentissage masqué et contrastif montre que l’apprentissage masqué est mieux adapté aux applications comportant de grands ensembles de données monocellulaires.
Les chercheurs utilisent les données pour travailler au développement de cellules virtuelles. Il s’agit de modèles informatiques complets qui reflètent la diversité des cellules dans différents ensembles de données. Ces modèles sont prometteurs pour l’analyse des changements cellulaires observés dans le cadre de maladies, par exemple. Les résultats de l’étude offrent des informations précieuses sur la manière dont ces modèles pourraient être formés plus efficacement et optimisés davantage.
Source:
Université technique de Munich (TUM)
Référence du journal :
Richter, T., et autres. (2024) Délimiter l’utilisation efficace de l’apprentissage auto-supervisé en génomique unicellulaire. Intelligence des machines naturelles. est ce que je.org/10.1038/s42256-024-00934-3.
#Une #nouvelle #approche #dapprentissage #automatique #améliore #lanalyse #des #données #unicellulaires