plus d’une centaine de nouveaux systèmes CRISPR découverts

plus d’une centaine de nouveaux systèmes CRISPR découverts

2023-12-08 11:49:30

Combien y a-t-il de systèmes CRISPR ? Probablement des milliers. Et pour la plupart, elles peuvent être détectées en scannant de grandes quantités de données sur le génome de bactéries considérées comme « rares », comme celles collectées dans les brasseries ou dans les eaux des lacs de l’Antarctique. C’est ce qu’illustre les auteurs d’une récente étude américaine qui, à l’aide d’un algorithme spécifique d’analyse de clusters, en a repéré 188.

Quand on parle de Big Data faire référence à génomique – oh di “génomique des mégadonnées» – nous entendons cet ensemble de données concernant les structures et les fonctions du génome des organismes végétaux, animaux et humains, y compris la séquence des molécules dans les gènes et les interactions entre les mêmes molécules et protéines.

Il s’agit d’une quantité de données gigantesque et complexe collectées par des généticiens, biologistes et biotechnologues du monde entier, dans le but de les analyser pour étudier des thérapies destinées au traitement des pathologies génétiques, définir de nouveaux marqueurs génétiques et développer des médecines personnalisées.

Les National Institutes of Health (NIH), une agence du ministère américain de la Santé et des Services sociaux, font partie des organisations chargées de gérer bases de données contenant des mégadonnées génomiques partagées à l’échelle mondialey compris ceux relatifs à bactéries.

Le National Center for Biotechnology Information du NIH, en collaboration avec des chercheurs du McGovern Institute for Brain Research et du Broad Institute – tous deux au sein du Massachusetts Institute of Technology (MIT) – a réalisé une étude algorithme capable de classer les données génomes bactériens. Cette méthode a permis d’identifier Ben 188 nouveaux types de systèmes CRISPRcomme l’illustre l’article «Découvrir la diversité fonctionnelle des systèmes CRISPR-Cas rares 1 avec un clustering terascale profond», publié dans Science le 24 novembre 2023.


L’algorithme utilisé par l’équipe de recherche repose sur une technique de catégorisation « sensible à la localité », qui a permis de sélectionner, dans les bases de données examinées, des données similaires (non identiques) sur les génomes bactériens, puis de les regrouper dans des catégories spécifiques.
Au cours des travaux d’analyse des mégadonnées génomiques, une quantité inattendue de nouveaux systèmes CRISPR a été identifiée, y compris un type avec un ARN guide plus long, qui pourrait à l’avenir conduire à une technologie d’édition du génome encore plus précise dans les opérations de coupe de pâte d’ADN.
La méthodologie suivie par le groupe d’étude est une invitation à élargir, dans les années à venir, les critères d’échantillonnage des bactéries, y compris – comme l’ont fait les auteurs – la collecte d’eau de mines ou de lacs. Cela contribuerait à enrichir les bases de données actuelles avec des mégadonnées génomiques rares et à donner un nouveau souffle à la recherche.

Origine et fonction des systèmes CRISPR

Avant d’aborder la question de la corrélation entre big data et génomique au service de la recherche, rappelons que l’acronyme universel CRISPRRépétitions palindromiques courtes et régulièrement espacées (littéralement « courtes répétitions palindromiques regroupées et régulièrement espacées ») – fait référence à une classe de segments d’ADN trouvés dans les bactéries. Segments caractérisés par de courtes séquences répétées, utiles à ces micro-organismes pour identifier et déchirer le génome provenant de virus similaires à ceux qui ont produit les répétitions palindromiques. Bref, CRISPR représente, pour les bactéries, un forme naturelle de protection contre les agressions extérieures.

Les études sur ce mécanisme de défense ont conduit, au fil des années, à l’expérimentation de techniques de génie génétique de plus en plus avancées pour la manipulation de l’ADN dans les organismes végétaux, animaux et humains.

Les premières études sur ce qui, plus tard, prendra le nom de « CRISPR », remontent à 1987 et voient l’université japonaise d’Osaka comme protagoniste. L’acronyme actuel a été inventé en 2001, dans le but de clarifier et d’indiquer de manière univoque les multiples séquences d’ADN des bactéries, jusqu’alors appelées avec des termes différents dans la littérature scientifique.

Dans les années suivantes, un type spécifique de bactérie appelé “streptocoque pyogène“, d’un système CRISPR qui utilise la protéine Cas9, dont la fonction est de “ciseaux moléculaires» pour se défendre contre les agents pathogènes.

C’est ensuite, en 2012, les scientifiques Emmanuelle Charpentier et Jennifer A. Doudna qui ont fait de ce système un nouvel outil d’édition du génomecapable – par rapport aux précédents – d’identifier et de couper des séquences d’ADN cibles dans le génome d’une cellule végétale, animale et humaine de manière plus simple, plus précise et plus rapide, en les éliminant et en les remplaçant par d’autres.

Et “copier-coller génétique» ciblées, ce qui leur a valu le prix Nobel de chimie 2020, qui a ouvert la voie à des recherches en laboratoire pour des applications potentielles dans le domaine médical (diagnostique et thérapeutique).

Clustering Big Data pour soutenir la génomique

Au sujet du big data et de la génomique pour la recherche CRISPR, le point de départ du groupe d’étude dirigé par les National Institutes of Health USA découle d’un constat aussi simple qu’incisif, à savoir que «…les bases de données contenant des bactéries sont extrêmement riches en informations stratégiques pour la biotechnologie. Mais, ces dernières années, ils ont atteint des proportions telles qu’il est difficile de trouver en leur sein les enzymes et les molécules d’intérêt et de le faire de la manière la plus correcte possible.».

D’où la nécessité d’un algorithme basé sur des techniques clustering du big data capable de sélectionner et de catégoriser des informations extraites d’énormes quantités de données génomiques, où le « clustering » (ou « analyse groupée ») fait référence aux méthodes qui ont pour objectif de regroupement d’éléments similaires au sein d’un ensemble de données très volumineux et hétérogène.

Pour être précis, l’équipe a utilisé un algorithme appelé «Clustering rapide basé sur le hachage sensible à la localité» (FLSHclust), développé dans le laboratoire de Feng Zhang, l’un des pionniers de la recherche CRISPR et professeur au Massachusetts Institute of Technology.

La tecnica « sensible à la localité » qu’il utilise nous a permis de regrouper des données génomiques similaires mais non « identiques », sondant des milliards de protéines et de séquences d’ADN en quelques semaines plutôt qu’en quelques mois.

Plus en détail, à partir d’une vaste gamme de données génomiques relatives à bactéries de différents types et originescollectés dans les mines de charbon, les brasseries, les lacs de l’Antarctique et la salive de chien, l’algorithme a extrait trois bases de données accessibles au public, dans lesquelles il a identifié «un nombre et une diversité surprenants de systèmes CRISPR».

Pour surmonter le risque de montage « hors cible »

Dans les années qui ont suivi la découverte de CRISPR Cas9, les recherches se sont poursuivies selon une ligne précise, visant à surmonter les problèmes critiques du système, en premier lieu celui de l’édition « hors cible » due à inexactitudes et erreurs dans les opérations de « couper-coller » des séquences d’ADN.

C’est précisément à cet égard que les travaux conjoints des National Institutes of Health et du MIT sur le thème du big data et de la génomique ont permis – parmi les 188 systèmes détectés – d’identifier des systèmes CRISPR qui, à l’aide d’un ARN guide (de l’anglais RiboNucleic Acid, acide ribonucléique) 32 paires de bases de long au lieu de 20, «ils pourraient être utilisés pour développer une technologie d’édition du génome plus précise et moins sujette à l’édition hors cible», lit-on dans l’article de Science.

L’équipe d’étude a également démontré en laboratoire que deux de ces systèmes CRISPR “à long trajet” pourraient, à l’avenir, apporter des modifications à l’ADN des organismes humains, tandis qu’un troisième système mettait en évidence un effet secondaire qui, à l’avenir, pourrait être exploitée par les chercheurs pour le développement d’une technique visant à diagnostic précoce des maladies infectieuses. Concrètement, l’effet secondaire observé consiste en «dégradation importante des acides nucléiques après la liaison de la protéine CRISPR à sa cible».

Le groupe d’étude a également découvert de nouveaux mécanismes d’action pour certains systèmes CRISPR déjà connus et un système qui se concentre en particulier sur l’ARN et qui, dans les années à venir, pourrait être utilisé précisément dansÉdition de l’acide ribonucléique, c’est-à-dire dans la manipulation des processus de régulation et d’expression des gènes, ainsi que dans la synthèse des protéines. Un autre grand pas en avant dans le génie génétique vers des applications possibles dans le domaine du diagnostic précoce.

Big data et génomique : quelle direction pour l’avenir de la recherche ?

L’étude du National Center for Biotechnology Information du NIH et du Massachusetts Institute of Technology sur le big data et la génomique a tout d’abord le mérite d’avoir démontré la variété et la richesse des systèmes CRISPR que l’on peut découvrir en analysant les données génomiques des bactéries et comment une grande partie de ces systèmes sont présents dans des bactéries peu communes (comme celles qui vivent en effet dans les mines de charbon, dans les brasseries, dans les lacs de l’Antarctique et dans la salive des chiens). ), suggérant que la recherche sur l’édition du génome devrait désormais s’orienter ailleurs, devrait «élargir la diversité d’échantillonnagepour continuer à élargir la diversité de ce que nous pouvons découvrir», soulignent les auteurs. Et ils continuent :

«Certains des systèmes microbiens analysés proviennent de l’eau collectée dans les mines de charbon du monde entier. Si nous n’avions pas regardé dans cette direction, nous n’aurions peut-être jamais découvert les nouveaux systèmes CRISPR»

Un algorithme comme le clustering basé sur Fast Locality-Sensitive Hashing – commentent-ils – ​​peut faire beaucoup en présence de big data génomiques provenant des origines les plus disparates. À l’avenir, il pourrait également soutenir les chercheurs étudiant d’autres types de systèmes biochimiques ou toute personne intéressée à travailler avec de grandes bases de données, «pour étudier, par exemple, comment les protéines évoluent ou découvrir de nouveaux gènes».

Reproduction réservée © (Article protégé par le droit d’auteur)



#dune #centaine #nouveaux #systèmes #CRISPR #découverts
1702088352

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.