L’apprentissage automatique identifie les mutations cancérigènes sur les sites de liaison du CTCF

Dans une étude récente publiée dans la revue Recherche sur les acides nucléiquesles chercheurs étudient si l’apprentissage automatique peut identifier les points chauds mutationnels pan-cancéreux au niveau des sites de liaison persistants du facteur de liaison CCCTC (P-CTCF) (P-CTCFBS).

Étude: L’apprentissage automatique permet l’identification pan-cancéreuse des points chauds mutationnels au niveau des sites de liaison CTCF persistantsCrédit photo : Nuttapong punna / Shutterstock.com

CTCF et cancer

Les mutations du site de liaison CTCF ont un impact sur CTCF, une protéine régulatrice de la transcription et de l’architecture nucléaire dans l’acide désoxyribonucléique (ADN) non codant. Les CTCF-BS constants présentent une résilience à l’inactivation de CTCF et à la conservation de la liaison.

Ces sous-types se distinguent par leur force de liaison plus élevée, leur liaison constitutive spécifique, leur enrichissement en ancrage de boucle de chromatine et leurs limites de domaine d’association topologique (TAD). Les mutations du site de liaison CTCF peuvent activer des gènes oncogènes ; cependant, peu de ces mutations ont été identifiées.

À propos de l’étude

Dans la présente étude, les chercheurs ont développé CTCF-In-Silico Investigation of PersisTEnt Binding (INSITE), un outil informatique capable de prédire la persistance de la liaison CTCF après inactivation dans les cellules cancéreuses.

CTCF-INSITE est un outil d’apprentissage automatique qui évalue les caractéristiques génétiques et épigénétiques responsables de la persistance de la liaison CTCF. La charge mutationnelle aux sites de liaison PCTCF a été déterminée à l’aide de séquences de l’International Cancer Genome Consortium (ICGC) provenant de tumeurs appariées en générant des mesures de persistance pour les données de séquençage ChIP CTCF de l’Encyclopedia of DNA Elements (ENCODE) à partir de différents types de tissus. Les données du National Center for Biotechnology Information (NCBI) et du séquençage du génome entier à haute couverture (WGS) GM12878 de l’initiative du génome du platine ont également été utilisées pour l’analyse.

Les chercheurs ont examiné les cohortes présentant moins de mutations par individu en utilisant les données CTCF ChIP-seq des lignées cellulaires IMR-90, MCF7 et LNCaP isolées respectivement de tissus pulmonaires, de cancer du sein et d’adénocarcinome de la prostate. Après avoir identifié et éliminé les valeurs aberrantes à l’aide de la méthode de l’écart interquartile (IQR), 24 cohortes, comprenant 3 218 patients, étaient disponibles pour l’étude.

Douze types de cancer distincts ont ensuite été créés en combinant des mutations provenant de cohortes du même type de cancer. Pour les cellules IMR-90, LNCaP et MCF7, les caractéristiques génomiques, les interactions de la chromatine, l’affinité de liaison, le moment de la réplication, la liaison constitutive et les scores de conservation ont été étudiés.

La modélisation de la forêt aléatoire a été utilisée car elle présente un taux de réussite supérieur à celui des modèles de régression linéaire pour prédire la liaison CTCF in silicoLes données ont été divisées en ensembles de données de formation et de test en utilisant un ratio de 9:1.

Des études de motifs de liaison ont également été réalisées pour déterminer la position de liaison à l’intérieur d’un pic ChIP-seq de 200 à 2 000 paires de bases (pb). Un score de motif a ensuite été calculé pour chaque zone d’un pic ChIP-seq.

L’analyse d’enrichissement des ensembles de gènes (GSEA) a été utilisée pour déterminer le contexte mutationnel des trinucléotides pour chaque patient, et des tests de liaison à l’ADN par polarisation de fluorescence (FPDB) ont été utilisés pour comparer la charge mutationnelle entre les P- et L-CTCF-BS. En agrégeant ces résultats, un taux de mutation de fond des CTCFBS a été généré pour chaque cancer.

Résultats de l’étude

Comparés à tous les sites de liaison CTCF, ceux du P-CTCF présentaient des taux de mutation significativement plus élevés dans les cancers de la prostate et du sein. Dans les 12 types de cancer examinés, les sites de liaison P-CTCF projetés présentaient une charge mutationnelle nettement accrue. Les mutations du site de liaison P-CTCF, censées avoir un effet fonctionnel sur la boucle et la liaison de la chromatine CTCF, présentaient un enrichissement significativement plus important.

Le in vitro Les expériences ont confirmé que les mutations du site de liaison P-CTCF, attendues de manière perturbatrice, réduisaient la liaison CTCF. Les mutations des sites de liaison P-CTCF ont été observées plus fréquemment que celles du site L-CTCF dans 12 types de cancer distincts. Les mutations du site de liaison P-CTCF étaient liées à la rupture de la boucle, ce qui indique que ces mutations contribuent à la dysrégulation tridimensionnelle du génome dans le cancer.

L’affinité de liaison est cruciale pour la survie du P-CTCF-BS, en particulier au niveau des ancrages de boucle de chromatine, des régions de réplication tardive et des limites TAD. De plus, la colocalisation des boucles chromosomiques indique la durabilité.

Les chercheurs ont identifié des déséquilibres alléliques significatifs dans la liaison sur 91 sites, où les mutations réduisaient l’affinité de liaison. Le cancer du sein présentait une régulation négative des gènes induite par la lumière ultraviolette (UV), tandis que le cancer de la prostate présentait un enrichissement des gènes de transition épithéliale-mésenchymateuse. Par rapport aux sites de liaison L-CTCF, les P-CTCF-BS étaient associés à un taux de mutation plus élevé et à un enrichissement notable des mutations perturbatrices.

Conclusions

Les résultats de l’étude identifient une nouvelle sous-classe de mutations de l’ADN CTCF-BS spécifiques au cancer et fournissent des informations importantes sur le rôle crucial de ces mutations dans les structures génomiques pan-cancéreuses. CTCF-INSITE a montré un enrichissement significatif des mutations dans divers types de cancer. En raison de la perturbation possible des boucles de chromatine et de la diminution de la liaison dans in vitro tests de liaison, ces mutations sont considérées comme fonctionnelles.

L’étude des profils mutationnels d’autres types de cancer pourrait être facilitée par le signal mutationnel renforcé sur les sites de liaison du P-CTCF. Ainsi, le pouvoir prédictif de CTCF-INSITE pour les CTCF-BS offre des candidats prometteurs pour une modification expérimentale que les chercheurs doivent prioriser pour mieux comprendre l’étiologie du cancer.

2024-07-08 05:46:00
1720407308


#Lapprentissage #automatique #identifie #les #mutations #cancérigènes #sur #les #sites #liaison #CTCF

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.