Avancées dans l’analyse de la méthylation de la biopsie liquide dans la détection précoce du cancer colorectal et du poumon

Avancées dans l’analyse de la méthylation de la biopsie liquide dans la détection précoce du cancer colorectal et du poumon

Participants à l’étude

Des échantillons de sang total ont été prélevés sur 327 participants, dont 102 atteints d’un cancer colorectal, 99 atteints d’un cancer du poumon et 126 témoins sains. Après avoir exclu 6 patients qui ont retiré leur consentement à participer et deux patients dont les échantillons ont échoué au CQ, l’analyse finale a inclus 96 patients atteints d’un cancer colorectal, 95 atteints d’un cancer du poumon et 126 témoins sains pour la formation du modèle et l’évaluation des performances. La cohorte de cancer colorectal était composée de 74 échantillons de cancer du côlon et de 22 échantillons de cancer du rectum et la cohorte de cancer du poumon était composée de 86 échantillons de cancer du poumon non à petites cellules (NSCLC) et de 9 échantillons de cancer du poumon à petites cellules (SCLC) (tableau 1).

Tableau 1 Caractéristiques cliniques et démographiques des patients atteints de cancer et des témoins sains.

MRE-seq de cfDNA

SacII, une enzyme de restriction sensible à la méthylation, a été utilisée pour la biopsie liquide à base de MRE-seq dans cette étude. Environ 90 % des lectures produites par MRE-seq ont été cartographiées sur le génome de référence hg19. Après déduplication basée sur l’UMI, le taux de lecture restant était de 42 à 52 % par rapport aux lectures mappées d’origine. La couverture cartographique à une profondeur d’au moins un SacLe site II variait entre 96 et 99 % des 63 266 sites cibles. Parmi les lectures dédupliquées, celles dont la séquence « GCGG » en 5′ correspond à la SacLe site de coupe II a été défini comme des lectures sur cible, et le rapport des lectures sur cible aux lectures dédupliquées est défini comme le rapport sur cible. Le ratio cible d’échantillons variait de 50 à 57%, ce qui n’était pas une différence significative entre le cancer colorectal, le cancer du poumon et les témoins sains (Fig. S4).

Le tracé de la carte thermique des 1 000 principaux marqueurs de chaque type de cancer a montré des modèles distinctifs avec une puissance statistique élevée (test t de Student P< 1 × 10−7) pour différencier le cancer des témoins sains. (Fig. S5, Tableau supplémentaire 3A, B).

Parmi les 63 266 sites ciblés, la plupart des SacLes sites II étaient uniformément répartis dans les régions d’intron (31,0 % ; 19 649), le promoteur (25,7 % ; 16 285) et les régions intergéniques (24,8 % ; 15 699), suivis des exons, 5′ UTR dans 5 871 (9,3 %) et 2 240 (3,5 %) cas, respectivement, ce qui convient à l’analyse globale de l’hypométhylation. Explications additives SHapley (SHAP)42 attribue à chaque caractéristique une valeur d’importance après la formation du modèle (tableau supplémentaire 4A, B). Les 1 000 principaux marqueurs présentant une importance élevée pour les caractéristiques ont été obtenus avec SHAP à partir de notre modèle DNN, et ces marqueurs étaient également répartis de manière uniforme dans les régions régulatrices et intergéniques (Fig. S6, Tableau supplémentaire 5).

Lire aussi  Vision déformée : qu'est-ce que c'est, quelles en sont les causes et pourquoi c'est un problème à ne pas sous-estimer

Évaluation des performances de prédiction du modèle DNN

Nous avons défini la valeur de probabilité de la couche de sortie du modèle DNN comme un score de cancer. Nous avons effectué 20 répétitions indépendantes de validation croisée imbriquée quintuple, ce qui donne 100 scores de cancer différents pour chaque échantillon et a utilisé la moyenne des scores de cancer pour évaluer les performances de notre modèle DNN. Dans chaque cycle de validation croisée, un modèle de classification a été formé et des échantillons de test exclus de l’ensemble de formation ont été évalués (Fig. S3). L’intervalle interquartile (IQR) a également été calculé pour mesurer la stabilité des scores de l’échantillon de test dans divers modèles.

Les valeurs moyennes de l’IQR du score de cancer étaient de 0,09 pour les échantillons de cancer et de 0,06 pour les échantillons de contrôle sains dans le modèle de classification du cancer colorectal. Dans le modèle de classification du cancer du poumon, l’IQR moyen des échantillons de cancer et des échantillons de contrôle sains était de 0,13 et 0,10, respectivement (Fig. S7). Par conséquent, les scores de cancer semblaient cohérents pour chaque cycle de validation croisée. De plus, pour vérifier si le nombre d’échantillons est suffisant pour évaluer les performances du modèle, l’aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) et l’IQR moyen ont été mesurés en sélectionnant au hasard des échantillons avec différents ratios de taille d’échantillon. Dans le modèle de cancer colorectal, la réduction du nombre d’échantillons de 50 % n’a diminué l’AUC que de 0,02 et a augmenté l’IQR moyen de 0,015. (Fig. S8a,b). Dans le modèle de cancer du poumon, l’ASC est presque saturée à partir du rapport de taille d’échantillon de 60 %, et l’IQR moyen n’a montré qu’une différence de 0,03 dans le rapport de taille d’échantillon de 50 %. (Fig. S8c, d).

Classification du cancer colorectal

L’ASC était de 0,978 et la sensibilité globale était de 78,1 % (intervalle de confiance à 95 % [CI] 68,9–85,2 %), avec 76,5 % (IC à 95 % 52,7–90,4 %), 76,2 % (IC à 95 % 54,9–89,4 %), 78,3 % (IC à 95 % 64,4–87,7 %) et 83,3 % (IC à 95 % 55,2–95,3%) sensibilité pour les stades I, II, III et IV, respectivement, à une spécificité de 99,2% (Tableau 2, Fig. 2, Tableau supplémentaire 6, Fig. S9).

Tableau 2 Sensibilité du modèle DNN pour prédire le cancer colorectal et le cancer du poumon à une spécificité de 99,2 %.
Figure 2

Tester les performances de la classification du cancer colorectal et du poumon. (un,b) Les valeurs globales de l’ASC étaient de 0,978 pour le cancer colorectal et de 0,956 pour le cancer du poumon. (c,d) Sensibilité à 99,2 % de spécificité avec un intervalle de confiance (IC) à 95 % selon le stade du cancer.

Parmi les 21 échantillons faux négatifs, 18 étaient des cancers du côlon avec un FNR de 24 % (18/74) et 3 échantillons étaient des cancers du rectum avec un FNR de 13,6 % (3/22). Parmi ces 18 faux négatifs, 61,1 % (11/18) provenaient du côlon gauche, qui comprend la moitié gauche du côlon transverse, l’angle splénique, le côlon descendant et le côlon sigmoïde (Fig. 3a).

figure 3
figure 3

Répartition des scores de cancer selon le sous-type. (un) Sous-types de cancer colorectal : droit, gauche et rectum. (b) Sous-types de cancer du poumon : NSCLC et SCLC. * Côlon droit (caecum, côlon ascendant, côlon de l’angle hépatique et côlon traversant), côlon gauche (côlon de l’angle splénique + côlon descendant + côlon double S + côlon sigmoïde), rectum (côlon rectosigmoïde + rectum). * Un patient du groupe cancer colorectal avait un carcinome neuroendocrinien. Autres CBNPC (N= 5) incluent le carcinome neuroendocrinien à grandes cellules (N= 3), carcinome adénosquameux (N= 1), carcinome pléomorphe (N= 1), et NSCLC non spécifié ailleurs (N= 1).

Classification du cancer du poumon

L’ASC était de 0,956 et la sensibilité globale de 66,3 % (IC à 95 % 56,3 à 75,0 %), avec 50,0 % (IC à 95 % 33,6 à 66,4 %), 44,4 % (IC à 95 % 18,9 à 73,3 %), 78,3 % (95 % IC 58,1–90,3 %) et 80,6 % (IC 95 % 63,7–90,8 %) sensibilité pour les stades I, II, III et IV, respectivement, à une spécificité de 99,2 %. La sensibilité pour SCLC était de 100,0 % (IC à 95 % 43,9-100 %) dans la maladie limitée et de 100,0 % (IC à 95 % 61,0-100 %) dans la maladie étendue, ce qui était meilleur que ceux obtenus pour le NSCLC (Tableau 2, Fig. 2 , Tableau supplémentaire 6, Fig. S9).

Lire aussi  Le mésylate d'hydrométhylthionine (HMTM) de TauRx démontre une réduction significative de la neurodégénérescence dans la maladie d'Alzheimer (MA)

Le NSCLC a un type histologique hétérogène et est divisé en LUAD et en carcinome épidermoïde pulmonaire (LUSC). Comme le montre la figure 3b, LUSC avait un score de cancer significativement plus élevé que LUAD (P= 0,030). De plus, les neuf SCLC avaient une sensibilité de 100 % avec un score de cancer très élevé (0,98 en moyenne pour SCLC) (Fig. 3b).

Prédiction CSO

Le modèle de prédiction CSO consiste en deux classificateurs : le classificateur de cancer, qui détermine si un cancer est présent, et le classificateur de type de cancer, qui classe le type de cancer. Les performances de prédiction ont été mesurées par une validation croisée quintuple qui échantillonne 80 % des données pour la formation et 20 % pour les tests. Dans chaque pli, le classificateur de cancer a été formé en utilisant deux échantillons de type de cancer comme groupe de cas et les témoins sains comme groupe témoin. Ensuite, les vrais positifs ont été testés dans le classificateur de type de cancer qui a été construit en utilisant deux types de cancer avec des étiquettes différentes. Un type de cancer avec la valeur de probabilité la plus élevée a été défini comme un vrai positif. La précision de ces deux classificateurs a été affichée dans la matrice de confusion (Fig. 4). Dans le classificateur de cancer, 179 échantillons de cancer sur 191 ont été prédits positivement avec une sensibilité de 93,7 % et ils ont été classés dans les deux types de cancer à l’aide du classificateur de type de cancer avec une grande précision (94,4 % dans le cancer colorectal et 89,9 % dans le cancer du poumon).

Figure 4
chiffre 4

Matrice de confusion de l’origine du signal du cancer (CSO). La précision du CSO a été mesurée à l’aide de deux classificateurs différents : le classificateur de cancer pour déterminer l’existence d’un cancer et le classificateur de type de cancer pour identifier le type de cancer.

Analyse des facteurs de confusion

Même après normalisation des données, l’analyse en composantes principales (ACP) est couramment utilisée pour déterminer s’il existe des effets de séquençage sur les lots43,44. Il a été confirmé avec l’ACP qu’il n’y avait pas de biais entre les 22 lots ou entre les groupes d’échantillons. (Fig. S10). Sept échantillons ont été identifiés comme valeurs aberrantes si la composante principale 1 (PC1) dépassait 250, et ils étaient au-dessus des échantillons de cancer de stade 3 avec des scores de cancer élevés.

Lire aussi  Dinpertan Demak cible des milliers de têtes de bétail pouvant être vaccinées contre la fièvre aphteuse

Considérant que les changements de méthylation sont affectés par l’âge45, il est possible que l’âge devienne un facteur de confusion si la répartition par âge diffère entre les groupes d’échantillons. Dans cette étude, il y avait une différence statistiquement significative dans la répartition par âge (test t de Student P= 0,003 pour le cancer colorectal par rapport aux témoins sains et P= 0,022 pour le cancer du poumon par rapport aux témoins sains). Cependant, l’âge n’était pas corrélé au score de cancer. Le coefficient de corrélation de Pearson (PCC) entre le score de cancer et l’âge était de 0,005 pour les échantillons de cancer colorectal et de 0,096 pour les échantillons de cancer du poumon. Pour le groupe normal, les valeurs de PCC dans le modèle de classification du cancer colorectal et le modèle de classification du cancer du poumon étaient de 0,071 et 0,061, respectivement. La distribution des scores de cancer n’était pas significativement différente entre les groupes d’âge (Fig. S11a).

Étant donné que l’ensemble de données contenait des hommes et des femmes, les marqueurs liés au cancer sur les chromosomes sexuels peuvent entraîner des résultats d’analyse incorrects. Pour éviter cela, toutes les analyses ont été réalisées en utilisant uniquement des marqueurs sur les chromosomes autosomiques. Pourtant, s’il existe une grande différence dans les scores de cancer entre les hommes et les femmes, le sexe peut agir comme un facteur de confusion. Dans le modèle de cancer colorectal, les deux sexes présentaient des distributions similaires, mais dans le modèle de cancer du poumon, les patients de sexe masculin présentaient un score de cancer significativement plus élevé (Fig. S11b). Pour tenir compte de cette différence entre les sexes, nous avons comparé les caractéristiques des patients atteints d’un cancer du poumon selon le sexe. Comme le montre le tableau supplémentaire 7, 87,1 % (27/31) des patientes n’avaient jamais fumé, tandis que 91,2 % (59/64) des patients masculins étaient des fumeurs actuels ou anciens. De plus, les patientes du groupe cancer du poumon étaient significativement plus jeunes et présentaient une prévalence plus élevée de LUAD et de stades précoces par rapport aux patients masculins. Étant donné que ces facteurs (âge, tabagisme, histologie et stade du cancer) pourraient avoir confondu les résultats, nous avons effectué une analyse multivariée (tableau supplémentaire 8) et avons constaté que le tabagisme était un facteur indépendant associé au score de cancer du poumon (Fig. S12). Tous les tests étaient bilatéraux et la signification a été fixée à P< 0,05. Nous avons utilisé le logiciel Stata (v. 14.0 ; Stata Corporation, College Station, TX, USA) pour l'analyse statistique.

2023-08-19 12:26:07
1692464704


#Avancées #dans #lanalyse #méthylation #biopsie #liquide #dans #détection #précoce #cancer #colorectal #poumon

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.