Stratification du diabète dans le contexte des comorbidités, à l’aide de l’apprentissage des représentations et de l’analyse des données topologiques

Stratification du diabète dans le contexte des comorbidités, à l’aide de l’apprentissage des représentations et de l’analyse des données topologiques

Données et population étudiée

Cette étude a été réalisée à l’aide des dossiers de santé électroniques couplés du CPRD (Clinical Practice Research Datalink14,15) collectées entre 1985 et 2015 auprès d’un réseau de cabinets de médecins généralistes à travers le Royaume-Uni. Toutes les méthodes ont été réalisées conformément aux directives et réglementations pertinentes, et tous les protocoles expérimentaux ont été approuvés par le processus de gouvernance des données de recherche (RDG) du CPRD. Le CPRD ne reçoit jamais d’informations permettant d’identifier les patients et ne fournit des données de santé anonymisées qu’aux chercheurs agréés. Les patients inscrits auprès des cabinets de médecins généralistes peuvent refuser que leurs informations soient partagées à des fins de recherche, mais le consentement individuel n’est pas requis. Le CPRD est lié à d’autres bases de données administratives nationales, notamment les hospitalisations (Hospital Episode Statistics), l’enregistrement des décès (Office of National Statistics) et l’Index of Multiple Deprivation, ce qui fait de la base de données CPRD une ressource complète pour l’analyse prospective des données de soins primaires au Royaume-Uni. Il englobait 60 millions de patients, dont 16 millions de patients enregistrés, fournissant l’une des plus grandes bases de données de DSE au monde. Il contient des données concernant la démographie, les diagnostics, les thérapies et les tests. CPRD a l’approbation éthique de l’Autorité de recherche en santé pour soutenir la recherche utilisant des données de patients anonymisées. De nombreuses études ont démontré l’utilité du CPRD dans l’établissement de phénotypes cliniques détaillés5,16,17,18. Les consultations à l’hôpital sont fournies avec le code ICD-10 correspondant (Classification internationale des maladies – 10e édition), tandis que les consultations chez le médecin généraliste sont fournies avec le code Read correspondant.19,20. Pour cette étude, ces deux codes sont mappés aux codes CALIBRE21qui fournit une classification cliniquement significative des maladies.

Dans cette étude, nous avons utilisé le même système de codage que l’article BEHRT original ; en tant que tel, le diabète sucré (DM) est défini selon son code CALIBER, qui combine les trois principaux sous-types : le diabète de type 1 (T1DM), le type 2 (T2DM) et le diabète non classé21. Cependant, dans la deuxième partie de l’analyse, nous montrons dans quelle mesure notre algorithme pouvait distinguer ces sous-types. De même, les conditions comorbides ont également été définies en fonction de leurs codes CALIBER, y compris les codes Read (pour les diagnostics de soins primaires), les codes ICD10 (pour les diagnostics de soins secondaires) et OPCS4 (pour les procédures de soins secondaires). Les causes de décès du registre des décès ont également été utilisées, le cas échéant, conformément à CALIBER.

Apprentissage des représentations et analyse des données topologiques (TDA)

BEHRT a montré des performances supérieures dans une gamme de tâches de prédiction des risques par rapport aux autres modèles ML/DL. Contrairement à la plupart de ses homologues, les représentations apprises par BEHRT sont contextuelles. Ainsi, au lieu d’apprendre une représentation unique du diabète, BEHRT peut apprendre une représentation unique pour chaque cas de diabète. Selon le contexte d’un exemple donné de diabète (par exemple, autres morbidités du patient, médicaments), son intégration correspondante peut différer (Sect. 2 dans les Documents supplémentaires). Une technique TDA appelée Mapper8 a ensuite été utilisé pour analyser les différences dans divers domaines dans le collecteur de haute dimension sous-jacent à ces intégrations et tester si ces domaines correspondent à des profils de risque distincts (section 3 dans les documents supplémentaires). Les hyperparamètres optimaux de BEHRT ont été réglés à l’aide de l’optimisation bayésienne. Cela inclut la longueur d’enrobage, qui s’est avérée optimale à 120. En d’autres termes, le «nuage de points» pour TDA sera composé de 9967 enrobages de diabète, chacun d’une longueur de 120 ; chacun s’attendait à résumer suffisamment le diabète de son patient correspondant au départ. TDA donne un graphique où chaque nœud représente un groupe de patients. Nous partitionnons ce graphe à l’aide d’un partitionnement k-way à plusieurs niveaux23 tel qu’implémenté par le logiciel de partitionnement de graphes METIS24 pour dériver des phénotypes de diabète significatifs. Une vue de haut niveau du processus (de l’EHR aux phénotypes) est décrite à la Fig. 1. Les phénotypes résultants peuvent être caractérisés par l’âge, le sexe, la distribution de l’IMC et la prévalence de l’hypertension, de la fibrillation artérielle, de la maladie rénale chronique et de l’hypercholestérolémie. au départ (Sect. 4 dans Documents supplémentaires).

Conception de l’étude et critères d’inclusion

Nous avons extrait les données relatives aux patients atteints de diabète multimorbide. Avoir une large couverture des antécédents médicaux des patients et similaire à BEHRT22, seules les personnes ayant au moins cinq visites dans leurs dossiers sont prises en compte dans cette étude. De plus, pour fournir à nos modèles suffisamment d’événements passés pour en tirer des enseignements, nous n’avons inclus que les patients dont le diagnostic de DM était enregistré au moins nième comorbidité (c’est-à-dire que l’apparition du diabète n’est prise en compte que si au moins n−1 autre maladie a été enregistrée avant celle-ci). Par exemple, dans cette analyse, nous avons utilisé n = 7, ce qui est suffisamment grand pour permettre au modèle d’apprendre de nombreux événements passés et de produire un nombre significatif de patients. Ce critère a identifié 9 967 patients atteints de diabète à inclure dans notre analyse. Réduire n rendrait difficile pour le modèle de saisir un « contexte » significatif de patients. Pendant ce temps, l’augmenter de manière significative augmenterait considérablement l’âge et les comorbidités de notre population d’étude et augmenterait le risque d’introduire un biais dans les résultats. Pour ces patients , nous avons calculé les intégrations contextuelles correspondant à leur incident DM au départ, défini comme la première occurrence de diabète survenue en tant que 7ème comorbidité.

Résultats cliniques

Les critères d’évaluation suivants ont été inclus : événements cardiovasculaires indésirables majeurs composites : décès cardiovasculaire, maladie coronarienne, accident vasculaire cérébral, insuffisance cardiaque (MACE), maladie coronarienne (CAD), accident vasculaire cérébral, insuffisance cardiaque (IC), insuffisance rénale (FR), neuropathie diabétique , artériopathie périphérique, diminution de l’acuité visuelle et mortalité toutes causes confondues. Ces paramètres ont été définis à l’aide de la maladie et des procédures fournies par CALIBER21. Pour analyser tous les résultats cliniques, les patients ont été censurés à la fin du suivi (10 ans après l’entrée dans l’étude), lorsqu’ils sont perdus de vue ou s’ils sont décédés.

analyses statistiques

Les caractéristiques de base et la prévalence des comorbidités parmi les 9967 patients inclus ont été décrites lors de leur inclusion dans l’étude, qui a été définie comme le moment de l’apparition du diabète. Les courbes de Kaplan Meier (KM) ont été tracées pour chaque sous-type dérivé pour tous les paramètres. Les valeurs P pour la probabilité de chaque résultat clinique dans les quatre phénotypes identifiés ont été obtenues à l’aide d’un test de log-rank multivarié25,26. Toutes les analyses de survie ont été effectuées à l’aide du package Python lifelines27. Les aires sous les courbes de fonctionnement du récepteur (AUC) ont été calculées pour le risque de prédiction de MACE au cours de la période de suivi à l’aide du modèle QRISK établi seul et complétées par des prédicteurs TDA. Tous les prédicteurs utilisés dans QRISK3 ont été inclus dans le calcul des ASC (voir légende sur la Fig. 5). À titre de comparaison, des AUC ont également été produites pour les prédicteurs dérivés de TDA et lors de l’augmentation du modèle QRISK3 avec ces prédicteurs TDA. Seuls les patients avec des données complètes sont pris en compte dans le dénominateur lors de la production de décomptes pour les variables avec des données manquantes (telles que l’IMC ; section 5 dans le matériel supplémentaire).

Éthique

Comme décrit dans la publication de Wolf et al. Intitulé : Profil de ressource de données : CPRD : “CPRD obtient l’approbation annuelle de l’éthique de la recherche du comité d’éthique de la recherche (REC) de l’autorité de recherche en santé (HRA) du Royaume-Uni (East Midlands—Derby, numéro de référence REC 05/MRE04/87) pour recevoir et fournir aux patients données pour la recherche en santé publique. Par conséquent, aucune approbation éthique supplémentaire n’est requise pour les études observationnelles utilisant des données CPRD pour la recherche en santé publique, sous réserve de protocoles de recherche individuels répondant aux exigences de gouvernance des données CPRD.

2023-07-16 18:45:32
1689527309


#Stratification #diabète #dans #contexte #des #comorbidités #laide #lapprentissage #des #représentations #lanalyse #des #données #topologiques

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.