Dans une étude récente publiée dans la revue Nature, les chercheurs ont développé et évalué le modèle pathologique Providence Gigapixel (Prov-GigaPath), un modèle de base de pathologie à lame entière, pour atteindre des performances de pointe dans les tâches de pathologie numérique en utilisant des données réelles à grande échelle et une nouvelle architecture de transformateur de vision .
Étude: Un modèle de base complet pour la pathologie numérique à partir de données réelles. Crédit d’image : Color4260/Shutterstock
Arrière-plan
La pathologie informatique peut révolutionner le diagnostic du cancer grâce à des applications de sous-typage, de stadification et de prédiction pronostique. Cependant, les méthodes actuelles nécessitent de nombreuses données annotées, ce qui est coûteux et prend du temps. L’apprentissage auto-supervisé s’avère prometteur en utilisant des données non étiquetées pour pré-entraîner les modèles, réduisant ainsi ce besoin. Les défis incluent la qualité limitée et variable des données disponibles, la difficulté de capturer les modèles locaux et mondiaux et l’accès restreint aux modèles pré-entraînés. Les modèles de base offrent une forte généralisabilité, ce qui est essentiel pour les domaines biomédicaux disposant d’abondance de données non étiquetées. Des recherches supplémentaires sont nécessaires pour améliorer la généralisabilité et l’applicabilité clinique de ces modèles dans divers ensembles de données et contextes du monde réel.
À propos de l’étude
Le prétraitement des images de lames entières (WSI) dans la présente étude impliquait un pipeline pour 171 189 lames colorées à l’hématoxyline et à l’éosine (H&E) et d’immunohistochimie. La segmentation des tissus a filtré les régions d’arrière-plan à l’aide du seuillage d’image Otsu. Les WSI ont été redimensionnés à 0,5 µm par pixel et recadrés en tuiles de 256 × 256 pixels, en éliminant les tuiles avec une couverture tissulaire inférieure à 10 %. Prov-GigaPath a été pré-entraîné avec les paramètres Vision Transformer (ViT) et Distillation of Knowledge in Networks version 2 (DINOv2) sur 1 384 860 229 tuiles. L’encodeur à diapositives utilisait l’architecture Long Sequence Network (LongNet). La pré-formation, impliquant la discrétisation de la grille, les augmentations et les auto-encodeurs masqués, a utilisé 16 nœuds avec 4 GPU A100 de 80 Go, réalisée en 2 jours.
Prov-GigaPath a été comparé au transformateur de pyramide d’images hiérarchique (HIPT), au modèle de pathologie basé sur l’apprentissage contrasté (CtransPath) et à la généralisation robuste et efficace des données de l’apprentissage automatique auto-supervisé pour l’imagerie diagnostique (REMEDIS). HIPT, pré-entraîné sur les diapositives du Cancer Genome Atlas (TCGA), a utilisé une architecture de transformateur de pyramide d’images hiérarchique, tandis que CtransPath combinait les modèles de réseau neuronal convolutif (CNN) et de SwinTransformer. REMEDIS a utilisé un backbone Resnet avec l’approche SimCLR (Simple Framework for Contrastive Learning of Visual Representations). Prov-GigaPath et ces modèles ont été affinés sur diverses tâches en aval à l’aide de techniques d’apprentissage à instances multiples basées sur l’attention (ABMIL) pour les intégrations au niveau des diapositives.
Pour la prédiction des mutations, les données de Providence Pathology (Prov-Path) ont été utilisées pour construire des tâches, y compris des biomarqueurs du cancer pantumoral (pan-cancer) et des mutations génétiques, évaluées à l’aide de l’aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) et de l’aire sous la précision. -Courbe de rappel (AUPRC) dans une validation croisée 10 fois. Les évaluations des sous-typages du cancer couvraient neuf types, avec des modèles affinés pour 20 époques.
L’alignement vision-langage impliquait la création de 17 383 paires de rapports WSI de pathologie, traitées avec la base de code Open-source Contrastive Language-Image Pre-training (OpenCLIP). Les rapports ont été nettoyés à l’aide de Generative Pre-trained Transformer (GPT)-3.5 et les intégrations de texte ont été calculées avec le modèle text-embedding-ada-002 d’OpenAI. Les tâches de prédiction Zero-shot ont évalué des modèles tels que le transfert Zero-shot d’apprentissage à instances multiples (MI-Zero), le pré-entraînement biomédical contrastif langage-image (BiomedCLIP) et le pré-entraînement langage-image spécifique à la pathologie (PLIP) sur le sous-typage et la mutation. prédiction de l’état, à l’aide des paramètres et des modèles d’invite de MI-Zero.
a, organigramme montrant l’architecture du modèle de Prov-GigaPath. Prov-GigaPath sérialise d’abord chaque WSI d’entrée en une séquence de 256 × 256 tuiles d’image dans l’ordre des lignes principales et utilise un encodeur au niveau des tuiles d’image pour convertir chaque tuile d’image en une intégration visuelle. Prov-GigaPath applique ensuite un encodeur au niveau diapositive basé sur l’architecture LongNet pour générer des intégrations contextualisées, qui peuvent servir de base à diverses applications en aval. b, pré-entraînement au niveau des tuiles d’image à l’aide de DINOv2. c, pré-entraînement au niveau des diapositives avec LongNet utilisant un encodeur automatique masqué. [CLS] est le jeton de classification.
Résultats de l’étude
L’étude a démontré que Prov-GigaPath atteint des performances supérieures dans diverses tâches de pathologie numérique par rapport aux méthodes existantes. Prov-GigaPath a été pré-entraîné sur Prov-Path, un vaste ensemble de données dérivé du système de santé Providence. Cet ensemble de données comprend 1 384 860 229 tuiles d’images provenant de 171 189 lames pathologiques complètes provenant d’environ 30 000 patients. Le modèle utilise l’architecture GigaPath, exploitant la méthode LongNet pour la modélisation à très grand contexte des WSI gigapixels.
Prov-GigaPath a démontré des améliorations significatives dans les tâches de prédiction des mutations et de sous-typage du cancer. Par exemple, dans la tâche de prédiction de mutations de cinq gènes spécifiques à l’adénocarcinome pulmonaire (LUAD) utilisant les données TCGA, Prov-GigaPath a surpassé les modèles concurrents avec des scores AUROC et AUPRC plus élevés. Des résultats similaires ont été observés dans les tâches de prédiction pan-cancer de 18 biomarqueurs et de prédiction de la charge de mutation tumorale (TMB) pan-cancer, démontrant la robustesse et la généralisabilité du modèle à travers différents ensembles de données.
En plus de la prédiction des mutations, Prov-GigaPath a excellé dans les tâches de sous-typage du cancer, surpassant les modèles de pointe dans le sous-typage de neuf types de cancer majeurs. Les améliorations substantielles des performances soulignent l’efficacité de la combinaison des intégrations de tuiles locales avec des informations contextuelles globales au niveau des diapositives à l’aide de LongNet.
Prov-GigaPath a également exploré le traitement du langage visuel en alignant les images pathologiques avec les rapports textuels associés. Le modèle a obtenu les meilleurs résultats de classification zéro-shot sur les tâches de sous-typage du cancer du poumon non à petites cellules (NSCLC) et de l’adénocarcinome colorectal (COADREAD), par rapport à trois modèles vision-langage pathologiques de pointe. Cela indique l’avantage de l’alignement au niveau des diapositives permis par LongNet, exploitant les données cliniques du monde réel par rapport à d’autres sources de données comme Twitter (X).
Conclusions
L’étude a mis en évidence le potentiel de Prov-GigaPath pour améliorer les diagnostics cliniques et l’aide à la décision en pathologie numérique. Son évolutivité et son adaptabilité en font un outil prometteur pour des applications biomédicales plus larges, facilitant un apprentissage auto-supervisé efficace à partir d’images haute résolution. Prov-Path comprend 1 384 860 229 tuiles d’images provenant de 171 189 diapositives de pathologie d’environ 30 000 patients, ce qui le rend nettement plus grand que TCGA. GigaPath utilise LongNet5 pour la modélisation à très grand contexte des WSI gigapixels. Prov-GigaPath a démontré des performances de pointe en matière de pathomique, de sous-typage du cancer et de traitement du langage visuel sur les ensembles de données Providence et TCGA. Le succès du modèle suggère son applicabilité à des domaines biomédicaux plus larges pour un apprentissage auto-supervisé efficace à partir d’images haute résolution.
2024-05-24 04:06:00
1716513325
#nouveau #modèle #dIA #établit #une #référence #matière #pathologie #numérique #avec #des #diagnostics #cancer #supérieurs