pathml

Par mkurman · zorai

Boîte à outils complète pour la pathologie computationnelle. À utiliser pour l'analyse avancée de WSI, notamment l'immunofluorescence multiplexée (CODEX, Vectra), la segmentation des noyaux, la construction de graphes tissulaires et l'entraînement de modèles ML sur des données pathologiques. Prend en charge plus de 160 formats de lames. Pour une extraction simple de tuiles à partir de lames H&E, histolab peut être plus adapté.

npx skills add https://github.com/mkurman/zorai --skill pathml

PathML

Aperçu

PathML est un toolkit Python complet pour les workflows de pathologie computationnelle, conçu pour faciliter le machine learning et l'analyse d'images appliquées aux images de lames entières en pathologie. Le framework fournit des outils modulaires et composables pour charger divers formats de lames, prétraiter les images, construire des graphes spatiaux, entraîner des modèles de deep learning et analyser des données d'imagerie multivariée provenant de technologies comme CODEX et l'immunofluorescence multiplex.

Quand utiliser cette skill

Appliquez cette skill pour :

  • Charger et traiter des images de lames entières (WSI) dans divers formats propriétaires
  • Prétraiter les images de tissu colorées en H&E avec normalisation de coloration
  • Les workflows de détection, segmentation et classification de noyaux
  • Construire des graphes cellulaires et tissulaires pour l'analyse spatiale
  • Entraîner ou déployer des modèles de machine learning (HoVer-Net, HACTNet) sur des données de pathologie
  • Analyser l'imagerie multivariée (CODEX, Vectra, MERFISH) pour la protéomique spatiale
  • Quantifier l'expression de marqueurs à partir d'immunofluorescence multiplex
  • Gérer des ensembles de données de pathologie à grande échelle avec stockage HDF5
  • Les opérations d'analyse et de couture basées sur tuiles

Capacités principales

PathML fournit six domaines de capacité majeurs documentés en détail dans les fichiers de référence :

1. Chargement d'images et formats

Chargez des images de lames entières depuis plus de 160 formats propriétaires incluant Aperio SVS, Hamamatsu NDPI, Leica SCN, Zeiss ZVI, DICOM et OME-TIFF. PathML gère automatiquement les formats spécifiques aux fournisseurs et fournit des interfaces unifiées pour accéder aux pyramides d'images, métadonnées et régions d'intérêt.

Voir : references/image_loading.md pour les formats supportés, les stratégies de chargement et le travail avec différents types de lames.

2. Pipelines de prétraitement

Construisez des pipelines de prétraitement modulaires en composant des transformations pour la manipulation d'images, le contrôle qualité, la normalisation de coloration, la détection de tissu et les opérations de masque. L'architecture Pipeline de PathML permet un prétraitement reproductible et scalable sur de grands ensembles de données.

Transformations clés :

  • StainNormalizationHE - Normalisation de coloration Macenko/Vahadane
  • TissueDetectionHE, NucleusDetectionHE - Segmentation de tissu/noyau
  • MedianBlur, GaussianBlur - Réduction du bruit
  • LabelArtifactTileHE - Contrôle qualité pour les artefacts

Voir : references/preprocessing.md pour le catalogue complet des transformations, la construction de pipelines et les workflows de prétraitement.

3. Construction de graphes

Construisez des graphes spatiaux représentant les relations au niveau cellulaire et tissulaire. Extrayez les caractéristiques des objets segmentés pour créer des représentations basées sur des graphes adaptées aux réseaux de neurones graphiques et à l'analyse spatiale.

Voir : references/graphs.md pour les méthodes de construction de graphes, l'extraction de caractéristiques et les workflows d'analyse spatiale.

4. Machine Learning

Entraînez et déployez des modèles de deep learning pour la détection, la segmentation et la classification de noyaux. PathML intègre PyTorch avec des modèles préconstruits (HoVer-Net, HACTNet), des DataLoaders personnalisés et le support ONNX pour l'inférence.

Modèles clés :

  • HoVer-Net - Segmentation et classification de noyaux simultanées
  • HACTNet - Classification hiérarchique de types cellulaires

Voir : references/machine_learning.md pour l'entraînement de modèles, les workflows d'évaluation et d'inférence et le travail avec des ensembles de données publics.

5. Imagerie multivariée

Analysez les données de protéomique spatiale et d'expression génique provenant de CODEX, Vectra, MERFISH et d'autres plates-formes d'imagerie multiplex. PathML fournit des classes de lames spécialisées et des transformations pour le traitement des données multivariées, la segmentation cellulaire avec Mesmer et les workflows de quantification.

Voir : references/multiparametric.md pour les workflows CODEX/Vectra, la segmentation cellulaire, la quantification de marqueurs et l'intégration avec AnnData.

6. Gestion des données

Stockez et gérez efficacement les grands ensembles de données de pathologie en utilisant le format HDF5. PathML gère les tuiles, masques, métadonnées et caractéristiques extraites dans des structures de stockage unifiées optimisées pour les workflows de machine learning.

Voir : references/data_management.md pour l'intégration HDF5, la gestion des tuiles, l'organisation des ensembles de données et les stratégies de traitement par lot.

Démarrage rapide

Installation

# Installer PathML
uv pip install pathml

# Avec dépendances optionnelles pour toutes les fonctionnalités
uv pip install pathml[all]

Exemple de workflow basique

from pathml.core import SlideData
from pathml.preprocessing import Pipeline, StainNormalizationHE, TissueDetectionHE

# Charger une image de lame entière
wsi = SlideData.from_slide("path/to/slide.svs")

# Créer un pipeline de prétraitement
pipeline = Pipeline([
    TissueDetectionHE(),
    StainNormalizationHE(target='normalize', stain_estimation_method='macenko')
])

# Exécuter le pipeline
pipeline.run(wsi)

# Accéder aux tuiles traitées
for tile in wsi.tiles:
    processed_image = tile.image
    tissue_mask = tile.masks['tissue']

Workflows courants

Analyse d'images H&E :

  1. Charger WSI avec la classe de lame appropriée
  2. Appliquer la détection de tissu et la normalisation de coloration
  3. Effectuer la détection de noyau ou entraîner des modèles de segmentation
  4. Extraire les caractéristiques et construire des graphes spatiaux
  5. Conduire l'analyse en aval

Imagerie multivariée (CODEX) :

  1. Charger une lame CODEX avec CODEXSlide
  2. Réduire les données de canaux multi-passages
  3. Segmenter les cellules en utilisant le modèle Mesmer
  4. Quantifier l'expression de marqueurs
  5. Exporter vers AnnData pour l'analyse monocellulaire

Entraînement de modèles ML :

  1. Préparer un ensemble de données avec des données de pathologie publiques
  2. Créer un DataLoader PyTorch avec les ensembles de données PathML
  3. Entraîner HoVer-Net ou des modèles personnalisés
  4. Évaluer sur des ensembles de test retenus
  5. Déployer avec ONNX pour l'inférence

Références vers la documentation détaillée

Lors du travail sur des tâches spécifiques, reportez-vous au fichier de référence approprié pour obtenir des informations complètes :

  • Charger des images : references/image_loading.md
  • Workflows de prétraitement : references/preprocessing.md
  • Analyse spatiale : references/graphs.md
  • Entraînement de modèles : references/machine_learning.md
  • CODEX/immunofluorescence multiplex : references/multiparametric.md
  • Stockage de données : references/data_management.md

Ressources

Cette skill comprend une documentation de référence complète organisée par domaine de capacité. Chaque fichier de référence contient des informations détaillées sur l'API, des exemples de workflows, des bonnes pratiques et un guide de dépannage pour les fonctionnalités spécifiques de PathML.

references/

Fichiers de documentation fournissant une couverture approfondie des capacités de PathML :

  • image_loading.md - Formats d'images de lames entières, stratégies de chargement, classes de lames
  • preprocessing.md - Catalogue complet des transformations, construction de pipelines, workflows de prétraitement
  • graphs.md - Méthodes de construction de graphes, extraction de caractéristiques, analyse spatiale
  • machine_learning.md - Architectures de modèles, workflows d'entraînement, évaluation, inférence
  • multiparametric.md - Analyse CODEX, Vectra, immunofluorescence multiplex, segmentation cellulaire, quantification
  • data_management.md - Stockage HDF5, gestion des tuiles, traitement par lot, organisation des ensembles de données

Chargez ces références selon vos besoins lors du travail sur des tâches spécifiques de pathologie computationnelle.

Skills similaires