PathML

Aperçu

PathML est un toolkit Python complet pour les workflows de pathologie computationnelle, conçu pour faciliter le machine learning et l'analyse d'images appliquées aux images de lames entières en pathologie. Le framework fournit des outils modulaires et composables pour charger divers formats de lames, prétraiter les images, construire des graphes spatiaux, entraîner des modèles de deep learning et analyser des données d'imagerie multivariée provenant de technologies comme CODEX et l'immunofluorescence multiplex.

Quand utiliser cette skill

Appliquez cette skill pour :

Charger et traiter des images de lames entières (WSI) dans divers formats propriétaires
Prétraiter les images de tissu colorées en H&E avec normalisation de coloration
Les workflows de détection, segmentation et classification de noyaux
Construire des graphes cellulaires et tissulaires pour l'analyse spatiale
Entraîner ou déployer des modèles de machine learning (HoVer-Net, HACTNet) sur des données de pathologie
Analyser l'imagerie multivariée (CODEX, Vectra, MERFISH) pour la protéomique spatiale
Quantifier l'expression de marqueurs à partir d'immunofluorescence multiplex
Gérer des ensembles de données de pathologie à grande échelle avec stockage HDF5
Les opérations d'analyse et de couture basées sur tuiles

Capacités principales

PathML fournit six domaines de capacité majeurs documentés en détail dans les fichiers de référence :

1. Chargement d'images et formats

Chargez des images de lames entières depuis plus de 160 formats propriétaires incluant Aperio SVS, Hamamatsu NDPI, Leica SCN, Zeiss ZVI, DICOM et OME-TIFF. PathML gère automatiquement les formats spécifiques aux fournisseurs et fournit des interfaces unifiées pour accéder aux pyramides d'images, métadonnées et régions d'intérêt.

Voir : references/image_loading.md pour les formats supportés, les stratégies de chargement et le travail avec différents types de lames.

2. Pipelines de prétraitement

Construisez des pipelines de prétraitement modulaires en composant des transformations pour la manipulation d'images, le contrôle qualité, la normalisation de coloration, la détection de tissu et les opérations de masque. L'architecture Pipeline de PathML permet un prétraitement reproductible et scalable sur de grands ensembles de données.

Transformations clés :

StainNormalizationHE - Normalisation de coloration Macenko/Vahadane
TissueDetectionHE, NucleusDetectionHE - Segmentation de tissu/noyau
MedianBlur, GaussianBlur - Réduction du bruit
LabelArtifactTileHE - Contrôle qualité pour les artefacts

Voir : references/preprocessing.md pour le catalogue complet des transformations, la construction de pipelines et les workflows de prétraitement.

3. Construction de graphes

Construisez des graphes spatiaux représentant les relations au niveau cellulaire et tissulaire. Extrayez les caractéristiques des objets segmentés pour créer des représentations basées sur des graphes adaptées aux réseaux de neurones graphiques et à l'analyse spatiale.

Voir : references/graphs.md pour les méthodes de construction de graphes, l'extraction de caractéristiques et les workflows d'analyse spatiale.

4. Machine Learning

Entraînez et déployez des modèles de deep learning pour la détection, la segmentation et la classification de noyaux. PathML intègre PyTorch avec des modèles préconstruits (HoVer-Net, HACTNet), des DataLoaders personnalisés et le support ONNX pour l'inférence.

Modèles clés :

HoVer-Net - Segmentation et classification de noyaux simultanées
HACTNet - Classification hiérarchique de types cellulaires

Voir : references/machine_learning.md pour l'entraînement de modèles, les workflows d'évaluation et d'inférence et le travail avec des ensembles de données publics.

5. Imagerie multivariée

Analysez les données de protéomique spatiale et d'expression génique provenant de CODEX, Vectra, MERFISH et d'autres plates-formes d'imagerie multiplex. PathML fournit des classes de lames spécialisées et des transformations pour le traitement des données multivariées, la segmentation cellulaire avec Mesmer et les workflows de quantification.

Voir : references/multiparametric.md pour les workflows CODEX/Vectra, la segmentation cellulaire, la quantification de marqueurs et l'intégration avec AnnData.

6. Gestion des données

Stockez et gérez efficacement les grands ensembles de données de pathologie en utilisant le format HDF5. PathML gère les tuiles, masques, métadonnées et caractéristiques extraites dans des structures de stockage unifiées optimisées pour les workflows de machine learning.

Voir : references/data_management.md pour l'intégration HDF5, la gestion des tuiles, l'organisation des ensembles de données et les stratégies de traitement par lot.

Démarrage rapide

Installation

# Installer PathML
uv pip install pathml

# Avec dépendances optionnelles pour toutes les fonctionnalités
uv pip install pathml[all]

Exemple de workflow basique

from pathml.core import SlideData
from pathml.preprocessing import Pipeline, StainNormalizationHE, TissueDetectionHE

# Charger une image de lame entière
wsi = SlideData.from_slide("path/to/slide.svs")

# Créer un pipeline de prétraitement
pipeline = Pipeline([
    TissueDetectionHE(),
    StainNormalizationHE(target='normalize', stain_estimation_method='macenko')
])

# Exécuter le pipeline
pipeline.run(wsi)

# Accéder aux tuiles traitées
for tile in wsi.tiles:
    processed_image = tile.image
    tissue_mask = tile.masks['tissue']

Workflows courants

Analyse d'images H&E :

Charger WSI avec la classe de lame appropriée
Appliquer la détection de tissu et la normalisation de coloration
Effectuer la détection de noyau ou entraîner des modèles de segmentation
Extraire les caractéristiques et construire des graphes spatiaux
Conduire l'analyse en aval

Imagerie multivariée (CODEX) :

Charger une lame CODEX avec CODEXSlide
Réduire les données de canaux multi-passages
Segmenter les cellules en utilisant le modèle Mesmer
Quantifier l'expression de marqueurs
Exporter vers AnnData pour l'analyse monocellulaire

Entraînement de modèles ML :

Préparer un ensemble de données avec des données de pathologie publiques
Créer un DataLoader PyTorch avec les ensembles de données PathML
Entraîner HoVer-Net ou des modèles personnalisés
Évaluer sur des ensembles de test retenus
Déployer avec ONNX pour l'inférence

Références vers la documentation détaillée

Lors du travail sur des tâches spécifiques, reportez-vous au fichier de référence approprié pour obtenir des informations complètes :

Charger des images : references/image_loading.md
Workflows de prétraitement : references/preprocessing.md
Analyse spatiale : references/graphs.md
Entraînement de modèles : references/machine_learning.md
CODEX/immunofluorescence multiplex : references/multiparametric.md
Stockage de données : references/data_management.md

Ressources

Cette skill comprend une documentation de référence complète organisée par domaine de capacité. Chaque fichier de référence contient des informations détaillées sur l'API, des exemples de workflows, des bonnes pratiques et un guide de dépannage pour les fonctionnalités spécifiques de PathML.

references/

Fichiers de documentation fournissant une couverture approfondie des capacités de PathML :

image_loading.md - Formats d'images de lames entières, stratégies de chargement, classes de lames
preprocessing.md - Catalogue complet des transformations, construction de pipelines, workflows de prétraitement
graphs.md - Méthodes de construction de graphes, extraction de caractéristiques, analyse spatiale
machine_learning.md - Architectures de modèles, workflows d'entraînement, évaluation, inférence
multiparametric.md - Analyse CODEX, Vectra, immunofluorescence multiplex, segmentation cellulaire, quantification
data_management.md - Stockage HDF5, gestion des tuiles, traitement par lot, organisation des ensembles de données

Chargez ces références selon vos besoins lors du travail sur des tâches spécifiques de pathologie computationnelle.