name: deeptools
description: Toolkit d'analyse NGS. Conversion BAM vers bigWig, QC (corrélation, PCA, empreintes digitales), heatmaps/profils (TSS, peaks), pour visualisation ChIP-seq, RNA-seq, ATAC-seq.
license: BSD license
tags: [scientific-skills, deeptools, visualization, bioinformatics]
metadata:
skill-author: K-Dense Inc.
-------|----------|------|-------|
| Human | GRCh38/hg38 | 2 913 022 398 | --effectiveGenomeSize 2913022398 |
| Souris | GRCm38/mm10 | 2 652 783 500 | --effectiveGenomeSize 2652783500 |
| Poisson zèbre | GRCz11 | 1 368 780 147 | --effectiveGenomeSize 1368780147 |
| Drosophila | dm6 | 142 573 017 | --effectiveGenomeSize 142573017 |
| C. elegans | ce10/ce11 | 100 286 401 | --effectiveGenomeSize 100286401 |
Tableau complet avec valeurs spécifiques à la longueur de lecture : references/effective_genome_sizes.md
Paramètres communs aux outils
De nombreuses commandes deepTools partagent ces options :
Performance :
--numberOfProcessors, -p: Activer le traitement parallèle (utiliser toujours les cores disponibles)--region: Traiter des régions spécifiques pour les tests (ex.chr1:1-1000000)
Filtrage des lectures :
--ignoreDuplicates: Supprimer les doublons PCR (recommandé pour la plupart des analyses)--minMappingQuality: Filtrer par qualité d'alignement (ex.--minMappingQuality 10)--minFragmentLength/--maxFragmentLength: Limites de longueur de fragment--samFlagInclude/--samFlagExclude: Filtrage par drapeau SAM
Traitement des lectures :
--extendReads: Étendre à la longueur de fragment (ChIP-seq : OUI, RNA-seq : NON)--centerReads: Centrer au point médian du fragment pour des signaux plus nets
Bonnes pratiques
Validation de fichiers
Toujours valider les fichiers d'abord en utilisant scripts/validate_files.py pour vérifier :
- Existence et lisibilité des fichiers
- Indices BAM présents (fichiers .bai)
- Correction du format BED
- Tailles de fichier raisonnables
Stratégie d'analyse
- Commencer par le QC : Exécuter corrélation, couverture et analyse d'empreinte digitale avant de poursuivre
- Tester sur de petites régions : Utiliser
--region chr1:1-10000000pour tester les paramètres - Documenter les commandes : Sauvegarder les lignes de commande complètes pour reproductibilité
- Utiliser une normalisation cohérente : Appliquer la même méthode pour tous les échantillons dans les comparaisons
- Vérifier l'assemblage du génome : S'assurer que les fichiers BAM et BED utilisent les mêmes versions de génome
Spécifique à ChIP-seq
- Toujours étendre les lectures pour ChIP-seq :
--extendReads 200 - Supprimer les doublons : Utiliser
--ignoreDuplicatesdans la plupart des cas - Vérifier l'enrichissement d'abord : Exécuter plotFingerprint avant une analyse détaillée
- Correction GC : Ne l'appliquer que si biais significatif détecté ; ne jamais utiliser
--ignoreDuplicatesaprès correction GC
Spécifique à RNA-seq
- Ne jamais étendre les lectures pour RNA-seq (traverserait les jonctions d'épissage)
- Spécifique au brin : Utiliser
--filterRNAstrand forward/reversepour les librairies avec orientation - Normalisation : CPM pour les bins, RPKM pour les gènes
Spécifique à ATAC-seq
- Appliquer correction Tn5 : Utiliser alignmentSieve avec
--ATACshift - Filtrage de fragments : Définir les longueurs min/max appropriées
- Vérifier le motif de nucléosome : Le graphique de taille de fragment doit montrer un motif en échelle
Optimisation des performances
- Utiliser plusieurs processeurs :
--numberOfProcessors 8(ou cores disponibles) - Augmenter la taille de bin pour traitement plus rapide et fichiers plus petits
- Traiter les chromosomes séparément pour systèmes à mémoire limitée
- Pré-filtrer les fichiers BAM en utilisant alignmentSieve pour créer des fichiers filtrés réutilisables
- Préférer bigWig à bedGraph : Compressé et plus rapide à traiter
Dépannage
Problèmes courants
Index BAM manquant :
samtools index input.bam
Manque de mémoire :
Traiter les chromosomes individuellement en utilisant --region :
bamCoverage --bam input.bam -o chr1.bw --region chr1
Traitement lent :
Augmenter --numberOfProcessors et/ou --binSize
Fichiers bigWig trop volumineux :
Augmenter la taille de bin : --binSize 50 ou plus
Erreurs de validation
Exécuter le script de validation pour identifier les problèmes :
python scripts/validate_files.py --bam *.bam --bed regions.bed
Les erreurs courantes et solutions sont expliquées dans la sortie du script.
Documentation de référence
Cette skill inclut une documentation de référence complète :
references/tools_reference.md
Documentation complète de toutes les commandes deepTools organisées par catégorie :
- Outils de traitement BAM et bigWig (9 outils)
- Outils de contrôle de qualité (6 outils)
- Outils de visualisation (3 outils)
- Outils divers (2 outils)
Chaque outil inclut :
- Objectif et aperçu
- Paramètres clés avec explications
- Exemples d'utilisation
- Notes importantes et bonnes pratiques
Utiliser cette référence quand : Les utilisateurs posent des questions sur des outils spécifiques, des paramètres ou une utilisation détaillée.
references/workflows.md
Exemples complets de workflows pour analyses courantes :
- Workflow de contrôle de qualité ChIP-seq
- Workflow complet d'analyse ChIP-seq
- Workflow de couverture RNA-seq
- Workflow d'analyse ATAC-seq
- Workflow de comparaison multi-échantillons
- Workflow d'analyse de région peak
- Conseils de dépannage et optimisation des performances
Utiliser cette référence quand : Les utilisateurs ont besoin de pipelines d'analyse complets ou d'exemples de workflows.
references/normalization_methods.md
Guide complet des méthodes de normalisation :
- Explication détaillée de chaque méthode (RPGC, CPM, RPKM, BPM, etc.)
- Quand utiliser chaque méthode
- Formules et interprétation
- Guide de sélection par type d'expérience
- Pièges courants et solutions
- Tableau de référence rapide
Utiliser cette référence quand : Les utilisateurs posent des questions sur la normalisation, la comparaison d'échantillons ou le choix de la méthode.
references/effective_genome_sizes.md
Valeurs de taille de génome effectif et utilisation :
- Valeurs courantes d'organismes (humain, souris, mouche, ver, poisson zèbre)
- Valeurs spécifiques à la longueur de lecture
- Méthodes de calcul
- Quand et comment utiliser dans les commandes
- Instructions de calcul pour génomes personnalisés
Utiliser cette référence quand : Les utilisateurs ont besoin de la taille de génome pour normalisation RPGC ou correction de biais GC.
Scripts d'aide
scripts/validate_files.py
Valide les fichiers BAM, bigWig et BED pour analyse deepTools. Vérifie existence des fichiers, indices et format.
Utilisation :
python scripts/validate_files.py --bam sample1.bam sample2.bam \
--bed peaks.bed --bigwig signal.bw
Quand utiliser : Avant de commencer une analyse, ou lors du dépannage d'erreurs.
scripts/workflow_generator.py
Génère des modèles de script bash personnalisables pour workflows deepTools courants.
Workflows disponibles :
chipseq_qc: Contrôle de qualité ChIP-seqchipseq_analysis: Analyse complète ChIP-seqrnaseq_coverage: Couverture RNA-seq avec orientationatacseq: ATAC-seq avec correction Tn5
Utilisation :
# Lister les workflows
python scripts/workflow_generator.py --list
# Générer un workflow
python scripts/workflow_generator.py chipseq_qc -o qc.sh \
--input-bam Input.bam --chip-bams "ChIP1.bam ChIP2.bam" \
--genome-size 2913022398 --threads 8
# Exécuter le workflow généré
chmod +x qc.sh
./qc.sh
Quand utiliser : Quand les utilisateurs demandent des workflows standard ou des modèles de script à personnaliser.
Assets
assets/quick_reference.md
Fiche de référence rapide avec les commandes les plus courantes, tailles de génome effectives et motif de workflow typique.
Quand utiliser : Les utilisateurs ont besoin d'exemples de commandes rapides sans documentation détaillée.
Gestion des demandes utilisateur
Pour nouveaux utilisateurs
- Commencer par vérification de l'installation
- Valider les fichiers d'entrée avec
scripts/validate_files.py - Recommander un workflow approprié selon le type d'expérience
- Générer un modèle de workflow avec
scripts/workflow_generator.py - Guider à travers la personnalisation et l'exécution
Pour utilisateurs expérimentés
- Fournir des commandes d'outils spécifiques pour les opérations demandées
- Référencer les sections appropriées dans
references/tools_reference.md - Suggérer des optimisations et bonnes pratiques
- Offrir un dépannage pour les problèmes
Pour tâches spécifiques
"Convertir BAM en bigWig" :
- Utiliser bamCoverage avec normalisation appropriée
- Recommander RPGC ou CPM selon le cas d'usage
- Fournir la taille de génome effectif pour l'organisme
- Suggérer les paramètres pertinents (extendReads, ignoreDuplicates, binSize)
"Vérifier la qualité ChIP" :
- Exécuter le workflow QC complet ou utiliser plotFingerprint spécifiquement
- Expliquer l'interprétation des résultats
- Suggérer les actions de suivi selon les résultats
"Créer une heatmap" :
- Guider à travers le processus en deux étapes : computeMatrix → plotHeatmap
- Aider au choix du mode matrice (reference-point vs scale-regions)
- Suggérer les paramètres de visualisation et options de clustering
"Comparer des échantillons" :
- Recommander bamCompare pour comparaison deux échantillons
- Suggérer multiBamSummary + plotCorrelation pour plusieurs échantillons
- Guider la sélection de la méthode de normalisation
Référençage de la documentation
Quand les utilisateurs ont besoin d'informations détaillées :
- Détails d'outils : Diriger vers sections spécifiques dans
references/tools_reference.md - Workflows : Utiliser
references/workflows.mdpour pipelines d'analyse complets - Normalisation : Consulter
references/normalization_methods.mdpour sélection de méthode - Tailles de génome : Référencer
references/effective_genome_sizes.md
Rechercher dans les références avec motifs grep :
# Trouver documentation d'outil
grep -A 20 "^### toolname" references/tools_reference.md
# Trouver workflow
grep -A 50 "^## Workflow Name" references/workflows.md
# Trouver méthode de normalisation
grep -A 15 "^### Method Name" references/normalization_methods.md
Exemples d'interactions
Utilisateur : "Je dois analyser mes données ChIP-seq"
Approche de réponse :
- Demander les fichiers disponibles (fichiers BAM, peaks, gènes)
- Valider les fichiers avec script de validation
- Générer un modèle workflow chipseq_analysis
- Personnaliser pour leurs fichiers et organisme spécifiques
- Expliquer chaque étape à l'exécution du script
Utilisateur : "Quelle normalisation devrais-je utiliser ?"
Approche de réponse :
- Demander le type d'expérience (ChIP-seq, RNA-seq, etc.)
- Demander l'objectif de comparaison (intra-échantillon ou inter-échantillons)
- Consulter le guide de sélection dans
references/normalization_methods.md - Recommander la méthode appropriée avec justification
- Fournir un exemple de commande avec paramètres
Utilisateur : "Créer une heatmap autour du TSS"
Approche de réponse :
- Vérifier que les fichiers bigWig et gènes BED sont disponibles
- Utiliser computeMatrix en mode reference-point au TSS
- Générer plotHeatmap avec paramètres de visualisation appropriés
- Suggérer le clustering si l'ensemble de données est volumineux
- Offrir un graphique de profil en complément
Rappels clés
- Validation de fichiers d'abord : Toujours valider les fichiers d'entrée avant l'analyse
- La normalisation compte : Choisir la méthode appropriée pour le type de comparaison
- Étendre les lectures avec soin : OUI pour ChIP-seq, NON pour RNA-seq
- Utiliser tous les cores : Définir
--numberOfProcessorsau nombre de cores disponibles - Tester sur des régions : Utiliser
--regionpour tester les paramètres - Vérifier le QC d'abord : Exécuter le contrôle de qualité avant une analyse détaillée
- Documenter tout : Sauvegarder les commandes pour reproductibilité
- Utiliser la documentation de référence : Consulter les références complètes pour guidance détaillée