Pipelines de données
Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | arize-dataset | github/awesome-copilot | Gérer et exporter des datasets versionnés dans l'espace Arize via CLI. | 33 040 | 563 |
| 2 | dataverse-python-advanced-patterns | github/awesome-copilot | Générer du code Python production-ready pour interagir avec l'API Dataverse via son SDK. | 33 040 | 563 |
| 3 | dataverse-python-production-code | github/awesome-copilot | Générer du code Python production-ready pour interagir avec l'API Dataverse. | 33 040 | 563 |
| 4 | geofeed-tuner | github/awesome-copilot | Créer et optimiser des feeds de géolocalisation IP au format CSV selon RFC 8805. | 33 040 | 563 |
| 5 | power-bi-model-design-review | github/awesome-copilot | Auditer et optimiser la conception d'un modèle de données Power BI. | 33 040 | 563 |
| 6 | bigquery-pipeline-audit | github/awesome-copilot | Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. | 33 040 | 563 |
| 7 | powerbi-modeling | github/awesome-copilot | Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft. | 33 040 | 563 |
| 8 | mini-context-graph | github/awesome-copilot | Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. | 33 040 | 563 |
| 9 | projection-patterns | wshobson/agents | Construire des projections et read models pour systèmes event-sourced en CQRS. | 35 424 | 412 |
| 10 | airflow-dag-patterns | wshobson/agents | Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. | 35 424 | 412 |
| 11 | data-quality-frameworks | wshobson/agents | Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. | 35 424 | 412 |
| 12 | dbt-transformation-patterns | wshobson/agents | Structurer et optimiser des pipelines de transformation dbt en couches analytiques. | 35 424 | 412 |
| 13 | spark-optimization | wshobson/agents | Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. | 35 424 | 412 |
| 14 | ml-pipeline-workflow | wshobson/agents | Orchestrer un pipeline MLOps complet de l'ingestion des données au déploiement en production. | 35 424 | 412 |
| 15 | risk-metrics-calculation | wshobson/agents | Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. | 35 424 | 412 |
| 16 | instrument-data-to-allotrope | anthropics/knowledge-work-plugins | Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. | 12 182 | 231 |
| 17 | nextflow-development | anthropics/knowledge-work-plugins | Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. | 12 182 | 231 |
| 18 | single-cell-rna-qc | anthropics/knowledge-work-plugins | Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse. | 12 182 | 231 |
| 19 | analyze | anthropics/knowledge-work-plugins | Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel. | 12 182 | 231 |
| 20 | create-viz | anthropics/knowledge-work-plugins | Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. | 12 182 | 231 |
| 21 | explore-data | anthropics/knowledge-work-plugins | Profiler un dataset pour révéler sa structure, qualité et patterns clés. | 12 182 | 231 |
| 22 | sql-queries | anthropics/knowledge-work-plugins | Écrire des requêtes SQL performantes et lisibles pour tous les grands entrepôts de données. | 12 182 | 231 |
| 23 | validate-data | anthropics/knowledge-work-plugins | Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage. | 12 182 | 231 |
| 24 | write-query | anthropics/knowledge-work-plugins | Générer des requêtes SQL optimisées à partir d'une description en langage naturel. | 12 182 | 231 |
| 25 | data-context-extractor | anthropics/knowledge-work-plugins | Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure. | 12 182 | 231 |
| 26 | knowledge-synthesis | anthropics/knowledge-work-plugins | Synthétiser des résultats multi-sources en réponse cohérente, sourcée et fiable. | 12 182 | 231 |
| 27 | search-strategy | anthropics/knowledge-work-plugins | Transformer une question en recherches parallèles multi-sources et synthétiser les résultats. | 12 182 | 231 |
| 28 | hf-cli | huggingface/skills | Gérer dépôts, fichiers et authentification sur le Hub Hugging Face via CLI. | 10 498 | 84 |
| 29 | huggingface-tool-builder | huggingface/skills | Créer des scripts CLI réutilisables pour interagir avec l'API Hugging Face. | 10 498 | 84 |
| 30 | azure-ai-document-intelligence-dotnet | microsoft/skills | Extraire texte, tableaux et données structurées depuis des documents Azure. | 2 316 | 55 |
| 31 | deep-agents-memory | langchain-ai/langchain-skills | Gérer la persistance de fichiers pour agents IA avec backends modulaires éphémères ou permanents. | 689 | 25 |
| 32 | creating-mermaid-dbt-dag | dbt-labs/dbt-agent-skills | Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné. | 501 | 23 |
| 33 | using-dbt-index | dbt-labs/dbt-agent-skills | Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt. | 501 | 23 |
| 34 | migrating-dbt-core-to-fusion | dbt-labs/dbt-agent-skills | Trier et classer les erreurs de migration dbt pour guider leur résolution. | 501 | 23 |
| 35 | migrating-dbt-project-across-platforms | dbt-labs/dbt-agent-skills | Migrer un projet dbt entre plateformes de données avec validation automatisée. | 501 | 23 |
| 36 | answering-natural-language-questions-with-dbt | dbt-labs/dbt-agent-skills | Répondre à des questions métier en exploitant les meilleures sources de données dbt disponibles. | 501 | 23 |
| 37 | building-dbt-semantic-layer | dbt-labs/dbt-agent-skills | Créer et modifier des composants dbt Semantic Layer : modèles, entités, dimensions et métriques. | 501 | 23 |
| 38 | fetching-dbt-docs | dbt-labs/dbt-agent-skills | Récupérer et rechercher la documentation dbt en format markdown optimisé pour les LLMs. | 501 | 23 |
| 39 | running-dbt-commands | dbt-labs/dbt-agent-skills | Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables. | 501 | 23 |
| 40 | troubleshooting-dbt-job-errors | dbt-labs/dbt-agent-skills | Diagnostiquer et résoudre méthodiquement les échecs de jobs dbt Cloud. | 501 | 23 |
| 41 | using-dbt-for-analytics-engineering | dbt-labs/dbt-agent-skills | Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. | 501 | 23 |
| 42 | working-with-dbt-mesh | dbt-labs/dbt-agent-skills | Configurer et naviguer dans un projet dbt Mesh multi-projets avec des références croisées. | 501 | 23 |
| 43 | data-analytics | elophanto/elophanto | Analyser des données, créer des dashboards et automatiser des rapports décisionnels. | 72 | 16 |
| 44 | data-consolidation | elophanto/elophanto | Agréger et visualiser les performances commerciales par territoire, représentant et période. | 72 | 16 |
| 45 | data-engineering | elophanto/elophanto | Concevoir et opérer des pipelines de données fiables, scalables et observables à grande échelle. | 72 | 16 |
| 46 | sales-data-extraction | elophanto/elophanto | Surveiller des répertoires Excel et extraire automatiquement les métriques de vente normalisées. | 72 | 16 |
| 47 | qdrant-scaling-data-volume | qdrant/skills | Scaler des volumes de données massifs via multi-tenancy, fenêtre temporelle ou sharding distribué. | 120 | 12 |
| 48 | chdb-datastore | clickhouse/agent-skills | Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code. | 428 | 6 |
| 49 | chdb-sql | clickhouse/agent-skills | Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud. | 428 | 6 |
| 50 | clickhouse-architecture-advisor | clickhouse/agent-skills | Conseiller en architecture ClickHouse adapté au profil de charge et aux données. | 428 | 6 |
À propos de cette sélection
L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.