Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

97 skills

# Skill Source Description Δ
1 arize-dataset github/awesome-copilot Gérer et exporter des datasets versionnés dans l'espace Arize via CLI. 33 040 60
2 dataverse-python-advanced-patterns github/awesome-copilot Générer du code Python production-ready pour interagir avec l'API Dataverse via son SDK. 33 040 60
3 dataverse-python-production-code github/awesome-copilot Générer du code Python production-ready pour interagir avec l'API Dataverse. 33 040 60
4 geofeed-tuner github/awesome-copilot Créer et optimiser des feeds de géolocalisation IP au format CSV selon RFC 8805. 33 040 60
5 power-bi-model-design-review github/awesome-copilot Auditer et optimiser la conception d'un modèle de données Power BI. 33 040 60
6 bigquery-pipeline-audit github/awesome-copilot Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. 33 040 60
7 powerbi-modeling github/awesome-copilot Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft. 33 040 60
8 mini-context-graph github/awesome-copilot Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. 33 040 60
9 projection-patterns wshobson/agents Construire des projections et read models pour systèmes event-sourced en CQRS. 35 424 49
10 airflow-dag-patterns wshobson/agents Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. 35 424 49
11 data-quality-frameworks wshobson/agents Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. 35 424 49
12 dbt-transformation-patterns wshobson/agents Structurer et optimiser des pipelines de transformation dbt en couches analytiques. 35 424 49
13 spark-optimization wshobson/agents Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. 35 424 49
14 ml-pipeline-workflow wshobson/agents Orchestrer un pipeline MLOps complet de l'ingestion des données au déploiement en production. 35 424 49
15 risk-metrics-calculation wshobson/agents Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. 35 424 49
16 instrument-data-to-allotrope anthropics/knowledge-work-plugins Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. 12 182 38
17 nextflow-development anthropics/knowledge-work-plugins Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. 12 182 38
18 single-cell-rna-qc anthropics/knowledge-work-plugins Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse. 12 182 38
19 analyze anthropics/knowledge-work-plugins Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel. 12 182 38
20 create-viz anthropics/knowledge-work-plugins Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. 12 182 38
21 explore-data anthropics/knowledge-work-plugins Profiler un dataset pour révéler sa structure, qualité et patterns clés. 12 182 38
22 sql-queries anthropics/knowledge-work-plugins Écrire des requêtes SQL performantes et lisibles pour tous les grands entrepôts de données. 12 182 38
23 validate-data anthropics/knowledge-work-plugins Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage. 12 182 38
24 write-query anthropics/knowledge-work-plugins Générer des requêtes SQL optimisées à partir d'une description en langage naturel. 12 182 38
25 data-context-extractor anthropics/knowledge-work-plugins Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure. 12 182 38
26 knowledge-synthesis anthropics/knowledge-work-plugins Synthétiser des résultats multi-sources en réponse cohérente, sourcée et fiable. 12 182 38
27 search-strategy anthropics/knowledge-work-plugins Transformer une question en recherches parallèles multi-sources et synthétiser les résultats. 12 182 38
28 data-analytics elophanto/elophanto Analyser des données, créer des dashboards et automatiser des rapports décisionnels. 72 13
29 data-consolidation elophanto/elophanto Agréger et visualiser les performances commerciales par territoire, représentant et période. 72 13
30 data-engineering elophanto/elophanto Concevoir et opérer des pipelines de données fiables, scalables et observables à grande échelle. 72 13
31 sales-data-extraction elophanto/elophanto Surveiller des répertoires Excel et extraire automatiquement les métriques de vente normalisées. 72 13
32 hf-cli huggingface/skills Gérer dépôts, fichiers et authentification sur le Hub Hugging Face via CLI. 10 498 7
33 huggingface-tool-builder huggingface/skills Créer des scripts CLI réutilisables pour interagir avec l'API Hugging Face. 10 498 7
34 azure-ai-document-intelligence-dotnet microsoft/skills Extraire texte, tableaux et données structurées depuis des documents Azure. 2 316 6
35 deep-agents-memory langchain-ai/langchain-skills Gérer la persistance de fichiers pour agents IA avec backends modulaires éphémères ou permanents. 689 4
36 qdrant-scaling-data-volume qdrant/skills Scaler des volumes de données massifs via multi-tenancy, fenêtre temporelle ou sharding distribué. 120 2
37 airflow-adapter astronomer/agents Assurer la compatibilité automatique entre les API Airflow 2.x et 3.x. 364 2
38 airflow-hitl astronomer/agents Intégrer des points de validation humaine dans un DAG Airflow via des opérateurs déférables. 364 2
39 airflow astronomer/agents Gérer, diagnostiquer et opérer des workflows Airflow via des commandes CLI dédiées. 364 2
40 analyzing-data astronomer/agents Interroger un entrepôt de données pour répondre à des questions métier. 364 2
41 annotating-task-lineage astronomer/agents Annoter la lignée des tâches Airflow via les paramètres inlets et outlets. 364 2
42 authoring-dags astronomer/agents Créer et valider des DAGs Airflow via le CLI af en suivant les bonnes pratiques. 364 2
43 checking-freshness astronomer/agents Vérifier la fraîcheur des données d'une table et diagnostiquer les pipelines en retard. 364 2
44 cosmos-dbt-core astronomer/agents Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. 364 2
45 cosmos-dbt-fusion astronomer/agents Intégrer dbt Fusion avec Cosmos dans Airflow en suivant une checklist d'implémentation structurée. 364 2
46 creating-openlineage-extractors astronomer/agents Créer des extracteurs OpenLineage personnalisés pour capturer la lignée des opérateurs Airflow. 364 2
47 dag-factory astronomer/agents Générer des DAGs Apache Airflow déclarativement depuis des fichiers YAML avec dag-factory. 364 2
48 debugging-dags astronomer/agents Diagnostiquer et résoudre les échecs de DAGs Airflow avec des actions correctives ciblées. 364 2
49 migrating-ai-sdk-to-common-ai astronomer/agents Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai. 364 2
50 migrating-airflow-2-to-3 astronomer/agents Migrer des DAGs Airflow 2.x vers Airflow 3.x en corrigeant imports et API. 364 2

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.