Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

97 skills

#	Skill	Source	Description		Δ
1	arize-dataset	github/awesome-copilot	Gérer et exporter des datasets versionnés dans l'espace Arize via CLI.	33 040	563
2	dataverse-python-advanced-patterns	github/awesome-copilot	Générer du code Python production-ready pour interagir avec l'API Dataverse via son SDK.	33 040	563
3	dataverse-python-production-code	github/awesome-copilot	Générer du code Python production-ready pour interagir avec l'API Dataverse.	33 040	563
4	geofeed-tuner	github/awesome-copilot	Créer et optimiser des feeds de géolocalisation IP au format CSV selon RFC 8805.	33 040	563
5	power-bi-model-design-review	github/awesome-copilot	Auditer et optimiser la conception d'un modèle de données Power BI.	33 040	563
6	bigquery-pipeline-audit	github/awesome-copilot	Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production.	33 040	563
7	powerbi-modeling	github/awesome-copilot	Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft.	33 040	563
8	mini-context-graph	github/awesome-copilot	Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes.	33 040	563
9	projection-patterns	wshobson/agents	Construire des projections et read models pour systèmes event-sourced en CQRS.	35 424	412
10	airflow-dag-patterns	wshobson/agents	Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement.	35 424	412
11	data-quality-frameworks	wshobson/agents	Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats.	35 424	412
12	dbt-transformation-patterns	wshobson/agents	Structurer et optimiser des pipelines de transformation dbt en couches analytiques.	35 424	412
13	spark-optimization	wshobson/agents	Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles.	35 424	412
14	ml-pipeline-workflow	wshobson/agents	Orchestrer un pipeline MLOps complet de l'ingestion des données au déploiement en production.	35 424	412
15	risk-metrics-calculation	wshobson/agents	Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille.	35 424	412
16	instrument-data-to-allotrope	anthropics/knowledge-work-plugins	Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS.	12 182	231
17	nextflow-development	anthropics/knowledge-work-plugins	Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques.	12 182	231
18	single-cell-rna-qc	anthropics/knowledge-work-plugins	Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse.	12 182	231
19	analyze	anthropics/knowledge-work-plugins	Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel.	12 182	231
20	create-viz	anthropics/knowledge-work-plugins	Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques.	12 182	231
21	explore-data	anthropics/knowledge-work-plugins	Profiler un dataset pour révéler sa structure, qualité et patterns clés.	12 182	231
22	sql-queries	anthropics/knowledge-work-plugins	Écrire des requêtes SQL performantes et lisibles pour tous les grands entrepôts de données.	12 182	231
23	validate-data	anthropics/knowledge-work-plugins	Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage.	12 182	231
24	write-query	anthropics/knowledge-work-plugins	Générer des requêtes SQL optimisées à partir d'une description en langage naturel.	12 182	231
25	data-context-extractor	anthropics/knowledge-work-plugins	Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure.	12 182	231
26	knowledge-synthesis	anthropics/knowledge-work-plugins	Synthétiser des résultats multi-sources en réponse cohérente, sourcée et fiable.	12 182	231
27	search-strategy	anthropics/knowledge-work-plugins	Transformer une question en recherches parallèles multi-sources et synthétiser les résultats.	12 182	231
28	hf-cli	huggingface/skills	Gérer dépôts, fichiers et authentification sur le Hub Hugging Face via CLI.	10 498	84
29	huggingface-tool-builder	huggingface/skills	Créer des scripts CLI réutilisables pour interagir avec l'API Hugging Face.	10 498	84
30	azure-ai-document-intelligence-dotnet	microsoft/skills	Extraire texte, tableaux et données structurées depuis des documents Azure.	2 316	55
31	deep-agents-memory	langchain-ai/langchain-skills	Gérer la persistance de fichiers pour agents IA avec backends modulaires éphémères ou permanents.	689	25
32	creating-mermaid-dbt-dag	dbt-labs/dbt-agent-skills	Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné.	501	23
33	using-dbt-index	dbt-labs/dbt-agent-skills	Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt.	501	23
34	migrating-dbt-core-to-fusion	dbt-labs/dbt-agent-skills	Trier et classer les erreurs de migration dbt pour guider leur résolution.	501	23
35	migrating-dbt-project-across-platforms	dbt-labs/dbt-agent-skills	Migrer un projet dbt entre plateformes de données avec validation automatisée.	501	23
36	answering-natural-language-questions-with-dbt	dbt-labs/dbt-agent-skills	Répondre à des questions métier en exploitant les meilleures sources de données dbt disponibles.	501	23
37	building-dbt-semantic-layer	dbt-labs/dbt-agent-skills	Créer et modifier des composants dbt Semantic Layer : modèles, entités, dimensions et métriques.	501	23
38	fetching-dbt-docs	dbt-labs/dbt-agent-skills	Récupérer et rechercher la documentation dbt en format markdown optimisé pour les LLMs.	501	23
39	running-dbt-commands	dbt-labs/dbt-agent-skills	Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables.	501	23
40	troubleshooting-dbt-job-errors	dbt-labs/dbt-agent-skills	Diagnostiquer et résoudre méthodiquement les échecs de jobs dbt Cloud.	501	23
41	using-dbt-for-analytics-engineering	dbt-labs/dbt-agent-skills	Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques.	501	23
42	working-with-dbt-mesh	dbt-labs/dbt-agent-skills	Configurer et naviguer dans un projet dbt Mesh multi-projets avec des références croisées.	501	23
43	data-analytics	elophanto/elophanto	Analyser des données, créer des dashboards et automatiser des rapports décisionnels.	72	16
44	data-consolidation	elophanto/elophanto	Agréger et visualiser les performances commerciales par territoire, représentant et période.	72	16
45	data-engineering	elophanto/elophanto	Concevoir et opérer des pipelines de données fiables, scalables et observables à grande échelle.	72	16
46	sales-data-extraction	elophanto/elophanto	Surveiller des répertoires Excel et extraire automatiquement les métriques de vente normalisées.	72	16
47	qdrant-scaling-data-volume	qdrant/skills	Scaler des volumes de données massifs via multi-tenancy, fenêtre temporelle ou sharding distribué.	120	12
48	chdb-datastore	clickhouse/agent-skills	Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code.	428	6
49	chdb-sql	clickhouse/agent-skills	Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud.	428	6
50	clickhouse-architecture-advisor	clickhouse/agent-skills	Conseiller en architecture ClickHouse adapté au profil de charge et aux données.	428	6

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.