Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

88 skills

#	Skill	Source	Description
1	cost-optimization	wshobson/agents	Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques.	35 424
2	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	35 424
3	grafana-dashboards	wshobson/agents	Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus.	35 424
4	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	35 424
5	service-mesh-observability	wshobson/agents	Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs.	35 424
6	slo-implementation	wshobson/agents	Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services.	35 424
7	arize-instrumentation	github/awesome-copilot	Instrumenter une application avec le tracing Arize AX via une analyse guidée.	33 040
8	copilot-usage-metrics	github/awesome-copilot	Récupérer et afficher les métriques d'utilisation de GitHub Copilot via CLI.	33 040
9	debian-linux-triage	github/awesome-copilot	Diagnostiquer et résoudre des problèmes système sur Debian Linux avec outils adaptés.	33 040
10	fedora-linux-triage	github/awesome-copilot	Diagnostiquer et résoudre des problèmes système sur Fedora Linux pas à pas.	33 040
11	flowstudio-power-automate-monitoring	github/awesome-copilot	Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance.	33 040
12	power-bi-performance-troubleshooting	github/awesome-copilot	Diagnostiquer et résoudre les problèmes de performance dans Power BI.	33 040
13	qdrant-memory-usage-optimization	github/awesome-copilot	Optimiser et surveiller l'utilisation mémoire de Qdrant pour des performances maximales.	33 040
14	qdrant-monitoring	github/awesome-copilot	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	33 040
15	qdrant-monitoring-debugging	github/awesome-copilot	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	33 040
16	qdrant-monitoring-setup	github/awesome-copilot	Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés.	33 040
17	qdrant-scaling-data-volume	github/awesome-copilot	Scaler des volumes de données massifs via multi-tenancy, fenêtre temporelle ou sharding distribué.	33 040
18	sentry	openai/skills	Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production.	19 156
19	applicationinsights-web-ts	microsoft/skills	Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights.	2 316
20	azure-cost	microsoft/skills	Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées.	2 316
21	azure-monitor-ingestion-java	microsoft/skills	Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java.	2 316
22	azure-monitor-opentelemetry-ts	microsoft/skills	Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry.	2 316
23	eas-update-insights	expo/skills	Consulter les métriques de santé et d'adoption des mises à jour EAS publiées.	1 914
24	web-perf	cloudflare/skills	Auditer les performances web d'une page via Chrome DevTools et Core Web Vitals.	1 539
25	troubleshooting-astro-deployments	astronomer/agents	Diagnostiquer et résoudre les problèmes de déploiements Astronomer en production via l'Astro CLI.	364
26	firebase-crashlytics	firebase/agent-skills	Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS.	284
27	qdrant-memory-usage-optimization	qdrant/skills	Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM.	120
28	qdrant-minimize-latency	qdrant/skills	Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation.	120
29	qdrant-monitoring	qdrant/skills	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	120
30	qdrant-monitoring-debugging	qdrant/skills	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	120
31	qdrant-monitoring-setup	qdrant/skills	Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés.	120
32	qdrant-performance-optimization	qdrant/skills	Optimiser les performances Qdrant : vitesse, indexation et mémoire.	120
33	qdrant-scaling-qps	qdrant/skills	Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale.	120
34	agent-install	datadog-labs/agent-skills	Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants.	110
35	agent-skills	datadog-labs/agent-skills	Gérer la surveillance, les logs et les traces Datadog via un agent IA.	110
36	dd-apm	datadog-labs/agent-skills	Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes.	110
37	dd-audit-ai-activity	datadog-labs/agent-skills	Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP.	110
38	dd-audit-cost-spike-investigation	datadog-labs/agent-skills	Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail.	110
39	dd-logs	datadog-labs/agent-skills	Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts.	110
40	dd-monitors	datadog-labs/agent-skills	Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques.	110
41	dd-pup	datadog-labs/agent-skills	Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents.	110
42	enable-ssi	datadog-labs/agent-skills	Configurer les balises de service unifiées Datadog via SSI sur Linux.	110
43	onboarding-summary	datadog-labs/agent-skills	Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux.	110
44	service-remapping	datadog-labs/agent-skills	Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation.	110
45	troubleshoot-ssi	datadog-labs/agent-skills	Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux.	110
46	verify-ssi	datadog-labs/agent-skills	Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH.	110
47	ad-conf-check	nvidia/skills	Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes.	87
48	alerts	nvidia/skills	Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif.	87
49	monitor	nvidia/skills	Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC.	87
50	nemoclaw-user-monitor-sandbox	nvidia/skills	Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer.	87

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.