Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

88 skills

# Skill Source Description
1 cost-optimization wshobson/agents Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. 35 424
2 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 35 424
3 grafana-dashboards wshobson/agents Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. 35 424
4 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 35 424
5 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 35 424
6 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 35 424
7 arize-instrumentation github/awesome-copilot Instrumenter une application avec le tracing Arize AX via une analyse guidée. 33 040
8 copilot-usage-metrics github/awesome-copilot Récupérer et afficher les métriques d'utilisation de GitHub Copilot via CLI. 33 040
9 debian-linux-triage github/awesome-copilot Diagnostiquer et résoudre des problèmes système sur Debian Linux avec outils adaptés. 33 040
10 fedora-linux-triage github/awesome-copilot Diagnostiquer et résoudre des problèmes système sur Fedora Linux pas à pas. 33 040
11 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 33 040
12 power-bi-performance-troubleshooting github/awesome-copilot Diagnostiquer et résoudre les problèmes de performance dans Power BI. 33 040
13 qdrant-memory-usage-optimization github/awesome-copilot Optimiser et surveiller l'utilisation mémoire de Qdrant pour des performances maximales. 33 040
14 qdrant-monitoring github/awesome-copilot Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 33 040
15 qdrant-monitoring-debugging github/awesome-copilot Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 33 040
16 qdrant-monitoring-setup github/awesome-copilot Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. 33 040
17 qdrant-scaling-data-volume github/awesome-copilot Scaler des volumes de données massifs via multi-tenancy, fenêtre temporelle ou sharding distribué. 33 040
18 sentry openai/skills Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. 19 156
19 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 316
20 azure-cost microsoft/skills Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées. 2 316
21 azure-monitor-ingestion-java microsoft/skills Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. 2 316
22 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 316
23 eas-update-insights expo/skills Consulter les métriques de santé et d'adoption des mises à jour EAS publiées. 1 914
24 web-perf cloudflare/skills Auditer les performances web d'une page via Chrome DevTools et Core Web Vitals. 1 539
25 troubleshooting-astro-deployments astronomer/agents Diagnostiquer et résoudre les problèmes de déploiements Astronomer en production via l'Astro CLI. 364
26 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 284
27 qdrant-memory-usage-optimization qdrant/skills Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM. 120
28 qdrant-minimize-latency qdrant/skills Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation. 120
29 qdrant-monitoring qdrant/skills Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 120
30 qdrant-monitoring-debugging qdrant/skills Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 120
31 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 120
32 qdrant-performance-optimization qdrant/skills Optimiser les performances Qdrant : vitesse, indexation et mémoire. 120
33 qdrant-scaling-qps qdrant/skills Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale. 120
34 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 110
35 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 110
36 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 110
37 dd-audit-ai-activity datadog-labs/agent-skills Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP. 110
38 dd-audit-cost-spike-investigation datadog-labs/agent-skills Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail. 110
39 dd-logs datadog-labs/agent-skills Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts. 110
40 dd-monitors datadog-labs/agent-skills Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques. 110
41 dd-pup datadog-labs/agent-skills Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. 110
42 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 110
43 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 110
44 service-remapping datadog-labs/agent-skills Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. 110
45 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 110
46 verify-ssi datadog-labs/agent-skills Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. 110
47 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 87
48 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 87
49 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 87
50 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 87

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.