Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

88 skills

# Skill Source Description Maj
1 building-dashboards axiomhq/skills Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles. 10 7h
2 query-metrics axiomhq/skills Interroger et explorer des métriques OpenTelemetry stockées dans Axiom MetricsDB. 10 7h
3 arize-instrumentation github/awesome-copilot Instrumenter une application avec le tracing Arize AX via une analyse guidée. 33 040 2j
4 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 33 040 4j
5 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 87 7j
6 dd-audit-ai-activity datadog-labs/agent-skills Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP. 110 7j
7 dd-audit-cost-spike-investigation datadog-labs/agent-skills Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail. 110 7j
8 dd-pup datadog-labs/agent-skills Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. 110 7j
9 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 284 8j
10 service-remapping datadog-labs/agent-skills Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. 110 9j
11 axiom-alerting axiomhq/skills Gérer les alertes et notificateurs Axiom de bout en bout via API. 10 10j
12 otel-ottl dash0hq/agent-skills Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL. 55 11j
13 autonomous-optimization elophanto/elophanto Optimiser et sécuriser le routage LLM via tests parallèles, fallbacks et garde-fous financiers. 72 12j
14 runbook-incident-response elophanto/elophanto Gérer un incident de production de bout en bout, du triage au post-mortem. 72 12j
15 run-on-slurm nvidia/skills Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. 87 12j
16 perf-cuda-graphs nvidia/skills Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. 87 13j
17 perf-expert-parallel-overlap nvidia/skills Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. 87 13j
18 perf-memory-tuning nvidia/skills Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. 87 13j
19 perf-moe-comm-overlap nvidia/skills Activer et configurer le chevauchement des communications MoE en parallélisme expert. 87 13j
20 resiliency nvidia/skills Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. 87 13j
21 otel-instrumentation dash0hq/agent-skills Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée. 55 14j
22 otel-semantic-conventions dash0hq/agent-skills Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions. 55 14j
23 otel-collector dash0hq/agent-skills Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie. 55 14j
24 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 110 16j
25 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 87 16j
26 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 87 16j
27 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 87 16j
28 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 110 17j
29 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 110 20j
30 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 110 20j
31 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 110 20j
32 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 110 20j
33 verify-ssi datadog-labs/agent-skills Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. 110 20j
34 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 316 21j
35 eas-update-insights expo/skills Consulter les métriques de santé et d'adoption des mises à jour EAS publiées. 1 914 21j
36 azure-cost microsoft/skills Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées. 2 316 23j
37 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 316 23j
38 http-toolkit-intercept factory-ai/factory-plugins Intercepter et analyser le trafic HTTP d'un programme via un proxy HTTP Toolkit. 72 23j
39 qdrant-monitoring qdrant/skills Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 120 24j
40 qdrant-monitoring-debugging qdrant/skills Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 120 24j
41 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 120 24j
42 qdrant-memory-usage-optimization qdrant/skills Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM. 120 24j
43 qdrant-minimize-latency qdrant/skills Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation. 120 24j
44 qdrant-scaling-qps qdrant/skills Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale. 120 24j
45 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 35 424 26j
46 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 35 424 26j
47 perf-analysis nvidia/skills Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés. 87 27j
48 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 87 27j
49 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 87 27j
50 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 87 27j

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.