Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

88 skills

#	Skill	Source	Description		Maj
1	building-dashboards	axiomhq/skills	Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles.	10	7h
2	query-metrics	axiomhq/skills	Interroger et explorer des métriques OpenTelemetry stockées dans Axiom MetricsDB.	10	7h
3	arize-instrumentation	github/awesome-copilot	Instrumenter une application avec le tracing Arize AX via une analyse guidée.	33 040	2j
4	flowstudio-power-automate-monitoring	github/awesome-copilot	Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance.	33 040	4j
5	alerts	nvidia/skills	Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif.	87	7j
6	dd-audit-ai-activity	datadog-labs/agent-skills	Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP.	110	7j
7	dd-audit-cost-spike-investigation	datadog-labs/agent-skills	Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail.	110	7j
8	dd-pup	datadog-labs/agent-skills	Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents.	110	7j
9	firebase-crashlytics	firebase/agent-skills	Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS.	284	8j
10	service-remapping	datadog-labs/agent-skills	Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation.	110	9j
11	axiom-alerting	axiomhq/skills	Gérer les alertes et notificateurs Axiom de bout en bout via API.	10	10j
12	otel-ottl	dash0hq/agent-skills	Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL.	55	11j
13	autonomous-optimization	elophanto/elophanto	Optimiser et sécuriser le routage LLM via tests parallèles, fallbacks et garde-fous financiers.	72	12j
14	runbook-incident-response	elophanto/elophanto	Gérer un incident de production de bout en bout, du triage au post-mortem.	72	12j
15	run-on-slurm	nvidia/skills	Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM.	87	12j
16	perf-cuda-graphs	nvidia/skills	Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles.	87	13j
17	perf-expert-parallel-overlap	nvidia/skills	Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication.	87	13j
18	perf-memory-tuning	nvidia/skills	Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles.	87	13j
19	perf-moe-comm-overlap	nvidia/skills	Activer et configurer le chevauchement des communications MoE en parallélisme expert.	87	13j
20	resiliency	nvidia/skills	Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués.	87	13j
21	otel-instrumentation	dash0hq/agent-skills	Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée.	55	14j
22	otel-semantic-conventions	dash0hq/agent-skills	Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions.	55	14j
23	otel-collector	dash0hq/agent-skills	Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie.	55	14j
24	agent-skills	datadog-labs/agent-skills	Gérer la surveillance, les logs et les traces Datadog via un agent IA.	110	16j
25	monitor	nvidia/skills	Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC.	87	16j
26	nemoclaw-user-monitor-sandbox	nvidia/skills	Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer.	87	16j
27	ad-conf-check	nvidia/skills	Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes.	87	16j
28	dd-apm	datadog-labs/agent-skills	Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes.	110	17j
29	agent-install	datadog-labs/agent-skills	Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants.	110	20j
30	enable-ssi	datadog-labs/agent-skills	Configurer les balises de service unifiées Datadog via SSI sur Linux.	110	20j
31	onboarding-summary	datadog-labs/agent-skills	Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux.	110	20j
32	troubleshoot-ssi	datadog-labs/agent-skills	Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux.	110	20j
33	verify-ssi	datadog-labs/agent-skills	Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH.	110	20j
34	applicationinsights-web-ts	microsoft/skills	Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights.	2 316	21j
35	eas-update-insights	expo/skills	Consulter les métriques de santé et d'adoption des mises à jour EAS publiées.	1 914	21j
36	azure-cost	microsoft/skills	Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées.	2 316	23j
37	azure-monitor-opentelemetry-ts	microsoft/skills	Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry.	2 316	23j
38	http-toolkit-intercept	factory-ai/factory-plugins	Intercepter et analyser le trafic HTTP d'un programme via un proxy HTTP Toolkit.	72	23j
39	qdrant-monitoring	qdrant/skills	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	120	24j
40	qdrant-monitoring-debugging	qdrant/skills	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	120	24j
41	qdrant-monitoring-setup	qdrant/skills	Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés.	120	24j
42	qdrant-memory-usage-optimization	qdrant/skills	Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM.	120	24j
43	qdrant-minimize-latency	qdrant/skills	Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation.	120	24j
44	qdrant-scaling-qps	qdrant/skills	Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale.	120	24j
45	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	35 424	26j
46	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	35 424	26j
47	perf-analysis	nvidia/skills	Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés.	87	27j
48	perf-host-analysis	nvidia/skills	Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM.	87	27j
49	perf-nsight-compute-analysis	nvidia/skills	Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute.	87	27j
50	perf-nsight-systems	nvidia/skills	Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement.	87	27j

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.