Analyser les traces LLM et identifier la cause racine

llm-obs-trace-rca — Root Cause Analysis sur traces LLM de production

Ce skill fait partie du répertoire dd-llmo du repo datadog-labs/agent-skills, qui regroupe les skills Datadog officiels pour agents IA (Claude Code, Cursor, Gemini CLI, etc.). Il s'agit d'un skill pleinement implémenté et opérationnel, non d'un squelette : son SKILL.md contient une méthodologie d'analyse détaillée et prête à l'emploi.

Rôle et fonctionnement

Le skill guide Claude dans un processus structuré de diagnostic des défaillances d'applications LLM en production. À partir de signaux disponibles — verdicts de juges d'évaluation, erreurs runtime, ou anomalies structurelles (latence, boucles agent, échecs de retrieval) — il parcourt l'arbre de spans d'une trace Datadog LLM Observability pour remonter du symptôme à la cause racine réelle. La méthodologie suit sept phases : résolution des inputs, collecte de spans problématiques, open coding, axial coding, navigation dans le span tree, génération de recommandations, et compilation d'un rapport RCA.

Modes d'analyse et sélection automatique

Le skill détecte automatiquement le mode d'analyse le plus adapté : Eval Signal (verdicts de juges LLM configurés), Error Signal (erreurs runtime @status:error ou soft errors MCP), ou Generic (anomalies structurelles). Le mode retenu est annoncé en début d'analyse avec une indication de bascule. Le skill supporte deux backends d'accès aux données Datadog : le serveur MCP datadog-llmo-mcp (mode préféré) ou le CLI pup en fallback, avec détection automatique et règles de traduction entre les deux.

Installation et prérequis

Pour utiliser ce skill dans Claude Code, copiez le dossier dans votre répertoire de skills (cp -r dd-llmo/eval-trace-rca ~/.claude/skills) et connectez le serveur MCP requis :

claude mcp add --scope user --transport http datadog-llmo-mcp 'https://mcp.datadoghq.com/api/unstable/mcp-server/mcp?toolsets=llmobs'

Alternativement, le CLI pup (installable via Homebrew depuis datadog-labs/pack) peut servir de backend. Ce skill s'intègre naturellement dans un pipeline avec eval-bootstrap (génération d'évaluateurs à partir des patterns de défaillance découverts) et eval-session-classify (classification de sessions utilisateur).

llm-obs-trace-rca — Root Cause Analysis sur traces LLM de production

Rôle et fonctionnement

Modes d'analyse et sélection automatique

Installation et prérequis

Skills similaires