Présentation du skill llm-obs-eval-bootstrap
Ce skill fait partie du répertoire dd-llmo du repo officiel datadog-labs/agent-skills, qui regroupe des skills Datadog pour agents IA (Claude Code, Cursor, Gemini CLI, etc.). Son rôle est de générer automatiquement une suite d'évaluateurs LLM à partir de traces de production issues de Datadog LLM Observability, via la commande /eval-bootstrap.
Ce que fait ce skill
À partir d'un ml_app (application LLM instrumentée dans Datadog), le skill analyse un échantillon de traces de production pour identifier des dimensions de qualité pertinentes, puis génère une suite d'évaluateurs prêts à l'emploi. Trois modes de sortie sont supportés : sdk_code (par défaut) — un fichier Python utilisant le Datadog Evals SDK (BaseEvaluator / LLMJudge) pour des expériences offline ; data_only — une spec JSON auto-contenue et indépendante du framework ; publish — écriture directe d'évaluateurs LLM-judge en ligne dans Datadog, qui s'exécutent automatiquement sur les spans ou traces de production correspondantes.
Intégration dans le pipeline d'évaluation
Ce skill s'inscrit dans un pipeline plus large : il peut être alimenté par la sortie du skill eval-trace-rca (diagnostic de pannes via signal de jugement LLM) pour cibler précisément les modes d'échec identifiés. Il peut aussi fonctionner en « cold start » — sans RCA préalable — en effectuant lui-même la découverte ouverte des dimensions qualité à mesurer. Le skill utilise soit le MCP server Datadog LLMO, soit le CLI pup, selon ce qui est disponible dans l'environnement.
Installation et utilisation
Pour installer ce skill dans Claude Code, copier le dossier dans le répertoire des skills :
cp -r dd-llmo/eval-bootstrap ~/.claude/skills
Le MCP server LLMO est requis (ou le CLI pup comme fallback). Invocation de base :
/eval-bootstrap <ml_app>
/eval-bootstrap <ml_app> --publish
/eval-bootstrap <ml_app> --data-only
Le skill peut aussi être alimenté avec la sortie d'eval-trace-rca collée directement dans la conversation pour cibler les évaluateurs sur les modes d'échec diagnostiqués.