Générer des evaluators LLM depuis vos traces Datadog

Présentation du skill `llm-obs-eval-bootstrap`

Ce skill fait partie du répertoire dd-llmo du repo officiel datadog-labs/agent-skills, qui regroupe des skills Datadog pour agents IA (Claude Code, Cursor, Gemini CLI, etc.). Son rôle est de générer automatiquement une suite d'évaluateurs LLM à partir de traces de production issues de Datadog LLM Observability, via la commande /eval-bootstrap.

Ce que fait ce skill

À partir d'un ml_app (application LLM instrumentée dans Datadog), le skill analyse un échantillon de traces de production pour identifier des dimensions de qualité pertinentes, puis génère une suite d'évaluateurs prêts à l'emploi. Trois modes de sortie sont supportés : sdk_code (par défaut) — un fichier Python utilisant le Datadog Evals SDK (BaseEvaluator / LLMJudge) pour des expériences offline ; data_only — une spec JSON auto-contenue et indépendante du framework ; publish — écriture directe d'évaluateurs LLM-judge en ligne dans Datadog, qui s'exécutent automatiquement sur les spans ou traces de production correspondantes.

Intégration dans le pipeline d'évaluation

Ce skill s'inscrit dans un pipeline plus large : il peut être alimenté par la sortie du skill eval-trace-rca (diagnostic de pannes via signal de jugement LLM) pour cibler précisément les modes d'échec identifiés. Il peut aussi fonctionner en « cold start » — sans RCA préalable — en effectuant lui-même la découverte ouverte des dimensions qualité à mesurer. Le skill utilise soit le MCP server Datadog LLMO, soit le CLI pup, selon ce qui est disponible dans l'environnement.

Installation et utilisation

Pour installer ce skill dans Claude Code, copier le dossier dans le répertoire des skills :

cp -r dd-llmo/eval-bootstrap ~/.claude/skills

Le MCP server LLMO est requis (ou le CLI pup comme fallback). Invocation de base :

/eval-bootstrap <ml_app>
/eval-bootstrap <ml_app> --publish
/eval-bootstrap <ml_app> --data-only

Le skill peut aussi être alimenté avec la sortie d'eval-trace-rca collée directement dans la conversation pour cibler les évaluateurs sur les modes d'échec diagnostiqués.

Présentation du skill llm-obs-eval-bootstrap

Ce que fait ce skill

Intégration dans le pipeline d'évaluation

Installation et utilisation

Skills similaires

Présentation du skill `llm-obs-eval-bootstrap`