Phoenix Evals
Construisez des évaluateurs pour applications IA/LLM. Code d'abord, LLM pour la nuance, validez contre les humains.
Référence rapide
Workflows
Démarrage à zéro : observe-tracing-setup → error-analysis → axial-coding → evaluators-overview
Construire un évaluateur : fundamentals → common-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}
Systèmes RAG : evaluators-rag → evaluators-code- (retrieval) → evaluators-llm- (faithfulness)
Production : production-overview → production-guardrails → production-continuous
Catégories de référence
| Préfixe | Description |
|---|---|
fundamentals-* |
Types, scores, anti-patterns |
observe-* |
Tracing, sampling |
error-analysis-* |
Trouver les défaillances |
axial-coding-* |
Catégoriser les défaillances |
evaluators-* |
Évaluateurs code, LLM, RAG |
experiments-* |
Datasets, exécution d'expériences |
validation-* |
Valider la précision des évaluateurs contre les labels humains |
production-* |
CI/CD, monitoring |
Principes clés
| Principe | Action |
|---|---|
| Analyse d'erreurs en premier | Impossible d'automatiser ce que vous n'avez pas observé |
| Custom > générique | Construisez à partir de vos défaillances |
| Code d'abord | Déterministe avant LLM |
| Valider les juges | >80% TPR/TNR |
| Binaire > Likert | Pass/fail, pas 1-5 |