Phoenix Evals

Construisez des évaluateurs pour applications IA/LLM. Code d'abord, LLM pour la nuance, validez contre les humains.

Référence rapide

Tâche	Fichiers
Configuration	setup-python, setup-typescript
Décider ce qu'évaluer	evaluators-overview
Choisir un modèle juge	fundamentals-model-selection
Utiliser des évaluateurs pré-construits	evaluators-pre-built
Construire un évaluateur code	evaluators-code-python, evaluators-code-typescript
Construire un évaluateur LLM	evaluators-llm-python, evaluators-llm-typescript, evaluators-custom-templates
Évaluation par batch sur DataFrame	evaluate-dataframe-python
Exécuter une expérience	experiments-running-python, experiments-running-typescript
Créer un dataset	experiments-datasets-python, experiments-datasets-typescript
Générer des données synthétiques	experiments-synthetic-python, experiments-synthetic-typescript
Valider la précision des évaluateurs	validation, validation-evaluators-python, validation-evaluators-typescript
Échantillonner les traces pour révision	observe-sampling-python, observe-sampling-typescript
Analyser les erreurs	error-analysis, error-analysis-multi-turn, axial-coding
Evals RAG	evaluators-rag
Éviter les erreurs courantes	common-mistakes-python, fundamentals-anti-patterns
Production	production-overview, production-guardrails, production-continuous

Workflows

Démarrage à zéro : observe-tracing-setup → error-analysis → axial-coding → evaluators-overview

Construire un évaluateur : fundamentals → common-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}

Systèmes RAG : evaluators-rag → evaluators-code- (retrieval) → evaluators-llm- (faithfulness)

Production : production-overview → production-guardrails → production-continuous

Catégories de référence

Préfixe	Description
`fundamentals-*`	Types, scores, anti-patterns
`observe-*`	Tracing, sampling
`error-analysis-*`	Trouver les défaillances
`axial-coding-*`	Catégoriser les défaillances
`evaluators-*`	Évaluateurs code, LLM, RAG
`experiments-*`	Datasets, exécution d'expériences
`validation-*`	Valider la précision des évaluateurs contre les labels humains
`production-*`	CI/CD, monitoring

Principes clés

Principe	Action
Analyse d'erreurs en premier	Impossible d'automatiser ce que vous n'avez pas observé
Custom > générique	Construisez à partir de vos défaillances
Code d'abord	Déterministe avant LLM
Valider les juges	>80% TPR/TNR
Binaire > Likert	Pass/fail, pas 1-5

phoenix-evals

Phoenix Evals

Référence rapide

Workflows

Catégories de référence

Principes clés

Skills similaires