phoenix-evals

Par github · awesome-copilot

Créez et exécutez des évaluateurs pour les applications IA/LLM avec Phoenix.

npx skills add https://github.com/github/awesome-copilot --skill phoenix-evals

Phoenix Evals

Construisez des évaluateurs pour applications IA/LLM. Code d'abord, LLM pour la nuance, validez contre les humains.

Référence rapide

Tâche Fichiers
Configuration setup-python, setup-typescript
Décider ce qu'évaluer evaluators-overview
Choisir un modèle juge fundamentals-model-selection
Utiliser des évaluateurs pré-construits evaluators-pre-built
Construire un évaluateur code evaluators-code-python, evaluators-code-typescript
Construire un évaluateur LLM evaluators-llm-python, evaluators-llm-typescript, evaluators-custom-templates
Évaluation par batch sur DataFrame evaluate-dataframe-python
Exécuter une expérience experiments-running-python, experiments-running-typescript
Créer un dataset experiments-datasets-python, experiments-datasets-typescript
Générer des données synthétiques experiments-synthetic-python, experiments-synthetic-typescript
Valider la précision des évaluateurs validation, validation-evaluators-python, validation-evaluators-typescript
Échantillonner les traces pour révision observe-sampling-python, observe-sampling-typescript
Analyser les erreurs error-analysis, error-analysis-multi-turn, axial-coding
Evals RAG evaluators-rag
Éviter les erreurs courantes common-mistakes-python, fundamentals-anti-patterns
Production production-overview, production-guardrails, production-continuous

Workflows

Démarrage à zéro : observe-tracing-setuperror-analysisaxial-codingevaluators-overview

Construire un évaluateur : fundamentalscommon-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}

Systèmes RAG : evaluators-rag → evaluators-code- (retrieval) → evaluators-llm- (faithfulness)

Production : production-overviewproduction-guardrailsproduction-continuous

Catégories de référence

Préfixe Description
fundamentals-* Types, scores, anti-patterns
observe-* Tracing, sampling
error-analysis-* Trouver les défaillances
axial-coding-* Catégoriser les défaillances
evaluators-* Évaluateurs code, LLM, RAG
experiments-* Datasets, exécution d'expériences
validation-* Valider la précision des évaluateurs contre les labels humains
production-* CI/CD, monitoring

Principes clés

Principe Action
Analyse d'erreurs en premier Impossible d'automatiser ce que vous n'avez pas observé
Custom > générique Construisez à partir de vos défaillances
Code d'abord Déterministe avant LLM
Valider les juges >80% TPR/TNR
Binaire > Likert Pass/fail, pas 1-5

Skills similaires