aeon-skill-evals

Filet de qualité pour les skills installés. Chaque skill peut déclarer un manifest d'assertions ; les outputs sont vérifiés contre celui-ci ; les assertions échouées signalent les régressions et orientent vers des corrections concrètes.

Format du manifest

token-movers:
  min_words: 200
  required_patterns: ["Top movers", "24h"]
  forbidden_patterns: ["I cannot", "as an AI"]
  must_cite_source: true
  min_distinct_items: 5

narrative-tracker:
  min_words: 400
  required_sections: ["TRANSITIONS", "POSITIONS", "MAP"]
  forbidden_patterns: ["exciting", "consider"]
  must_have_position_call: true

Assertions supportées : min_words / max_words, required_patterns / forbidden_patterns, required_sections, must_cite_source, min_distinct_items, output_pattern (regex), et des vérifications binaires personnalisées par skill-family.

Opérations

eval — exécute chaque skill défini dans le manifest contre son dernier output.
eval --skill=NAME — un seul skill.
bootstrap --skill=NAME — génère un manifest de démarrage à partir des exécutions récentes réussies.

États de régression

État	Action
`NEW_FAIL`	Passant lors de la dernière exécution, échouant maintenant. La sévérité augmente avec la streak de réussite.
`NEW_PASS`	Échouant lors de la dernière exécution, passant maintenant. Enregistrer le succès.
`CHRONIC`	Échouant > 3 exécutions consécutives. Recommander un examen par l'opérateur.
`STABLE_FAIL`	Toujours échouant. Mismatch d'assertion du manifest — signaler pour examen.

État dans le fichier local evals-state.json.

Mode bootstrap

Échantillonne les 5 dernières exécutions réussies d'un skill. Calcule :

min_words au p25 des exécutions historiques.
Patterns requis à partir des en-têtes de section courants.
Patterns interdits à partir de la liste par défaut (refus, remplissage hésitant).

Émet le manifest proposé pour examen. Ne valide jamais automatiquement — les assertions nécessitent une validation humaine.

Règles

Les assertions sont des observations, pas des spécifications. Faites un bootstrap avant d'écrire de manière spéculative.
Les patterns interdits détectent les marqueurs d'hallucination et les refus. Gardez la liste serrée ; ne lintezvez pas les choix stylistiques.
Les défaillances chroniques reçoivent une recommandation, pas un nouveau dépôt.
Les changements de manifest sont révisés ; jamais auto-édités par ce skill.