aeon-skill-evals

Par bankrbot · skills

Valide la sortie de toute skill installée selon un manifeste d'assertions — nombre de mots, patterns requis, phrases interdites, sections obligatoires, citation de sources. Détecte les régressions en comparant avec les exécutions précédentes (NEW_FAIL / NEW_PASS / CHRONIC / STABLE_FAIL). Le mode Bootstrap génère un manifeste de démarrage à partir des exécutions récentes réussies d'une skill, évitant ainsi la rédaction spéculative des manifestes. Déclencheurs : « évaluer la sortie de cette skill », « vérifier les régressions de la skill X », « bootstrap des evals pour Y », « la sortie de cette skill a-t-elle passé les quality gates ».

npx skills add https://github.com/bankrbot/skills --skill aeon-skill-evals

aeon-skill-evals

Filet de qualité pour les skills installés. Chaque skill peut déclarer un manifest d'assertions ; les outputs sont vérifiés contre celui-ci ; les assertions échouées signalent les régressions et orientent vers des corrections concrètes.

Format du manifest

token-movers:
  min_words: 200
  required_patterns: ["Top movers", "24h"]
  forbidden_patterns: ["I cannot", "as an AI"]
  must_cite_source: true
  min_distinct_items: 5

narrative-tracker:
  min_words: 400
  required_sections: ["TRANSITIONS", "POSITIONS", "MAP"]
  forbidden_patterns: ["exciting", "consider"]
  must_have_position_call: true

Assertions supportées : min_words / max_words, required_patterns / forbidden_patterns, required_sections, must_cite_source, min_distinct_items, output_pattern (regex), et des vérifications binaires personnalisées par skill-family.

Opérations

  • eval — exécute chaque skill défini dans le manifest contre son dernier output.
  • eval --skill=NAME — un seul skill.
  • bootstrap --skill=NAME — génère un manifest de démarrage à partir des exécutions récentes réussies.

États de régression

État Action
NEW_FAIL Passant lors de la dernière exécution, échouant maintenant. La sévérité augmente avec la streak de réussite.
NEW_PASS Échouant lors de la dernière exécution, passant maintenant. Enregistrer le succès.
CHRONIC Échouant > 3 exécutions consécutives. Recommander un examen par l'opérateur.
STABLE_FAIL Toujours échouant. Mismatch d'assertion du manifest — signaler pour examen.

État dans le fichier local evals-state.json.

Mode bootstrap

Échantillonne les 5 dernières exécutions réussies d'un skill. Calcule :

  • min_words au p25 des exécutions historiques.
  • Patterns requis à partir des en-têtes de section courants.
  • Patterns interdits à partir de la liste par défaut (refus, remplissage hésitant).

Émet le manifest proposé pour examen. Ne valide jamais automatiquement — les assertions nécessitent une validation humaine.

Règles

  • Les assertions sont des observations, pas des spécifications. Faites un bootstrap avant d'écrire de manière spéculative.
  • Les patterns interdits détectent les marqueurs d'hallucination et les refus. Gardez la liste serrée ; ne lintezvez pas les choix stylistiques.
  • Les défaillances chroniques reçoivent une recommandation, pas un nouveau dépôt.
  • Les changements de manifest sont révisés ; jamais auto-édités par ce skill.

Skills similaires