rewardkit

Par harbor-framework · harbor

Skill Claude pour Harbor : guide la rédaction de vérificateurs de tâches avec Reward Kit, le package Python de scoring du framework Harbor.

npx skills add https://github.com/harbor-framework/harbor --skill rewardkit

Rôle du skill rewardkit

Ce skill instruit Claude sur la façon d'aider un utilisateur à écrire des vérificateurs de tâches pour le framework Harbor en utilisant Reward Kit (harbor-rewardkit). Reward Kit est un package Python léger qui transforme un dossier de fichiers critères en score de récompense — utile pour évaluer des agents dans le cadre d'un pipeline d'évaluation ou d'optimisation par renforcement.

Ce que couvre le skill

Le SKILL.md embarque une documentation complète et opérationnelle. Il décrit :

  • La structure recommandée du répertoire tests/ aux côtés d'un test.sh dans une tâche Harbor.
  • Les critères programmatiques : fonctions built-in (file_exists, command_succeeds, json_key_equals, etc.) et décorateur @criterion pour une logique personnalisée.
  • Les critères de type judge : fichiers TOML pour évaluer la qualité de manière subjective via un LLM ou un agent-as-a-judge (types binary, likert, numeric).
  • La gestion multi-reward via des sous-dossiers, et les tâches multi-step où chaque étape possède ses propres critères.
  • Les options d'environnement verifier (partagé ou isolé via Docker), la configuration des clés API dans task.toml, et les fichiers de sortie (reward.json, reward-details.json).

Comment utiliser ce skill

Lorsque ce skill est actif dans un agent Claude, ce dernier peut guider l'utilisateur Harbor pour concevoir et écrire des vérificateurs adaptés à sa tâche : choix entre built-ins, critères custom, juges LLM ou agents, organisation en sous-dossiers pour des scores séparés. Des exemples concrets sont disponibles dans le répertoire examples/tasks/reward-kit-example/ du repository harbor-framework/harbor.

Ce skill est destiné à être utilisé dans le contexte du framework Harbor — il n'a pas d'utilité autonome en dehors de cet écosystème.

Skills similaires