Audio
Speech-to-text, voicelive, generation audio, transcription.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | speech | openai/skills | Générer des clips audio parlés, en mode simple ou batch, via un CLI dédié. | 19 156 | 540 |
| 2 | transcribe | openai/skills | Transcrire des fichiers audio avec identification optionnelle des locuteurs via OpenAI. | 19 156 | 540 |
| 3 | scribe | anthropics/knowledge-work-plugins | Transcrire des fichiers audio/vidéo via l'API Zoom AI Scribe en mode synchrone ou batch. | 12 182 | 231 |
| 4 | azure-ai-voicelive-java | microsoft/skills | Créer des conversations vocales bidirectionnelles en temps réel avec des assistants IA Azure. | 2 316 | 55 |
| 5 | azure-ai-voicelive-ts | microsoft/skills | Créer des assistants vocaux bidirectionnels en temps réel avec Azure AI. | 2 316 | 55 |
| 6 | podcast-generation | microsoft/skills | Générer des narrations audio réalistes à partir de texte via l'API Azure OpenAI Realtime. | 2 316 | 55 |
| 7 | music | elevenlabs/skills | Générer de la musique originale à partir de texte, vidéos ou plans de composition détaillés. | 237 | 14 |
| 8 | sound-effects | elevenlabs/skills | Générer des effets sonores réalistes à partir de descriptions textuelles via ElevenLabs. | 237 | 14 |
| 9 | text-to-speech | elevenlabs/skills | Convertir du texte en parole naturelle multilingue via l'API ElevenLabs. | 237 | 14 |
| 10 | voice-isolator | elevenlabs/skills | Isoler des voix et supprimer le bruit de fond d'un fichier audio. | 237 | 14 |
| 11 | voice-changer | elevenlabs/skills | Transformer la voix d'un enregistrement audio en préservant émotion et intonation. | 237 | 14 |
| 12 | rw-generate-audio | runwayml/skills | Générer audio via Runway API : voix, effets sonores, doublage et conversion vocale. | 48 | 9 |
| 13 | rw-integrate-audio | runwayml/skills | Intégrer la génération audio (voix, effets, doublage) via l'API RunwayML. | 48 | 9 |
À propos de cette sélection
Quand un agent doit transformer un enregistrement brut en transcript structuré, ou synthétiser une voix à partir d'un script de plusieurs pages, le pipeline audio devient vite le maillon le plus délicat du projet. Ces **skills audio** ciblent les devs backend Python qui intègrent de la voix dans leurs produits : transcrire une réunion, générer un épisode de podcast balisé, produire des effets sonores contextuels ou cloner une voix de présentation. Côté fournisseurs, l'écosystème est déjà bien structuré : ElevenLabs pousse fort sur la synthèse expressive, OpenAI couvre la transcription et la génération speech. Les skills disponibles ici adressent la majorité des cas d'usage courants, même si le tooling autour du mixing et de l'édition programmatique reste fragmenté.