tavily-extract

Par tavily-ai · skills

Extrait le contenu en markdown propre ou en texte depuis des URLs spécifiques via le Tavily CLI. Utilise ce skill lorsque l'utilisateur dispose d'une ou plusieurs URLs et souhaite en récupérer le contenu, ou utilise des expressions comme « extraire », « récupère le contenu de », « tire le texte de », « récupère la page », « lis cette page web », ou a besoin d'un texte propre issu de pages web. Gère les pages rendues en JavaScript, retourne du markdown optimisé pour les LLM, et prend en charge le découpage orienté requête pour une extraction ciblée. Peut traiter jusqu'à 20 URLs en un seul appel.

npx skills add https://github.com/tavily-ai/skills --skill tavily-extract

tavily extract

Extraire du contenu en markdown ou texte brut à partir d'une ou plusieurs URLs.

Avant d'exécuter une commande

Si tvly n'est pas trouvé sur PATH, installez-le d'abord :

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Ne sautez pas cette étape ou ne basculez pas vers d'autres outils.

Voir tavily-cli pour d'autres méthodes d'installation et options d'authentification.

Quand utiliser

  • Vous avez une URL spécifique dont vous voulez le contenu
  • Vous avez besoin de texte provenant de pages rendues en JavaScript
  • Étape 2 du workflow : recherche → extraction → mappage → crawl → recherche

Démarrage rapide

# URL unique
tvly extract "https://example.com/article" --json

# Plusieurs URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Extraction axée sur une requête (retourne uniquement les chunks pertinents)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# Pages lourdes en JS
tvly extract "https://app.example.com" --extract-depth advanced --json

# Enregistrer dans un fichier
tvly extract "https://example.com/article" -o article.md

Options

Option Description
--query Reclasser les chunks par pertinence par rapport à cette requête
--chunks-per-source Chunks par URL (1-5, requiert --query)
--extract-depth basic (par défaut) ou advanced (pour pages JS)
--format markdown (par défaut) ou text
--include-images Inclure les URLs d'images
--timeout Délai d'attente maximal (1-60 secondes)
-o, --output Enregistrer la sortie dans un fichier
--json Sortie JSON structurée

Profondeur d'extraction

Profondeur Quand utiliser
basic Pages simples, rapide — essayez d'abord
advanced SPAs rendues en JS, contenu dynamique, tableaux

Conseils

  • Maximum 20 URLs par requête — divisez les listes plus grandes en plusieurs appels.
  • Utilisez --query + --chunks-per-source pour obtenir uniquement le contenu pertinent au lieu de pages complètes.
  • Essayez d'abord basic, basculez à advanced si du contenu manque.
  • Définissez --timeout pour les pages lentes (jusqu'à 60 s).
  • Si les résultats de recherche contiennent déjà le contenu dont vous avez besoin (via --include-raw-content), sautez l'étape d'extraction.

Voir aussi

  • tavily-search — trouver des pages quand vous n'avez pas d'URL
  • tavily-crawl — extraire du contenu de nombreuses pages d'un site

Skills similaires