tavily extract
Extraire du contenu en markdown ou texte brut à partir d'une ou plusieurs URLs.
Avant d'exécuter une commande
Si tvly n'est pas trouvé sur PATH, installez-le d'abord :
curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login
Ne sautez pas cette étape ou ne basculez pas vers d'autres outils.
Voir tavily-cli pour d'autres méthodes d'installation et options d'authentification.
Quand utiliser
- Vous avez une URL spécifique dont vous voulez le contenu
- Vous avez besoin de texte provenant de pages rendues en JavaScript
- Étape 2 du workflow : recherche → extraction → mappage → crawl → recherche
Démarrage rapide
# URL unique
tvly extract "https://example.com/article" --json
# Plusieurs URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json
# Extraction axée sur une requête (retourne uniquement les chunks pertinents)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json
# Pages lourdes en JS
tvly extract "https://app.example.com" --extract-depth advanced --json
# Enregistrer dans un fichier
tvly extract "https://example.com/article" -o article.md
Options
| Option | Description |
|---|---|
--query |
Reclasser les chunks par pertinence par rapport à cette requête |
--chunks-per-source |
Chunks par URL (1-5, requiert --query) |
--extract-depth |
basic (par défaut) ou advanced (pour pages JS) |
--format |
markdown (par défaut) ou text |
--include-images |
Inclure les URLs d'images |
--timeout |
Délai d'attente maximal (1-60 secondes) |
-o, --output |
Enregistrer la sortie dans un fichier |
--json |
Sortie JSON structurée |
Profondeur d'extraction
| Profondeur | Quand utiliser |
|---|---|
basic |
Pages simples, rapide — essayez d'abord |
advanced |
SPAs rendues en JS, contenu dynamique, tableaux |
Conseils
- Maximum 20 URLs par requête — divisez les listes plus grandes en plusieurs appels.
- Utilisez
--query+--chunks-per-sourcepour obtenir uniquement le contenu pertinent au lieu de pages complètes. - Essayez d'abord
basic, basculez àadvancedsi du contenu manque. - Définissez
--timeoutpour les pages lentes (jusqu'à 60 s). - Si les résultats de recherche contiennent déjà le contenu dont vous avez besoin (via
--include-raw-content), sautez l'étape d'extraction.
Voir aussi
- tavily-search — trouver des pages quand vous n'avez pas d'URL
- tavily-crawl — extraire du contenu de nombreuses pages d'un site