tavily extract

Extraire du contenu en markdown ou texte brut à partir d'une ou plusieurs URLs.

Avant d'exécuter une commande

Si tvly n'est pas trouvé sur PATH, installez-le d'abord :

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Ne sautez pas cette étape ou ne basculez pas vers d'autres outils.

Voir tavily-cli pour d'autres méthodes d'installation et options d'authentification.

Quand utiliser

Vous avez une URL spécifique dont vous voulez le contenu
Vous avez besoin de texte provenant de pages rendues en JavaScript
Étape 2 du workflow : recherche → extraction → mappage → crawl → recherche

Démarrage rapide

# URL unique
tvly extract "https://example.com/article" --json

# Plusieurs URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Extraction axée sur une requête (retourne uniquement les chunks pertinents)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# Pages lourdes en JS
tvly extract "https://app.example.com" --extract-depth advanced --json

# Enregistrer dans un fichier
tvly extract "https://example.com/article" -o article.md

Options

Option	Description
`--query`	Reclasser les chunks par pertinence par rapport à cette requête
`--chunks-per-source`	Chunks par URL (1-5, requiert `--query`)
`--extract-depth`	`basic` (par défaut) ou `advanced` (pour pages JS)
`--format`	`markdown` (par défaut) ou `text`
`--include-images`	Inclure les URLs d'images
`--timeout`	Délai d'attente maximal (1-60 secondes)
`-o, --output`	Enregistrer la sortie dans un fichier
`--json`	Sortie JSON structurée

Profondeur d'extraction

Profondeur	Quand utiliser
`basic`	Pages simples, rapide — essayez d'abord
`advanced`	SPAs rendues en JS, contenu dynamique, tableaux

Conseils

Maximum 20 URLs par requête — divisez les listes plus grandes en plusieurs appels.
Utilisez --query + --chunks-per-source pour obtenir uniquement le contenu pertinent au lieu de pages complètes.
Essayez d'abord basic, basculez à advanced si du contenu manque.
Définissez --timeout pour les pages lentes (jusqu'à 60 s).
Si les résultats de recherche contiennent déjà le contenu dont vous avez besoin (via --include-raw-content), sautez l'étape d'extraction.

Voir aussi

tavily-search — trouver des pages quand vous n'avez pas d'URL
tavily-crawl — extraire du contenu de nombreuses pages d'un site

tavily-extract