tavily crawl

Parcourir un site web et extraire le contenu de plusieurs pages. Prend en charge l'enregistrement de chaque page sous forme de fichier markdown local.

Avant d'exécuter une commande

Si tvly n'est pas trouvé sur PATH, installez-le d'abord :

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Ne sautez pas cette étape et ne recourez pas à d'autres outils.

Consultez tavily-cli pour les méthodes d'installation et options d'authentification alternatives.

Quand l'utiliser

Vous avez besoin de contenu provenant de nombreuses pages d'un site (par ex., tous les /docs/)
Vous souhaitez télécharger de la documentation pour une utilisation hors ligne
Étape 4 du workflow : chercher → extraire → mapper → crawler → investiguer

Démarrage rapide

# Crawl basique
tvly crawl "https://docs.example.com" --json

# Enregistrer chaque page sous forme de fichier markdown
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Crawl plus profond avec limites
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filtrer sur des chemins spécifiques
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Focus sémantique (retourne les chunks pertinents, pas les pages complètes)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Niveaux de profondeur (1-5, défaut : 1)
`--max-breadth`	Liens par page (défaut : 20)
`--limit`	Plafond de pages total (défaut : 50)
`--instructions`	Guidage en langage naturel pour un focus sémantique
`--chunks-per-source`	Chunks par page (1-5, requiert `--instructions`)
`--extract-depth`	`basic` (défaut) ou `advanced`
`--format`	`markdown` (défaut) ou `text`
`--select-paths`	Motifs regex séparés par des virgules à inclure
`--exclude-paths`	Motifs regex séparés par des virgules à exclure
`--select-domains`	Regex séparés par des virgules pour les domaines à inclure
`--exclude-domains`	Regex séparés par des virgules pour les domaines à exclure
`--allow-external / --no-external`	Inclure les liens externes (défaut : autoriser)
`--include-images`	Inclure les images
`--timeout`	Attente maximale (10-150 secondes)
`-o, --output`	Enregistrer la sortie JSON dans un fichier
`--output-dir`	Enregistrer chaque page sous forme de fichier .md dans un répertoire
`--json`	Sortie JSON structurée

Crawler pour le contexte vs. collecte de données

Pour un usage agentic (alimenter les résultats d'un LLM) :

Utilisez toujours --instructions + --chunks-per-source. Retourne uniquement les chunks pertinents au lieu de pages complètes — évite l'explosion du contexte.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

Pour la collecte de données (enregistrement dans des fichiers) :

Utilisez --output-dir sans --chunks-per-source pour obtenir les pages complètes sous forme de fichiers markdown.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Conseils

Commencez prudemment — --max-depth 1, --limit 20 — et augmentez progressivement.
Utilisez --select-paths pour vous concentrer sur la section dont vous avez besoin.
Utilisez map d'abord pour comprendre la structure du site avant un crawl complet.
Définissez toujours --limit pour éviter les crawls incontrôlés.

Voir aussi

tavily-map — découvrir les URLs avant de décider de crawler
tavily-extract — extraire des pages individuelles
tavily-search — trouver des pages quand vous n'avez pas d'URL

tavily-crawl