tavily crawl
Parcourir un site web et extraire le contenu de plusieurs pages. Prend en charge l'enregistrement de chaque page sous forme de fichier markdown local.
Avant d'exécuter une commande
Si tvly n'est pas trouvé sur PATH, installez-le d'abord :
curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login
Ne sautez pas cette étape et ne recourez pas à d'autres outils.
Consultez tavily-cli pour les méthodes d'installation et options d'authentification alternatives.
Quand l'utiliser
- Vous avez besoin de contenu provenant de nombreuses pages d'un site (par ex., tous les
/docs/) - Vous souhaitez télécharger de la documentation pour une utilisation hors ligne
- Étape 4 du workflow : chercher → extraire → mapper → crawler → investiguer
Démarrage rapide
# Crawl basique
tvly crawl "https://docs.example.com" --json
# Enregistrer chaque page sous forme de fichier markdown
tvly crawl "https://docs.example.com" --output-dir ./docs/
# Crawl plus profond avec limites
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json
# Filtrer sur des chemins spécifiques
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json
# Focus sémantique (retourne les chunks pertinents, pas les pages complètes)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json
Options
| Option | Description |
|---|---|
--max-depth |
Niveaux de profondeur (1-5, défaut : 1) |
--max-breadth |
Liens par page (défaut : 20) |
--limit |
Plafond de pages total (défaut : 50) |
--instructions |
Guidage en langage naturel pour un focus sémantique |
--chunks-per-source |
Chunks par page (1-5, requiert --instructions) |
--extract-depth |
basic (défaut) ou advanced |
--format |
markdown (défaut) ou text |
--select-paths |
Motifs regex séparés par des virgules à inclure |
--exclude-paths |
Motifs regex séparés par des virgules à exclure |
--select-domains |
Regex séparés par des virgules pour les domaines à inclure |
--exclude-domains |
Regex séparés par des virgules pour les domaines à exclure |
--allow-external / --no-external |
Inclure les liens externes (défaut : autoriser) |
--include-images |
Inclure les images |
--timeout |
Attente maximale (10-150 secondes) |
-o, --output |
Enregistrer la sortie JSON dans un fichier |
--output-dir |
Enregistrer chaque page sous forme de fichier .md dans un répertoire |
--json |
Sortie JSON structurée |
Crawler pour le contexte vs. collecte de données
Pour un usage agentic (alimenter les résultats d'un LLM) :
Utilisez toujours --instructions + --chunks-per-source. Retourne uniquement les chunks pertinents au lieu de pages complètes — évite l'explosion du contexte.
tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json
Pour la collecte de données (enregistrement dans des fichiers) :
Utilisez --output-dir sans --chunks-per-source pour obtenir les pages complètes sous forme de fichiers markdown.
tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/
Conseils
- Commencez prudemment —
--max-depth 1,--limit 20— et augmentez progressivement. - Utilisez
--select-pathspour vous concentrer sur la section dont vous avez besoin. - Utilisez map d'abord pour comprendre la structure du site avant un crawl complet.
- Définissez toujours
--limitpour éviter les crawls incontrôlés.
Voir aussi
- tavily-map — découvrir les URLs avant de décider de crawler
- tavily-extract — extraire des pages individuelles
- tavily-search — trouver des pages quand vous n'avez pas d'URL