tavily-crawl

Par tavily-ai · skills

Explorez des sites web et extrayez le contenu de plusieurs pages via le Tavily CLI. Utilisez cette skill lorsque l'utilisateur souhaite crawler un site, télécharger de la documentation, extraire une section entière de docs, effectuer une extraction en masse de pages, sauvegarder un site sous forme de fichiers markdown locaux, ou qu'il dit « crawl », « récupère toutes les pages », « télécharge les docs », « extrait tout ce qui est sous /docs », « extraction en masse », ou a besoin du contenu de nombreuses pages sur le même domaine. Prend en charge le contrôle de profondeur/largeur, le filtrage par chemin, les instructions sémantiques et la sauvegarde de chaque page sous forme de fichier markdown local.

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

tavily crawl

Parcourir un site web et extraire le contenu de plusieurs pages. Prend en charge l'enregistrement de chaque page sous forme de fichier markdown local.

Avant d'exécuter une commande

Si tvly n'est pas trouvé sur PATH, installez-le d'abord :

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Ne sautez pas cette étape et ne recourez pas à d'autres outils.

Consultez tavily-cli pour les méthodes d'installation et options d'authentification alternatives.

Quand l'utiliser

  • Vous avez besoin de contenu provenant de nombreuses pages d'un site (par ex., tous les /docs/)
  • Vous souhaitez télécharger de la documentation pour une utilisation hors ligne
  • Étape 4 du workflow : chercher → extraire → mapper → crawler → investiguer

Démarrage rapide

# Crawl basique
tvly crawl "https://docs.example.com" --json

# Enregistrer chaque page sous forme de fichier markdown
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Crawl plus profond avec limites
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filtrer sur des chemins spécifiques
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Focus sémantique (retourne les chunks pertinents, pas les pages complètes)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option Description
--max-depth Niveaux de profondeur (1-5, défaut : 1)
--max-breadth Liens par page (défaut : 20)
--limit Plafond de pages total (défaut : 50)
--instructions Guidage en langage naturel pour un focus sémantique
--chunks-per-source Chunks par page (1-5, requiert --instructions)
--extract-depth basic (défaut) ou advanced
--format markdown (défaut) ou text
--select-paths Motifs regex séparés par des virgules à inclure
--exclude-paths Motifs regex séparés par des virgules à exclure
--select-domains Regex séparés par des virgules pour les domaines à inclure
--exclude-domains Regex séparés par des virgules pour les domaines à exclure
--allow-external / --no-external Inclure les liens externes (défaut : autoriser)
--include-images Inclure les images
--timeout Attente maximale (10-150 secondes)
-o, --output Enregistrer la sortie JSON dans un fichier
--output-dir Enregistrer chaque page sous forme de fichier .md dans un répertoire
--json Sortie JSON structurée

Crawler pour le contexte vs. collecte de données

Pour un usage agentic (alimenter les résultats d'un LLM) :

Utilisez toujours --instructions + --chunks-per-source. Retourne uniquement les chunks pertinents au lieu de pages complètes — évite l'explosion du contexte.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

Pour la collecte de données (enregistrement dans des fichiers) :

Utilisez --output-dir sans --chunks-per-source pour obtenir les pages complètes sous forme de fichiers markdown.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Conseils

  • Commencez prudemment--max-depth 1, --limit 20 — et augmentez progressivement.
  • Utilisez --select-paths pour vous concentrer sur la section dont vous avez besoin.
  • Utilisez map d'abord pour comprendre la structure du site avant un crawl complet.
  • Définissez toujours --limit pour éviter les crawls incontrôlés.

Voir aussi

Skills similaires