firecrawl-crawl

Par firecrawl · cli

Extrait en masse le contenu d'un site web entier ou d'une section de site. Utilise cette skill lorsque l'utilisateur souhaite crawler un site, extraire toutes les pages d'une section de documentation, scraper en masse plusieurs pages en suivant des liens, ou dit « crawl », « récupère toutes les pages », « extrait tout ce qui est sous /docs », « extraction en masse », ou a besoin du contenu de nombreuses pages sur le même site. Gère les limites de profondeur, le filtrage par chemin et l'extraction concurrente.

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

firecrawl crawl

Extraire en masse le contenu d'un site web. Explore les pages en suivant les liens jusqu'à une profondeur/limite donnée.

Quand l'utiliser

  • Vous avez besoin de contenu provenant de nombreuses pages d'un site (par exemple, tout /docs/)
  • Vous souhaitez extraire une section entière du site
  • Étape 4 dans le modèle d'escalade du workflow : recherche → scraper → mapper → crawler → interagir

Démarrage rapide

# Crawler une section docs
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Crawl complet avec limite de profondeur
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Vérifier l'état d'un crawl en cours
firecrawl crawl <job-id>

Options

Option Description
--wait Attendre la fin du crawl avant de revenir
--progress Afficher la progression pendant l'attente
--limit <n> Nombre max de pages à crawler
--max-depth <n> Profondeur max des liens à suivre
--include-paths <paths> Crawler uniquement les URLs correspondant à ces chemins
--exclude-paths <paths> Ignorer les URLs correspondant à ces chemins
--delay <ms> Délai entre les requêtes
--max-concurrency <n> Max de workers de crawl parallèles
--pretty Affichage JSON formaté
-o, --output <path> Chemin du fichier de sortie

Conseils

  • Utilisez toujours --wait si vous avez besoin des résultats immédiatement. Sans cela, crawl retourne un job ID pour un polling asynchrone.
  • Utilisez --include-paths pour limiter le scope du crawl — ne crawlez pas un site entier si vous n'avez besoin que d'une section.
  • Le crawl consomme des crédits par page. Vérifiez firecrawl credit-usage avant les crawls importants.

Voir aussi

Skills similaires