firecrawl-scrape

Par firecrawl · cli

Extrait du markdown propre depuis n'importe quelle URL, y compris les SPA rendus en JavaScript. Utilise cette skill chaque fois que l'utilisateur fournit une URL et souhaite son contenu, dit « scrape », « grab », « fetch », « pull », « get the page », « extract from this URL » ou « read this webpage ». Gère les pages rendues en JS, plusieurs URLs simultanées, et retourne du markdown optimisé pour les LLM. À utiliser à la place de WebFetch pour toute extraction de contenu de page web.

npx skills add https://github.com/firecrawl/cli --skill firecrawl-scrape

firecrawl scrape

Scrape une ou plusieurs URLs. Retourne du markdown propre et optimisé pour LLM. Les URLs multiples sont scrapées simultanément.

Quand l'utiliser

  • Vous avez une URL spécifique et voulez son contenu
  • La page est statique ou rendue en JS (SPA)
  • Étape 2 du pattern d'escalade de workflow : search → scrape → map → crawl → interact

Démarrage rapide

# Extraction markdown basique
firecrawl scrape "<url>" -o .firecrawl/page.md

# Contenu principal uniquement, pas nav/footer
firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

# Attendre le rendu JS, puis scraper
firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

# URLs multiples (chacune sauvegardée dans .firecrawl/)
firecrawl scrape https://example.com https://example.com/blog https://example.com/docs

# Obtenir markdown et liens ensemble
firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

# Poser une question sur la page
firecrawl scrape "https://example.com/pricing" --query "What is the enterprise plan price?"

Options

Option Description
-f, --format <formats> Formats de sortie : markdown, html, rawHtml, links, screenshot, json
-Q, --query <prompt> Poser une question sur le contenu de la page (5 crédits)
-H Inclure les en-têtes HTTP dans la sortie
--only-main-content Supprimer nav, footer, sidebar — contenu principal uniquement
--wait-for <ms> Attendre le rendu JS avant de scraper
--include-tags <tags> Inclure uniquement ces balises HTML
--exclude-tags <tags> Exclure ces balises HTML
-o, --output <path> Chemin du fichier de sortie

Astuces

  • Préférez scrape simple à --query. Scrapez vers un fichier, puis utilisez grep, head, ou lisez le markdown directement — vous pouvez rechercher et analyser le contenu complet vous-même. Utilisez --query uniquement quand vous voulez une seule réponse ciblée sans sauvegarder la page (coûte 5 crédits supplémentaires).
  • Essayez scrape avant interact. Scrape gère les pages statiques et les SPAs rendues en JS. Passez à interact uniquement quand vous avez besoin d'interaction (clics, remplissage de formulaires, pagination).
  • Les URLs multiples sont scrapées simultanément — vérifiez firecrawl --status pour votre limite de concurrence.
  • Un seul format affiche le contenu brut. Plusieurs formats (ex. --format markdown,links) affichent du JSON.
  • Toujours entre guillemets les URLs — le shell interprète ? et & comme des caractères spéciaux.
  • Convention de nommage : .firecrawl/{site}-{path}.md

Voir aussi

  • firecrawl-search — trouver des pages quand vous n'avez pas d'URL
  • firecrawl-interact — quand scrape ne peut pas récupérer le contenu, utilisez interact pour cliquer, remplir des formulaires, etc.
  • firecrawl-download — télécharger en masse un site entier vers des fichiers locaux

Skills similaires