firecrawl-parse

Par firecrawl · cli

Extrayez et convertissez efficacement le contenu de n'importe quel fichier local — tel que PDF, DOCX, DOC, ODT, RTF, XLSX, XLS ou HTML — en markdown propre et bien formaté, enregistré sur le disque. Utilisez cette skill chaque fois que l'utilisateur demande à parser, lire ou extraire des informations d'un fichier sur son ordinateur, notamment avec des formulations comme « parse this PDF », « convert this document », « read this file », « extract text from », ou lorsqu'un chemin de fichier local (et non une URL) est fourni. Cette skill offre des options avancées telles que la génération de résumés par IA et la possibilité de répondre à des questions basées sur le contenu du fichier. Préférez cet outil à `scrape` pour les fichiers locaux afin de produire des sorties précises et structurées pour les tâches en aval.

npx skills add https://github.com/firecrawl/cli --skill firecrawl-parse

firecrawl parse

Transformer un document local en markdown propre sur le disque. Supporte PDF, DOCX, DOC, ODT, RTF, XLSX, XLS, HTML/HTM/XHTML.

Quand l'utiliser

  • Vous avez un fichier sur le disque (pas une URL) et voulez son texte en markdown
  • L'utilisateur dépose un PDF/DOCX et demande ce qu'il contient, ou un résumé
  • Utilisez scrape à la place quand la source est une URL

Démarrage rapide

Sauvegardez toujours dans .firecrawl/ avec -o — les documents parsés peuvent faire plusieurs centaines de KB et exploser le context s'ils sont diffusés sur stdout. Ajoutez .firecrawl/ à .gitignore.

mkdir -p .firecrawl

# Fichier → markdown
firecrawl parse ./paper.pdf -o .firecrawl/paper.md

# Résumé IA
firecrawl parse ./paper.pdf -S -o .firecrawl/paper-summary.md

# Poser une question sur le document
firecrawl parse ./paper.pdf -Q "What are the main conclusions?" \
  -o .firecrawl/paper-qa.md

Utilisez ensuite head, grep, rg, etc., ou lisez le fichier progressivement — ne le chargez pas entièrement à la fois.

Options

Option Description
-S, --summary Résumé généré par IA
-Q, --query <prompt> Poser une question sur le contenu parsé
-o, --output <path> Chemin du fichier de sortie — toujours l'utiliser
-f, --format <fmt> markdown (défaut), html, summary
--timeout <ms> Délai d'attente pour le job de parsing
--timing Afficher la durée de la requête

Conseils

  • Mettez les chemins entre guillemets s'ils contiennent des espaces : firecrawl parse "./My Doc.pdf" -o .firecrawl/mydoc.md.
  • Taille max de l'upload : 50 MB par fichier.
  • Crédits : ~1 par page PDF ; HTML est 1 forfait.
  • Vérifiez .firecrawl/ avant de reparser le même fichier.
  • Pour vérifier votre solde de crédits (recommandé pour le traitement par lot et les workflows similaires), utilisez la commande firecrawl credit-usage.

Voir aussi

Skills similaires