Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

60 skills

# Skill Source Description Maj
1 firecrawl firecrawl/cli Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. 390 17h
2 firecrawl-search firecrawl/cli Rechercher sur le web et récupérer le contenu complet des pages résultantes. 390 17h
3 apify-sdk-integration apify/agent-skills Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API. 2 039 1j
4 opensea-api projectopensea/opensea-skill Interroger les données NFT et tokens sur les principales blockchains via l'API OpenSea. 35 1j
5 arize-link github/awesome-copilot Générer des liens profonds vers l'interface Arize pour traces, spans, datasets et évaluateurs. 33 040 2j
6 apify-actor-development apify/agent-skills Développer et déployer des Actors serverless sur la plateforme Apify. 2 039 3j
7 x-twitter-scraper github/awesome-copilot Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. 33 040 4j
8 opensea projectopensea/opensea-skill Interroger, trader et swapper des NFT et tokens ERC20 via l'API OpenSea multi-chaînes. 35 6j
9 finding-replay-for-issue posthog/skills Identifier et présenter l'enregistrement de session le plus pertinent pour une erreur. 37 7j
10 video-search nvidia/skills Rechercher des archives vidéo en langage naturel via des embeddings vectoriels. 87 7j
11 opensea-swaps projectopensea/opensea-skill Échanger des tokens ERC20 via l'agrégateur DEX cross-chain d'OpenSea avec routage optimal. 35 9j
12 query-onchain-data coinbase/agentic-wallet-skills Interroger les données onchain Base via l'API SQL CDP avec paiement par requête. 106 10j
13 coingecko elophanto/elophanto Intégrer l'API CoinGecko pour accéder aux données Solana en temps réel. 72 12j
14 speech-to-text elevenlabs/skills Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis. 237 13j
15 huggingface-datasets huggingface/skills Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer. 10 498 14j
16 apify-ultimate-scraper apify/agent-skills Extraire des données web depuis plus de 100 sources via l'API Apify. 2 039 17j
17 exploring-autocapture-events posthog/skills Explorer les événements d'autocapture PostHog pour analyser les interactions utilisateurs. 37 17j
18 diagnosing-sdk-health posthog/skills Diagnostiquer la santé des SDK PostHog et recommander les mises à jour nécessaires. 37 19j
19 setting-up-a-data-warehouse-source posthog/skills Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes. 37 21j
20 suggesting-data-imports posthog/skills Identifier et importer des données externes dans PostHog via l'entrepôt de données. 37 21j
21 omni-query exploreomni/omni-agent-skills Interroger la couche sémantique Omni via CLI pour extraire des données structurées. 16 21j
22 autobrowse browserbase/skills Créer et affiner automatiquement des skills de navigation web par itérations successives. 3 250 22j
23 firecrawl-parse firecrawl/cli Convertir des fichiers locaux (PDF, DOCX, XLSX…) en markdown propre sur disque. 390 22j
24 diagnosing-missing-recordings posthog/skills Diagnostiquer pourquoi une session PostHog n'a pas été enregistrée. 37 24j
25 mapbox-location-grounding mapbox/mapbox-agent-skills Ancrer les réponses géolocalisées dans des données Mapbox en temps réel. 55 1mo
26 tavily-dynamic-search tavily-ai/skills Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. 291 1mo
27 firecrawl-interact firecrawl/cli Interagir avec des pages web en session navigateur live via prompts ou code. 390 1mo
28 firecrawl-agent firecrawl/cli Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. 390 1mo
29 firecrawl-scrape firecrawl/cli Extraire le contenu de pages web en markdown optimisé pour les LLMs. 390 1mo
30 bx brave/brave-search-skills Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. 133 1mo
31 rw-check-compatibility runwayml/skills Vérifier la compatibilité d'un projet avec l'API serveur de Runway. 48 1mo
32 rw-fetch-api-reference runwayml/skills Récupérer la référence API Runway en temps réel avant toute intégration. 48 1mo
33 rw-integrate-uploads runwayml/skills Uploader des fichiers locaux vers Runway pour les utiliser comme inputs génératifs. 48 1mo
34 rw-recipe-full-setup runwayml/skills Intégrer l'API Runway dans un projet en guidant chaque étape de configuration. 48 1mo
35 browser browserbase/skills Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. 3 250 1mo
36 bx-search brave/brave-search-skills Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. 133 1mo
37 workload-analysis posthog/skills Analyser les dépenses clients par workload et générer des visualisations React interactives. 37 1mo
38 mapbox-geospatial-operations mapbox/mapbox-agent-skills Choisir et appliquer les bons outils géospatiaux Mapbox selon le contexte du problème. 55 1mo
39 mapbox-mcp-runtime-patterns mapbox/mapbox-agent-skills Intégrer des capacités géospatiales Mapbox dans des applications IA via MCP. 55 1mo
40 mapbox-search-patterns mapbox/mapbox-agent-skills Sélectionner et paramétrer les outils de recherche Mapbox selon le contexte géographique. 55 1mo
41 defuddle kepano/obsidian-skills Extraire le contenu lisible et épuré de pages web via Defuddle CLI. 31 409 1mo
42 firecrawl-crawl firecrawl/cli Extraire en masse le contenu de multiples pages d'un site web via crawl. 390 1mo
43 firecrawl-map firecrawl/cli Cartographier toutes les URLs d'un site web avec filtrage par recherche. 390 1mo
44 search browserbase/skills Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. 3 250 1mo
45 tavily-crawl tavily-ai/skills Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. 291 1mo
46 tavily-extract tavily-ai/skills Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. 291 1mo
47 tavily-map tavily-ai/skills Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. 291 1mo
48 tavily-research tavily-ai/skills Générer un rapport cité et approfondi à partir de multiples sources web analysées. 291 1mo
49 tavily-search tavily-ai/skills Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. 291 1mo
50 tavily-cli tavily-ai/skills Rechercher, extraire, crawler et analyser le web via Tavily CLI. 291 1mo

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.