Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

60 skills

#	Skill	Source	Description		Maj
1	firecrawl	firecrawl/cli	Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé.	390	17h
2	firecrawl-search	firecrawl/cli	Rechercher sur le web et récupérer le contenu complet des pages résultantes.	390	17h
3	apify-sdk-integration	apify/agent-skills	Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API.	2 039	1j
4	opensea-api	projectopensea/opensea-skill	Interroger les données NFT et tokens sur les principales blockchains via l'API OpenSea.	35	1j
5	arize-link	github/awesome-copilot	Générer des liens profonds vers l'interface Arize pour traces, spans, datasets et évaluateurs.	33 040	2j
6	apify-actor-development	apify/agent-skills	Développer et déployer des Actors serverless sur la plateforme Apify.	2 039	3j
7	x-twitter-scraper	github/awesome-copilot	Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter.	33 040	4j
8	opensea	projectopensea/opensea-skill	Interroger, trader et swapper des NFT et tokens ERC20 via l'API OpenSea multi-chaînes.	35	6j
9	finding-replay-for-issue	posthog/skills	Identifier et présenter l'enregistrement de session le plus pertinent pour une erreur.	37	7j
10	video-search	nvidia/skills	Rechercher des archives vidéo en langage naturel via des embeddings vectoriels.	87	7j
11	opensea-swaps	projectopensea/opensea-skill	Échanger des tokens ERC20 via l'agrégateur DEX cross-chain d'OpenSea avec routage optimal.	35	9j
12	query-onchain-data	coinbase/agentic-wallet-skills	Interroger les données onchain Base via l'API SQL CDP avec paiement par requête.	106	10j
13	coingecko	elophanto/elophanto	Intégrer l'API CoinGecko pour accéder aux données Solana en temps réel.	72	12j
14	speech-to-text	elevenlabs/skills	Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis.	237	13j
15	huggingface-datasets	huggingface/skills	Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer.	10 498	14j
16	apify-ultimate-scraper	apify/agent-skills	Extraire des données web depuis plus de 100 sources via l'API Apify.	2 039	17j
17	exploring-autocapture-events	posthog/skills	Explorer les événements d'autocapture PostHog pour analyser les interactions utilisateurs.	37	17j
18	diagnosing-sdk-health	posthog/skills	Diagnostiquer la santé des SDK PostHog et recommander les mises à jour nécessaires.	37	19j
19	setting-up-a-data-warehouse-source	posthog/skills	Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes.	37	21j
20	suggesting-data-imports	posthog/skills	Identifier et importer des données externes dans PostHog via l'entrepôt de données.	37	21j
21	omni-query	exploreomni/omni-agent-skills	Interroger la couche sémantique Omni via CLI pour extraire des données structurées.	16	21j
22	autobrowse	browserbase/skills	Créer et affiner automatiquement des skills de navigation web par itérations successives.	3 250	22j
23	firecrawl-parse	firecrawl/cli	Convertir des fichiers locaux (PDF, DOCX, XLSX…) en markdown propre sur disque.	390	22j
24	diagnosing-missing-recordings	posthog/skills	Diagnostiquer pourquoi une session PostHog n'a pas été enregistrée.	37	24j
25	mapbox-location-grounding	mapbox/mapbox-agent-skills	Ancrer les réponses géolocalisées dans des données Mapbox en temps réel.	55	1mo
26	tavily-dynamic-search	tavily-ai/skills	Filtrer et extraire des résultats web sans polluer la fenêtre de contexte.	291	1mo
27	firecrawl-interact	firecrawl/cli	Interagir avec des pages web en session navigateur live via prompts ou code.	390	1mo
28	firecrawl-agent	firecrawl/cli	Extraire automatiquement des données structurées depuis des sites web complexes multi-pages.	390	1mo
29	firecrawl-scrape	firecrawl/cli	Extraire le contenu de pages web en markdown optimisé pour les LLMs.	390	1mo
30	bx	brave/brave-search-skills	Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA.	133	1mo
31	rw-check-compatibility	runwayml/skills	Vérifier la compatibilité d'un projet avec l'API serveur de Runway.	48	1mo
32	rw-fetch-api-reference	runwayml/skills	Récupérer la référence API Runway en temps réel avant toute intégration.	48	1mo
33	rw-integrate-uploads	runwayml/skills	Uploader des fichiers locaux vers Runway pour les utiliser comme inputs génératifs.	48	1mo
34	rw-recipe-full-setup	runwayml/skills	Intégrer l'API Runway dans un projet en guidant chaque étape de configuration.	48	1mo
35	browser	browserbase/skills	Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée.	3 250	1mo
36	bx-search	brave/brave-search-skills	Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte.	133	1mo
37	workload-analysis	posthog/skills	Analyser les dépenses clients par workload et générer des visualisations React interactives.	37	1mo
38	mapbox-geospatial-operations	mapbox/mapbox-agent-skills	Choisir et appliquer les bons outils géospatiaux Mapbox selon le contexte du problème.	55	1mo
39	mapbox-mcp-runtime-patterns	mapbox/mapbox-agent-skills	Intégrer des capacités géospatiales Mapbox dans des applications IA via MCP.	55	1mo
40	mapbox-search-patterns	mapbox/mapbox-agent-skills	Sélectionner et paramétrer les outils de recherche Mapbox selon le contexte géographique.	55	1mo
41	defuddle	kepano/obsidian-skills	Extraire le contenu lisible et épuré de pages web via Defuddle CLI.	31 409	1mo
42	firecrawl-crawl	firecrawl/cli	Extraire en masse le contenu de multiples pages d'un site web via crawl.	390	1mo
43	firecrawl-map	firecrawl/cli	Cartographier toutes les URLs d'un site web avec filtrage par recherche.	390	1mo
44	search	browserbase/skills	Rechercher sur le web et retourner des résultats structurés via l'API Browserbase.	3 250	1mo
45	tavily-crawl	tavily-ai/skills	Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI.	291	1mo
46	tavily-extract	tavily-ai/skills	Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs.	291	1mo
47	tavily-map	tavily-ai/skills	Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu.	291	1mo
48	tavily-research	tavily-ai/skills	Générer un rapport cité et approfondi à partir de multiples sources web analysées.	291	1mo
49	tavily-search	tavily-ai/skills	Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily.	291	1mo
50	tavily-cli	tavily-ai/skills	Rechercher, extraire, crawler et analyser le web via Tavily CLI.	291	1mo

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.