Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

60 skills

# Skill Source Description Δ
1 defuddle kepano/obsidian-skills Extraire le contenu lisible et épuré de pages web via Defuddle CLI. 31 409 122
2 arize-link github/awesome-copilot Générer des liens profonds vers l'interface Arize pour traces, spans, datasets et évaluateurs. 33 040 60
3 x-twitter-scraper github/awesome-copilot Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. 33 040 60
4 autobrowse browserbase/skills Créer et affiner automatiquement des skills de navigation web par itérations successives. 3 250 15
5 fetch browserbase/skills Récupérer le contenu, les en-têtes et métadonnées d'une page web sans navigateur. 3 250 15
6 browser browserbase/skills Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. 3 250 15
7 search browserbase/skills Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. 3 250 15
8 coingecko elophanto/elophanto Intégrer l'API CoinGecko pour accéder aux données Solana en temps réel. 72 13
9 huggingface-datasets huggingface/skills Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer. 10 498 7
10 apify-actor-development apify/agent-skills Développer et déployer des Actors serverless sur la plateforme Apify. 2 039 4
11 apify-ultimate-scraper apify/agent-skills Extraire des données web depuis plus de 100 sources via l'API Apify. 2 039 4
12 apify-sdk-integration apify/agent-skills Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API. 2 039 4
13 firecrawl-agent firecrawl/cli Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. 390 3
14 firecrawl firecrawl/cli Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. 390 3
15 firecrawl-crawl firecrawl/cli Extraire en masse le contenu de multiples pages d'un site web via crawl. 390 3
16 firecrawl-download firecrawl/cli Télécharger un site entier en fichiers locaux organisés via map et scrape. 390 3
17 firecrawl-interact firecrawl/cli Interagir avec des pages web en session navigateur live via prompts ou code. 390 3
18 firecrawl-map firecrawl/cli Cartographier toutes les URLs d'un site web avec filtrage par recherche. 390 3
19 firecrawl-parse firecrawl/cli Convertir des fichiers locaux (PDF, DOCX, XLSX…) en markdown propre sur disque. 390 3
20 firecrawl-scrape firecrawl/cli Extraire le contenu de pages web en markdown optimisé pour les LLMs. 390 3
21 firecrawl-search firecrawl/cli Rechercher sur le web et récupérer le contenu complet des pages résultantes. 390 3
22 bx-search brave/brave-search-skills Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. 133 2
23 bx brave/brave-search-skills Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. 133 2
24 images-search brave/brave-search-skills Rechercher des images sur le web via l'API Brave Search. 133 2
25 local-descriptions brave/brave-search-skills Récupérer des descriptions IA de lieux d'intérêt via l'API Brave Search. 133 2
26 local-pois brave/brave-search-skills Récupérer les détails complets de points d'intérêt locaux via l'API Brave Search. 133 2
27 news-search brave/brave-search-skills Rechercher des actualités récentes via l'API Brave avec filtres temporels et géographiques. 133 2
28 videos-search brave/brave-search-skills Rechercher des vidéos sur le web via l'API Brave Search. 133 2
29 web-search brave/brave-search-skills Effectuer des recherches web structurées via l'API Brave Search avec filtres avancés. 133 2
30 tavily-best-practices tavily-ai/skills Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs. 291 2
31 tavily-cli tavily-ai/skills Rechercher, extraire, crawler et analyser le web via Tavily CLI. 291 2
32 tavily-crawl tavily-ai/skills Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. 291 2
33 tavily-dynamic-search tavily-ai/skills Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. 291 2
34 tavily-extract tavily-ai/skills Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. 291 2
35 tavily-map tavily-ai/skills Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. 291 2
36 tavily-research tavily-ai/skills Générer un rapport cité et approfondi à partir de multiples sources web analysées. 291 2
37 tavily-search tavily-ai/skills Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. 291 2
38 diagnosing-sdk-health posthog/skills Diagnostiquer la santé des SDK PostHog et recommander les mises à jour nécessaires. 37 1
39 diagnosing-missing-recordings posthog/skills Diagnostiquer pourquoi une session PostHog n'a pas été enregistrée. 37 1
40 exploring-autocapture-events posthog/skills Explorer les événements d'autocapture PostHog pour analyser les interactions utilisateurs. 37 1
41 setting-up-a-data-warehouse-source posthog/skills Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes. 37 1
42 suggesting-data-imports posthog/skills Identifier et importer des données externes dans PostHog via l'entrepôt de données. 37 1
43 workload-analysis posthog/skills Analyser les dépenses clients par workload et générer des visualisations React interactives. 37 1
44 rw-check-compatibility runwayml/skills Vérifier la compatibilité d'un projet avec l'API serveur de Runway. 48 1
45 rw-fetch-api-reference runwayml/skills Récupérer la référence API Runway en temps réel avant toute intégration. 48 1
46 rw-integrate-uploads runwayml/skills Uploader des fichiers locaux vers Runway pour les utiliser comme inputs génératifs. 48 1
47 rw-recipe-full-setup runwayml/skills Intégrer l'API Runway dans un projet en guidant chaque étape de configuration. 48 1
48 finding-replay-for-issue posthog/skills Identifier et présenter l'enregistrement de session le plus pertinent pour une erreur. 37 1
49 video-search nvidia/skills Rechercher des archives vidéo en langage naturel via des embeddings vectoriels. 87 1
50 query-onchain-data coinbase/agentic-wallet-skills Interroger les données onchain Base via l'API SQL CDP avec paiement par requête. 106 0

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.