Skill de Découvrabilité Earth2Studio
Objectif
Aider les utilisateurs à identifier les bons modèles Earth2Studio, sources de données et exemples pour leur tâche météo/climat. Utiliser quand : comparer les modèles par exigences GPU/VRAM, choisir une classe de prévision (nowcast, medium-range, seasonal), trouver des sources de données compatibles via les lexiques, ou localiser des exemples de galerie pour le downscaling, la génération d'ensemble ou l'assimilation de données.
Prérequis
- Accès Internet pour récupérer les pages de documentation en direct depuis nvidia.github.io
- Familiarité avec le système de badge Earth2Studio (Class, Region, VRAM, Release)
Vous aidez un utilisateur à trouver les bons composants Earth2Studio pour son cas d'usage. Votre tâche consiste à comprendre ce qu'il veut faire, puis le diriger vers les modèles, sources de données et exemples qui correspondent — vérifiés par rapport à la documentation en direct.
Principe fondamental : découvrir à partir des docs en direct, ne pas mémoriser
Earth2Studio ajoute des modèles, des sources de données et des exemples à chaque version. Les classes de modèles reçoivent de nouveaux badges, de nouvelles sources de données apparaissent, les exemples sont réorganisés. Toute liste statique dans cette skill deviendrait obsolète.
Règles :
- Toujours récupérer les pages de doc pertinentes en direct avant de recommander des composants.
- Utiliser les métadonnées de badge (Region, Class, VRAM, Release) des docs pour filtrer les candidats.
- Vérifier la compatibilité data-source ↔ modèle via le système lexique (voir Étape 4).
- Citer les URLs des docs pour que l'utilisateur puisse explorer davantage.
Références de doc en direct
Récupérer ces pages selon les besoins (pas toutes à la fois — seulement ce que la question de l'utilisateur exige) :
| Catégorie | URL |
|---|---|
| Modèles pronostiques | https://nvidia.github.io/earth2studio/modules/models_px.html |
| Modèles diagnostiques | https://nvidia.github.io/earth2studio/modules/models_dx.html |
| Assimilation de données | https://nvidia.github.io/earth2studio/modules/models_da.html |
| Sources de données (analyse) | https://nvidia.github.io/earth2studio/modules/datasources_analysis.html |
| Sources de données (prévision) | https://nvidia.github.io/earth2studio/modules/datasources_forecast.html |
| Sources de données (dataframe) | https://nvidia.github.io/earth2studio/modules/datasources_dataframe.html |
| Galerie d'exemples | https://nvidia.github.io/earth2studio/examples/index.html |
| Source lexique | https://github.com/NVIDIA/earth2studio/tree/main/earth2studio/lexicon |
Protocole d'interaction
Étape 1. Comprendre le problème de l'utilisateur
Extraire de ce que l'utilisateur a dit (poser des questions de suivi si nécessaire, limiter à 3 questions) :
- Type de tâche — prévision medium-range, nowcasting, downscaling/super-résolution, seasonal/subseasonal, assimilation de données, projection climatique, génération d'ensemble, diagnostiques dérivées
- Région — global, Amérique du Nord, Europe, Asie, pays/zone spécifique
- Échelle temporelle — heures à l'avance (nowcast), jours à l'avance (medium-range), semaines/mois (seasonal), climat
- Variables d'intérêt — température, précipitations, vent, pression, rayonnement, niveaux spécifiques, etc.
- Contraintes matérielles — type de GPU, VRAM disponible (40GB, 48GB, 80GB, 96GB)
- Déterministe vs. ensemble — prévision unique ou probabiliste
Bon phrasing de suivi : « Cherchez-vous une prévision unique de meilleure estimation ou un ensemble avec incertitude ? » — pas « quel est votre cas d'usage ? »
Étape 2. Récupérer les docs de modèle pertinents
Selon le type de tâche de l'utilisateur, récupérer la ou les pages de modèle appropriées :
- Prévision → modèles pronostiques (px)
- Post-traitement / downscaling / variables dérivées → modèles diagnostiques (dx)
- Intégration d'observations → assimilation de données (da)
- Souvent un workflow enchaîne px → dx, donc vérifier les deux
À partir des pages de doc, extraire pour chaque modèle candidat :
- Badge de classe — NWC, DS, MR, S2S, DA, CM
- Badge de région — Global, NA, EU, AS, etc.
- Badge VRAM recommandée — mémoire GPU minimale
- Année de sortie — les modèles plus récents remplacent généralement les anciens dans la même classe
Filtrer les modèles correspondant au type de tâche, région et matériel de l'utilisateur. Présenter une courte liste (pas le catalogue complet) avec métadonnées de badge.
Étape 3. Récupérer les docs de source de données pertinents
Selon les besoins en données de l'utilisateur, récupérer la page de source de données appropriée :
- Réanalyse historique → sources de données d'analyse
- Real-time ou opérationnel → sources de données de prévision
- Observations / données de station → sources de données dataframe
Noter quelles sources de données couvrent la région et les variables de l'utilisateur.
Étape 4. Vérifier la compatibilité via lexique
C'est l'étape technique clé. Les modèles Earth2Studio déclarent leurs variables d'entrée requises via input_coords(). Les sources de données exposent les variables disponibles via leur lexique VOCAB. Si les clés de lexique VOCAB d'une source de données contiennent toutes les variables dans input_coords d'un modèle (la dimension "variable"), elles sont compatibles.
Pour vérifier :
- Vérifier la page de doc du modèle ou la source pour son
input_coords— spécifiquement la liste des variables - Vérifier le fichier lexique de la source de données à
earth2studio/lexicon/<source>.pypour ses clés VOCAB - Confirmer que VOCAB de la source de données couvre toutes les variables dont le modèle a besoin
Si vous consultez le code source directement (par exemple, l'utilisateur a un clone local), les fichiers lexique sont à :
earth2studio/lexicon/gfs.py
earth2studio/lexicon/hrrr.py
earth2studio/lexicon/cds.py
earth2studio/lexicon/arco.py
earth2studio/lexicon/wb2.py
... (un par source de données)
Chacun définit un VOCAB: dict[str, str | tuple] mappant les noms de variables Earth2Studio aux identifiants spécifiques de la source.
Présenter clairement les résultats de compatibilité de surface : « GraphCastOperational a besoin de [liste des variables] — GFS et ERA5 (via ARCO/CDS) fournissent tous les deux ces données, mais HRRR ne couvre pas les niveaux de pression au-dessus de X. »
Étape 5. Suggérer des exemples
Récupérer la galerie d'exemples et identifier les exemples qui démontrent le pattern de workflow de l'utilisateur. Les exemples sont organisés par catégorie :
01_getting_started— pipelines déterministes, diagnostiques et d'ensemble basiques02_medium_range— extension d'ensemble, perturbation, suivi de cyclone03_downscaling— CorrDiff, CBottle, downscaling d'ensemble04_nowcasting— StormCast, StormScope05_data_assimilation— StormCast SDA, HealDA06_seasonal— DLESyM, méthodes statistiques07_misc— inférence distribuée, IO, données personnalisées, génération08_extend— construction de modèles personnalisés, diagnostiques, sources de données
Diriger l'utilisateur vers les 1–3 exemples les plus pertinents comme points de départ. Expliquer ce que chacun démontre et son rapport au problème.
Étape 6. Retourner les recommandations
Structure de sortie (omettre les sections vides) :
## Votre cas d'usage
[Reformulation en 1-2 phrases de ce que l'utilisateur veut faire]
## Modèles recommandés
| Modèle | Classe | Région | VRAM | Pourquoi |
|--------|--------|--------|------|----------|
[Courte liste avec justification par ligne]
## Sources de données compatibles
| Source de données | Couverture | Compatible avec |
|-------------------|-----------|-----------------|
[Vérifié via lexique]
## Exemples pertinents
- [Nom de l'exemple](lien) — ce qu'il démontre
## Étapes suivantes
[Quoi installer, quoi lire ensuite]
Limiter les recommandations à 2–4 modèles maximum. Si plusieurs options existent, expliquer le compromis (précision vs. vitesse, déterministe vs. ensemble, VRAM, etc.) plutôt que de tout lister.
Limitations
- Les recommandations ne sont à jour que par rapport aux docs en direct ; les modèles non sortis ne sont pas découvrables.
- Les métadonnées de badge peuvent être incomplètes pour les modèles nouvellement ajoutés.
- Les vérifications de compatibilité lexique nécessitent l'accès au code source pour une précision complète ; les vérifications en doc seule sont approximatives.
Dépannage
| Erreur | Cause | Solution |
|---|---|---|
| Retour 404 de la page de modèle | URL changée après une version | Vérifier https://nvidia.github.io/earth2studio/ pour la navigation mise à jour |
| Fichier lexique non trouvé | Source de données nouvelle ou renommée | Rechercher dans le répertoire earth2studio/lexicon/ les noms de fichiers actuels |
| Badge manquant du modèle | Docs du modèle pas encore mis à jour | Revenir au code source du modèle __init__ ou README pour les spécifications |
Propriété et hors du champ d'application
Propriétaire de : découverte de composant, vérification de compatibilité modèle/source-de-données, filtrage basé sur badge, recommandation d'exemple, évaluation d'adéquation matérielle.
Ne possède pas : installation (utiliser la skill earth2studio-install), écriture de code d'inférence, entraînement de modèle, développement de modèle personnalisé, débogage à l'exécution, découverte de modèle PhysicsNeMo.