datanalysis-credit-risk

Par github · awesome-copilot

Pipeline de nettoyage des données de risque de crédit et de sélection de variables pour la modélisation pré-octroi. À utiliser lorsque vous travaillez avec des données de crédit brutes nécessitant une évaluation de la qualité, une analyse des valeurs manquantes ou une sélection de variables avant la modélisation. Couvre le chargement et le formatage des données, le filtrage des périodes aberrantes, le calcul du taux de valeurs manquantes, la suppression des variables à fort taux de manquants, le filtrage des variables à faible IV, la suppression des variables à PSI élevé, le débruitage par Null Importance, la suppression des variables fortement corrélées et la génération d'un rapport de nettoyage. Scénarios d'application : nettoyage des données de risque de crédit, sélection de variables, prétraitement pour la modélisation pré-octroi.

npx skills add https://github.com/github/awesome-copilot --skill datanalysis-credit-risk

Nettoyage des données et sélection des variables

Démarrage rapide

# Exécuter le pipeline complet de nettoyage des données
python ".github/skills/datanalysis-credit-risk/scripts/example.py"

Description du processus complet

Le pipeline de nettoyage des données se compose des 11 étapes suivantes, chacune exécutée indépendamment sans supprimer les données originales :

  1. Get Data - Charger et formater les données brutes
  2. Organization Sample Analysis - Statistiques du nombre d'échantillons et du taux d'échantillons mauvais par organisation
  3. Separate OOS Data - Séparer les échantillons hors échantillon (OOS) des échantillons de modélisation
  4. Filter Abnormal Months - Supprimer les mois avec un nombre insuffisant d'échantillons mauvais ou un nombre total d'échantillons insuffisant
  5. Calculate Missing Rate - Calculer les taux de données manquantes globaux et au niveau de l'organisation pour chaque feature
  6. Drop High Missing Rate Features - Supprimer les features avec un taux de données manquantes global dépassant le seuil
  7. Drop Low IV Features - Supprimer les features avec un IV global trop faible ou un IV trop faible dans trop d'organisations
  8. Drop High PSI Features - Supprimer les features avec un PSI instable
  9. Null Importance Denoising - Supprimer les features de bruit à l'aide de la méthode de permutation d'étiquette
  10. Drop High Correlation Features - Supprimer les features hautement corrélées en fonction du gain original
  11. Export Report - Générer un rapport Excel contenant les détails et statistiques de toutes les étapes

Fonctions principales

Fonction Objectif Module
get_dataset() Charger et formater les données references.func
org_analysis() Analyse des échantillons par organisation references.func
missing_check() Calculer le taux de données manquantes references.func
drop_abnormal_ym() Filtrer les mois anormaux references.analysis
drop_highmiss_features() Supprimer les features avec taux de données manquantes élevé references.analysis
drop_lowiv_features() Supprimer les features avec IV faible references.analysis
drop_highpsi_features() Supprimer les features avec PSI élevé references.analysis
drop_highnoise_features() Débruitage par Null Importance references.analysis
drop_highcorr_features() Supprimer les features hautement corrélées references.analysis
iv_distribution_by_org() Statistiques de distribution IV references.analysis
psi_distribution_by_org() Statistiques de distribution PSI references.analysis
value_ratio_distribution_by_org() Statistiques de distribution des ratio de valeurs references.analysis
export_cleaning_report() Exporter le rapport de nettoyage references.analysis

Description des paramètres

Paramètres de chargement des données

  • DATA_PATH: Chemin du fichier de données (format parquet recommandé)
  • DATE_COL: Nom de la colonne de date
  • Y_COL: Nom de la colonne d'étiquette
  • ORG_COL: Nom de la colonne d'organisation
  • KEY_COLS: Liste des noms de colonnes de clé primaire

Configuration de l'organisation OOS

  • OOS_ORGS: Liste des organisations hors échantillon

Paramètres de filtrage des mois anormaux

  • min_ym_bad_sample: Nombre minimum d'échantillons mauvais par mois (par défaut 10)
  • min_ym_sample: Nombre minimum total d'échantillons par mois (par défaut 500)

Paramètres de taux de données manquantes

  • missing_ratio: Seuil de taux de données manquantes global (par défaut 0,6)

Paramètres IV

  • overall_iv_threshold: Seuil IV global (par défaut 0,1)
  • org_iv_threshold: Seuil IV pour une seule organisation (par défaut 0,1)
  • max_org_threshold: Nombre maximum d'organisations avec IV faible toléré (par défaut 2)

Paramètres PSI

  • psi_threshold: Seuil PSI (par défaut 0,1)
  • max_months_ratio: Ratio maximum de mois instables (par défaut 1/3)
  • max_orgs: Nombre maximum d'organisations instables (par défaut 6)

Paramètres Null Importance

  • n_estimators: Nombre d'arbres (par défaut 100)
  • max_depth: Profondeur maximale de l'arbre (par défaut 5)
  • gain_threshold: Seuil de différence de gain (par défaut 50)

Paramètres de corrélation élevée

  • max_corr: Seuil de corrélation (par défaut 0,9)
  • top_n_keep: Conserver les N premières features selon le classement du gain original (par défaut 20)

Rapport de sortie

Le rapport Excel généré contient les feuilles suivantes :

  1. 汇总 - Informations de synthèse de toutes les étapes, y compris les résultats opérationnels et les conditions
  2. 机构样本统计 - Nombre d'échantillons et taux d'échantillons mauvais par organisation
  3. 分离OOS数据 - Nombres d'échantillons OOS et d'échantillons de modélisation
  4. Step4-异常月份处理 - Mois anormaux supprimés
  5. 缺失率明细 - Taux de données manquantes globaux et au niveau de l'organisation pour chaque feature
  6. Step5-有值率分布统计 - Distribution des features selon différentes plages de ratio de valeurs
  7. Step6-高缺失率处理 - Features avec taux de données manquantes élevé supprimées
  8. Step7-IV明细 - Valeurs IV de chaque feature dans chaque organisation et au global
  9. Step7-IV处理 - Features ne répondant pas aux conditions IV et organisations avec IV faible
  10. Step7-IV分布统计 - Distribution des features selon différentes plages IV
  11. Step8-PSI明细 - Valeurs PSI de chaque feature dans chaque organisation et chaque mois
  12. Step8-PSI处理 - Features ne répondant pas aux conditions PSI et organisations instables
  13. Step8-PSI分布统计 - Distribution des features selon différentes plages PSI
  14. Step9-null importance处理 - Features de bruit supprimées
  15. Step10-高相关性剔除 - Features hautement corrélées supprimées

Caractéristiques

  • Saisie interactive : Les paramètres peuvent être saisis avant l'exécution de chaque étape, avec support des valeurs par défaut
  • Exécution indépendante : Chaque étape est exécutée indépendamment sans supprimer les données originales, facilitant l'analyse comparative
  • Rapport complet : Générer un rapport Excel complet contenant les détails, statistiques et distributions
  • Support multi-processus : Les calculs IV et PSI supportent l'accélération multi-processus
  • Analyse au niveau de l'organisation : Support des statistiques au niveau de l'organisation et de la distinction modélisation/OOS

Skills similaires