Tous les Projets
Détection de FraudeEn Vedette

Détection de Fraude IEEE-CIS

Pipeline ML complet sur 590K transactions, 433 caractéristiques. LightGBM AUC 0.9648 — ensemble de stacking LGB+XGB+CatBoost+RF avec ingénierie de caractéristiques comportementales avancées.

0.9648
LightGBM AUC
0.9565
Stacking AUC
0.8506
Baseline (LR)
459
Features (after FE)
Jeu de Données

590 540 transactions, 433 caractéristiques, 3,5% de fraude

Approche

Ensemble de stacking avec validation croisée StratifiedKFold et ingénierie de caractéristiques comportementales

Stack Technique
PythonLightGBMXGBoostCatBoostScikit-learnPandasNumPy
Mots-clés
LightGBMXGBoostCatBoostStackingFeature EngineeringStratifiedKFold
Visualisations6 Graphiques
Analyse Approfondie

Détection de fraude de niveau production sur l'un des datasets tabulaires les plus difficiles de Kaggle — 590 540 transactions, 433 caractéristiques, taux de fraude 3,5%.

Données

  • 590 540 enregistrements joints à 144 233 enregistrements d'identité
  • 433 caractéristiques : V1–V339 (Vesta) + colonnes carte/email/appareil/M
  • Taux de fraude : 3,5% — nécessite une CV stratifiée et un réglage de seuil
  • 12 colonnes avec >90% de valeurs manquantes → supprimées

Ingénierie des caractéristiques

GroupeCaractéristiques
TempsHeure, jour de semaine, cycles TransactionDT
Carte comportementaleMoy/écart-type/compte TransactionAmt par groupe carte
Correspondance emailP_emaildomain == R_emaildomain
Colonnes MAgrégats T/F/manquant sur M1–M9
Montantlog(TransactionAmt), centimes, montant rond

Résultats des modèles — 2-Fold Stratified CV

ModèleOOF AUC
Logistic Regression0.8506
Decision Tree0.8583
Random Forest0.9032
CatBoost0.9529
XGBoost0.9631
LightGBM0.9648
Weighted Blend0.9478
Stacking (LR meta)0.9565

Points clés

  • LightGBM gère nativement les valeurs manquantes, avantage décisif sur XGBoost pour les colonnes V à >40% de manquants
  • Les agrégations comportementales au niveau carte (moy/écart-type TransactionAmt) constituent le groupe de caractéristiques à plus fort impact
  • La correspondance des domaines email (P vs R) améliore le rappel sur les transactions inter-domaines
  • Le méta-learner de stacking ne surpasse pas LightGBM seul — les modèles de base sont trop corrélés