Retour au Blog
Machine Learning 15 avril 2025 8 min de lecture

AUC 0,9648 sur IEEE-CIS Fraud Detection avec LightGBM Stacking

Guide complet pour construire un ensemble stacking atteignant AUC 0,9648 — feature engineering, sélection de modèles et méta-apprenant.

Le problème

Le défi IEEE-CIS Fraud Detection présente 590 540 transactions d'entraînement avec 433 caractéristiques et un taux de fraude de seulement 3,5 %.

Feature engineering clé

  • Caractéristiques temporelles : heure de la journée, jour de la semaine, dérive temporelle
  • Agrégations par carte : moyenne/écart-type/comptage de TransactionAmt par card1/card2
  • Caractéristiques de domaine e-mail : indicateur same_email_domain, taux de fraude par domaine
  • Comptages booléens des colonnes M : T/F/manquant sur M1-M9

Pipeline de modèles

ModèleAUC OOF
LightGBM0.9648
XGBoost0.9631
CatBoost0.9529

Points clés

  1. Ne supprimez pas les colonnes V — elles portent les signaux de fraude propriétaires de Vesta
  2. La validation croisée temporelle est plus réaliste que StratifiedKFold
  3. Les agrégations au niveau carte sont le groupe de caractéristiques le plus impactant
  4. La gestion native des valeurs manquantes de LightGBM lui donne l'avantage
LightGBMFraud DetectionFeature EngineeringKaggleStacking
O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc