Le problème
Le défi IEEE-CIS Fraud Detection présente 590 540 transactions d'entraînement avec 433 caractéristiques et un taux de fraude de seulement 3,5 %.
Feature engineering clé
- Caractéristiques temporelles : heure de la journée, jour de la semaine, dérive temporelle
- Agrégations par carte : moyenne/écart-type/comptage de TransactionAmt par card1/card2
- Caractéristiques de domaine e-mail : indicateur same_email_domain, taux de fraude par domaine
- Comptages booléens des colonnes M : T/F/manquant sur M1-M9
Pipeline de modèles
| Modèle | AUC OOF |
|---|---|
| LightGBM | 0.9648 |
| XGBoost | 0.9631 |
| CatBoost | 0.9529 |
Points clés
- Ne supprimez pas les colonnes V — elles portent les signaux de fraude propriétaires de Vesta
- La validation croisée temporelle est plus réaliste que StratifiedKFold
- Les agrégations au niveau carte sont le groupe de caractéristiques le plus impactant
- La gestion native des valeurs manquantes de LightGBM lui donne l'avantage