Tous les Projets
Détection de FraudeEn Vedette
Détection de Fraude IEEE-CIS
Pipeline ML complet sur 590K transactions, 433 caractéristiques. LightGBM AUC 0.9648 — ensemble de stacking LGB+XGB+CatBoost+RF avec ingénierie de caractéristiques comportementales avancées.
0.9648
LightGBM AUC
0.9565
Stacking AUC
0.8506
Baseline (LR)
459
Features (after FE)
Jeu de Données
590 540 transactions, 433 caractéristiques, 3,5% de fraude
Approche
Ensemble de stacking avec validation croisée StratifiedKFold et ingénierie de caractéristiques comportementales
Stack Technique
PythonLightGBMXGBoostCatBoostScikit-learnPandasNumPy
Mots-clés
LightGBMXGBoostCatBoostStackingFeature EngineeringStratifiedKFold
Visualisations6 Graphiques
Analyse Approfondie
Détection de fraude de niveau production sur l'un des datasets tabulaires les plus difficiles de Kaggle — 590 540 transactions, 433 caractéristiques, taux de fraude 3,5%.
Données
- ▸590 540 enregistrements joints à 144 233 enregistrements d'identité
- ▸433 caractéristiques : V1–V339 (Vesta) + colonnes carte/email/appareil/M
- ▸Taux de fraude : 3,5% — nécessite une CV stratifiée et un réglage de seuil
- ▸12 colonnes avec >90% de valeurs manquantes → supprimées
Ingénierie des caractéristiques
| Groupe | Caractéristiques |
|---|---|
| Temps | Heure, jour de semaine, cycles TransactionDT |
| Carte comportementale | Moy/écart-type/compte TransactionAmt par groupe carte |
| Correspondance email | P_emaildomain == R_emaildomain |
| Colonnes M | Agrégats T/F/manquant sur M1–M9 |
| Montant | log(TransactionAmt), centimes, montant rond |
Résultats des modèles — 2-Fold Stratified CV
| Modèle | OOF AUC |
|---|---|
| Logistic Regression | 0.8506 |
| Decision Tree | 0.8583 |
| Random Forest | 0.9032 |
| CatBoost | 0.9529 |
| XGBoost | 0.9631 |
| LightGBM | 0.9648 |
| Weighted Blend | 0.9478 |
| Stacking (LR meta) | 0.9565 |
Points clés
- ▸LightGBM gère nativement les valeurs manquantes, avantage décisif sur XGBoost pour les colonnes V à >40% de manquants
- ▸Les agrégations comportementales au niveau carte (moy/écart-type TransactionAmt) constituent le groupe de caractéristiques à plus fort impact
- ▸La correspondance des domaines email (P vs R) améliore le rappel sur les transactions inter-domaines
- ▸Le méta-learner de stacking ne surpasse pas LightGBM seul — les modèles de base sont trop corrélés