Détection de FraudeEn Vedette

Détection de Fraude IEEE-CIS

Pipeline ML complet sur 590K transactions, 433 caractéristiques. LightGBM AUC 0.9648 — ensemble de stacking LGB+XGB+CatBoost+RF avec ingénierie de caractéristiques comportementales avancées.

Voir sur Kaggle

0.9648

LightGBM AUC

0.9565

Stacking AUC

0.8506

Baseline (LR)

459

Features (after FE)

Jeu de Données

590 540 transactions, 433 caractéristiques, 3,5% de fraude

Approche

Ensemble de stacking avec validation croisée StratifiedKFold et ingénierie de caractéristiques comportementales

Stack Technique

PythonLightGBMXGBoostCatBoostScikit-learnPandasNumPy

Mots-clés

LightGBMXGBoostCatBoostStackingFeature EngineeringStratifiedKFold

Visualisations6 Graphiques

Analyse Approfondie

Détection de fraude de niveau production sur l'un des datasets tabulaires les plus difficiles de Kaggle — 590 540 transactions, 433 caractéristiques, taux de fraude 3,5%.

Données

▸590 540 enregistrements joints à 144 233 enregistrements d'identité
▸433 caractéristiques : V1–V339 (Vesta) + colonnes carte/email/appareil/M
▸Taux de fraude : 3,5% — nécessite une CV stratifiée et un réglage de seuil
▸12 colonnes avec >90% de valeurs manquantes → supprimées

Ingénierie des caractéristiques

Groupe	Caractéristiques
Temps	Heure, jour de semaine, cycles TransactionDT
Carte comportementale	Moy/écart-type/compte TransactionAmt par groupe carte
Correspondance email	P_emaildomain == R_emaildomain
Colonnes M	Agrégats T/F/manquant sur M1–M9
Montant	log(TransactionAmt), centimes, montant rond

Résultats des modèles — 2-Fold Stratified CV

Modèle	OOF AUC
Logistic Regression	0.8506
Decision Tree	0.8583
Random Forest	0.9032
CatBoost	0.9529
XGBoost	0.9631
LightGBM	0.9648
Weighted Blend	0.9478
Stacking (LR meta)	0.9565

Points clés

▸LightGBM gère nativement les valeurs manquantes, avantage décisif sur XGBoost pour les colonnes V à >40% de manquants
▸Les agrégations comportementales au niveau carte (moy/écart-type TransactionAmt) constituent le groupe de caractéristiques à plus fort impact
▸La correspondance des domaines email (P vs R) améliore le rappel sur les transactions inter-domaines
▸Le méta-learner de stacking ne surpasse pas LightGBM seul — les modèles de base sont trop corrélés

Retour aux Projets Me Recruter