Détection de Fraude

Fraude aux Réclamations d'Assurance Véhicule

Pipeline de fraude de 16 modèles pour 15 420 réclamations (5,99% de fraude). AdaBoost maximise le rappel (89,2%). XGBoost RandomizedSearchCV : CV AUC 0,9847. SHAP : Fault (37,9%) est le principal indicateur de fraude.

Voir sur Kaggle

0.9847

XGBoost CV AUC

89.2%

AdaBoost Recall

0.819

Voting Ensemble AUC

Fault (37.9%)

Top SHAP feature

Jeu de Données

15 420 réclamations d'assurance, 33 caractéristiques, 5,99% de fraude

Approche

SMOTE → benchmark de 16 modèles → HPO RandomizedSearchCV → analyse SHAP

Stack Technique

PythonXGBoostLightGBMCatBoostSMOTESHAPScikit-learn

Mots-clés

XGBoostSMOTESHAPInsuranceRandomizedSearchCVAdaBoost

Visualisations6 Graphiques

Analyse Approfondie

Pipeline complet de détection de fraude pour l'assurance véhicule avec déséquilibre de classe sévère (5,99% de fraude).

Données

▸15 420 sinistres : 14 497 légitimes + 923 fraudes (5,99%)
▸33 caractéristiques : détails du véhicule, zone d'accident, type de police, franchise, rapport de police
▸Caractéristiques construites : Claim_Delay, Policy_Claim_Gap, VehicleAge_Price_Ratio

Stratégie d'équilibrage

▸Surééchantillonnage SMOTE sur l'ensemble d'entraînement (6% → 50% fraude)
▸class_weight='balanced' pour tous les estimateurs
▸Évaluation : Rappel et Précision Moyenne (pas la précision — trompeuse à 6%)

Classement 16 modèles (par rappel)

Modèle	AUC	Rappel	Précision
Naive Bayes	0,62	0,789	Faible
AdaBoost	0,780	0,892	Meilleur rappel
Random Forest	0,796	0,662	—
XGBoost	0,814	0,638	—
Voting (XGB+LGB+CB)	0,819	0,641	Meilleur AUC

RandomizedSearchCV — XGBoost (40 itérations, 5-fold)

▸CV AUC : 0,9847
▸Meilleur : subsample=0,7, max_depth=7, n_estimators=500

Importance des features SHAP

Caractéristique	Contribution
Fault	37,9%
Deductible	12,9%
BasePolicy	12,2%
VehicleCategory	8,1%

Stabilité 5-Fold CV RF: 0,8619 ± 0,0010 | XGB: 0,8529 ± 0,0023 | LGB: 0,8505 ± 0,0016

Retour aux Projets Me Recruter