Tous les Projets
Détection de Fraude

Fraude aux Réclamations d'Assurance Véhicule

Pipeline de fraude de 16 modèles pour 15 420 réclamations (5,99% de fraude). AdaBoost maximise le rappel (89,2%). XGBoost RandomizedSearchCV : CV AUC 0,9847. SHAP : Fault (37,9%) est le principal indicateur de fraude.

0.9847
XGBoost CV AUC
89.2%
AdaBoost Recall
0.819
Voting Ensemble AUC
Fault (37.9%)
Top SHAP feature
Jeu de Données

15 420 réclamations d'assurance, 33 caractéristiques, 5,99% de fraude

Approche

SMOTE → benchmark de 16 modèles → HPO RandomizedSearchCV → analyse SHAP

Stack Technique
PythonXGBoostLightGBMCatBoostSMOTESHAPScikit-learn
Mots-clés
XGBoostSMOTESHAPInsuranceRandomizedSearchCVAdaBoost
Visualisations6 Graphiques
Analyse Approfondie

Pipeline complet de détection de fraude pour l'assurance véhicule avec déséquilibre de classe sévère (5,99% de fraude).

Données

  • 15 420 sinistres : 14 497 légitimes + 923 fraudes (5,99%)
  • 33 caractéristiques : détails du véhicule, zone d'accident, type de police, franchise, rapport de police
  • Caractéristiques construites : Claim_Delay, Policy_Claim_Gap, VehicleAge_Price_Ratio

Stratégie d'équilibrage

  • Surééchantillonnage SMOTE sur l'ensemble d'entraînement (6% → 50% fraude)
  • class_weight='balanced' pour tous les estimateurs
  • Évaluation : Rappel et Précision Moyenne (pas la précision — trompeuse à 6%)

Classement 16 modèles (par rappel)

ModèleAUCRappelPrécision
Naive Bayes0,620,789Faible
AdaBoost0,7800,892Meilleur rappel
Random Forest0,7960,662
XGBoost0,8140,638
Voting (XGB+LGB+CB)0,8190,641Meilleur AUC

RandomizedSearchCV — XGBoost (40 itérations, 5-fold)

  • CV AUC : 0,9847
  • Meilleur : subsample=0,7, max_depth=7, n_estimators=500

Importance des features SHAP

CaractéristiqueContribution
Fault37,9%
Deductible12,9%
BasePolicy12,2%
VehicleCategory8,1%

Stabilité 5-Fold CV RF: 0,8619 ± 0,0010 | XGB: 0,8529 ± 0,0023 | LGB: 0,8505 ± 0,0016