كل المشاريع
كشف الاحتيال
احتيال مطالبات تأمين السيارات
خط أنابيب احتيال بـ 16 نموذجاً لـ 15,420 مطالبة (5.99% احتيال). AdaBoost يعظم الاسترجاع (89.2%). XGBoost RandomizedSearchCV: CV AUC 0.9847. SHAP: الخطأ (37.9%) هو المؤشر الرئيسي للاحتيال.
0.9847
XGBoost CV AUC
89.2%
AdaBoost Recall
0.819
Voting Ensemble AUC
Fault (37.9%)
Top SHAP feature
مجموعة البيانات
15,420 مطالبة تأمينية، 33 ميزة، 5.99% احتيال
المنهجية
SMOTE → معيار 16 نموذجاً → HPO RandomizedSearchCV → تحليل SHAP
المكدس التقني
PythonXGBoostLightGBMCatBoostSMOTESHAPScikit-learn
الكلمات المفتاحية
XGBoostSMOTESHAPInsuranceRandomizedSearchCVAdaBoost
المرئيات6 مخططات
التعمق
خط أنابيب كامل للكشف عن احتيال تأمين السيارات مع عدم توازن شديد في الفئات (5.99% احتيال).
مجموعة البيانات
- ◂15,420 مطالبة: 14,497 شرعية + 923 احتيال (5.99%)
- ◂33 ميزة: تفاصيل السيارة، منطقة الحادث، نوع البوليصة، الخصم
- ◂ميزات مهندسة: Claim_Delay، Policy_Claim_Gap، VehicleAge_Price_Ratio
استراتيجية التوازن
- ◂فرط العينات بـ SMOTE (6% → 50% احتيال)
- ◂class_weight='balanced' لجميع المقدِّرات
- ◂التقييم: الاسترجاع والدقة المتوسطة (لا الدقة — مضللة عند 6%)
ترتيب 16 نموذجاً (حسب الاسترجاع)
| النموذج | AUC | الاسترجاع |
|---|---|---|
| Naive Bayes | 0.62 | 0.789 |
| AdaBoost | 0.780 | 0.892 |
| Random Forest | 0.796 | 0.662 |
| XGBoost | 0.814 | 0.638 |
| Voting (XGB+LGB+CB) | 0.819 | 0.641 |
RandomizedSearchCV — XGBoost (40 تكرار، 5-fold)
- ◂CV AUC: 0.9847
- ◂الأفضل: subsample=0.7، max_depth=7، n_estimators=500
أهمية الميزات SHAP
| الميزة | المساهمة |
|---|---|
| Fault | 37.9% |
| Deductible | 12.9% |
| BasePolicy | 12.2% |
| VehicleCategory | 8.1% |
استقرار 5-Fold CV RF: 0.8619 ± 0.0010 | XGB: 0.8529 ± 0.0023 | LGB: 0.8505 ± 0.0016