كل المشاريع
كشف الاحتيال⭐ مميز
كشف احتيال IEEE-CIS
خط أنابيب ML كامل على 590K معاملة، 433 ميزة. LightGBM AUC 0.9648 — مجموعة تكدس LGB+XGB+CatBoost+RF مع هندسة ميزات سلوكية متقدمة.
0.9648
LightGBM AUC
0.9565
Stacking AUC
0.8506
Baseline (LR)
459
Features (after FE)
مجموعة البيانات
590,540 معاملة، 433 ميزة، نسبة احتيال 3.5%
المنهجية
مجموعة تكدس مع التحقق المتقاطع StratifiedKFold وهندسة الميزات السلوكية
المكدس التقني
PythonLightGBMXGBoostCatBoostScikit-learnPandasNumPy
الكلمات المفتاحية
LightGBMXGBoostCatBoostStackingFeature EngineeringStratifiedKFold
المرئيات6 مخططات
التعمق
كشف احتيال بمستوى إنتاجي على أحد أصعب مجموعات البيانات الجدولية في كاغل — 590,540 معاملة، 433 ميزة، نسبة احتيال 3.5%.
مجموعة البيانات
- ◂590,540 سجل معاملة مرتبط بـ 144,233 سجل هوية
- ◂433 ميزة: V1–V339 (Vesta) + أعمدة البطاقة/البريد/الجهاز/M
- ◂نسبة الاحتيال: 3.5% — تستلزم CV طبقياً وضبط العتبة
- ◂12 عموداً بأكثر من 90% قيم مفقودة → محذوفة
هندسة الميزات
| المجموعة | الميزات |
|---|---|
| الوقت | ساعة اليوم، يوم الأسبوع، دورات TransactionDT |
| سلوك البطاقة | متوسط/انحراف/عدد TransactionAmt لكل مجموعة |
| تطابق البريد | P_emaildomain == R_emaildomain |
| أعمدة M | تجميعات T/F/مفقود عبر M1–M9 |
| المبلغ | log(TransactionAmt)، السنت، المبلغ المقرب |
نتائج النماذج — 2-Fold Stratified CV
| النموذج | OOF AUC |
|---|---|
| Logistic Regression | 0.8506 |
| Decision Tree | 0.8583 |
| Random Forest | 0.9032 |
| CatBoost | 0.9529 |
| XGBoost | 0.9631 |
| LightGBM | 0.9648 |
| Weighted Blend | 0.9478 |
| Stacking (LR meta) | 0.9565 |
رؤى رئيسية
- ◂معالجة LightGBM النيتفة للقيم المفقودة تمنحها أفضلية على XGBoost في أعمدة V بأكثر من 40% مفقودات
- ◂تجميعات السلوك على مستوى البطاقة (متوسط/انحراف TransactionAmt) هي الميزة الأكثر تأثيراً
- ◂تطابق نطاقات البريد الإلكتروني (P مقابل R) يحسّن الاسترجاع في المعاملات عبر النطاقات
- ◂المتعلم الفوقي في التكديس لا يتجاوز LightGBM وحده — النماذج الأساسية مترابطة جداً