كل المشاريع
كشف الاحتيال⭐ مميز

كشف احتيال IEEE-CIS

خط أنابيب ML كامل على 590K معاملة، 433 ميزة. LightGBM AUC 0.9648 — مجموعة تكدس LGB+XGB+CatBoost+RF مع هندسة ميزات سلوكية متقدمة.

0.9648
LightGBM AUC
0.9565
Stacking AUC
0.8506
Baseline (LR)
459
Features (after FE)
مجموعة البيانات

590,540 معاملة، 433 ميزة، نسبة احتيال 3.5%

المنهجية

مجموعة تكدس مع التحقق المتقاطع StratifiedKFold وهندسة الميزات السلوكية

المكدس التقني
PythonLightGBMXGBoostCatBoostScikit-learnPandasNumPy
الكلمات المفتاحية
LightGBMXGBoostCatBoostStackingFeature EngineeringStratifiedKFold
المرئيات6 مخططات
التعمق

كشف احتيال بمستوى إنتاجي على أحد أصعب مجموعات البيانات الجدولية في كاغل — 590,540 معاملة، 433 ميزة، نسبة احتيال 3.5%.

مجموعة البيانات

  • 590,540 سجل معاملة مرتبط بـ 144,233 سجل هوية
  • 433 ميزة: V1–V339 (Vesta) + أعمدة البطاقة/البريد/الجهاز/M
  • نسبة الاحتيال: 3.5% — تستلزم CV طبقياً وضبط العتبة
  • 12 عموداً بأكثر من 90% قيم مفقودة → محذوفة

هندسة الميزات

المجموعةالميزات
الوقتساعة اليوم، يوم الأسبوع، دورات TransactionDT
سلوك البطاقةمتوسط/انحراف/عدد TransactionAmt لكل مجموعة
تطابق البريدP_emaildomain == R_emaildomain
أعمدة Mتجميعات T/F/مفقود عبر M1–M9
المبلغlog(TransactionAmt)، السنت، المبلغ المقرب

نتائج النماذج — 2-Fold Stratified CV

النموذجOOF AUC
Logistic Regression0.8506
Decision Tree0.8583
Random Forest0.9032
CatBoost0.9529
XGBoost0.9631
LightGBM0.9648
Weighted Blend0.9478
Stacking (LR meta)0.9565

رؤى رئيسية

  • معالجة LightGBM النيتفة للقيم المفقودة تمنحها أفضلية على XGBoost في أعمدة V بأكثر من 40% مفقودات
  • تجميعات السلوك على مستوى البطاقة (متوسط/انحراف TransactionAmt) هي الميزة الأكثر تأثيراً
  • تطابق نطاقات البريد الإلكتروني (P مقابل R) يحسّن الاسترجاع في المعاملات عبر النطاقات
  • المتعلم الفوقي في التكديس لا يتجاوز LightGBM وحده — النماذج الأساسية مترابطة جداً