المشكلة
يقدّم تحدي IEEE-CIS Fraud Detection عدد 590,540 معاملة تدريب مع 433 ميزة ونسبة احتيال لا تتجاوز 3.5%.
أبرز هندسة الميزات
- ميزات زمنية: ساعة اليوم، يوم الأسبوع، الانحراف الزمني
- تجميعات البطاقة: المتوسط/الانحراف المعياري/العدد لـ TransactionAmt لكل card1/card2
- ميزات نطاق البريد: علامة same_email_domain، ومعدلات الاحتيال حسب النطاق
- عدّ القيم المنطقية لأعمدة M: T/F/مفقود عبر M1-M9
خط أنابيب النماذج
| النموذج | OOF AUC |
|---|---|
| LightGBM | 0.9648 |
| XGBoost | 0.9631 |
| CatBoost | 0.9529 |
رؤى رئيسية
- لا تحذف أعمدة V — فهي تحمل إشارات الاحتيال الخاصة بشركة Vesta
- التحقق المتقاطع الزمني أكثر واقعية من StratifiedKFold
- التجميعات على مستوى البطاقة هي أكثر مجموعات الميزات تأثيراً
- المعالجة الأصلية للقيم المفقودة في LightGBM تمنحه الأفضلية