العودة إلى المدونة
Machine Learning 15 أبريل 2025 8 min للقراءة

تحقيق AUC 0.9648 على كشف الاحتيال IEEE-CIS مع LightGBM

دليل شامل لبناء مجموعة نماذج حققت AUC 0.9648 على مجموعة بيانات IEEE-CIS للكشف عن الاحتيال.

المشكلة

يقدّم تحدي IEEE-CIS Fraud Detection عدد 590,540 معاملة تدريب مع 433 ميزة ونسبة احتيال لا تتجاوز 3.5%.

أبرز هندسة الميزات

  • ميزات زمنية: ساعة اليوم، يوم الأسبوع، الانحراف الزمني
  • تجميعات البطاقة: المتوسط/الانحراف المعياري/العدد لـ TransactionAmt لكل card1/card2
  • ميزات نطاق البريد: علامة same_email_domain، ومعدلات الاحتيال حسب النطاق
  • عدّ القيم المنطقية لأعمدة M: T/F/مفقود عبر M1-M9

خط أنابيب النماذج

النموذجOOF AUC
LightGBM0.9648
XGBoost0.9631
CatBoost0.9529

رؤى رئيسية

  1. لا تحذف أعمدة V — فهي تحمل إشارات الاحتيال الخاصة بشركة Vesta
  2. التحقق المتقاطع الزمني أكثر واقعية من StratifiedKFold
  3. التجميعات على مستوى البطاقة هي أكثر مجموعات الميزات تأثيراً
  4. المعالجة الأصلية للقيم المفقودة في LightGBM تمنحه الأفضلية
LightGBMFraud DetectionFeature EngineeringKaggleStacking
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب