العودة إلى المدونة

Machine Learning 15 أبريل 2025 8 min للقراءة

تحقيق AUC 0.9648 على كشف الاحتيال IEEE-CIS مع LightGBM

دليل شامل لبناء مجموعة نماذج حققت AUC 0.9648 على مجموعة بيانات IEEE-CIS للكشف عن الاحتيال.

المشكلة

يقدّم تحدي IEEE-CIS Fraud Detection عدد 590,540 معاملة تدريب مع 433 ميزة ونسبة احتيال لا تتجاوز 3.5%.

أبرز هندسة الميزات

ميزات زمنية: ساعة اليوم، يوم الأسبوع، الانحراف الزمني
تجميعات البطاقة: المتوسط/الانحراف المعياري/العدد لـ TransactionAmt لكل card1/card2
ميزات نطاق البريد: علامة same_email_domain، ومعدلات الاحتيال حسب النطاق
عدّ القيم المنطقية لأعمدة M: T/F/مفقود عبر M1-M9

خط أنابيب النماذج

النموذج	OOF AUC
LightGBM	0.9648
XGBoost	0.9631
CatBoost	0.9529

رؤى رئيسية

لا تحذف أعمدة V — فهي تحمل إشارات الاحتيال الخاصة بشركة Vesta
التحقق المتقاطع الزمني أكثر واقعية من StratifiedKFold
التجميعات على مستوى البطاقة هي أكثر مجموعات الميزات تأثيراً
المعالجة الأصلية للقيم المفقودة في LightGBM تمنحه الأفضلية

LightGBMFraud DetectionFeature EngineeringKaggleStacking

O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب

نبذة عني →تواصل معي →