العودة إلى المدونة
Machine Learning 5 مارس 2025 10 min للقراءة

دليل هندسة الميزات لمسابقات تعلم الآلة على البيانات الجدولية

15 تقنية لهندسة الميزات أستخدمها في كل مسابقة Kaggle على البيانات الجدولية.

التقنيات الـ15

1. ترميز الهدف (مع التنعيم)

smoothed = (count * category_mean + global_mean * smoothing) / (count + smoothing)

2. ترميز التكرار

استبدل القيمة الفئوية بتكرارها في مجموعة التدريب.

3. ميزات الإزاحة (lag)

للسلاسل الزمنية: قيم lag-1 وlag-7 وlag-30 للهدف.

4. الإحصاءات المتحركة

المتوسط والانحراف المعياري والحد الأدنى والأقصى عبر نوافذ متحركة.

5. حدود التفاعل

اضرب أو اقسم ميزتين رقميتين لهما معنى في المجال.

6. مكوّنات التاريخ

استخرج السنة والشهر واليوم والساعة ويوم الأسبوع والربع وis_weekend.

7. ميزات الرتبة

الترتيب داخل المجموعة — مفيد لتطبيع المقياس.

8. ميزات التجميع

جمّع حسب الكيان (مستخدم، بطاقة، متجر) واحسب الإحصاءات.

9-15. المزيد في المقال الكامل...

Feature EngineeringTabular DataKaggleTarget EncodingCompetition
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب