العودة إلى المدونة
Machine Learning 1 فبراير 2025 7 min للقراءة

اختلال توازن الفئات في الإنتاج: ما الذي يعمل فعلاً

بعد أكثر من 20 مشروع تصنيف غير متوازن، إليك ما يصنع الفرق فعلاً.

طيف اختلال التوازن

  • خفيف (1:10): أوزان الفئات كافية عادةً
  • متوسط (1:100): SMOTE + أوزان الفئات
  • شديد (1:1000+): التأطير ككشف للشذوذ، والتعلّم الحسّاس للتكلفة

ترتيب التقنيات (من خبرتي)

  1. ضبط العتبة — افعل ذلك دائماً. القيمة الافتراضية 0.5 نادراً ما تكون مثالية.
  2. أوزان الفئات — سهلة، دون تشويه البيانات، وتنجح في 90% من الحالات.
  3. SMOTE — يفيد على المجموعات الصغيرة. وقد يضر بالكبيرة.
  4. زيادة عينات الأقلية — بسيط وغالباً ما يُبخس قدره.
  5. تقليل عينات الأغلبية — يفقد المعلومات. استخدمه بحذر.

المقياس الصحيح

لا تستخدم الدقة (accuracy) أبداً على البيانات غير المتوازنة. استخدم:

  • درجة F1 / F2
  • PR-AUC (أفضل من ROC-AUC عند الاختلال الشديد)
  • مصفوفة تكلفة ملائمة للأعمال
Class ImbalanceSMOTEFraud DetectionClassificationMetrics
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب