باختصار
- استخدم LightGBM عندما تكون السرعة هي الأهم ومجموعة البيانات كبيرة (>100K صف)
- استخدم XGBoost عندما تحتاج إلى قابلية إعادة الإنتاج واستقرار مُجرَّب
- استخدم CatBoost عندما يكون لديك العديد من المتغيرات الفئوية عالية التعددية
قياس سرعة التدريب
على 500K صف، 200 ميزة، 1000 شجرة:
| النموذج | الزمن | الذاكرة |
|---|---|---|
| LightGBM | 45s | 2.1GB |
| XGBoost | 210s | 4.8GB |
| CatBoost | 130s | 3.2GB |
متى يتفوق XGBoost
- إيجاد التقسيمات الدقيق على مجموعات البيانات الصغيرة
- أفضل مع البيانات المتفرقة (ميزات النص كـ TF-IDF)
- أكثر استقراراً عبر البذور العشوائية
متى يتفوق LightGBM
- مجموعات البيانات الكبيرة (النمو leaf-wise أسرع)
- المعالجة الأصلية للمتغيرات الفئوية
- DART لتنظيم أفضل