En bref
- Utilisez LightGBM quand la vitesse prime et que le jeu de données est grand (>100K lignes)
- Utilisez XGBoost quand vous avez besoin de reproductibilité et d'une stabilité éprouvée
- Utilisez CatBoost quand vous avez de nombreuses variables catégorielles à forte cardinalité
Benchmark de vitesse d'entraînement
Sur 500K lignes, 200 caractéristiques, 1000 arbres :
| Modèle | Temps | RAM |
|---|---|---|
| LightGBM | 45s | 2.1GB |
| XGBoost | 210s | 4.8GB |
| CatBoost | 130s | 3.2GB |
Quand XGBoost l'emporte
- Recherche exacte des splits sur petits jeux de données
- Meilleur avec des données creuses (caractéristiques texte en TF-IDF)
- Plus stable d'une graine aléatoire à l'autre
Quand LightGBM l'emporte
- Grands jeux de données (la croissance leaf-wise est plus rapide)
- Gestion native des variables catégorielles
- DART pour une meilleure régularisation