Le spectre du déséquilibre
- Léger (1:10) : les poids de classe suffisent généralement
- Modéré (1:100) : SMOTE + poids de classe
- Sévère (1:1000+) : cadrage en détection d'anomalies, apprentissage sensible au coût
Classement des techniques (d'après mon expérience)
- Ajustement du seuil — À faire systématiquement. 0,5 par défaut n'est presque jamais optimal.
- Poids de classe — Simple, sans distorsion des données, fonctionne 90 % du temps.
- SMOTE — Utile sur les petits jeux de données. Peut nuire sur les grands.
- Suréchantillonnage de la minorité — Simple, souvent sous-estimé.
- Sous-échantillonnage de la majorité — Perte d'information. À utiliser avec prudence.
La bonne métrique
N'utilisez jamais l'accuracy sur des données déséquilibrées. Utilisez :
- Score F1 / F2
- PR-AUC (meilleure que ROC-AUC en cas de fort déséquilibre)
- Matrice de coûts pertinente pour le métier