Machine Learning 1 février 2025 7 min de lecture

Déséquilibre de classes en production : ce qui fonctionne vraiment

Après 20+ projets de classification déséquilibrée, voici ce qui fait vraiment la différence.

Le spectre du déséquilibre

Léger (1:10) : les poids de classe suffisent généralement
Modéré (1:100) : SMOTE + poids de classe
Sévère (1:1000+) : cadrage en détection d'anomalies, apprentissage sensible au coût

Classement des techniques (d'après mon expérience)

Ajustement du seuil — À faire systématiquement. 0,5 par défaut n'est presque jamais optimal.
Poids de classe — Simple, sans distorsion des données, fonctionne 90 % du temps.
SMOTE — Utile sur les petits jeux de données. Peut nuire sur les grands.
Suréchantillonnage de la minorité — Simple, souvent sous-estimé.
Sous-échantillonnage de la majorité — Perte d'information. À utiliser avec prudence.

La bonne métrique

N'utilisez jamais l'accuracy sur des données déséquilibrées. Utilisez :

Score F1 / F2
PR-AUC (meilleure que ROC-AUC en cas de fort déséquilibre)
Matrice de coûts pertinente pour le métier

Class ImbalanceSMOTEFraud DetectionClassificationMetrics

O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc

À propos →Contact →