Retour au Blog
Machine Learning 1 février 2025 7 min de lecture

Déséquilibre de classes en production : ce qui fonctionne vraiment

Après 20+ projets de classification déséquilibrée, voici ce qui fait vraiment la différence.

Le spectre du déséquilibre

  • Léger (1:10) : les poids de classe suffisent généralement
  • Modéré (1:100) : SMOTE + poids de classe
  • Sévère (1:1000+) : cadrage en détection d'anomalies, apprentissage sensible au coût

Classement des techniques (d'après mon expérience)

  1. Ajustement du seuil — À faire systématiquement. 0,5 par défaut n'est presque jamais optimal.
  2. Poids de classe — Simple, sans distorsion des données, fonctionne 90 % du temps.
  3. SMOTE — Utile sur les petits jeux de données. Peut nuire sur les grands.
  4. Suréchantillonnage de la minorité — Simple, souvent sous-estimé.
  5. Sous-échantillonnage de la majorité — Perte d'information. À utiliser avec prudence.

La bonne métrique

N'utilisez jamais l'accuracy sur des données déséquilibrées. Utilisez :

  • Score F1 / F2
  • PR-AUC (meilleure que ROC-AUC en cas de fort déséquilibre)
  • Matrice de coûts pertinente pour le métier
Class ImbalanceSMOTEFraud DetectionClassificationMetrics
O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc