Tous les Projets
Vision par Ordinateur

Reconnaissance des Émotions Faciales

Reconnaissance de 7 émotions sur RAF-DB (12 271 images). Ensemble ResNet50+ViT-Small+EfficientNetB3 atteint 86,57%. Apprentissage par transfert en 2 phases. GradCAM confirme la focalisation sur bouche/sourcils/yeux.

86.57%
Ensemble Accuracy
84.84%
ResNet50 Accuracy
84.03%
ViT-Small Accuracy
70.66%
HOG+SVM Baseline
Jeu de Données

RAF-DB : 15 339 images, 7 émotions, déséquilibre 17×

Approche

HOG+SVM → CNN personnalisés → TL en 2 phases → ensemble doux + GradCAM

Stack Technique
PythonPyTorchResNet50ViT-SmallEfficientNetB3GradCAM
Mots-clés
ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DBEmotionEnsemble
Visualisations6 Graphiques
Analyse Approfondie

Pipeline de reconnaissance des émotions faciales multi-modèles sur RAF-DB — un dataset réel difficile avec un déséquilibre de classe 17×.

Données (RAF-DB)

  • 12 271 entraînement + 3 068 test, 7 classes d'émotions
  • RGB 100×100 pré-aligné, normalisation ImageNet
  • Déséquilibre de classe 17× : Joie (4 772) vs Peur (281)
  • Gestion du déséquilibre : WeightedRandomSampler + label smoothing 0,1

Tous les modèles comparés

ModèlePrécision Val
HOG + SVM70,66%
SimpleCNN (2,78M params)71,64%
DeepCNN + ResBlocks75,10%
EfficientNetB373,21%
ViT-Small84,03%
ResNet5084,84%
Ensemble (top 3 TL)86,57%

Apprentissage par transfert en 2 phases

  1. Préchauffage (5–8 époques) : backbone gelé, entraîner uniquement la tête
  2. Fine-tuning (20 époques) : réseau complet, cosine annealing LR

Résultats GradCAM

  • Joie : coins de la bouche et joues
  • Colère : front intérieur et lèvres
  • Peur : yeux grands ouverts + sourcils levés
  • Dégoût : plissement du nez + lèvre supérieure
  • Erreurs de classification : Peur↔Tristesse (chute de sourcils similaire), Dégoût↔Colère (tension labiale similaire)