Tous les Projets
Vision par Ordinateur
Reconnaissance des Émotions Faciales
Reconnaissance de 7 émotions sur RAF-DB (12 271 images). Ensemble ResNet50+ViT-Small+EfficientNetB3 atteint 86,57%. Apprentissage par transfert en 2 phases. GradCAM confirme la focalisation sur bouche/sourcils/yeux.
86.57%
Ensemble Accuracy
84.84%
ResNet50 Accuracy
84.03%
ViT-Small Accuracy
70.66%
HOG+SVM Baseline
Jeu de Données
RAF-DB : 15 339 images, 7 émotions, déséquilibre 17×
Approche
HOG+SVM → CNN personnalisés → TL en 2 phases → ensemble doux + GradCAM
Stack Technique
PythonPyTorchResNet50ViT-SmallEfficientNetB3GradCAM
Mots-clés
ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DBEmotionEnsemble
Visualisations6 Graphiques
Analyse Approfondie
Pipeline de reconnaissance des émotions faciales multi-modèles sur RAF-DB — un dataset réel difficile avec un déséquilibre de classe 17×.
Données (RAF-DB)
- ▸12 271 entraînement + 3 068 test, 7 classes d'émotions
- ▸RGB 100×100 pré-aligné, normalisation ImageNet
- ▸Déséquilibre de classe 17× : Joie (4 772) vs Peur (281)
- ▸Gestion du déséquilibre : WeightedRandomSampler + label smoothing 0,1
Tous les modèles comparés
| Modèle | Précision Val |
|---|---|
| HOG + SVM | 70,66% |
| SimpleCNN (2,78M params) | 71,64% |
| DeepCNN + ResBlocks | 75,10% |
| EfficientNetB3 | 73,21% |
| ViT-Small | 84,03% |
| ResNet50 | 84,84% |
| Ensemble (top 3 TL) | 86,57% |
Apprentissage par transfert en 2 phases
- ▸Préchauffage (5–8 époques) : backbone gelé, entraîner uniquement la tête
- ▸Fine-tuning (20 époques) : réseau complet, cosine annealing LR
Résultats GradCAM
- ▸Joie : coins de la bouche et joues
- ▸Colère : front intérieur et lèvres
- ▸Peur : yeux grands ouverts + sourcils levés
- ▸Dégoût : plissement du nez + lèvre supérieure
- ▸Erreurs de classification : Peur↔Tristesse (chute de sourcils similaire), Dégoût↔Colère (tension labiale similaire)