كل المشاريع
رؤية الحاسوب

التعرف على المشاعر من الوجه

تعرف على 7 مشاعر على RAF-DB (12,271 صورة). مجموعة ResNet50+ViT-Small+EfficientNetB3 تحقق 86.57%. نقل تعلم بمرحلتين. GradCAM يؤكد التركيز على مناطق الفم والحاجب والعين لكل مشعر.

86.57%
Ensemble Accuracy
84.84%
ResNet50 Accuracy
84.03%
ViT-Small Accuracy
70.66%
HOG+SVM Baseline
مجموعة البيانات

RAF-DB: 15,339 صورة، 7 مشاعر، عدم توازن 17×

المنهجية

HOG+SVM → شبكات CNN مخصصة → نقل تعلم بمرحلتين → مجموعة ناعمة + GradCAM

المكدس التقني
PythonPyTorchResNet50ViT-SmallEfficientNetB3GradCAM
الكلمات المفتاحية
ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DBEmotionEnsemble
المرئيات6 مخططات
التعمق

خط أنابيب متعدد النماذج للتعرف على المشاعر على RAF-DB — مجموعة بيانات واقعية صعبة بعدم توازن فئوي 17×.

البيانات (RAF-DB)

  • 12,271 تدريب + 3,068 اختبار، 7 فئات مشاعر
  • RGB 100×100 محاذى مسبقاً، تطبيع ImageNet
  • عدم توازن 17×: سعادة (4,772) مقابل خوف (281)
  • معالجة عدم التوازن: WeightedRandomSampler + label smoothing 0.1

مقارنة جميع النماذج

النموذجدقة التحقق
HOG + SVM70.66%
SimpleCNN71.64%
DeepCNN + ResBlocks75.10%
EfficientNetB373.21%
ViT-Small84.03%
ResNet5084.84%
المجموعة (أفضل 3 TL)86.57%

نقل التعلم بمرحلتين

  1. إحماء (5-8 حقب): عمود فقري مجمّد، تدريب الرأس فقط
  2. ضبط دقيق (20 حقبة): شبكة كاملة، cosine annealing LR

نتائج GradCAM

  • السعادة: زوايا الفم والخدين
  • الغضب: منطقة الحاجب الداخلي والشفتين
  • الخوف: فتح العيون واسعاً + رفع الحواجب
  • الاشمئزاز: تجعد الأنف + الشفة العليا
  • أخطاء التصنيف: الخوف↔الحزن (انخفاض الحاجب متشابه)، الاشمئزاز↔الغضب (شد الشفاه متشابه)