رؤية الحاسوب

التعرف على المشاعر من الوجه

تعرف على 7 مشاعر على RAF-DB (12,271 صورة). مجموعة ResNet50+ViT-Small+EfficientNetB3 تحقق 86.57%. نقل تعلم بمرحلتين. GradCAM يؤكد التركيز على مناطق الفم والحاجب والعين لكل مشعر.

عرض على كاغل

86.57%

Ensemble Accuracy

84.84%

ResNet50 Accuracy

84.03%

ViT-Small Accuracy

70.66%

HOG+SVM Baseline

مجموعة البيانات

RAF-DB: 15,339 صورة، 7 مشاعر، عدم توازن 17×

المنهجية

HOG+SVM → شبكات CNN مخصصة → نقل تعلم بمرحلتين → مجموعة ناعمة + GradCAM

المكدس التقني

PythonPyTorchResNet50ViT-SmallEfficientNetB3GradCAM

الكلمات المفتاحية

ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DBEmotionEnsemble

المرئيات6 مخططات

التعمق

خط أنابيب متعدد النماذج للتعرف على المشاعر على RAF-DB — مجموعة بيانات واقعية صعبة بعدم توازن فئوي 17×.

البيانات (RAF-DB)

◂12,271 تدريب + 3,068 اختبار، 7 فئات مشاعر
◂RGB 100×100 محاذى مسبقاً، تطبيع ImageNet
◂عدم توازن 17×: سعادة (4,772) مقابل خوف (281)
◂معالجة عدم التوازن: WeightedRandomSampler + label smoothing 0.1

مقارنة جميع النماذج

النموذج	دقة التحقق
HOG + SVM	70.66%
SimpleCNN	71.64%
DeepCNN + ResBlocks	75.10%
EfficientNetB3	73.21%
ViT-Small	84.03%
ResNet50	84.84%
المجموعة (أفضل 3 TL)	86.57%

نقل التعلم بمرحلتين

◂إحماء (5-8 حقب): عمود فقري مجمّد، تدريب الرأس فقط
◂ضبط دقيق (20 حقبة): شبكة كاملة، cosine annealing LR

نتائج GradCAM

◂السعادة: زوايا الفم والخدين
◂الغضب: منطقة الحاجب الداخلي والشفتين
◂الخوف: فتح العيون واسعاً + رفع الحواجب
◂الاشمئزاز: تجعد الأنف + الشفة العليا
◂أخطاء التصنيف: الخوف↔الحزن (انخفاض الحاجب متشابه)، الاشمئزاز↔الغضب (شد الشفاه متشابه)

العودة إلى المشاريع توظيفي