كل المشاريع
رؤية الحاسوب
التعرف على المشاعر من الوجه
تعرف على 7 مشاعر على RAF-DB (12,271 صورة). مجموعة ResNet50+ViT-Small+EfficientNetB3 تحقق 86.57%. نقل تعلم بمرحلتين. GradCAM يؤكد التركيز على مناطق الفم والحاجب والعين لكل مشعر.
86.57%
Ensemble Accuracy
84.84%
ResNet50 Accuracy
84.03%
ViT-Small Accuracy
70.66%
HOG+SVM Baseline
مجموعة البيانات
RAF-DB: 15,339 صورة، 7 مشاعر، عدم توازن 17×
المنهجية
HOG+SVM → شبكات CNN مخصصة → نقل تعلم بمرحلتين → مجموعة ناعمة + GradCAM
المكدس التقني
PythonPyTorchResNet50ViT-SmallEfficientNetB3GradCAM
الكلمات المفتاحية
ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DBEmotionEnsemble
المرئيات6 مخططات
التعمق
خط أنابيب متعدد النماذج للتعرف على المشاعر على RAF-DB — مجموعة بيانات واقعية صعبة بعدم توازن فئوي 17×.
البيانات (RAF-DB)
- ◂12,271 تدريب + 3,068 اختبار، 7 فئات مشاعر
- ◂RGB 100×100 محاذى مسبقاً، تطبيع ImageNet
- ◂عدم توازن 17×: سعادة (4,772) مقابل خوف (281)
- ◂معالجة عدم التوازن: WeightedRandomSampler + label smoothing 0.1
مقارنة جميع النماذج
| النموذج | دقة التحقق |
|---|---|
| HOG + SVM | 70.66% |
| SimpleCNN | 71.64% |
| DeepCNN + ResBlocks | 75.10% |
| EfficientNetB3 | 73.21% |
| ViT-Small | 84.03% |
| ResNet50 | 84.84% |
| المجموعة (أفضل 3 TL) | 86.57% |
نقل التعلم بمرحلتين
- ◂إحماء (5-8 حقب): عمود فقري مجمّد، تدريب الرأس فقط
- ◂ضبط دقيق (20 حقبة): شبكة كاملة، cosine annealing LR
نتائج GradCAM
- ◂السعادة: زوايا الفم والخدين
- ◂الغضب: منطقة الحاجب الداخلي والشفتين
- ◂الخوف: فتح العيون واسعاً + رفع الحواجب
- ◂الاشمئزاز: تجعد الأنف + الشفة العليا
- ◂أخطاء التصنيف: الخوف↔الحزن (انخفاض الحاجب متشابه)، الاشمئزاز↔الغضب (شد الشفاه متشابه)