كشف وتجزئة النفايات TACO
معيار 5 نماذج على 1,500 صورة نفايات (4,784 تعليق، 60 فئة). RT-DETR-L الأفضل: mAP50=0.2778، Precision=0.4833. خسارة Faster R-CNN تتقارب من 0.76→0.11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.
TACO: 1,500 صورة، 4,784 تعليق، 60 فئة
معيار 5 نماذج: 3 متغيرات YOLO + محول RT-DETR + Faster R-CNN المبني على المناطق
معيار كشف وتجزئة النفايات على TACO — أحد أصعب مجموعات بيانات النفايات الواقعية.
مجموعة البيانات
- ◂1,500 صورة: 1,200 تدريب / 300 تحقق
- ◂4,784 تعليق صندوق إحاطة عبر 60 فئة نفايات
- ◂الفئات: بلاستيك (زجاجات، أكياس، أغلفة)، معادن (علب، ورق قصدير)، عضوية، خطرة، زجاج، كرتون
- ◂تنسيق COCO JSON
مقارنة النماذج الـ 5
| النموذج | mAP50 | mAP50-95 | الدقة | الاسترجاع |
|---|---|---|---|---|
| YOLOv8n | 0.123 | 0.097 | 0.457 | 0.137 |
| YOLOv8s | 0.167 | 0.139 | 0.355 | 0.174 |
| YOLOv8l | 0.196 | 0.162 | 0.330 | 0.232 |
| RT-DETR-L | 0.278 | 0.233 | 0.483 | 0.313 |
| Faster R-CNN | (خسارة 0.11) | — | — | — |
لماذا mAP منخفض؟ 60 فئة × ~20 صورة/فئة في المتوسط. التباين داخل الفئة شديد. انتباه المحول في RT-DETR يتعامل بشكل أفضل مع أشكال النفايات غير المنتظمة.
تدريب Faster R-CNN SGD + StepLR، 15 حقبة: خسارة 0.7608 → 0.1141 (تخفيض 85%). نواة ResNet50-FPN v2 للميزات متعددة المقاييس.
ميزة RT-DETR-L كاشف من النهاية إلى النهاية قائم على المحول — لا صناديق إرساء، لا NMS. يتعامل مع الأجسام المتداخلة والأشكال غير المنتظمة التي تربك نهج YOLO.