رؤية الحاسوب

كشف وتجزئة النفايات TACO

معيار 5 نماذج على 1,500 صورة نفايات (4,784 تعليق، 60 فئة). RT-DETR-L الأفضل: mAP50=0.2778، Precision=0.4833. خسارة Faster R-CNN تتقارب من 0.76→0.11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.

عرض على كاغل

0.2778

RT-DETR-L mAP50

0.4833

RT-DETR-L Precision

0.196

YOLOv8l mAP50

0.76 → 0.11

Faster R-CNN loss

مجموعة البيانات

TACO: 1,500 صورة، 4,784 تعليق، 60 فئة

المنهجية

معيار 5 نماذج: 3 متغيرات YOLO + محول RT-DETR + Faster R-CNN المبني على المناطق

المكدس التقني

PythonYOLOv8 (Ultralytics)RT-DETRFaster R-CNNResNet50-FPN

الكلمات المفتاحية

RT-DETRYOLOv8Faster R-CNNTACOEnvironmental AI60-class

المرئيات6 مخططات

التعمق

معيار كشف وتجزئة النفايات على TACO — أحد أصعب مجموعات بيانات النفايات الواقعية.

مجموعة البيانات

◂1,500 صورة: 1,200 تدريب / 300 تحقق
◂4,784 تعليق صندوق إحاطة عبر 60 فئة نفايات
◂الفئات: بلاستيك (زجاجات، أكياس، أغلفة)، معادن (علب، ورق قصدير)، عضوية، خطرة، زجاج، كرتون
◂تنسيق COCO JSON

مقارنة النماذج الـ 5

النموذج	mAP50	mAP50-95	الدقة	الاسترجاع
YOLOv8n	0.123	0.097	0.457	0.137
YOLOv8s	0.167	0.139	0.355	0.174
YOLOv8l	0.196	0.162	0.330	0.232
RT-DETR-L	0.278	0.233	0.483	0.313
Faster R-CNN	(خسارة 0.11)	—	—	—

لماذا mAP منخفض؟ 60 فئة × ~20 صورة/فئة في المتوسط. التباين داخل الفئة شديد. انتباه المحول في RT-DETR يتعامل بشكل أفضل مع أشكال النفايات غير المنتظمة.

تدريب Faster R-CNN SGD + StepLR، 15 حقبة: خسارة 0.7608 → 0.1141 (تخفيض 85%). نواة ResNet50-FPN v2 للميزات متعددة المقاييس.

ميزة RT-DETR-L كاشف من النهاية إلى النهاية قائم على المحول — لا صناديق إرساء، لا NMS. يتعامل مع الأجسام المتداخلة والأشكال غير المنتظمة التي تربك نهج YOLO.

العودة إلى المشاريع توظيفي