Détection et Segmentation de Déchets TACO
Benchmark de 5 modèles sur 1 500 images de déchets (4 784 annotations, 60 catégories). RT-DETR-L meilleur : mAP50=0,2778, Précision=0,4833. Perte Faster R-CNN converge de 0,76→0,11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.
TACO : 1 500 images, 4 784 annotations, 60 catégories
Benchmark 5 modèles : 3 variantes YOLO + transformeur RT-DETR + Faster R-CNN à région
Benchmark de détection et segmentation de déchets sur TACO — l'un des datasets de déchets réels les plus difficiles.
Jeu de données
- ▸1 500 images : 1 200 entraînement / 300 val
- ▸4 784 annotations de boîtes englobantes sur 60 catégories de déchets
- ▸Catégories : plastiques (bouteilles, sacs, emballages), métaux (canettes, feuilles), organiques, dangereux, verre, carton
- ▸Format COCO JSON
Comparaison des 5 Modèles
| Modèle | mAP50 | mAP50-95 | Précision | Rappel |
|---|---|---|---|---|
| YOLOv8n | 0,123 | 0,097 | 0,457 | 0,137 |
| YOLOv8s | 0,167 | 0,139 | 0,355 | 0,174 |
| YOLOv8l | 0,196 | 0,162 | 0,330 | 0,232 |
| RT-DETR-L | 0,278 | 0,233 | 0,483 | 0,313 |
| Faster R-CNN | (perte 0,11) | — | — | — |
Pourquoi un mAP Faible ? 60 classes × ~20 images/classe en moyenne. La variation intra-classe est extrême. L'attention transformer de RT-DETR gère mieux les formes irrégulières des déchets.
Entraînement Faster R-CNN SGD + StepLR, 15 époques : perte 0,7608 → 0,1141 (réduction 85%). Backbone ResNet50-FPN v2 pour les features multi-échelles.
Avantage RT-DETR-L Détecteur de bout en bout basé transformer — pas de boîtes d'ancrage, pas de NMS. Gère les objets se chevauchant et les formes irrégulières qui confondent l'approche YOLO.