Vision par Ordinateur

Détection et Segmentation de Déchets TACO

Benchmark de 5 modèles sur 1 500 images de déchets (4 784 annotations, 60 catégories). RT-DETR-L meilleur : mAP50=0,2778, Précision=0,4833. Perte Faster R-CNN converge de 0,76→0,11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.

Voir sur Kaggle

0.2778

RT-DETR-L mAP50

0.4833

RT-DETR-L Precision

0.196

YOLOv8l mAP50

0.76 → 0.11

Faster R-CNN loss

Jeu de Données

TACO : 1 500 images, 4 784 annotations, 60 catégories

Approche

Benchmark 5 modèles : 3 variantes YOLO + transformeur RT-DETR + Faster R-CNN à région

Stack Technique

PythonYOLOv8 (Ultralytics)RT-DETRFaster R-CNNResNet50-FPN

Mots-clés

RT-DETRYOLOv8Faster R-CNNTACOEnvironmental AI60-class

Visualisations6 Graphiques

Analyse Approfondie

Benchmark de détection et segmentation de déchets sur TACO — l'un des datasets de déchets réels les plus difficiles.

Jeu de données

▸1 500 images : 1 200 entraînement / 300 val
▸4 784 annotations de boîtes englobantes sur 60 catégories de déchets
▸Catégories : plastiques (bouteilles, sacs, emballages), métaux (canettes, feuilles), organiques, dangereux, verre, carton
▸Format COCO JSON

Comparaison des 5 Modèles

Modèle	mAP50	mAP50-95	Précision	Rappel
YOLOv8n	0,123	0,097	0,457	0,137
YOLOv8s	0,167	0,139	0,355	0,174
YOLOv8l	0,196	0,162	0,330	0,232
RT-DETR-L	0,278	0,233	0,483	0,313
Faster R-CNN	(perte 0,11)	—	—	—

Pourquoi un mAP Faible ? 60 classes × ~20 images/classe en moyenne. La variation intra-classe est extrême. L'attention transformer de RT-DETR gère mieux les formes irrégulières des déchets.

Entraînement Faster R-CNN SGD + StepLR, 15 époques : perte 0,7608 → 0,1141 (réduction 85%). Backbone ResNet50-FPN v2 pour les features multi-échelles.

Avantage RT-DETR-L Détecteur de bout en bout basé transformer — pas de boîtes d'ancrage, pas de NMS. Gère les objets se chevauchant et les formes irrégulières qui confondent l'approche YOLO.

Retour aux Projets Me Recruter