Tous les Projets
Vision par Ordinateur

Détection et Segmentation de Déchets TACO

Benchmark de 5 modèles sur 1 500 images de déchets (4 784 annotations, 60 catégories). RT-DETR-L meilleur : mAP50=0,2778, Précision=0,4833. Perte Faster R-CNN converge de 0,76→0,11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.

0.2778
RT-DETR-L mAP50
0.4833
RT-DETR-L Precision
0.196
YOLOv8l mAP50
0.76 → 0.11
Faster R-CNN loss
Jeu de Données

TACO : 1 500 images, 4 784 annotations, 60 catégories

Approche

Benchmark 5 modèles : 3 variantes YOLO + transformeur RT-DETR + Faster R-CNN à région

Stack Technique
PythonYOLOv8 (Ultralytics)RT-DETRFaster R-CNNResNet50-FPN
Mots-clés
RT-DETRYOLOv8Faster R-CNNTACOEnvironmental AI60-class
Visualisations6 Graphiques
Analyse Approfondie

Benchmark de détection et segmentation de déchets sur TACO — l'un des datasets de déchets réels les plus difficiles.

Jeu de données

  • 1 500 images : 1 200 entraînement / 300 val
  • 4 784 annotations de boîtes englobantes sur 60 catégories de déchets
  • Catégories : plastiques (bouteilles, sacs, emballages), métaux (canettes, feuilles), organiques, dangereux, verre, carton
  • Format COCO JSON

Comparaison des 5 Modèles

ModèlemAP50mAP50-95PrécisionRappel
YOLOv8n0,1230,0970,4570,137
YOLOv8s0,1670,1390,3550,174
YOLOv8l0,1960,1620,3300,232
RT-DETR-L0,2780,2330,4830,313
Faster R-CNN(perte 0,11)

Pourquoi un mAP Faible ? 60 classes × ~20 images/classe en moyenne. La variation intra-classe est extrême. L'attention transformer de RT-DETR gère mieux les formes irrégulières des déchets.

Entraînement Faster R-CNN SGD + StepLR, 15 époques : perte 0,7608 → 0,1141 (réduction 85%). Backbone ResNet50-FPN v2 pour les features multi-échelles.

Avantage RT-DETR-L Détecteur de bout en bout basé transformer — pas de boîtes d'ancrage, pas de NMS. Gère les objets se chevauchant et les formes irrégulières qui confondent l'approche YOLO.