رؤية الحاسوبمتوسط

اكتشاف الأجسام: YOLO وFaster-RCNN

“من تصنيف الصور إلى تحديد وتسمية كل كائن في المشهد”

من النوافذ المتحركة إلى YOLO — IoU وصناديق الإرساء وNMS وmAP. كيف يكتشف YOLO 80 فئة جسم في الوقت الفعلي بـ30 إطار في الثانية.

45 min

11 مخططات

8 المفاهيم المغطاة

المتطلبات الأساسية

←CNN Architectures

المفاهيم المغطاة

IoUAnchor BoxesNMSmAPYOLOFaster-RCNNFPNTwo-Stage vs One-Stage

السابق: RNN وLSTM وGRU — نمذجة التسلسلات التالي: تجزئة الصور: UNet وDeepLab

∑الصيغ الرئيسية

IoU

التقاطع على الاتحاد — مقياس جودة الصندوق الحدودي؛ IoU > 0.5 هو كشف صحيح اصطلاحاً

mAP

متوسط متوسط الدقة — المساحة تحت منحنى الدقة-الاستدعاء، متوسطة عبر جميع الفئات

خسارة YOLO

مجموع موزون: انحدار الصندوق + ثقة الموضوعية + احتمالات الفئة

NMS

الاحتفاظ فقط بالصندوق الأعلى ثقةً عندما تتداخل عدة صناديق بشكل كبير على نفس الجسم

▶محاكاة تفاعلية

Loading visualization…

🎯

ما وراء التصنيف: أين وماذا؟

motivation

تُجيب تصنيف الصور على «هل يوجد قط؟». الكشف يُجيب على «أين القطط، وهل يوجد أيضاً كلاب؟». هذا التحول من علامة واحدة إلى عدد متغير من المخرجات (فئة، صندوق حدود) هو ما يجعل الكشف عن الأجسام المهمة المحورية في القيادة الذاتية والتصوير الطبي وتسجيل التجزئة والمراقبة. كل سيارة ذاتية القيادة تشغّل كاشفاً في الوقت الفعلي يعالج أكثر من 30 إطاراً في الثانية. التطور من مصنّفات النافذة المنزلقة (DPM, 2010) → كاشفات مرحلتين (RCNN, 2014؛ Faster-RCNN, 2015) → كاشفات مرحلة واحدة (YOLO v1, 2016 → v8, 2023) هو أحد أسرع المجالات تطوراً في رؤية الحاسوب.

يمرر Tesla Autopilot 8 كاميرات عبر شبكة كشف مخصصة بـ36 إطاراً/ثانية على شريحة 72 TOPS. يجب أن يتناسب النموذج بأكمله في ميزانية زمن استجابة ضيقة مع الكشف عن أجسام على بعد 200 متر.

💡

مرحلتان مقابل مرحلة واحدة: المقايضة الأساسية

intuition

**كاشفات مرحلتين (Faster-RCNN):** المرحلة 1 — شبكة اقتراح المناطق (RPN) تقترح ~300 منطقة مرشحة. المرحلة 2 — رأس تصنيف + انحدار يُحسّن كل اقتراح. الميزة: دقة عالية. العيب: بطيء. **كاشفات مرحلة واحدة (YOLO، SSD):** قسّم الصورة إلى شبكة. كل خلية تتنبأ مباشرةً بإزاحات الصندوق ودرجة الموضوعية واحتمالات الفئة في مرور أمامي واحد. الميزة: سريع. العيب: أصعب في التدريب ويفوّت الأجسام الصغيرة المتداخلة. **مبني على المراسي مقابل بدون مراسي:** YOLO v1-v3 استخدم صناديق مراسي. YOLO v8 / FCOS / CenterNet بدون مراسي — يتنبأ مباشرةً بمركز + عرض/ارتفاع الصندوق، أبسط وغالباً أفضل.

YOLO = 'You Only Look Once.' الفكرة: بدلاً من تشغيل مصنّف في آلاف مواضع النافذة المنزلقة، التنبؤ بجميع الصناديق في وقت واحد في مرور واحد للشبكة.

⚙️

خط أنابيب استدلال YOLO

algorithm

قسّم صورة الإدخال إلى شبكة S×S (مثل 13×13 لإدخال 416 بكسل في YOLO v2).

لكل خلية: تنبّأ بـ B صندوقاً حدودياً (كل منها: x, y, w, h نسبة إلى الخلية + درجة موضوعية) وC احتمالاً للفئة.

إحداثيات الصندوق: x, y هي إزاحات من مركز الخلية (0-1)، w/h هي إزاحات مقياس لوغاريتمي من أحجام المراسي.

الموضوعية × احتمال الفئة = درجة ثقة خاصة بالفئة لكل صندوق.

طبّق الإخماد غير الأقصى (NMS): لكل فئة رتّب الصناديق حسب الثقة، احتفظ بالأعلى ثقةً، اخمد الصناديق بـIoU > 0.5 مع الصندوق المحتفظ به، كرر.

المخرج النهائي: قائمة بطول متغير من الصفوف (فئة، ثقة، x1, y1, x2, y2).

</>

اكتشاف الأجسام مع YOLOv8

code

python72 lines

# pip install ultralytics
from ultralytics import YOLO
import numpy as np
import cv2

# ── 1. Load pretrained YOLO v8 ────────────────────────────────────────────────
model = YOLO("yolov8n.pt")   # nano model (3.2M params, fastest)
# Other sizes: yolov8s.pt, yolov8m.pt, yolov8l.pt, yolov8x.pt

# ── 2. Inference on a single image ────────────────────────────────────────────
results = model("path/to/image.jpg", conf=0.25, iou=0.5)

for r in results:
    boxes = r.boxes                  # Boxes object
    for box in boxes:
        x1, y1, x2, y2 = box.xyxy[0].tolist()  # absolute pixel coords
        conf  = box.conf[0].item()              # confidence score
        cls   = int(box.cls[0].item())          # class index
        label = model.names[cls]
        print(f"{label}: {conf:.2f} at ({x1:.0f},{y1:.0f},{x2:.0f},{y2:.0f})")

# ── 3. Fine-tuning on custom dataset ─────────────────────────────────────────
# Dataset format: YOLO txt format
# data.yaml:
#   train: /path/to/train/images
#   val:   /path/to/val/images
#   nc: 3                       # number of classes
#   names: ['cat', 'dog', 'car']

model = YOLO("yolov8s.pt")     # start from ImageNet pretrained
results = model.train(
    data="data.yaml",
    epochs=50,
    imgsz=640,
    batch=16,
    lr0=0.01,                   # initial learning rate
    lrf=0.01,                   # final lr fraction
    augment=True,               # mosaic, flip, scale augmentation
    device=0,                   # GPU 0
)
print(f"mAP50: {results.metrics.mAP50:.4f}")

# ── 4. IoU calculation from scratch ──────────────────────────────────────────
def iou(box1, box2):
    """box = [x1, y1, x2, y2]"""
    x1 = max(box1[0], box2[0]); y1 = max(box1[1], box2[1])
    x2 = min(box1[2], box2[2]); y2 = min(box1[3], box2[3])
    inter = max(0, x2-x1) * max(0, y2-y1)
    area1 = (box1[2]-box1[0]) * (box1[3]-box1[1])
    area2 = (box2[2]-box2[0]) * (box2[3]-box2[1])
    return inter / (area1 + area2 - inter + 1e-6)

gt   = [100, 50, 250, 200]
pred = [110, 60, 260, 210]
print(f"\nIoU = {iou(gt, pred):.4f}")

# ── 5. Manual NMS ─────────────────────────────────────────────────────────────
def nms(boxes, scores, iou_threshold=0.5):
    """Boxes: (N,4) xyxy, Scores: (N,)"""
    order = np.argsort(scores)[::-1]
    keep  = []
    while len(order) > 0:
        i = order[0]
        keep.append(i)
        ious = np.array([iou(boxes[i], boxes[j]) for j in order[1:]])
        order = order[1:][ious < iou_threshold]
    return keep

boxes  = np.array([[100,50,250,200],[105,55,255,205],[200,100,350,250]])
scores = np.array([0.95, 0.87, 0.72])
kept   = nms(boxes, scores)
print(f"Kept boxes: {kept}")  # [0, 2] — box 1 suppressed (overlaps with 0)

⚠️

mAP وفخ عتبة IoU

pitfall

mAP@0.5 وmAP@0.5:0.95 تحكيان قصصاً مختلفة جداً. نموذج بـmAP@0.5 ممتاز لكن mAP@0.5:0.95 ضعيف يُحدّد مواقع الأجسام بشكل فضفاض — مقبول للمهام الخشنة، سيئ للإمساك الروبوتي. أيضاً تعامل mAP جميع الفئات بالتساوي مما يُخفي الأداء السيئ على الفئات النادرة. للمجموعات غير المتوازنة أبلغ عن AP لكل فئة منفصلاً. مخاطر شائعة: (1) نسيان تطبيع إحداثيات الصندوق بحجم الصورة. (2) استخدام عتبة ثقة منخفضة جداً أثناء NMS — احتفظ بـconf_threshold ≈ 0.25 أثناء الاستدلال. (3) الإفراط في التخصيص على المجموعات الصغيرة — استخدم دائماً تعزيزاً قوياً.

تحسين بنسبة 1% في mAP على معيار COCO (80 فئة، 330 ألف صورة) يمثل أشهراً من البحث — السياق مهم عند مقارنة النماذج في مجالك.

?اختبار المعرفة

يتم حفظ التقدم في متصفحك — لا حاجة لحساب.

RNN وLSTM وGRU — نمذجة التسلسلات

تجزئة الصور: UNet وDeepLab

تحتاج مهندس ذكاء اصطناعي أو عالم بيانات؟

أبني نماذج تعلم آلي مخصصة، ووكلاء ذكاء اصطناعي، ورؤية حاسوب، وأتمتة — من الفكرة إلى الإنتاج.

تواصل معي الخدمات