العودة إلى المدونة
Computer Vision 1 أكتوبر 2024 8 min للقراءة

استراتيجيات توسيع البيانات عندما يكون لديك أقل من 1000 عينة

Mixup وCutMix وAugMix والبيانات الاصطناعية مع GANs — ماذا تستخدم عندما تكون مجموعة بياناتك صغيرة.

هرمية التوسيع (من الأكثر تأثيراً إلى الأقل)

المستوى 1: افعل هذا دائماً

  • انعكاس أفقي/رأسي عشوائي
  • تدوير عشوائي (±15°)
  • اقتصاص وتغيير حجم عشوائي
  • اهتزاز لوني (السطوع، التباين، التشبّع)

المستوى 2: يساعد عادةً

  • Mixup: مزج صورتين وتسمياتهما
lam = np.random.beta(0.2, 0.2)
x_mix = lam * x1 + (1-lam) * x2
y_mix = lam * y1 + (1-lam) * y2
  • CutMix: لصق رقعة من صورة إلى أخرى

المستوى 3: لمجموعات البيانات الصغيرة جداً (<200 عينة)

  • التحويلات المرنة (للصور الطبية)
  • تشويه الشبكة
  • التوسيع وقت الاختبار (TTA) — تجميع 8 نسخ موسّعة عند الاستدلال

المستوى 4: البيانات الاصطناعية

  • درّب GAN أو استخدم Stable Diffusion لتوليد عينات تدريب إضافية
  • يعمل جيداً للفئات النادرة الخاصة بمجال معيّن
Data AugmentationSmall DatasetsMixupCutMixComputer Vision
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب