كل المشاريع
معالجة اللغات

تصنيف أوامر الكلام الاصطناعية

CNN صوتي بـ 30 فئة يحقق دقة اختبار 100% على 41,849 عينة. Mel-spectrogram (64 bin) + SpecAugment. CNN بـ 4 كتل، 1.25M معامل. دقة التحقق تبلغ 100% في الحقبة 8. Label smoothing 0.1.

100.00%
Test accuracy
1.00
All-class F1
Epoch 8
100% val achieved
1,246,142
Model params
مجموعة البيانات

41,849 ملف .wav اصطناعياً، 30 فئة أوامر

المنهجية

Mel-spectrogram + SpecAugment → CNN بـ 4 كتل + label smoothing + LR كوسينوس

المكدس التقني
PythonPyTorchlibrosa4-block CNNMel-SpectrogramSpecAugment
الكلمات المفتاحية
Audio CNNMel-SpectrogramSpecAugmentSpeech Recognition30-classlibrosa
المرئيات5 مخططات
التعمق

تصنيف أوامر الصوت بـ 30 فئة يحقق دقة مثالية على البيانات الاصطناعية.

مجموعة البيانات

  • 41,849 ملف .wav: 30 فئة أوامر (bed، bird، cat... yes، zero)
  • متغيرات نظيفة + مشوشة، 16kHz، مدة ثابتة 1.0 ثانية
  • تدريب: 31,386 / تحقق: 6,277 / اختبار: 4,186 (طبقي)

استخراج الميزات

1. تحميل .wav → تطبيع إلى 1.0 ثانية
2. Mel-spectrogram: 64 bin، n_fft=512، hop=160
3. تطبيع لكل عينة إلى [0, 1]
4. SpecAugment: FreqMask(k=15) + TimeMask(k=35)

بنية CNN (1,246,142 معامل) 4 ConvBlocks [32→64→128→256 قناة] → GAP → Dense(512) → Dropout(0.3) → Dense(30)

التدريب 30 حقبة، Adam(lr=1e-3)، CrossEntropy + label_smoothing=0.1، CosineAnnealingLR

النتائج الحقبة 8: دقة تحقق 100.0% | دقة الاختبار: 100.00% | F1=1.00 لجميع الفئات

لماذا الدقة المثالية؟ الكلام الاصطناعي له خصائص صوتية متسقة جداً. على عكس الكلام الحقيقي، تتجمع الأوامر الاصطناعية بإحكام في فضاء mel-spectrogram — شرط تقييم مُفضِّل لكن غير واقعي.