تصنيف أوامر الكلام الاصطناعية
CNN صوتي بـ 30 فئة يحقق دقة اختبار 100% على 41,849 عينة. Mel-spectrogram (64 bin) + SpecAugment. CNN بـ 4 كتل، 1.25M معامل. دقة التحقق تبلغ 100% في الحقبة 8. Label smoothing 0.1.
41,849 ملف .wav اصطناعياً، 30 فئة أوامر
Mel-spectrogram + SpecAugment → CNN بـ 4 كتل + label smoothing + LR كوسينوس
تصنيف أوامر الصوت بـ 30 فئة يحقق دقة مثالية على البيانات الاصطناعية.
مجموعة البيانات
- ◂41,849 ملف .wav: 30 فئة أوامر (bed، bird، cat... yes، zero)
- ◂متغيرات نظيفة + مشوشة، 16kHz، مدة ثابتة 1.0 ثانية
- ◂تدريب: 31,386 / تحقق: 6,277 / اختبار: 4,186 (طبقي)
استخراج الميزات
1. تحميل .wav → تطبيع إلى 1.0 ثانية
2. Mel-spectrogram: 64 bin، n_fft=512، hop=160
3. تطبيع لكل عينة إلى [0, 1]
4. SpecAugment: FreqMask(k=15) + TimeMask(k=35)
بنية CNN (1,246,142 معامل) 4 ConvBlocks [32→64→128→256 قناة] → GAP → Dense(512) → Dropout(0.3) → Dense(30)
التدريب 30 حقبة، Adam(lr=1e-3)، CrossEntropy + label_smoothing=0.1، CosineAnnealingLR
النتائج الحقبة 8: دقة تحقق 100.0% | دقة الاختبار: 100.00% | F1=1.00 لجميع الفئات
لماذا الدقة المثالية؟ الكلام الاصطناعي له خصائص صوتية متسقة جداً. على عكس الكلام الحقيقي، تتجمع الأوامر الاصطناعية بإحكام في فضاء mel-spectrogram — شرط تقييم مُفضِّل لكن غير واقعي.