معالجة اللغات

تصنيف أوامر الكلام الاصطناعية

CNN صوتي بـ 30 فئة يحقق دقة اختبار 100% على 41,849 عينة. Mel-spectrogram (64 bin) + SpecAugment. CNN بـ 4 كتل، 1.25M معامل. دقة التحقق تبلغ 100% في الحقبة 8. Label smoothing 0.1.

عرض على كاغل

100.00%

Test accuracy

1.00

All-class F1

Epoch 8

100% val achieved

1,246,142

Model params

مجموعة البيانات

41,849 ملف .wav اصطناعياً، 30 فئة أوامر

المنهجية

Mel-spectrogram + SpecAugment → CNN بـ 4 كتل + label smoothing + LR كوسينوس

المكدس التقني

PythonPyTorchlibrosa4-block CNNMel-SpectrogramSpecAugment

الكلمات المفتاحية

Audio CNNMel-SpectrogramSpecAugmentSpeech Recognition30-classlibrosa

المرئيات5 مخططات

التعمق

تصنيف أوامر الصوت بـ 30 فئة يحقق دقة مثالية على البيانات الاصطناعية.

مجموعة البيانات

◂41,849 ملف .wav: 30 فئة أوامر (bed، bird، cat... yes، zero)
◂متغيرات نظيفة + مشوشة، 16kHz، مدة ثابتة 1.0 ثانية
◂تدريب: 31,386 / تحقق: 6,277 / اختبار: 4,186 (طبقي)

استخراج الميزات

1. تحميل .wav → تطبيع إلى 1.0 ثانية
2. Mel-spectrogram: 64 bin، n_fft=512، hop=160
3. تطبيع لكل عينة إلى [0, 1]
4. SpecAugment: FreqMask(k=15) + TimeMask(k=35)

بنية CNN (1,246,142 معامل) 4 ConvBlocks [32→64→128→256 قناة] → GAP → Dense(512) → Dropout(0.3) → Dense(30)

التدريب 30 حقبة، Adam(lr=1e-3)، CrossEntropy + label_smoothing=0.1، CosineAnnealingLR

النتائج الحقبة 8: دقة تحقق 100.0% | دقة الاختبار: 100.00% | F1=1.00 لجميع الفئات

لماذا الدقة المثالية؟ الكلام الاصطناعي له خصائص صوتية متسقة جداً. على عكس الكلام الحقيقي، تتجمع الأوامر الاصطناعية بإحكام في فضاء mel-spectrogram — شرط تقييم مُفضِّل لكن غير واقعي.

العودة إلى المشاريع توظيفي