اختيار النموذج
| النموذج | المعاملات | WER (EN) | السرعة |
|---|---|---|---|
| tiny | 39M | 14% | 32x |
| base | 74M | 10% | 16x |
| small | 244M | 7% | 6x |
| medium | 769M | 5% | 2x |
| large-v3 | 1.5B | 3% | 1x |
للإنتاج مع قيود الكمون: small هو الخيار الأمثل.
النشر باستخدام FastAPI
import whisper
from fastapi import FastAPI, UploadFile
app = FastAPI()
model = whisper.load_model('small').to('cuda')
@app.post('/transcribe')
async def transcribe(audio: UploadFile, language: str = 'ar'):
audio_bytes = await audio.read()
result = model.transcribe(audio_bytes, language=language, fp16=True)
return {'text': result['text'], 'language': result['language']}
مجموعة بيانات الضبط الدقيق للدارجة
استخدمت Mozilla Common Voice Arabic + تسجيلات إذاعية مغربية مستخرجة. الضبط الدقيق على 3 حقب يخفّض WER من 32% إلى 18% على الدارجة.