مشهد معالجة اللغة العربية
أفضل النماذج (2025)
| النموذج | الأفضل لـ |
|---|---|
| AraBERT v0.2 | التصنيف، NER |
| CAMeL-BERT | العربية العامية |
| AraGPT2 | توليد النص |
| Jais-13b | اتّباع التعليمات |
خط المعالجة المسبقة
import re
def preprocess_arabic(text):
# Remove diacritics (tashkeel)
text = re.sub(r'[\u064B-\u065F]', '', text)
# Normalize alef variants
text = re.sub(r'[أإآا]', 'ا', text)
# Remove tatweel
text = re.sub(r'\u0640', '', text)
return text.strip()
تحديات اللهجات
نماذج العربية الفصحى الحديثة (MSA) ضعيفة الأداء على:
- الدارجة المغربية
- العربية المصرية
- اللهجة الخليجية
الحل: الضبط الدقيق على بيانات لهجة محددة أو استخدام CAMeL-BERT.