Le paysage du NLP arabe
Meilleurs modèles (2025)
| Modèle | Idéal pour |
|---|---|
| AraBERT v0.2 | Classification, NER |
| CAMeL-BERT | Arabe dialectal |
| AraGPT2 | Génération de texte |
| Jais-13b | Suivi d'instructions |
Pipeline de prétraitement
import re
def preprocess_arabic(text):
# Remove diacritics (tashkeel)
text = re.sub(r'[\u064B-\u065F]', '', text)
# Normalize alef variants
text = re.sub(r'[أإآا]', 'ا', text)
# Remove tatweel
text = re.sub(r'\u0640', '', text)
return text.strip()
Défis dialectaux
Les modèles MSA (arabe standard moderne) sont peu performants sur :
- le darija marocain
- l'arabe égyptien
- l'arabe du Golfe
Solution : fine-tuner sur des données dialectales spécifiques ou utiliser CAMeL-BERT.