العودة إلى المدونة
NLP 1 مارس 2025 8 min للقراءة

معالجة اللغة العربية في 2025: AraBERT وCAMeL Tools وخطوط الإنتاج

دليل عملي لمعالجة اللغة العربية — أفضل النماذج، تحديات المعالجة المسبقة، التعامل مع اللهجات.

مشهد معالجة اللغة العربية

أفضل النماذج (2025)

النموذجالأفضل لـ
AraBERT v0.2التصنيف، NER
CAMeL-BERTالعربية العامية
AraGPT2توليد النص
Jais-13bاتّباع التعليمات

خط المعالجة المسبقة

import re

def preprocess_arabic(text):
    # Remove diacritics (tashkeel)
    text = re.sub(r'[\u064B-\u065F]', '', text)
    # Normalize alef variants
    text = re.sub(r'[أإآا]', 'ا', text)
    # Remove tatweel
    text = re.sub(r'\u0640', '', text)
    return text.strip()

تحديات اللهجات

نماذج العربية الفصحى الحديثة (MSA) ضعيفة الأداء على:

  • الدارجة المغربية
  • العربية المصرية
  • اللهجة الخليجية

الحل: الضبط الدقيق على بيانات لهجة محددة أو استخدام CAMeL-BERT.

Arabic NLPAraBERTHuggingFaceText ClassificationMultilingual
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب