العودة إلى المدونة
NLP 25 يناير 2025 9 min للقراءة

تحليل المشاعر للنص العربي: BERT مقابل تعلم الآلة التقليدي

بناء مصنف المشاعر للإنتاج لمراجعات العملاء العربية — تنظيم مجموعة البيانات وتحديات المعالجة المسبقة.

تنظيم مجموعة البيانات

استخدمت 3 مصادر:

  1. ASTD (مجموعة تغريدات المشاعر العربية) — 10 آلاف تغريدة
  2. ArSAS (تحليل المشاعر العربية) — 21 ألف فصحى + لهجات
  3. مراجعات بالدارجة المغربية مستخرجة من Jumia MA

المعالجة المسبقة

def preprocess_ar(text):
    text = re.sub(r'[\u064B-\u065F\u0670]', '', text)  # Remove diacritics
    text = re.sub(r'[أإآ]', 'ا', text)  # Normalize alef
    text = re.sub(r'ة', 'ه', text)  # Normalize teh marbuta
    text = re.sub(r'[^\w\s]', ' ', text)  # Remove punctuation
    text = re.sub(r'\s+', ' ', text).strip()
    return text

مقارنة النتائج

النموذجالدقةF1
TF-IDF + SVM76.2%0.74
FastText81.5%0.80
AraBERT v0.288.1%0.87
CAMeL-BERT86.7%0.85

يتفوّق AraBERT لكنه أبطأ بـ 20 مرة. استخدم FastText إذا كان الكمون مهماً.

Sentiment AnalysisArabic NLPBERTAraBERTText Classification
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب