كل المشاريع
معالجة اللغات

تحليل مشاعر تويتر

خط أنابيب NLP بـ 6 نماذج على 74K تغريدة. DistilBERT يحقق دقة 96.6%. LR+TF-IDF عند 85%. LSTM/Bi-LSTM/CNN يصلون 87-88%. 4 فئات: إيجابي، سلبي، محايد، غير ذي صلة.

96.6%
DistilBERT Accuracy
85%
LR+TF-IDF Accuracy
87–88%
LSTM/CNN
6
Models tested
مجموعة البيانات

74,682 تغريدة تويتر، 4 فئات مشاعر

المنهجية

تعلم آلة كلاسيكي → تعلم عميق → ضبط دقيق للمحول على مشاعر تويتر

المكدس التقني
PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK
الكلمات المفتاحية
DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification
المرئيات6 مخططات
التعمق

معيار NLP شامل على مجموعة بيانات تحليل مشاعر تويتر.

مجموعة البيانات

  • 74,682 تغريدة تدريبية + 1,000 تحقق، 4 فئات مشاعر
  • المعالجة المسبقة: تحويل للأحرف الصغيرة، إزالة URLs/الإشارات/الوسوم، كلمات التوقف، الترقيم

مقارنة 6 نماذج

النموذجالدقةملاحظات
LR + BoW83%خط أساس عداد الكلمات
LR + TF-IDF85%sublinear_tf، 50K ميزة، ثنائيات
LSTM87%وحدات 128→64، SpatialDropout(0.2)
Bi-LSTM88%ثنائي الاتجاه، تضمينات 128-d
CNN (نصي)88%Conv1D 256→128 + GlobalMaxPooling
DistilBERT96.6%3 حقب، lr=2e-5، warmup scheduler

تفاصيل الضبط الدقيق لـ BERT

  • النموذج: DistilBERT-base-uncased
  • الدفعة: 32، 3 حقب، جدولة warmup خطية
  • AdamW مع تناقص الأوزان
  • التقارب: سريع — معظم المكاسب في الحقبة 1

رؤى رئيسية

  • ML الكلاسيكي (85%) منافس لـ LSTM/CNN (87-88%) بحساب أقل 100 مرة
  • نماذج التعلم العميق تسقف عند 87-88%؛ بنية المحول فقط تكسر حاجز 96.6%
  • تضمينات DistilBERT السياقية المدربة مسبقاً تتعامل مع العامية والاختصارات التي يفوتها TF-IDF