معالجة اللغات

تحليل مشاعر تويتر

خط أنابيب NLP بـ 6 نماذج على 74K تغريدة. DistilBERT يحقق دقة 96.6%. LR+TF-IDF عند 85%. LSTM/Bi-LSTM/CNN يصلون 87-88%. 4 فئات: إيجابي، سلبي، محايد، غير ذي صلة.

عرض على كاغل

96.6%

DistilBERT Accuracy

85%

LR+TF-IDF Accuracy

87–88%

LSTM/CNN

Models tested

مجموعة البيانات

74,682 تغريدة تويتر، 4 فئات مشاعر

المنهجية

تعلم آلة كلاسيكي → تعلم عميق → ضبط دقيق للمحول على مشاعر تويتر

المكدس التقني

PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK

الكلمات المفتاحية

DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification

المرئيات6 مخططات

التعمق

معيار NLP شامل على مجموعة بيانات تحليل مشاعر تويتر.

مجموعة البيانات

◂74,682 تغريدة تدريبية + 1,000 تحقق، 4 فئات مشاعر
◂المعالجة المسبقة: تحويل للأحرف الصغيرة، إزالة URLs/الإشارات/الوسوم، كلمات التوقف، الترقيم

مقارنة 6 نماذج

النموذج	الدقة	ملاحظات
LR + BoW	83%	خط أساس عداد الكلمات
LR + TF-IDF	85%	sublinear_tf، 50K ميزة، ثنائيات
LSTM	87%	وحدات 128→64، SpatialDropout(0.2)
Bi-LSTM	88%	ثنائي الاتجاه، تضمينات 128-d
CNN (نصي)	88%	Conv1D 256→128 + GlobalMaxPooling
DistilBERT	96.6%	3 حقب، lr=2e-5، warmup scheduler

تفاصيل الضبط الدقيق لـ BERT

◂النموذج: DistilBERT-base-uncased
◂الدفعة: 32، 3 حقب، جدولة warmup خطية
◂AdamW مع تناقص الأوزان
◂التقارب: سريع — معظم المكاسب في الحقبة 1

رؤى رئيسية

◂ML الكلاسيكي (85%) منافس لـ LSTM/CNN (87-88%) بحساب أقل 100 مرة
◂نماذج التعلم العميق تسقف عند 87-88%؛ بنية المحول فقط تكسر حاجز 96.6%
◂تضمينات DistilBERT السياقية المدربة مسبقاً تتعامل مع العامية والاختصارات التي يفوتها TF-IDF

العودة إلى المشاريع توظيفي