كل المشاريع
معالجة اللغات
تحليل مشاعر تويتر
خط أنابيب NLP بـ 6 نماذج على 74K تغريدة. DistilBERT يحقق دقة 96.6%. LR+TF-IDF عند 85%. LSTM/Bi-LSTM/CNN يصلون 87-88%. 4 فئات: إيجابي، سلبي، محايد، غير ذي صلة.
96.6%
DistilBERT Accuracy
85%
LR+TF-IDF Accuracy
87–88%
LSTM/CNN
6
Models tested
مجموعة البيانات
74,682 تغريدة تويتر، 4 فئات مشاعر
المنهجية
تعلم آلة كلاسيكي → تعلم عميق → ضبط دقيق للمحول على مشاعر تويتر
المكدس التقني
PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK
الكلمات المفتاحية
DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification
المرئيات6 مخططات
التعمق
معيار NLP شامل على مجموعة بيانات تحليل مشاعر تويتر.
مجموعة البيانات
- ◂74,682 تغريدة تدريبية + 1,000 تحقق، 4 فئات مشاعر
- ◂المعالجة المسبقة: تحويل للأحرف الصغيرة، إزالة URLs/الإشارات/الوسوم، كلمات التوقف، الترقيم
مقارنة 6 نماذج
| النموذج | الدقة | ملاحظات |
|---|---|---|
| LR + BoW | 83% | خط أساس عداد الكلمات |
| LR + TF-IDF | 85% | sublinear_tf، 50K ميزة، ثنائيات |
| LSTM | 87% | وحدات 128→64، SpatialDropout(0.2) |
| Bi-LSTM | 88% | ثنائي الاتجاه، تضمينات 128-d |
| CNN (نصي) | 88% | Conv1D 256→128 + GlobalMaxPooling |
| DistilBERT | 96.6% | 3 حقب، lr=2e-5، warmup scheduler |
تفاصيل الضبط الدقيق لـ BERT
- ◂النموذج: DistilBERT-base-uncased
- ◂الدفعة: 32، 3 حقب، جدولة warmup خطية
- ◂AdamW مع تناقص الأوزان
- ◂التقارب: سريع — معظم المكاسب في الحقبة 1
رؤى رئيسية
- ◂ML الكلاسيكي (85%) منافس لـ LSTM/CNN (87-88%) بحساب أقل 100 مرة
- ◂نماذج التعلم العميق تسقف عند 87-88%؛ بنية المحول فقط تكسر حاجز 96.6%
- ◂تضمينات DistilBERT السياقية المدربة مسبقاً تتعامل مع العامية والاختصارات التي يفوتها TF-IDF