كشف الأخبار المزيفة
خط أنابيب NLP بـ 13 نموذجاً على 44,898 مقالة. Soft Voting Ensemble والتكدس يحققان 99.86% دقة، AUC=1.0. خطأين فقط على مجموعة الاختبار الكاملة. DistilBERT بـ 99.87% على مجموعة فرعية 6K.
44,898 مقالة (21K حقيقية + 23K مزيفة)، تقسيم 70/15/15
TF-IDF مدمج (n-gramات كلمات + أحرف) → معيار 13 نموذجاً → ضبط دقيق للمحول
معيار شامل للكشف عن الأخبار المزيفة على 44,898 مقالة.
مجموعة البيانات
- ◂21,417 حقيقية + 23,481 مزيفة — تقسيم طبقي 70/15/15
- ◂الميزات: TF-IDF كلمات n-gram (1-2، 50K) + أحرف n-gram (3-5، 30K) مدمجة
معيار 13 نموذجاً
| النموذج | الدقة | AUC |
|---|---|---|
| Complement NB | 96.52% | 0.9936 |
| Logistic Regression | 99.65% | 0.9999 |
| Linear SVC | 99.81% | 1.0000 |
| XGBoost | 99.83% | 0.9997 |
| Soft Voting | 99.86% | 1.0000 |
| Stacking | 99.86% | 1.0000 |
| DistilBERT | 99.87% | 0.9999 |
تحليل الأخطاء مجموعة اختبار كاملة: خطأ إيجابي + خطأ سلبي واحد فقط. المجموعة تحتوي على إشارات مصدر قوية يلتقطها TF-IDF المدمج بشكل شبه مثالي.
لماذا TF-IDF المدمج أفضل n-gram الكلمات يلتقط الدلالة؛ n-gram الأحرف يلتقط أسلوب الكتابة (الأحرف الكبيرة، علامات الترقيم المفرطة). الدمج يعطي >99.8% عبر جميع النماذج.
نتيجة DistilBERT ضبط دقيق على 6K مقالة فقط → 99.87%. يثبت أن المحولات تعمم بشكل أفضل مع بيانات محدودة مقارنة بالنماذج الكلاسيكية على المجموعة الكاملة.