كل المشاريع
معالجة اللغات

كشف الأخبار المزيفة

خط أنابيب NLP بـ 13 نموذجاً على 44,898 مقالة. Soft Voting Ensemble والتكدس يحققان 99.86% دقة، AUC=1.0. خطأين فقط على مجموعة الاختبار الكاملة. DistilBERT بـ 99.87% على مجموعة فرعية 6K.

99.86%
Voting/Stacking Acc
1.0000
Linear SVC AUC
99.87%
DistilBERT Accuracy
2
Total test errors
مجموعة البيانات

44,898 مقالة (21K حقيقية + 23K مزيفة)، تقسيم 70/15/15

المنهجية

TF-IDF مدمج (n-gramات كلمات + أحرف) → معيار 13 نموذجاً → ضبط دقيق للمحول

المكدس التقني
PythonScikit-learnXGBoostLightGBMHuggingFace DistilBERTNLTK
الكلمات المفتاحية
LinearSVCTF-IDFXGBoostLightGBMDistilBERTVoting EnsembleStacking
المرئيات6 مخططات
التعمق

معيار شامل للكشف عن الأخبار المزيفة على 44,898 مقالة.

مجموعة البيانات

  • 21,417 حقيقية + 23,481 مزيفة — تقسيم طبقي 70/15/15
  • الميزات: TF-IDF كلمات n-gram (1-2، 50K) + أحرف n-gram (3-5، 30K) مدمجة

معيار 13 نموذجاً

النموذجالدقةAUC
Complement NB96.52%0.9936
Logistic Regression99.65%0.9999
Linear SVC99.81%1.0000
XGBoost99.83%0.9997
Soft Voting99.86%1.0000
Stacking99.86%1.0000
DistilBERT99.87%0.9999

تحليل الأخطاء مجموعة اختبار كاملة: خطأ إيجابي + خطأ سلبي واحد فقط. المجموعة تحتوي على إشارات مصدر قوية يلتقطها TF-IDF المدمج بشكل شبه مثالي.

لماذا TF-IDF المدمج أفضل n-gram الكلمات يلتقط الدلالة؛ n-gram الأحرف يلتقط أسلوب الكتابة (الأحرف الكبيرة، علامات الترقيم المفرطة). الدمج يعطي >99.8% عبر جميع النماذج.

نتيجة DistilBERT ضبط دقيق على 6K مقالة فقط → 99.87%. يثبت أن المحولات تعمم بشكل أفضل مع بيانات محدودة مقارنة بالنماذج الكلاسيكية على المجموعة الكاملة.