معالجة اللغات

كشف الأخبار المزيفة

خط أنابيب NLP بـ 13 نموذجاً على 44,898 مقالة. Soft Voting Ensemble والتكدس يحققان 99.86% دقة، AUC=1.0. خطأين فقط على مجموعة الاختبار الكاملة. DistilBERT بـ 99.87% على مجموعة فرعية 6K.

عرض على كاغل

99.86%

Voting/Stacking Acc

1.0000

Linear SVC AUC

99.87%

DistilBERT Accuracy

Total test errors

مجموعة البيانات

44,898 مقالة (21K حقيقية + 23K مزيفة)، تقسيم 70/15/15

المنهجية

TF-IDF مدمج (n-gramات كلمات + أحرف) → معيار 13 نموذجاً → ضبط دقيق للمحول

المكدس التقني

PythonScikit-learnXGBoostLightGBMHuggingFace DistilBERTNLTK

الكلمات المفتاحية

LinearSVCTF-IDFXGBoostLightGBMDistilBERTVoting EnsembleStacking

المرئيات6 مخططات

التعمق

معيار شامل للكشف عن الأخبار المزيفة على 44,898 مقالة.

مجموعة البيانات

◂21,417 حقيقية + 23,481 مزيفة — تقسيم طبقي 70/15/15
◂الميزات: TF-IDF كلمات n-gram (1-2، 50K) + أحرف n-gram (3-5، 30K) مدمجة

معيار 13 نموذجاً

النموذج	الدقة	AUC
Complement NB	96.52%	0.9936
Logistic Regression	99.65%	0.9999
Linear SVC	99.81%	1.0000
XGBoost	99.83%	0.9997
Soft Voting	99.86%	1.0000
Stacking	99.86%	1.0000
DistilBERT	99.87%	0.9999

تحليل الأخطاء مجموعة اختبار كاملة: خطأ إيجابي + خطأ سلبي واحد فقط. المجموعة تحتوي على إشارات مصدر قوية يلتقطها TF-IDF المدمج بشكل شبه مثالي.

لماذا TF-IDF المدمج أفضل n-gram الكلمات يلتقط الدلالة؛ n-gram الأحرف يلتقط أسلوب الكتابة (الأحرف الكبيرة، علامات الترقيم المفرطة). الدمج يعطي >99.8% عبر جميع النماذج.

نتيجة DistilBERT ضبط دقيق على 6K مقالة فقط → 99.87%. يثبت أن المحولات تعمم بشكل أفضل مع بيانات محدودة مقارنة بالنماذج الكلاسيكية على المجموعة الكاملة.

العودة إلى المشاريع توظيفي