NLP

Détection de Fausses Nouvelles

Pipeline NLP de 13 modèles sur 44 898 articles. Soft Voting Ensemble & Stacking atteignent 99,86% de précision, AUC=1,0. Seulement 2 erreurs sur l'ensemble de test complet. DistilBERT à 99,87% sur 6K sous-ensemble.

Voir sur Kaggle

99.86%

Voting/Stacking Acc

1.0000

Linear SVC AUC

99.87%

DistilBERT Accuracy

Total test errors

Jeu de Données

44 898 articles (21K réels + 23K faux), division 70/15/15

Approche

TF-IDF combiné (n-grammes mots + caractères) → benchmark de 13 modèles → fine-tuning transformeur

Stack Technique

PythonScikit-learnXGBoostLightGBMHuggingFace DistilBERTNLTK

Mots-clés

LinearSVCTF-IDFXGBoostLightGBMDistilBERTVoting EnsembleStacking

Visualisations6 Graphiques

Analyse Approfondie

Benchmark complet de détection de fausses nouvelles sur un dataset de 44 898 articles.

Données

▸21 417 vraies + 23 481 fausses nouvelles — division stratifiée 70/15/15
▸Caractéristiques : TF-IDF mots n-grammes (1–2, 50K) + caractères n-grammes (3–5, 30K) combinés

Benchmark 13 modèles

Modèle	Précision	AUC
Complement NB	96,52%	0,9936
Logistic Regression	99,65%	0,9999
Linear SVC	99,81%	1,0000
XGBoost	99,83%	0,9997
Soft Voting	99,86%	1,0000
Stacking	99,86%	1,0000
DistilBERT	99,87%	0,9999

Analyse des erreurs Ensemble de test complet : 1 faux positif + 1 faux négatif. Le dataset a des signaux de source forts que le TF-IDF combiné capture presque parfaitement.

Pourquoi le TF-IDF combiné est supérieur Les n-grammes de mots capturent le contenu sémantique ; les n-grammes de caractères capturent les artefacts de style (abus de ponctuation, MAJUSCULES). La combinaison donne >99,8% sur tous les modèles.

Résultat DistilBERT Fine-tuné sur 6K articles seulement → 99,87%. Les transformeurs généralisent mieux avec peu de données étiquetées que les modèles classiques entraînés sur le dataset complet.

Retour aux Projets Me Recruter