Tous les Projets
NLP

Détection de Fausses Nouvelles

Pipeline NLP de 13 modèles sur 44 898 articles. Soft Voting Ensemble & Stacking atteignent 99,86% de précision, AUC=1,0. Seulement 2 erreurs sur l'ensemble de test complet. DistilBERT à 99,87% sur 6K sous-ensemble.

99.86%
Voting/Stacking Acc
1.0000
Linear SVC AUC
99.87%
DistilBERT Accuracy
2
Total test errors
Jeu de Données

44 898 articles (21K réels + 23K faux), division 70/15/15

Approche

TF-IDF combiné (n-grammes mots + caractères) → benchmark de 13 modèles → fine-tuning transformeur

Stack Technique
PythonScikit-learnXGBoostLightGBMHuggingFace DistilBERTNLTK
Mots-clés
LinearSVCTF-IDFXGBoostLightGBMDistilBERTVoting EnsembleStacking
Visualisations6 Graphiques
Analyse Approfondie

Benchmark complet de détection de fausses nouvelles sur un dataset de 44 898 articles.

Données

  • 21 417 vraies + 23 481 fausses nouvelles — division stratifiée 70/15/15
  • Caractéristiques : TF-IDF mots n-grammes (1–2, 50K) + caractères n-grammes (3–5, 30K) combinés

Benchmark 13 modèles

ModèlePrécisionAUC
Complement NB96,52%0,9936
Logistic Regression99,65%0,9999
Linear SVC99,81%1,0000
XGBoost99,83%0,9997
Soft Voting99,86%1,0000
Stacking99,86%1,0000
DistilBERT99,87%0,9999

Analyse des erreurs Ensemble de test complet : 1 faux positif + 1 faux négatif. Le dataset a des signaux de source forts que le TF-IDF combiné capture presque parfaitement.

Pourquoi le TF-IDF combiné est supérieur Les n-grammes de mots capturent le contenu sémantique ; les n-grammes de caractères capturent les artefacts de style (abus de ponctuation, MAJUSCULES). La combinaison donne >99,8% sur tous les modèles.

Résultat DistilBERT Fine-tuné sur 6K articles seulement → 99,87%. Les transformeurs généralisent mieux avec peu de données étiquetées que les modèles classiques entraînés sur le dataset complet.