Détection de Fausses Nouvelles
Pipeline NLP de 13 modèles sur 44 898 articles. Soft Voting Ensemble & Stacking atteignent 99,86% de précision, AUC=1,0. Seulement 2 erreurs sur l'ensemble de test complet. DistilBERT à 99,87% sur 6K sous-ensemble.
44 898 articles (21K réels + 23K faux), division 70/15/15
TF-IDF combiné (n-grammes mots + caractères) → benchmark de 13 modèles → fine-tuning transformeur
Benchmark complet de détection de fausses nouvelles sur un dataset de 44 898 articles.
Données
- ▸21 417 vraies + 23 481 fausses nouvelles — division stratifiée 70/15/15
- ▸Caractéristiques : TF-IDF mots n-grammes (1–2, 50K) + caractères n-grammes (3–5, 30K) combinés
Benchmark 13 modèles
| Modèle | Précision | AUC |
|---|---|---|
| Complement NB | 96,52% | 0,9936 |
| Logistic Regression | 99,65% | 0,9999 |
| Linear SVC | 99,81% | 1,0000 |
| XGBoost | 99,83% | 0,9997 |
| Soft Voting | 99,86% | 1,0000 |
| Stacking | 99,86% | 1,0000 |
| DistilBERT | 99,87% | 0,9999 |
Analyse des erreurs Ensemble de test complet : 1 faux positif + 1 faux négatif. Le dataset a des signaux de source forts que le TF-IDF combiné capture presque parfaitement.
Pourquoi le TF-IDF combiné est supérieur Les n-grammes de mots capturent le contenu sémantique ; les n-grammes de caractères capturent les artefacts de style (abus de ponctuation, MAJUSCULES). La combinaison donne >99,8% sur tous les modèles.
Résultat DistilBERT Fine-tuné sur 6K articles seulement → 99,87%. Les transformeurs généralisent mieux avec peu de données étiquetées que les modèles classiques entraînés sur le dataset complet.