Tous les Projets
NLP
Analyse de Sentiment Twitter
Pipeline NLP de 6 modèles sur 74K tweets. DistilBERT atteint 96,6% de précision. LR+TF-IDF à 85%. LSTM/Bi-LSTM/CNN atteignent 87–88%. 4 classes : Positif, Négatif, Neutre, Non pertinent.
96.6%
DistilBERT Accuracy
85%
LR+TF-IDF Accuracy
87–88%
LSTM/CNN
6
Models tested
Jeu de Données
74 682 tweets Twitter, 4 classes de sentiment
Approche
ML classique → deep learning → fine-tuning transformeur sur sentiment Twitter
Stack Technique
PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK
Mots-clés
DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification
Visualisations6 Graphiques
Analyse Approfondie
Benchmark NLP de bout en bout sur le dataset Twitter Entity Sentiment.
Données
- ▸74 682 tweets d'entraînement + 1 000 de validation, 4 classes de sentiment
- ▸Prétraitement : minuscules, suppression des URLs/mentions/hashtags, stopwords, lemmatisation
6 modèles comparés
| Modèle | Précision | Notes |
|---|---|---|
| LR + BoW | 83% | Baseline compteur de vecteurs |
| LR + TF-IDF | 85% | Sublinear_tf, 50K features, bigrammes |
| LSTM | 87% | Unités 128→64, SpatialDropout(0.2) |
| Bi-LSTM | 88% | Bidirectionnel, embeddings 128-d |
| CNN (texte) | 88% | Conv1D 256→128 + GlobalMaxPooling |
| DistilBERT | 96,6% | 3 époques, lr=2e-5, warmup scheduler |
Détails du fine-tuning BERT
- ▸Modèle : DistilBERT-base-uncased
- ▸Batch : 32, 3 époques, scheduler de warmup linéaire
- ▸AdamW avec weight decay
- ▸Convergence : rapide — la majorité des gains se fait à l'époque 1
Points clés
- ▸Le ML classique (85%) est compétitif avec LSTM/CNN (87–88%) à 100× moins de calcul
- ▸Les modèles deep learning plafonnent à 87–88% ; seule l'architecture transformer franchit la barre des 96,6%
- ▸Les embeddings contextuels préentraînés de DistilBERT gèrent l'argot et les abréviations Twitter que TF-IDF manque