Tous les Projets
NLP

Analyse de Sentiment Twitter

Pipeline NLP de 6 modèles sur 74K tweets. DistilBERT atteint 96,6% de précision. LR+TF-IDF à 85%. LSTM/Bi-LSTM/CNN atteignent 87–88%. 4 classes : Positif, Négatif, Neutre, Non pertinent.

96.6%
DistilBERT Accuracy
85%
LR+TF-IDF Accuracy
87–88%
LSTM/CNN
6
Models tested
Jeu de Données

74 682 tweets Twitter, 4 classes de sentiment

Approche

ML classique → deep learning → fine-tuning transformeur sur sentiment Twitter

Stack Technique
PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK
Mots-clés
DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification
Visualisations6 Graphiques
Analyse Approfondie

Benchmark NLP de bout en bout sur le dataset Twitter Entity Sentiment.

Données

  • 74 682 tweets d'entraînement + 1 000 de validation, 4 classes de sentiment
  • Prétraitement : minuscules, suppression des URLs/mentions/hashtags, stopwords, lemmatisation

6 modèles comparés

ModèlePrécisionNotes
LR + BoW83%Baseline compteur de vecteurs
LR + TF-IDF85%Sublinear_tf, 50K features, bigrammes
LSTM87%Unités 128→64, SpatialDropout(0.2)
Bi-LSTM88%Bidirectionnel, embeddings 128-d
CNN (texte)88%Conv1D 256→128 + GlobalMaxPooling
DistilBERT96,6%3 époques, lr=2e-5, warmup scheduler

Détails du fine-tuning BERT

  • Modèle : DistilBERT-base-uncased
  • Batch : 32, 3 époques, scheduler de warmup linéaire
  • AdamW avec weight decay
  • Convergence : rapide — la majorité des gains se fait à l'époque 1

Points clés

  • Le ML classique (85%) est compétitif avec LSTM/CNN (87–88%) à 100× moins de calcul
  • Les modèles deep learning plafonnent à 87–88% ; seule l'architecture transformer franchit la barre des 96,6%
  • Les embeddings contextuels préentraînés de DistilBERT gèrent l'argot et les abréviations Twitter que TF-IDF manque