NLP

Analyse de Sentiment Twitter

Pipeline NLP de 6 modèles sur 74K tweets. DistilBERT atteint 96,6% de précision. LR+TF-IDF à 85%. LSTM/Bi-LSTM/CNN atteignent 87–88%. 4 classes : Positif, Négatif, Neutre, Non pertinent.

Voir sur Kaggle

96.6%

DistilBERT Accuracy

85%

LR+TF-IDF Accuracy

87–88%

LSTM/CNN

Models tested

Jeu de Données

74 682 tweets Twitter, 4 classes de sentiment

Approche

ML classique → deep learning → fine-tuning transformeur sur sentiment Twitter

Stack Technique

PythonScikit-learnTensorFlowHuggingFace DistilBERTNLTK

Mots-clés

DistilBERTLSTMBi-LSTMTF-IDFSentimentTwitterText Classification

Visualisations6 Graphiques

Analyse Approfondie

Benchmark NLP de bout en bout sur le dataset Twitter Entity Sentiment.

Données

▸74 682 tweets d'entraînement + 1 000 de validation, 4 classes de sentiment
▸Prétraitement : minuscules, suppression des URLs/mentions/hashtags, stopwords, lemmatisation

6 modèles comparés

Modèle	Précision	Notes
LR + BoW	83%	Baseline compteur de vecteurs
LR + TF-IDF	85%	Sublinear_tf, 50K features, bigrammes
LSTM	87%	Unités 128→64, SpatialDropout(0.2)
Bi-LSTM	88%	Bidirectionnel, embeddings 128-d
CNN (texte)	88%	Conv1D 256→128 + GlobalMaxPooling
DistilBERT	96,6%	3 époques, lr=2e-5, warmup scheduler

Détails du fine-tuning BERT

▸Modèle : DistilBERT-base-uncased
▸Batch : 32, 3 époques, scheduler de warmup linéaire
▸AdamW avec weight decay
▸Convergence : rapide — la majorité des gains se fait à l'époque 1

Points clés

▸Le ML classique (85%) est compétitif avec LSTM/CNN (87–88%) à 100× moins de calcul
▸Les modèles deep learning plafonnent à 87–88% ; seule l'architecture transformer franchit la barre des 96,6%
▸Les embeddings contextuels préentraînés de DistilBERT gèrent l'argot et les abréviations Twitter que TF-IDF manque

Retour aux Projets Me Recruter