NLPEn Vedette

Traduction Automatique Neuronale Anglais → Français

NMT économe en mémoire sur un dataset de 6 Go sans crash RAM. Seq2Seq personnalisé + fine-tuning HuggingFace mBART/Helsinki-NLP. Correction de 5 bugs critiques en amont (GradientTape, overflow tokenizer, API dépréciée).

Voir sur Kaggle

Jeu de Données

Corpus parallèle anglais-français de 6 Go

Approche

Chargement fragmenté économe en mémoire + Seq2Seq de base personnalisé + fine-tuning HuggingFace préentraîné

Stack Technique

PythonTensorFlow 2.19PyTorch 2.9HuggingFace Transformers 4.36+mBART

Mots-clés

Seq2SeqmBARTMarianMTHuggingFaceNMTTensorFlowPyTorch

Visualisations4 Graphiques

Analyse Approfondie

NMT économe en mémoire qui gère un corpus parallèle de 6 Go dans la limite de 33 Go RAM de Kaggle sans crash.

Stratégie mémoire Lecture fragmentée → échantillonnage → suppression des données brutes → entraînement sur sous-ensemble → purge entre les modèles.

5 bugs critiques corrigés

Bug	Cause racine	Correctif appliqué
Crash gradients nuls	GradientTape consommé deux fois	Restructurer la portée tape
TypeError à l'appel	Encoder/Decoder.call() manque l'argument training=	Ajouter le kwarg explicite
AttributeError	as_target_tokenizer() supprimé dans transformers≥4.36	Utiliser l'API context manager
Argument déprécié	evaluation_strategy renommé eval_strategy	Mettre à jour le nom
Débordement entier	tableau int16 dans le tokenizer dépassait la valeur max	Convertir en int32

Modèles implémentés

Modèle	Framework	Approche
Seq2Seq personnalisé	TF 2.19	LSTM encodeur-décodeur + attention Bahdanau
mBART	PyTorch 2.9	Fine-tuning facebook/mbart-large-cc25
Helsinki-NLP	PyTorch 2.9	Fine-tuning opus-mt-en-fr
MarianMT	PyTorch 2.9	Stratégie MarianMT alternative

Point clé Les modèles multilingues préentraînés (mBART entraîné sur 25 langues) surpassent largement le Seq2Seq from scratch. Le baseline LSTM valide l'architecture du pipeline ; les modèles préentraînés montrent l'écart dû au transfer learning.

Retour aux Projets Me Recruter