Tous les Projets
NLPEn Vedette

Traduction Automatique Neuronale Anglais → Français

NMT économe en mémoire sur un dataset de 6 Go sans crash RAM. Seq2Seq personnalisé + fine-tuning HuggingFace mBART/Helsinki-NLP. Correction de 5 bugs critiques en amont (GradientTape, overflow tokenizer, API dépréciée).

Jeu de Données

Corpus parallèle anglais-français de 6 Go

Approche

Chargement fragmenté économe en mémoire + Seq2Seq de base personnalisé + fine-tuning HuggingFace préentraîné

Stack Technique
PythonTensorFlow 2.19PyTorch 2.9HuggingFace Transformers 4.36+mBART
Mots-clés
Seq2SeqmBARTMarianMTHuggingFaceNMTTensorFlowPyTorch
Visualisations4 Graphiques
Analyse Approfondie

NMT économe en mémoire qui gère un corpus parallèle de 6 Go dans la limite de 33 Go RAM de Kaggle sans crash.

Stratégie mémoire Lecture fragmentée → échantillonnage → suppression des données brutes → entraînement sur sous-ensemble → purge entre les modèles.

5 bugs critiques corrigés

BugCause racineCorrectif appliqué
Crash gradients nulsGradientTape consommé deux foisRestructurer la portée tape
TypeError à l'appelEncoder/Decoder.call() manque l'argument training=Ajouter le kwarg explicite
AttributeErroras_target_tokenizer() supprimé dans transformers≥4.36Utiliser l'API context manager
Argument dépréciéevaluation_strategy renommé eval_strategyMettre à jour le nom
Débordement entiertableau int16 dans le tokenizer dépassait la valeur maxConvertir en int32

Modèles implémentés

ModèleFrameworkApproche
Seq2Seq personnaliséTF 2.19LSTM encodeur-décodeur + attention Bahdanau
mBARTPyTorch 2.9Fine-tuning facebook/mbart-large-cc25
Helsinki-NLPPyTorch 2.9Fine-tuning opus-mt-en-fr
MarianMTPyTorch 2.9Stratégie MarianMT alternative

Point clé Les modèles multilingues préentraînés (mBART entraîné sur 25 langues) surpassent largement le Seq2Seq from scratch. Le baseline LSTM valide l'architecture du pipeline ; les modèles préentraînés montrent l'écart dû au transfer learning.