Traduction Automatique Neuronale Anglais → Français
NMT économe en mémoire sur un dataset de 6 Go sans crash RAM. Seq2Seq personnalisé + fine-tuning HuggingFace mBART/Helsinki-NLP. Correction de 5 bugs critiques en amont (GradientTape, overflow tokenizer, API dépréciée).
Corpus parallèle anglais-français de 6 Go
Chargement fragmenté économe en mémoire + Seq2Seq de base personnalisé + fine-tuning HuggingFace préentraîné
NMT économe en mémoire qui gère un corpus parallèle de 6 Go dans la limite de 33 Go RAM de Kaggle sans crash.
Stratégie mémoire Lecture fragmentée → échantillonnage → suppression des données brutes → entraînement sur sous-ensemble → purge entre les modèles.
5 bugs critiques corrigés
| Bug | Cause racine | Correctif appliqué |
|---|---|---|
| Crash gradients nuls | GradientTape consommé deux fois | Restructurer la portée tape |
| TypeError à l'appel | Encoder/Decoder.call() manque l'argument training= | Ajouter le kwarg explicite |
| AttributeError | as_target_tokenizer() supprimé dans transformers≥4.36 | Utiliser l'API context manager |
| Argument déprécié | evaluation_strategy renommé eval_strategy | Mettre à jour le nom |
| Débordement entier | tableau int16 dans le tokenizer dépassait la valeur max | Convertir en int32 |
Modèles implémentés
| Modèle | Framework | Approche |
|---|---|---|
| Seq2Seq personnalisé | TF 2.19 | LSTM encodeur-décodeur + attention Bahdanau |
| mBART | PyTorch 2.9 | Fine-tuning facebook/mbart-large-cc25 |
| Helsinki-NLP | PyTorch 2.9 | Fine-tuning opus-mt-en-fr |
| MarianMT | PyTorch 2.9 | Stratégie MarianMT alternative |
Point clé Les modèles multilingues préentraînés (mBART entraîné sur 25 langues) surpassent largement le Seq2Seq from scratch. Le baseline LSTM valide l'architecture du pipeline ; les modèles préentraînés montrent l'écart dû au transfer learning.