Tous les Projets
NLPIA Générative

Génération de Poésie — BERT / GPT-2 / T5 Fine-tuné

Fine-tuning de BERT, GPT-2 et T5 sur le corpus Poetry Foundation pour la génération créative de poèmes. 10 checkpoints sauvegardés. Analyse de diversité lexicale par poète. Beam search + sampling par température. Dashboard comparant les 3 architectures.

3 (BERT/GPT-2/T5)
Models fine-tuned
10
Saved checkpoints
Beam + temperature
Generation approach
Prompt-based
T5 conditioning
Jeu de Données

Poetry Foundation : plus de 10 000 poèmes, diverses époques et styles

Approche

Fine-tuning BERT (LM masqué) + GPT-2 (causal) + T5 (seq2seq) sur le corpus Poetry Foundation

Stack Technique
PythonPyTorchHuggingFace TransformersGPT-2BERTT5Tokenizers
Mots-clés
GPT-2BERTT5Fine-tuningPoetryHuggingFaceBeam SearchLanguage Model
Visualisations5 Graphiques
Analyse Approfondie

Pipeline de génération de poésie multi-modèles fine-tunant trois architectures transformer sur le corpus Poetry Foundation.

Jeu de données — Poetry Foundation

  • Des centaines de poètes couvrant plusieurs époques et styles
  • Poèmes de longueur variable (50–500 tokens typiquement)
  • Prétraitement : tokens spéciaux [POEM_START] / [POEM_END], tokenizer par modèle

Trois Architectures Transformer Fine-tunées

ModèleTypeCheckpointsApproche
BERTEncodeur (LM masqué)3 (ép. 2103, 4206, 6309)Prédiction de token masqué → génération par remplissage
GPT-2Décodeur (LM causal)3 (étape 500, 1000, 1206)Génération auto-régressive gauche→droite
T5Encodeur-Décodeur (seq2seq)4 (étape 188–752)Génération conditionnée par prompt

Les 10 checkpoints sauvegardés avec poids complets (model.safetensors), tokenizer et état d'entraînement.

Stratégies de Génération (GPT-2 / T5)

StratégieStyle de Sortie
Décodage gloutonDéterministe, souvent répétitif
Beam search (k=4)Plus cohérent, structuré
Sampling par température (T=0,7)Créatif mais contrôlé
Sampling top-k (k=50)Meilleur équilibre qualité + diversité

Analyse du Vocabulaire Distribution des fréquences de mots par poète — les poètes expérimentaux/modernistes montrent la plus haute diversité de tokens uniques. La diction formelle shakespearienne se concentre dans moins de tokens à haute fréquence.

Sorties Générées

  • Le fine-tuning GPT-2 produit les vers libres les plus fluides
  • La génération conditionnelle T5 gère mieux les prompts style/sujet
  • La génération masquée BERT est utile pour la satisfaction de contraintes poétiques
  • Température basse → mètre de style classique ; haute → imagerie surréaliste