Génération de Poésie — BERT / GPT-2 / T5 Fine-tuné
Fine-tuning de BERT, GPT-2 et T5 sur le corpus Poetry Foundation pour la génération créative de poèmes. 10 checkpoints sauvegardés. Analyse de diversité lexicale par poète. Beam search + sampling par température. Dashboard comparant les 3 architectures.
Poetry Foundation : plus de 10 000 poèmes, diverses époques et styles
Fine-tuning BERT (LM masqué) + GPT-2 (causal) + T5 (seq2seq) sur le corpus Poetry Foundation
Pipeline de génération de poésie multi-modèles fine-tunant trois architectures transformer sur le corpus Poetry Foundation.
Jeu de données — Poetry Foundation
- ▸Des centaines de poètes couvrant plusieurs époques et styles
- ▸Poèmes de longueur variable (50–500 tokens typiquement)
- ▸Prétraitement : tokens spéciaux [POEM_START] / [POEM_END], tokenizer par modèle
Trois Architectures Transformer Fine-tunées
| Modèle | Type | Checkpoints | Approche |
|---|---|---|---|
| BERT | Encodeur (LM masqué) | 3 (ép. 2103, 4206, 6309) | Prédiction de token masqué → génération par remplissage |
| GPT-2 | Décodeur (LM causal) | 3 (étape 500, 1000, 1206) | Génération auto-régressive gauche→droite |
| T5 | Encodeur-Décodeur (seq2seq) | 4 (étape 188–752) | Génération conditionnée par prompt |
Les 10 checkpoints sauvegardés avec poids complets (model.safetensors), tokenizer et état d'entraînement.
Stratégies de Génération (GPT-2 / T5)
| Stratégie | Style de Sortie |
|---|---|
| Décodage glouton | Déterministe, souvent répétitif |
| Beam search (k=4) | Plus cohérent, structuré |
| Sampling par température (T=0,7) | Créatif mais contrôlé |
| Sampling top-k (k=50) | Meilleur équilibre qualité + diversité |
Analyse du Vocabulaire Distribution des fréquences de mots par poète — les poètes expérimentaux/modernistes montrent la plus haute diversité de tokens uniques. La diction formelle shakespearienne se concentre dans moins de tokens à haute fréquence.
Sorties Générées
- ▸Le fine-tuning GPT-2 produit les vers libres les plus fluides
- ▸La génération conditionnelle T5 gère mieux les prompts style/sujet
- ▸La génération masquée BERT est utile pour la satisfaction de contraintes poétiques
- ▸Température basse → mètre de style classique ; haute → imagerie surréaliste