NLPIA Générative

Génération de Poésie — BERT / GPT-2 / T5 Fine-tuné

Fine-tuning de BERT, GPT-2 et T5 sur le corpus Poetry Foundation pour la génération créative de poèmes. 10 checkpoints sauvegardés. Analyse de diversité lexicale par poète. Beam search + sampling par température. Dashboard comparant les 3 architectures.

Voir sur Kaggle

3 (BERT/GPT-2/T5)

Models fine-tuned

Saved checkpoints

Beam + temperature

Generation approach

Prompt-based

T5 conditioning

Jeu de Données

Poetry Foundation : plus de 10 000 poèmes, diverses époques et styles

Approche

Fine-tuning BERT (LM masqué) + GPT-2 (causal) + T5 (seq2seq) sur le corpus Poetry Foundation

Stack Technique

PythonPyTorchHuggingFace TransformersGPT-2BERTT5Tokenizers

Mots-clés

GPT-2BERTT5Fine-tuningPoetryHuggingFaceBeam SearchLanguage Model

Visualisations5 Graphiques

Analyse Approfondie

Pipeline de génération de poésie multi-modèles fine-tunant trois architectures transformer sur le corpus Poetry Foundation.

Jeu de données — Poetry Foundation

▸Des centaines de poètes couvrant plusieurs époques et styles
▸Poèmes de longueur variable (50–500 tokens typiquement)
▸Prétraitement : tokens spéciaux [POEM_START] / [POEM_END], tokenizer par modèle

Trois Architectures Transformer Fine-tunées

Modèle	Type	Checkpoints	Approche
BERT	Encodeur (LM masqué)	3 (ép. 2103, 4206, 6309)	Prédiction de token masqué → génération par remplissage
GPT-2	Décodeur (LM causal)	3 (étape 500, 1000, 1206)	Génération auto-régressive gauche→droite
T5	Encodeur-Décodeur (seq2seq)	4 (étape 188–752)	Génération conditionnée par prompt

Les 10 checkpoints sauvegardés avec poids complets (model.safetensors), tokenizer et état d'entraînement.

Stratégies de Génération (GPT-2 / T5)

Stratégie	Style de Sortie
Décodage glouton	Déterministe, souvent répétitif
Beam search (k=4)	Plus cohérent, structuré
Sampling par température (T=0,7)	Créatif mais contrôlé
Sampling top-k (k=50)	Meilleur équilibre qualité + diversité

Analyse du Vocabulaire Distribution des fréquences de mots par poète — les poètes expérimentaux/modernistes montrent la plus haute diversité de tokens uniques. La diction formelle shakespearienne se concentre dans moins de tokens à haute fréquence.

Sorties Générées

▸Le fine-tuning GPT-2 produit les vers libres les plus fluides
▸La génération conditionnelle T5 gère mieux les prompts style/sujet
▸La génération masquée BERT est utile pour la satisfaction de contraintes poétiques
▸Température basse → mètre de style classique ; haute → imagerie surréaliste

Retour aux Projets Me Recruter