Apprentissage par Renforcement

Jeux Avancés — Deep RL

Double Dueling DQN + PER (SumTree). CartPole-v1 résolu à l'épisode 300 (MA-100=441,1, meilleure éval 497,2/500). LunarLander-v3 résolu à l'épisode 207 (MA-100=202). Réseau de 134 275 paramètres avec LayerNorm.

Voir sur Kaggle

Episode 300

CartPole solved

497.2 / 500

CartPole best eval

Episode 207

LunarLander solved

134,275

Network params

Jeu de Données

CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)

Approche

Double + Dueling DQN + PER SumTree + mises à jour douces des cibles — les 4 améliorations

Stack Technique

PythonPyTorch 2.10Gymnasium 1.2.0CUDANumPy

Mots-clés

Double DQNDueling DQNPERSumTreeCartPoleLunarLanderGymnasium

Visualisations6 Graphiques

Analyse Approfondie

Deep Q-Network à la pointe combinant les 4 améliorations DRL modernes.

Architecture Dueling DQN (134 275 paramètres)

Entrée → Linear(256) → LayerNorm → ReLU
→ Flux valeur :     Linear(256→128) → ReLU → Linear(128→1)      = V(s)
→ Flux avantage : Linear(256→128) → ReLU → Linear(128→n_act)  = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − moyenne(A(s,a)))

4 Techniques Combinées

Technique	Ce qu'elle corrige
Double DQN	Biais de surestimation des Q-cibles
Dueling DQN	Estimation séparée V(s) et A(s,a)
PER (SumTree)	Échantillonner plus souvent les transitions à fort TD-error
Mises à jour douces τ=0,005	Convergence stable des Q-cibles

Résultats

Environnement	Métrique	Valeur
CartPole-v1	Résolu à l'épisode	300
CartPole-v1	Récompense MA-100	441,1 / 500
CartPole-v1	Meilleure éval (20 ep)	497,2 ± 12,2
LunarLander-v3	Résolu à l'épisode	207
LunarLander-v3	Récompense MA-100	202 (seuil : 200)

PER SumTree Arbre binaire de segments : échantillonnage et mises à jour de priorité en O(log n). β passe de 0,4 à 1,0 pendant l'entraînement pour corriger le biais d'importance-sampling.

Hyperparamètres lr=1e-4, γ=0,99, τ=0,005, buffer=100K, batch=64, ε : 1,0→0,01

Retour aux Projets Me Recruter