Tous les Projets
Apprentissage par Renforcement

Jeux Avancés — Deep RL

Double Dueling DQN + PER (SumTree). CartPole-v1 résolu à l'épisode 300 (MA-100=441,1, meilleure éval 497,2/500). LunarLander-v3 résolu à l'épisode 207 (MA-100=202). Réseau de 134 275 paramètres avec LayerNorm.

Episode 300
CartPole solved
497.2 / 500
CartPole best eval
Episode 207
LunarLander solved
134,275
Network params
Jeu de Données

CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)

Approche

Double + Dueling DQN + PER SumTree + mises à jour douces des cibles — les 4 améliorations

Stack Technique
PythonPyTorch 2.10Gymnasium 1.2.0CUDANumPy
Mots-clés
Double DQNDueling DQNPERSumTreeCartPoleLunarLanderGymnasium
Visualisations6 Graphiques
Analyse Approfondie

Deep Q-Network à la pointe combinant les 4 améliorations DRL modernes.

Architecture Dueling DQN (134 275 paramètres)

Entrée → Linear(256) → LayerNorm → ReLU
→ Flux valeur :     Linear(256→128) → ReLU → Linear(128→1)      = V(s)
→ Flux avantage : Linear(256→128) → ReLU → Linear(128→n_act)  = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − moyenne(A(s,a)))

4 Techniques Combinées

TechniqueCe qu'elle corrige
Double DQNBiais de surestimation des Q-cibles
Dueling DQNEstimation séparée V(s) et A(s,a)
PER (SumTree)Échantillonner plus souvent les transitions à fort TD-error
Mises à jour douces τ=0,005Convergence stable des Q-cibles

Résultats

EnvironnementMétriqueValeur
CartPole-v1Résolu à l'épisode300
CartPole-v1Récompense MA-100441,1 / 500
CartPole-v1Meilleure éval (20 ep)497,2 ± 12,2
LunarLander-v3Résolu à l'épisode207
LunarLander-v3Récompense MA-100202 (seuil : 200)

PER SumTree Arbre binaire de segments : échantillonnage et mises à jour de priorité en O(log n). β passe de 0,4 à 1,0 pendant l'entraînement pour corriger le biais d'importance-sampling.

Hyperparamètres lr=1e-4, γ=0,99, τ=0,005, buffer=100K, batch=64, ε : 1,0→0,01