Jeux Avancés — Deep RL
Double Dueling DQN + PER (SumTree). CartPole-v1 résolu à l'épisode 300 (MA-100=441,1, meilleure éval 497,2/500). LunarLander-v3 résolu à l'épisode 207 (MA-100=202). Réseau de 134 275 paramètres avec LayerNorm.
CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)
Double + Dueling DQN + PER SumTree + mises à jour douces des cibles — les 4 améliorations
Deep Q-Network à la pointe combinant les 4 améliorations DRL modernes.
Architecture Dueling DQN (134 275 paramètres)
Entrée → Linear(256) → LayerNorm → ReLU
→ Flux valeur : Linear(256→128) → ReLU → Linear(128→1) = V(s)
→ Flux avantage : Linear(256→128) → ReLU → Linear(128→n_act) = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − moyenne(A(s,a)))
4 Techniques Combinées
| Technique | Ce qu'elle corrige |
|---|---|
| Double DQN | Biais de surestimation des Q-cibles |
| Dueling DQN | Estimation séparée V(s) et A(s,a) |
| PER (SumTree) | Échantillonner plus souvent les transitions à fort TD-error |
| Mises à jour douces τ=0,005 | Convergence stable des Q-cibles |
Résultats
| Environnement | Métrique | Valeur |
|---|---|---|
| CartPole-v1 | Résolu à l'épisode | 300 |
| CartPole-v1 | Récompense MA-100 | 441,1 / 500 |
| CartPole-v1 | Meilleure éval (20 ep) | 497,2 ± 12,2 |
| LunarLander-v3 | Résolu à l'épisode | 207 |
| LunarLander-v3 | Récompense MA-100 | 202 (seuil : 200) |
PER SumTree Arbre binaire de segments : échantillonnage et mises à jour de priorité en O(log n). β passe de 0,4 à 1,0 pendant l'entraînement pour corriger le biais d'importance-sampling.
Hyperparamètres lr=1e-4, γ=0,99, τ=0,005, buffer=100K, batch=64, ε : 1,0→0,01