كل المشاريع
تعلم تعزيزي

ألعاب متقدمة — التعلم التعزيزي العميق

Double Dueling DQN + PER (SumTree). CartPole-v1 محلول في الحلقة 300 (MA-100=441.1، أفضل تقييم 497.2/500). LunarLander-v3 محلول في الحلقة 207 (MA-100=202). شبكة بـ 134,275 معامل مع LayerNorm.

Episode 300
CartPole solved
497.2 / 500
CartPole best eval
Episode 207
LunarLander solved
134,275
Network params
مجموعة البيانات

CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)

المنهجية

Double + Dueling DQN + PER SumTree + تحديثات ناعمة للأهداف — جميع التحسينات الأربعة

المكدس التقني
PythonPyTorch 2.10Gymnasium 1.2.0CUDANumPy
الكلمات المفتاحية
Double DQNDueling DQNPERSumTreeCartPoleLunarLanderGymnasium
المرئيات6 مخططات
التعمق

شبكة Q العميقة المتقدمة الجامعة لجميع التحسينات الأربعة الحديثة لـ DRL.

بنية Dueling DQN (134,275 معامل)

مدخل → Linear(256) → LayerNorm → ReLU
→ تدفق القيمة:    Linear(256→128) → ReLU → Linear(128→1)      = V(s)
→ تدفق الميزة: Linear(256→128) → ReLU → Linear(128→n_act)  = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − متوسط(A(s,a)))

التقنيات الأربع المدمجة

التقنيةما تُصلحه
Double DQNتحيز المبالغة في تقدير Q-target
Dueling DQNتقدير منفصل لـ V(s) و A(s,a)
PER (SumTree)أخذ عينات من الانتقالات عالية TD-error أكثر
تحديثات ناعمة τ=0.005تقارب مستقر لـ Q-target

النتائج

البيئةالمقياسالقيمة
CartPole-v1حُلَّ في الحلقة300
CartPole-v1MA-100441.1 / 500
CartPole-v1أفضل تقييم497.2 ± 12.2
LunarLander-v3حُلَّ في الحلقة207
LunarLander-v3MA-100202 (عتبة: 200)

PER SumTree شجرة مقاطع ثنائية: أخذ عينات وتحديثات الأولوية بـ O(log n). β تنتقل من 0.4 إلى 1.0 خلال التدريب.

المعاملات الفائقة lr=1e-4، γ=0.99، τ=0.005، buffer=100K، batch=64، ε: 1.0→0.01