تعلم تعزيزي

ألعاب متقدمة — التعلم التعزيزي العميق

Double Dueling DQN + PER (SumTree). CartPole-v1 محلول في الحلقة 300 (MA-100=441.1، أفضل تقييم 497.2/500). LunarLander-v3 محلول في الحلقة 207 (MA-100=202). شبكة بـ 134,275 معامل مع LayerNorm.

عرض على كاغل

Episode 300

CartPole solved

497.2 / 500

CartPole best eval

Episode 207

LunarLander solved

134,275

Network params

مجموعة البيانات

CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)

المنهجية

Double + Dueling DQN + PER SumTree + تحديثات ناعمة للأهداف — جميع التحسينات الأربعة

المكدس التقني

PythonPyTorch 2.10Gymnasium 1.2.0CUDANumPy

الكلمات المفتاحية

Double DQNDueling DQNPERSumTreeCartPoleLunarLanderGymnasium

المرئيات6 مخططات

التعمق

شبكة Q العميقة المتقدمة الجامعة لجميع التحسينات الأربعة الحديثة لـ DRL.

بنية Dueling DQN (134,275 معامل)

مدخل → Linear(256) → LayerNorm → ReLU
→ تدفق القيمة:    Linear(256→128) → ReLU → Linear(128→1)      = V(s)
→ تدفق الميزة: Linear(256→128) → ReLU → Linear(128→n_act)  = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − متوسط(A(s,a)))

التقنيات الأربع المدمجة

التقنية	ما تُصلحه
Double DQN	تحيز المبالغة في تقدير Q-target
Dueling DQN	تقدير منفصل لـ V(s) و A(s,a)
PER (SumTree)	أخذ عينات من الانتقالات عالية TD-error أكثر
تحديثات ناعمة τ=0.005	تقارب مستقر لـ Q-target

النتائج

البيئة	المقياس	القيمة
CartPole-v1	حُلَّ في الحلقة	300
CartPole-v1	MA-100	441.1 / 500
CartPole-v1	أفضل تقييم	497.2 ± 12.2
LunarLander-v3	حُلَّ في الحلقة	207
LunarLander-v3	MA-100	202 (عتبة: 200)

PER SumTree شجرة مقاطع ثنائية: أخذ عينات وتحديثات الأولوية بـ O(log n). β تنتقل من 0.4 إلى 1.0 خلال التدريب.

المعاملات الفائقة lr=1e-4، γ=0.99، τ=0.005، buffer=100K، batch=64، ε: 1.0→0.01

العودة إلى المشاريع توظيفي