كل المشاريع
تعلم تعزيزي
ألعاب متقدمة — التعلم التعزيزي العميق
Double Dueling DQN + PER (SumTree). CartPole-v1 محلول في الحلقة 300 (MA-100=441.1، أفضل تقييم 497.2/500). LunarLander-v3 محلول في الحلقة 207 (MA-100=202). شبكة بـ 134,275 معامل مع LayerNorm.
Episode 300
CartPole solved
497.2 / 500
CartPole best eval
Episode 207
LunarLander solved
134,275
Network params
مجموعة البيانات
CartPole-v1 + LunarLander-v3 (OpenAI Gymnasium)
المنهجية
Double + Dueling DQN + PER SumTree + تحديثات ناعمة للأهداف — جميع التحسينات الأربعة
المكدس التقني
PythonPyTorch 2.10Gymnasium 1.2.0CUDANumPy
الكلمات المفتاحية
Double DQNDueling DQNPERSumTreeCartPoleLunarLanderGymnasium
المرئيات6 مخططات
التعمق
شبكة Q العميقة المتقدمة الجامعة لجميع التحسينات الأربعة الحديثة لـ DRL.
بنية Dueling DQN (134,275 معامل)
مدخل → Linear(256) → LayerNorm → ReLU
→ تدفق القيمة: Linear(256→128) → ReLU → Linear(128→1) = V(s)
→ تدفق الميزة: Linear(256→128) → ReLU → Linear(128→n_act) = A(s,a)
→ Q(s,a) = V(s) + (A(s,a) − متوسط(A(s,a)))
التقنيات الأربع المدمجة
| التقنية | ما تُصلحه |
|---|---|
| Double DQN | تحيز المبالغة في تقدير Q-target |
| Dueling DQN | تقدير منفصل لـ V(s) و A(s,a) |
| PER (SumTree) | أخذ عينات من الانتقالات عالية TD-error أكثر |
| تحديثات ناعمة τ=0.005 | تقارب مستقر لـ Q-target |
النتائج
| البيئة | المقياس | القيمة |
|---|---|---|
| CartPole-v1 | حُلَّ في الحلقة | 300 |
| CartPole-v1 | MA-100 | 441.1 / 500 |
| CartPole-v1 | أفضل تقييم | 497.2 ± 12.2 |
| LunarLander-v3 | حُلَّ في الحلقة | 207 |
| LunarLander-v3 | MA-100 | 202 (عتبة: 200) |
PER SumTree شجرة مقاطع ثنائية: أخذ عينات وتحديثات الأولوية بـ O(log n). β تنتقل من 0.4 إلى 1.0 خلال التدريب.
المعاملات الفائقة lr=1e-4، γ=0.99، τ=0.005، buffer=100K، batch=64، ε: 1.0→0.01