كيف يعمل الذكاء الاصطناعي
يستخدم Pong شبكة DQN مع اللعب الذاتي. يتنافس وكيلان؛ يتدرّب كل منهما ضد نسخة مجمّدة من خصمه، فترتفع الصعوبة تلقائياً.
الحالة والأفعال والمكافأة
- الحالة: مواضع المضارب والكرة وسرعة الكرة.
- الأفعال: تحريك المضرب لأعلى أو لأسفل أو البقاء.
- المكافأة: +1 عند التسجيل، -1 عند استقبال هدف.
لماذا اللعب الذاتي
أمام خصم ثابت قد يبالغ الوكيل في الملاءمة. أما اللعب الذاتي فيخلق منهجاً يتحسّن باستمرار: كلما تحسّن طرف دفع الآخر للتحسّن.
ما تراه على الشاشة
تشاهد سياستين متعلّمتين تتبادلان الكرة — دون أي ذكاء مبرمج يدوياً، فقط شبكتان علّمتا نفسيهما.