ذكاء Pong — DQN باللعب الذاتي

كيف يعمل الذكاء الاصطناعي

يستخدم Pong شبكة DQN مع اللعب الذاتي. يتنافس وكيلان؛ يتدرّب كل منهما ضد نسخة مجمّدة من خصمه، فترتفع الصعوبة تلقائياً.

الحالة والأفعال والمكافأة

الحالة: مواضع المضارب والكرة وسرعة الكرة.
الأفعال: تحريك المضرب لأعلى أو لأسفل أو البقاء.
المكافأة: +1 عند التسجيل، -1 عند استقبال هدف.

لماذا اللعب الذاتي

أمام خصم ثابت قد يبالغ الوكيل في الملاءمة. أما اللعب الذاتي فيخلق منهجاً يتحسّن باستمرار: كلما تحسّن طرف دفع الآخر للتحسّن.

البقاء بارعاً

تُهيَّأ الشبكتان بسياسة اعتراض تحليلية (استهداف موضع وصول الكرة المتوقَّع) وتُثبَّتان عليها أثناء التدريب — منظِّم يسمح بالضبط الدقيق دون النسيان الكارثي الذي يجعل وكلاء اللعب الذاتي ينهارون مع الوقت.

ما تراه على الشاشة

تشاهد سياستين متعلّمتين تتبادلان الكرة — دون أي ذكاء مبرمج يدوياً، فقط شبكتان علّمتا نفسيهما وتحافظان على مستواهما.

كيف يعمل الذكاء الاصطناعي

الحالة والأفعال والمكافأة

لماذا اللعب الذاتي

البقاء بارعاً

ما تراه على الشاشة

تحتاج مهندس ذكاء اصطناعي أو عالم بيانات؟