كيف يعمل الذكاء الاصطناعي
يُدرَّب Snake بشبكة DQN (شبكة Q العميقة) — تعلّم معزّز. يتعلّم الوكيل دالة Q(الحالة، الفعل) التي تقدّر المكافأة المستقبلية لكل حركة، ثم يختار الفعل الأعلى قيمة.
الحالة والأفعال والمكافأة
- الحالة: الخطر في كل اتجاه، والاتجاه الحالي، واتجاه الطعام النسبي.
- الأفعال: انعطاف يسار، استقامة، انعطاف يمين.
- المكافأة: موجبة عند الأكل، سالبة عند الموت، مع مكافأة صغيرة عند الاقتراب من الطعام.
كيف يتعلّم
تُخزَّن الخبرات في ذاكرة إعادة وتُؤخذ كدفعات صغيرة. وتستكشف سياسة ε-greedy مبكراً ثم تستغل، وتثبّت شبكة هدف التحديثات.
ما تراه على الشاشة
يتحدث مخطط Q-value في كل إطار، فتشاهد ثقة الوكيل في كل فعل تتغيّر أثناء تعلّمه.