كيف يعمل الذكاء الاصطناعي
يُدرَّب كسر الطوب بشبكة DQN. يحرّك الوكيل المضرب لإبقاء الكرة وكسر الطوب، متعلّماً قيم Q لكل فعل من الخبرة.
الحالة والأفعال والمكافأة
- الحالة: موضع المضرب، وموضع الكرة وسرعتها.
- الأفعال: يسار أو يمين أو البقاء.
- المكافأة: موجبة عند كسر الطوب، سالبة عند فقدان الكرة.
الاستكشاف مقابل الاستغلال
تبدأ سياسة ε-greedy شبه عشوائية (ε مرتفع) ثم تستغل السياسة المتعلَّمة مع تناقص ε.
ما تراه على الشاشة
يُظهر منحنى epsilon وأشرطة Q-value الانتقال من الاستكشاف إلى الاستغلال.