Comment fonctionne l'IA
Le Casse-Briques est entraîné avec un DQN. L'agent déplace la raquette pour garder la balle et casser les briques, en apprenant les Q-values par l'expérience.
État, actions, récompense
- État : position de la raquette, position et vitesse de la balle.
- Actions : gauche, droite ou rester.
- Récompense : positive en cassant des briques, négative en perdant la balle.
Exploration vs exploitation
Une politique ε-greedy démarre quasi aléatoire (ε élevé) puis exploite la politique apprise à mesure que ε décroît.
Ce que vous voyez
La courbe epsilon et les barres Q-value montrent le passage de l'exploration à l'exploitation.