IA Casse-Briques — DQN ε-greedy

Comment fonctionne l'IA

Le Casse-Briques est entraîné avec un DQN. L'agent déplace la raquette pour garder la balle et casser les briques, en apprenant les Q-values par l'expérience.

État, actions, récompense

État : position de la raquette, position et vitesse de la balle.
Actions : gauche, droite ou rester.
Récompense : positive en cassant des briques, négative en perdant la balle.

Exploration vs exploitation

Une politique ε-greedy démarre quasi aléatoire (ε élevé) puis exploite la politique apprise à mesure que ε décroît.

Ce que vous voyez

La courbe epsilon et les barres Q-value montrent le passage de l'exploration à l'exploitation.

Comment fonctionne l'IA

État, actions, récompense

Exploration vs exploitation

Ce que vous voyez

Besoin d'un ingénieur IA ou data scientist ?