Comment fonctionne l'IA
Pong utilise un DQN en auto-jeu. Deux agents s'affrontent ; chacun s'entraîne contre une copie figée de son adversaire, si bien que la difficulté augmente automatiquement.
État, actions, récompense
- État : positions des raquettes et de la balle, vitesse de la balle.
- Actions : monter, descendre ou rester.
- Récompense : +1 si l'agent marque, -1 s'il encaisse.
Pourquoi l'auto-jeu
Contre un adversaire fixe, un agent peut surapprendre. L'auto-jeu crée un programme qui s'améliore sans cesse : chaque camp pousse l'autre à progresser.
Ce que vous voyez
Deux politiques apprises s'échangent la balle — aucune IA de raquette codée à la main, juste deux réseaux autodidactes.