IA Pong — DQN en auto-jeu

Comment fonctionne l'IA

Pong utilise un DQN en auto-jeu. Deux agents s'affrontent ; chacun s'entraîne contre une copie figée de son adversaire, si bien que la difficulté augmente automatiquement.

État, actions, récompense

État : positions des raquettes et de la balle, vitesse de la balle.
Actions : monter, descendre ou rester.
Récompense : +1 si l'agent marque, -1 s'il encaisse.

Pourquoi l'auto-jeu

Contre un adversaire fixe, un agent peut surapprendre. L'auto-jeu crée un programme qui s'améliore sans cesse : chaque camp pousse l'autre à progresser.

Rester performant

Les réseaux sont initialisés avec une politique d'interception analytique (viser la position d'arrivée prévue de la balle) et ancrés sur elle pendant l'entraînement — un régularisateur qui permet le réglage fin sans l'oubli catastrophique qui fait s'effondrer les agents d'auto-jeu avec le temps.

Ce que vous voyez

Deux politiques apprises s'échangent la balle — aucune IA de raquette codée à la main, juste deux réseaux autodidactes qui gardent leur niveau.

Comment fonctionne l'IA

État, actions, récompense

Pourquoi l'auto-jeu

Rester performant

Ce que vous voyez

Besoin d'un ingénieur IA ou data scientist ?