Comment fonctionne l'IA
Snake est entraîné avec un DQN (Deep Q-Network) — apprentissage par renforcement. L'agent apprend une fonction Q(état, action) qui estime la récompense future de chaque coup, puis choisit l'action de plus grande valeur.
État, actions, récompense
- État : danger dans chaque direction, cap actuel et direction relative de la nourriture.
- Actions : tourner à gauche, tout droit, tourner à droite.
- Récompense : positive en mangeant, négative en mourant, avec un léger bonus quand l'agent s'approche de la nourriture.
Comment il apprend
Les expériences sont stockées dans un replay buffer et échantillonnées par mini-lots. Une politique ε-greedy explore puis exploite, et un réseau cible stabilise les mises à jour.
Ce que vous voyez
Le graphique Q-value se met à jour à chaque image : on observe la confiance de l'agent évoluer à mesure qu'il apprend.