stage rl et jeu Apprentissage par renforcement et diversité des comportements appris par les agents interactifs Laboratoire d ? accueil laboratoire CEDRIC Conservatoire national des arts et métiers Paris e Durée du stage à mois démarrage entre mars et jui

Apprentissage par renforcement et diversité des comportements appris par les agents interactifs Laboratoire d ? accueil laboratoire CEDRIC Conservatoire national des arts et métiers Paris e Durée du stage à mois démarrage entre mars et juin Rémunération environ euros mois Encadrants Nicolas Audebert Guillaume Levieux Clément Rambour À gauche deux agents tentent de marquer un but contre un troisième qui défend les cages À droite un agent tente de détruire un robot en tirant dessus Contexte Une force des médias interactifs est de générer des situations qui attisent la curiosité Un jeu vidéo est généralement plus apprécié s ? il propose une grande de variété des situations et parvient à surprendre les joueurs et joueuses les incitant à varier leurs stratégies de victoire Il est ainsi souhaitable de pouvoir évaluer si un environnement de jeu règles placement des obstacles comportements des adversaires est propice ou non à encourager des approches nouvelles Ce stage s ? intéresse à produire des comportements de jeux variés et à quanti ?er cette variété de sorte à comprendre comment modi ?er l ? environnement pour encourager de nouveaux comportements En parallèle une piste largement explorée dans la littérature consiste à exploiter l ? apprentissage par renforcement pour produire des agents virtuels capables d ? explorer et d ? interagir avec l ? environnement de jeu De tels agents servent généralement à simuler des adversaires intelligents ? mais peut aussi servir à simuler le comportement d ? un joueur virtuel Dans une phase de prototypage il devient alors envisageable d ? utiliser ces comportements simulés a ?n d ? obtenir des métriques de diversité des actions entreprises plutôt que de de devoir acquérir des données réelles Les récentes publications en machine learning tendent à montrer qu ? il est possible pour des agents d ? apprendre à jouer à de nombreux jeux allant de jeux simples et fortement contraints Space Invaders Breakout à des jeux à environnements ouverts et aux contrôles plus libres tels que des FPS Toutefois ces méthodes d ? apprentissages tendent à converger vers des solutions optimales souvent identiques Les agents présentent ainsi des comportements répétitifs brisant l ? illusion de réalité s ? ils doivent interagir avec un joueur humain Apprendre des comportements sous-optimaux mais plus variés demeure donc un dé ? important Objectifs L ? objectif central de ce stage est de construire une intelligence arti ?cielle capable de favoriser la diversité de l ? expérience du joueur en modi ?ant à la volée son environnement Ce stage se découpe en trois grandes étapes C Dé ?nir des métriques caractérisant la diversité des comportements d ? un joueur réel ou simulé en exploitant les historiques d ? actions sur di ?érentes parties Implémenter et comparer di ?érents algorithmes d ? apprentissage par renforcement dans deux environnements de jeux de référence Concevoir et implémenter des variantes de ces algorithmes produisant des agents aux stratégies diversi ?ées La plateforme expérimentale se basera sur Unity ML-Agents a ?n de créer des environnements de jeux

  • 22
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager