Apprentissage par renforcement utilisant des reseaux de neurones avec des applications au controle moteur pdf

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE N oattribu ?e par la biblioth eque THE SE pour obtenir le grade de DOCTEUR DE L ? INPG Sp ?ecialit ?e Sciences Cognitives pr ?epar ?ee au Laboratoire Leibniz-IMAG dans le cadre de l ? Ecole Doctorale Ing ?enierie pour le Vivant Sant ?e Cognition Environnement pr ?esent ?ee et soutenue publiquement par M R ?emi Coulom le juin Titre Apprentissage par renforcement utilisant des r ?eseaux de neurones avec des applications au contr ole moteur Directeur de Th ese M Philippe Jorrand JURY M Jean Della Dora Pr ?esident M Kenji Doya Rapporteur M Manuel Samuelides Rapporteur M St ?ephane Canu Rapporteur M Philippe Jorrand Directeur de th ese Mme Mirta B Gordon Examinateur C CRemerciements Je remercie Monsieur Philippe Jorrand pour avoir ?et ?e mon directeur de th ese Je remercie les membres du jury Mme Mirta Gordon Messieurs Kenji Doya Manuel Samuelides St ?ephane Canu et Jean Della Dora pour avoir accept ?e d ? ?evaluer mon travail et pour leurs remarques pertinentes qui ont permis d ? am ?eliorer ce texte Je remercie les chercheurs du laboratoire Leibniz pour leur accueil en particulier son directeur Monsieur Nicolas Balache ? et les membres des ?equipes ??Apprentissage et Cognition ? et ??R ?eseaux de Neurones ? Messieurs Gilles Bisson Daniel Memmi et Bernard Amy ainsi que tous les ?etudiants avec lesquels j ? ai travaill ?e Je remercie en ?n le responsable de la Formation Doctorale en Sciences Cognitives Monsieur Pierre Escudier pour ses conseils C CTable des mati eres R ?esum ?e Summary in French Introduction Contexte Apprentissage par renforcement et r ?eseaux de neurones R ?esum ?e et contributions Plan de la th ese Th ?eorie Exp ?eriences Conclusion Introduction Introduction Background Reinforcement Learning using Neural Networks Summary and Contributions Outline I Theory Dynamic Programming Discrete Problems Finite Discrete Deterministic Decision Processes Example Value Iteration Policy Evaluation Policy Iteration Continuous Problems Problem De ?nition CTABLE DES MATIE RES Example Problem Discretization Pendulum Swing-Up The Curse of Dimensionality Arti ?cial Neural Networks Function Approximators De ?nition Generalization Learning Gradient Descent Steepest Descent E ?cient Algorithms Batch vs Incremental Learning Some Approximation Schemes Linear Function Approximators Feedforward Neural Networks Continuous Neuro-Dynamic Programming Value Iteration Value-Gradient Algorithms Residual-Gradient Algorithms Continuous Residual-Gradient Algorithms Temporal Di ?erence Methods Discrete TD ? TD ? with Function Approximators Continuous TD ? Back to Grid-Based Estimators Summary Continuous TD ? in Practice Finding the Greedy Control Numerical Integration Method Dealing with Discontinuous Control Integrating Variables Separately State Discontinuities Summary E ?cient Gradient Descent Principle Algorithm Results CTABLE DES MATIE RES Comparison with Second-Order Methods Summary II Experiments Classical Problems Pendulum Swing-up Cart-Pole Swing-up Acrobot Summary Robot Auto Racing Simulator Problem Description Model Techniques Used by Existing Drivers Direct Application of TD ? Using Features to Improve Learning Conclusion Swimmers Problem Description Experiment Results Summary Conclusion Conclusion Appendices A Backpropagation A Notations A Feedforward Neural Networks A The ? ? Notation A Computing ? E ? ? w A

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager