Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE Noattribu´ e par la biblioth` eque

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE Noattribu´ e par la biblioth` eque TH` ESE pour obtenir le grade de DOCTEUR DE L’INPG Sp´ ecialit´ e : Sciences Cognitives pr´ epar´ ee au Laboratoire Leibniz-IMAG dans le cadre de l’Ecole Doctorale Ing´ enierie pour le Vivant : Sant´ e, Cognition, Environnement pr´ esent´ ee et soutenue publiquement par M. R´ emi Coulom le 19 juin 2002 Titre : Apprentissage par renforcement utilisant des r´ eseaux de neurones, avec des applications au contrˆ ole moteur Directeur de Th` ese : M. Philippe Jorrand JURY M. Jean Della Dora Pr´ esident M. Kenji Doya Rapporteur M. Manuel Samuelides Rapporteur M. St´ ephane Canu Rapporteur M. Philippe Jorrand Directeur de th` ese Mme. Mirta B. Gordon Examinateur Remerciements Je remercie Monsieur Philippe Jorrand pour avoir ´ et´ e mon directeur de th` ese. Je remercie les membres du jury, Mme Mirta Gordon, Messieurs Kenji Doya, Manuel Samuelides, St´ ephane Canu et Jean Della Dora pour avoir accept´ e d’´ evaluer mon travail, et pour leurs remarques pertinentes qui ont permis d’am´ eliorer ce texte. Je remercie les chercheurs du laboratoire Leibniz pour leur accueil, en particulier son directeur, Monsieur Nicolas Balacheﬀ, et les membres des ´ equipes “Apprentissage et Cognition” et “R´ eseaux de Neuro- nes”, Messieurs Gilles Bisson, Daniel Memmi et Bernard Amy, ainsi que tous les ´ etudiants avec lesquels j’ai travaill´ e. Je remercie enﬁn le responsable de la Formation Doctorale en Sciences Cognitives, Monsieur Pierre Escudier, pour ses conseils. Table des mati` eres R´ esum´ e (Summary in French) 9 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Apprentissage par renforcement et r´ eseaux de neurones . . . . 11 R´ esum´ e et contributions . . . . . . . . . . . . . . . . . . . . . 12 Plan de la th` ese . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Th´ eorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Exp´ eriences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Introduction 27 Introduction 27 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Reinforcement Learning using Neural Networks . . . . . . . . . . . 28 Summary and Contributions . . . . . . . . . . . . . . . . . . . . . . 30 Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 I Theory 33 1 Dynamic Programming 35 1.1 Discrete Problems . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.1.1 Finite Discrete Deterministic Decision Processes . . . . 35 1.1.2 Example . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.1.3 Value Iteration . . . . . . . . . . . . . . . . . . . . . . 37 1.1.4 Policy Evaluation . . . . . . . . . . . . . . . . . . . . . 41 1.1.5 Policy Iteration . . . . . . . . . . . . . . . . . . . . . . 41 1.2 Continuous Problems . . . . . . . . . . . . . . . . . . . . . . . 42 1.2.1 Problem Deﬁnition . . . . . . . . . . . . . . . . . . . . 42 5 TABLE DES MATI` ERES 1.2.2 Example . . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.2.3 Problem Discretization . . . . . . . . . . . . . . . . . . 45 1.2.4 Pendulum Swing-Up . . . . . . . . . . . . . . . . . . . 50 1.2.5 The Curse of Dimensionality . . . . . . . . . . . . . . . 51 2 Artiﬁcial Neural Networks 53 2.1 Function Approximators . . . . . . . . . . . . . . . . . . . . . 53 2.1.1 Deﬁnition . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.1.2 Generalization . . . . . . . . . . . . . . . . . . . . . . . 54 2.1.3 Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.2 Gradient Descent . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.2.1 Steepest Descent . . . . . . . . . . . . . . . . . . . . . 56 2.2.2 Eﬃcient Algorithms . . . . . . . . . . . . . . . . . . . 57 2.2.3 Batch vs. Incremental Learning . . . . . . . . . . . . . 59 2.3 Some Approximation Schemes . . . . . . . . . . . . . . . . . . 62 2.3.1 Linear Function Approximators . . . . . . . . . . . . . 62 2.3.2 Feedforward Neural Networks . . . . . . . . . . . . . . 64 3 Continuous Neuro-Dynamic Programming 67 3.1 Value Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.1.1 Value-Gradient Algorithms . . . . . . . . . . . . . . . . 67 3.1.2 Residual-Gradient Algorithms . . . . . . . . . . . . . . 69 3.1.3 Continuous Residual-Gradient Algorithms . . . . . . . 69 3.2 Temporal Diﬀerence Methods . . . . . . . . . . . . . . . . . . 72 3.2.1 Discrete TD(λ) . . . . . . . . . . . . . . . . . . . . . . 72 3.2.2 TD(λ) with Function Approximators . . . . . . . . . . 75 3.2.3 Continuous TD(λ) . . . . . . . . . . . . . . . . . . . . 76 3.2.4 Back to Grid-Based Estimators . . . . . . . . . . . . . 78 3.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4 Continuous TD(λ) in Practice 83 4.1 Finding the Greedy Control . . . . . . . . . . . . . . . . . . . 83 4.2 Numerical Integration Method . . . . . . . . . . . . . . . . . . 85 4.2.1 Dealing with Discontinuous Control . . . . . . . . . . . 85 4.2.2 Integrating Variables Separately . . . . . . . . . . . . uploads/Geographie/ apprentissage-par-renforcement-utilisant-des-reseaux-de-neurones-avec-des-applications-au-controle-moteur-pdf.pdf