G. Dreyfus, J.-M. Martinez, M. Samuelides M. B. Gordon, F. Badran, S. Thiria So
G. Dreyfus, J.-M. Martinez, M. Samuelides M. B. Gordon, F. Badran, S. Thiria Sous la direction de Gérard Dreyfus Apprentissage statistique © Groupe Eyrolles, 2002, 2004, 2008, ISBN : 978-2-212-12229-9 1 L’apprentissage statistique : pourquoi, comment ? Introduction Une des tâches essentielles du cerveau consiste à transformer des informations en connaissances : identi- fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des activités qui nous paraissent naturelles une fois l’apprentissage nécessaire accompli avec succès. L’objectif de l’apprentissage statistique est d’imiter, à l’aide d’algorithmes exécutés par des ordinateurs, la capacité qu’ont les êtres vivants à apprendre par l’exemple. Ainsi, pour apprendre à un enfant la lecture des lettres ou des chiffres, on lui présente des exemples de ceux-ci, écrits dans des styles et avec des polices différents. On ne fournit généralement pas à l’enfant une description analytique et discursive de la forme et de la topologie des caractères : on se contente de lui montrer des exemples. À la fin de l’appren- tissage, on attend de l’enfant qu’il soit capable de lire non seulement tous les chiffres et lettres qui lui ont été présentés durant son apprentissage, mais également tous les chiffres et lettres qu’il est susceptible de rencontrer : en d’autres termes, on attend de lui qu’il ait une capacité de généralisation à partir des exem- ples qui lui ont été présentés. De même, à l’issue de l’apprentissage d’un modèle statistique à partir d’exemples, celui-ci doit être capable de généraliser, c’est-à-dire de fournir un résultat correct, dans des situations qu’il n’a pas connues pendant l’apprentissage. Considérons deux exemples simples de tâches qui peuvent être accomplies par apprentissage artificiel : • Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres éléments de l’adresse des lettres et paquets, est fréquemment effectuée à l’aide de modèles obtenus par apprentissage statistique, à partir d’exemples de chacune des classes de chiffres. Il s’agit là d’un problème de classification : chaque chiffre inconnu doit être attribué à une classe parmi les 10 classes de chiffres possibles (ou être attribué à une classe dite « de rejet » si le chiffre est trop mal écrit pour être reconnu par la machine : l’objet postal doit alors être traité manuellement). • Dans l’industrie pharmaceutique, on cherche à prédire l’activité thérapeutique d’une molécule à partir de sa structure, avant même de synthétiser cette molécule, afin d’éviter qu’une synthèse coûteuse risque de se révéler finalement inutile. Cette prédiction est fréquemment effectuée par des modèles, construits par apprentissage statistique, à partir de bases de données de molécules dont les activités thérapeutiques sont connues. Ces deux problèmes, quoique très différents, ont une caractéristique commune essentielle : ils ne peuvent pas être résolus par l’application de connaissances existant a priori. Il n’existe pas d’équation mathéma- tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prédire précisément l’activité d’une molécule connaissant sa structure ; de même, il n’existe pas d’équation qui décrive les propriétés topologiques des chiffres manuscrits. C’est dans de telles conditions que le recours à l’appren- L’apprentissage statistique 2 tissage statistique à partir d’exemples se révèle très fructueux. Nous présenterons bien d’autres exemples d’applications dans ce chapitre et les suivants. Cet ouvrage présente trois grandes familles de modèles statistiques obtenus par apprentissage artificiel – les réseaux de neurones, les machines à vecteur supports et les cartes auto-adaptatives – qui connaissent un grand succès, depuis plusieurs années ; ils font l’objet de très nombreuses applications. L’objectif de ce chapitre est de présenter les bases de la conception d’un modèle par apprentissage, de manière aussi intuitive que possible, mais avec la rigueur nécessaire pour une mise en œuvre raisonnable et l’obtention de résultats fiables. On présente tout d’abord un exemple très élémentaire de modélisation par apprentissage, qui montre la dualité entre l’approche algorithmique, traditionnelle en apprentissage, d’une part, et l’approche statistique, qui en est devenue indissociable, d’autre part. La notion fondamen- tale étant celle de modèle, on présente ensuite quelques définitions qui précisent ce que l’on entend par modèle dans cet ouvrage ; on introduit notamment la distinction entre modèles linéaires et modèles non linéaires en les paramètres, ainsi que la distinction entre modèles statiques et modèles dynamiques. La section suivante décrit deux problèmes académiques d’apprentissage, l’un dans le domaine de la classifi- cation, l’autre dans celui de la prédiction ; ces exemples simples permettent de mettre en évidence le dilemme biais-variance, qui constitue un problème central pour la pratique de l’apprentissage statistique. On présente ensuite, de manière plus formelle, les éléments de la théorie de l’apprentissage : fonction de perte, erreur de prédiction théorique, classifieur de Bayes, dilemme biais-variance. Il s’agit là essentielle- ment de résultats asymptotiques, valables dans l’hypothèse où le nombre d’exemples est infini. La cinquième section est plus proche de la pratique, en ce sens que les résultats qui y sont présentés tiennent compte du fait que les données sont en nombre fini : ce sont les bornes sur l’erreur de prédiction, fournies par la théorie de V. Vapnik. Les quatre sections suivantes sont de nature entièrement pratique : elles expo- sent les différentes tâches à accomplir pour concevoir un modèle par apprentissage – collecte des données, prétraitements, sélection des variables, apprentissage, sélection de modèles. Ces deux dernières tâches font l’objet de deux sections suivies d’un résumé de la stratégie de conception de modèles. On présente ensuite a conception des modèles les plus simples : les modèles linéaires en leurs paramètres. Enfin, la dernière section du chapitre fournit les éléments de statistiques nécessaires à une bonne compréhension de la mise en œuvre des méthodes décrites tout au long de l’ouvrage. Premier exemple : un problème élémentaire d’apprentissage statistique Comme indiqué plus haut, l’objectif de l’apprentissage statistique est de réaliser, à partir d’exemples, un modèle prédictif d’une grandeur numérique, de nature quelconque (physique, chimique, biologique, financière, sociologique, etc.). La démarche de conception d’un modèle par apprentissage nécessite de postuler une fonction, dont les variables (également appelées facteurs) sont susceptibles d’avoir une influence sur la grandeur à modéliser ; on choisit cette fonction parce que l’on pense qu’elle est susceptible • d’apprendre les données existantes, c’est-à-dire de les reproduire le mieux possible, • de généraliser, c’est-à-dire de prédire le comportement de la grandeur à modéliser dans des circons- tances qui ne font pas partie des données d’apprentissage. Cette fonction dépend de paramètres ajustables : l’apprentissage artificiel consiste en l’ajustement de ces paramètres de telle manière que le modèle ainsi obtenu présente les qualités requises d’apprentissage et de généralisation. L’apprentissage statistique : pourquoi, comment ? CHAPITRE 1 3 Dans cet ouvrage, toutes les variables seront regroupées en un vecteur noté x, et tous les paramètres en un vecteur noté w. Un modèle statique sera désigné par g(x, w) : après apprentissage, c’est-à-dire estimation des paramètres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs x, constitue la prédiction effectuée par le modèle. Les modèles dynamiques seront définis dans la section suivante, intitulée « Quelques définitions concernant les modèles ». À titre d’exemple très simple de modèle statique, supposons que l’on ait effectué N mesures (p1, p2, …, pN) du poids d’un objet, avec des balances et dans des lieux différents. Nous cherchons à estimer le poids de cet objet. Nous observons que les résultats des mesures sont tous à peu près identiques, à des fluctua- tions près qui peuvent être dues à l’imprécision des mesures, aux réglages différents des balances, ou à des variations locales de l’accélération de la pesanteur. On peut donc supposer raisonnablement que la masse de l’objet est constante ; en conséquence, la première étape de conception d’un modèle prédictif consiste à postuler un modèle de la forme , où w est un paramètre constant dont la valeur est l’estimation du poids de l’objet. La deuxième étape consiste à estimer la valeur de w à partir des mesures disponibles : c’est ce qui constitue l’apprentissage proprement dit. Une fois l’apprentissage terminé, le modèle fournit une estimation du poids de l’objet, donc une prédic- tion du résultat de la mesure de celle-ci, quels que soient la balance utilisée et le lieu de la mesure. Cet exemple contient donc, sous une forme très simplifiée, les étapes que nous avons décrites plus haut : • On s’est fixé un objectif : prédire la valeur d’une grandeur ; dans cet exemple très simple, cette valeur est constante, mais, en général, la valeur prédite dépend de variables x. • On a postulé un modèle g(x, w), où x est le vecteur des variables du modèle, et w est le vecteur des para- mètres du modèle ; dans cet exemple, il n’y a pas de variable puisque la grandeur à prédire est constante, et il y a un seul paramètre w. Le modèle postulé est donc simplement la fonction constante g(x, w) = w. Il reste alors à estimer l’unique paramètre du modèle, c’est-à-dire à effectuer l’apprentissage du modèle à partir des données disponibles. Cet apprentissage peut être considéré sous uploads/Philosophie/ apprentissage-statistique-reseaux-de-neurones-cartes-topologiques-machines-a-vecteurs-supports-avec-chapitre1.pdf
Documents similaires










-
30
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 06, 2021
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 1.0475MB