Apprentissage supervisé Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 Plan Intr

Apprentissage supervisé Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 Plan Introduction et modélisation mathématique Apprentissage supervisé Qualité d’un modèle Régression Régression linéaire Régularisation Non linéaire Discrimination Moindres carrés Analyse discriminante Maximisation de la marge Non linéaire Sélection de modèle 2 / 122 F. Rossi Plan Introduction et modélisation mathématique Apprentissage supervisé Qualité d’un modèle Régression Régression linéaire Régularisation Non linéaire Discrimination Moindres carrés Analyse discriminante Maximisation de la marge Non linéaire Sélection de modèle 3 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage automatique Définition informelle 1. observations d’un phénomène 2. construction d’un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement (sans intervention humaine) 4 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage automatique Définition informelle 1. observations d’un phénomène 2. construction d’un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement (sans intervention humaine) Modélisation mathématique : observations d’un phénomène ⇒des données zi ∈Z 4 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage automatique Définition informelle 1. observations d’un phénomène 2. construction d’un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement (sans intervention humaine) Modélisation mathématique : observations d’un phénomène ⇒des données zi ∈Z deux grandes catégories de données : 1. cas non supervisé : • pas de structure interne à z • classification, règles d’association, etc. 4 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage automatique Définition informelle 1. observations d’un phénomène 2. construction d’un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement (sans intervention humaine) Modélisation mathématique : observations d’un phénomène ⇒des données zi ∈Z deux grandes catégories de données : 1. cas non supervisé : • pas de structure interne à z • classification, règles d’association, etc. 2. cas supervisé : • z = (x, y) ∈X × Y • modélisation du lien entre x et y • pour faire des prévisions : connaissant x, on prédit y 4 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage supervisé discrimination/classement : • Y = {1, . . . , q} : q classes d’objets • prévision : placer une nouvelle observation x dans une des q classes • applications : diagnostic médical (malade/sain), reconnaissance de caractères, etc. 5 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage supervisé discrimination/classement : • Y = {1, . . . , q} : q classes d’objets • prévision : placer une nouvelle observation x dans une des q classes • applications : diagnostic médical (malade/sain), reconnaissance de caractères, etc. ranking/scoring : • apprendre un ordre sur un ensemble d’objets • prévision : donner des objets intéressants (grands au sens de l’ordre) ; dire si un objet est plus intéressant qu’un autre ; donne un score d’intérêt à un objet • Y = {0, 1} : 1 pour intéressant, 0 pour inintéressant • autres choix possibles pour Y (par ex. R ou tout ensemble ordonné) • applications : recherche d’informations (page rank de Google), suggestions (amazon, netflix) 5 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage supervisé régression : • Y = R ou Y = Rp • prévision : associer une valeur numérique à une nouvelle observation • applications : certaines formes de scoring (note d’un objet, d’un consommateur), prévisions de la valeur future d’une action, etc. 6 / 122 F. Rossi Introduction et modélisation mathématique Apprentissage supervisé régression : • Y = R ou Y = Rp • prévision : associer une valeur numérique à une nouvelle observation • applications : certaines formes de scoring (note d’un objet, d’un consommateur), prévisions de la valeur future d’une action, etc. sortie structurée : • Y est un ensemble structuré complexe : ensemble de fonctions, chaînes de caractères, arbres, graphes, etc. • prévision : associer un objet de l’ensemble complexe à une nouvelle observation • application : inférence grammaticale (associer un arbre de syntaxe à un texte), traduction automatique, etc. 6 / 122 F. Rossi Introduction et modélisation mathématique Vocabulaire x : variables explicatives (espace associé X) y : variable à expliquer (espace associé Y) un modèle g : une fonction de X dans Y g(x) est la prédiction/prévision du modèle pour l’entrée x l’ensemble des données à partir desquelles on construit le modèle est l’ensemble d’apprentissage collisions Français et Anglais : Français Anglais Classification Clustering Classement Classification ou ranking Discrimination Classification 7 / 122 F. Rossi Introduction et modélisation mathématique Buts buts principaux : • obtenir un « bon » modèle : la prévision obtenue est proche de la vraie valeur • obtenir rapidement un modèle rapide : temps de construction du modèle et temps nécessaire à l’obtention d’une prévision • pouvoir garantir les performances : avec une probabilité de 1 −r, la prévision sera bonne à ϵ près buts annexes : • obtenir un modèle compréhensible : comment le modèle prend il une décision ? • obtenir un modèle modifiable : pouvoir prendre en compte de nouvelles données, s’adapter à un environnement changeant, etc. 8 / 122 F. Rossi Introduction et modélisation mathématique Erreur de prédiction Qu’est-ce qu’une bonne prédiction ? on considère une observation z = (x, y) et une prédiction g(x) faite par un modèle la qualité de g(x) peut être mesurée par une dissimilarité l définie sur Y : l(g(x), y) doit être petit l est le critère d’erreur : • régression : • distances classiques sur Rp • en général ∥g(x) −y∥2 et parfois |g(x) −y| dans R pour les méthodes de régression dites robustes • discrimination : • décompte des erreurs : δg(x)̸=y • matrice des coûts de confusion : par ex. prédire g(x) = 1 alors que y = 0 peut être plus coûteux que prédire g(x) = 0 quand y = 1 (diagnostic médical) 9 / 122 F. Rossi Introduction et modélisation mathématique Erreur d’un modèle Qu’est-ce qu’un bon modèle ? Vision « naïve » : • données d’évaluation TM = (xi, yi)M i=1 • l est le critère d’erreur dans Y • l’erreur du modèle g est donnée par ˆ L(g; TM) = 1 M M X i=1 l(g(xi), yi) • erreur du modèle : moyenne des erreurs de prédiction • erreur empirique 10 / 122 F. Rossi Introduction et modélisation mathématique Erreur d’un modèle Qu’est-ce qu’un bon modèle ? Vision « naïve » : • données d’évaluation TM = (xi, yi)M i=1 • l est le critère d’erreur dans Y • l’erreur du modèle g est donnée par ˆ L(g; TM) = 1 M M X i=1 l(g(xi), yi) • erreur du modèle : moyenne des erreurs de prédiction • erreur empirique interprétation intuitive : • exigence raisonnable : ne pas se tromper en moyenne • la moyenne résume bien la dispersion des erreurs 10 / 122 F. Rossi Introduction et modélisation mathématique Erreur d’un modèle Qu’est-ce qu’un bon modèle ? modélisation statistique du processus : • on suppose que le phénomène étudié est engendré par une loi de probabilité P inconnue sur X × Y • chaque couple observé (x, y) est tiré aléatoirement selon P 11 / 122 F. Rossi Introduction et modélisation mathématique Erreur d’un modèle Qu’est-ce qu’un bon modèle ? modélisation statistique du processus : • on suppose que le phénomène étudié est engendré par une loi de probabilité P inconnue sur X × Y • chaque couple observé (x, y) est tiré aléatoirement selon P l’erreur du modèle g est donnée par L(g) = EP{l(g(x), y)} c.-à-d. l’espérance de l’erreur de prédiction sous la distribution des données 11 / 122 F. Rossi Introduction et modélisation mathématique Erreur d’un modèle Qu’est-ce qu’un bon modèle ? modélisation statistique du processus : • on suppose que le phénomène étudié est engendré par une loi de probabilité P inconnue sur X × Y • chaque couple observé (x, y) est tiré aléatoirement selon P l’erreur du modèle g est donnée par L(g) = EP{l(g(x), y)} c.-à-d. l’espérance de l’erreur de prédiction sous la distribution des données remarque : le calcul exact de L(g) est impossible car P est inconnue 11 / 122 F. Rossi Introduction et modélisation mathématique Justifications pourquoi de l’aléatoire ? • bruit dans les observations • données incomplètes • variabilité naturelle pourquoi une distribution P fixée ? • stationnarité • condition nécessaire à l’inférence : si un phénomène change constamment, on ne peut pas le prédire • extensions possibles aux variations lentes pourquoi l’espérance ? • naturelle dans un cadre statistique • pour s’affranchir de la variabilité des nouvelles observations 12 / 122 F. Rossi Introduction et modélisation mathématique Pratique vs statistique la loi des grands nombres dit que lim N→∞ 1 N N X i=1 Ui = E(U) quand les Ui sont indépendantes et distribuées comme U si les données d’évaluation TM = (xi, yi)M i=1 sont distribuées selon P et indépendantes, alors lim M→∞ ˆ L(g; TM) = L(g) 13 / 122 F. Rossi Introduction et modélisation mathématique Pratique vs statistique la loi des grands nombres dit que lim uploads/Management/ supervised.pdf

  • 18
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jan 17, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 6.8715MB