Philippe.Leray@insa-rouen.fr Apprentissage et Généralisation Ph. Leray • On a u
Philippe.Leray@insa-rouen.fr Apprentissage et Généralisation Ph. Leray • On a un modèle f • Erreur commise par un modèle = erreur théorique • L'apprentissage se fait sur une base d'exemples (xi,yi) en minimisant l'erreur empirique (ici avec une fonction de coût quadratique) • L'erreur en apprentissage est-elle un bon indicateur de la qualité du modèle f ? Introduction ( ) ( ) ( ) ∫∫ − = dxdy ) y , x ( P w , x f y w EP 2 ( ) ( ) ( ) ∑ = − = n 1 i 2 i i w , x f y n 2 1 w J Ph. Leray 0 1 2 3 4 5 6 7 8 9 10 -100 -80 -60 -40 -20 0 20 40 60 80 100 Introduction (fin) • L'erreur en apprentissage est-elle un bon indicateur de la qualité du modèle f ? • J(f)=0 Réponse : Non ! (xi,yi) modèle théorique modèle f Ph. Leray Plan • Notion de sur-apprentissage • Une méthode pour éviter le sur-apprentissage : – Ensemble de validation, early stopping • Comment "bien apprendre" ? – Complexité d'un modèle : Le rasoir d'Occam – Dilemme biais/variance – Comment diminuer la variance ? » Régularisation » Bootstrap, "committees" • Comment estimer autrement l'erreur en généralisation Ph. Leray 0 1 2 3 4 5 6 7 8 9 10 -100 -80 -60 -40 -20 0 20 40 60 80 100 Le sur-apprentissage • Apprentissage "par cœur" : le modèle ne "connaît" que les points utilisés pour l'apprentissage et fait n'importe quoi ailleurs. (xi,yi) modèle théorique modèle f Ph. Leray Notion de généralisation • Bien apprendre, ce n'est pas apprendre par cœur, mais être capable de bien se comporter devant des points quelconques ⇒ C'est la généralisation • Comment éviter le sur-apprentissage ? • Comment "bien" apprendre ? • Comment estimer l'erreur en généralisation autrement ? Ph. Leray 0 1 2 3 4 5 6 7 8 9 10 -100 -80 -60 -40 -20 0 20 40 60 80 100 Sur-apprentissage : le retour • Comment déterminer que le choix de f n'est pas bon ? • J(f)=0 : l'erreur en apprentissage ne convient pas ! (xi,yi) modèle théorique modèle f Ph. Leray Ensemble de Validation • On va prendre des points différents de ceux de l'ensemble d'apprentissage : l'ensemble de validation Qualité du modèle : Jval(w) 0 1 2 3 4 5 6 7 8 9 10 -100 -80 -60 -40 -20 0 20 40 60 80 100 modèle théorique modèle f x x x x x x ici, Jval(w) est vraiment mauvais ! Ph. Leray Ensemble de Validation • Algorithme d'apprentissage itératif Quand arrêter l'apprentissage pour éviter le sur- apprentissage ? • On sépare les exemples disponibles en 2 (ou 3) bases – apprentissage – validation – test : pour calculer une erreur indépendante des données qui ont servi à faire (et à arrêter) l'apprentissage ( ) ( ) ( ) ∑ = − = n 1 i 2 i i app w , x f y n 2 1 w J ( ) ( ) ( ) ∑ = − = ' n 1 i 2 i i val w , ' x f ' y ' n 2 1 w J Ph. Leray Ensemble de Validation • Jval(w) est une meilleure estimation de EP Japp(w) itérations Jval(w) Ph. Leray Ensemble de Validation • On peut s'en servir pour arrêter l'apprentissage EARLY STOPPING Japp(w) itérations Jval(w) Ph. Leray Transition ⇒On vient de voir un moyen d'arrêter l'apprentissage avant le "sur-apprentissage" • Comment "bien" apprendre ? • Comment calculer l'erreur en généralisation sans ensemble de validation ? Ph. Leray Complexité d'un modèle • Principe général : le rasoir d'Occam (14ème siècle) Shave away all that is unnecessary ⇒ Il faut toujours préférer un modèle simple à un modèle complexe • Comment déterminer la complexité d'un modèle ? – Nb de paramètres (degré pour un polynôme, etc…) – Bonne approximation, mais pas suffisante pour des modèles compliqués (Réseaux de Neurones, etc…) – Travaux de Vapnik et Chervonenkis : la VC dimension Ph. Leray Le dilemme biais/variance • Notations – (x,y) un point – f un modèle. – E(y|x) meilleur modèle possible – C une fonction de coût locale » coût quadratique – EP(f) : erreur de modélisation – D : Échantillon de taille N – ∆ ∆ ∆ ∆ : ensemble de tous les échantillons – le modèle f est appris sur D : fD – erreur de modélisation "moyenne" ( ) ( ) ( ) 2 x y E x f y , x , f C − = ( ) ( ) [ ] ( ) { } 2 xy xy ) x y ( E x f E y , x , f C E f EP − = = ( ) [ ] D f EP E EP ∆ = Ph. Leray Le dilemme biais/variance (suite) • Ré-écriture de C : ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 x y E x f E x f E x f x y E x f y , x , f C − + − = − = ∆ ∆ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } ( ) ( ) ( ) { } x f E x f x y E x f E 2 x y E x f E x f E x f y , x , f C 2 2 ∆ ∆ ∆ ∆ − − + − + − = indépendant de ∆ ∆ ∆ ∆ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } ( ) ( ) ( ) { } x f E x f x y E x f E 2 C x y E x f E B x f E x f A 2 2 ∆ ∆ ∆ ∆ − − = − = − = Ph. Leray Le dilemme biais/variance (suite) • "Moyennage" sur ∆ ∆ ∆ ∆ : ( ) [ ] [ ] [ ] [ ] C E B E A E y , x , f C E ∆ ∆ ∆ ∆ + + = [ ] ( ) ( ) ( ) { } ( ) ( ) ( ) { } [ ] x f E x f x y E x f E E C E ∆ ∆ ∆ ∆ − − = = 0 !!!!! [ ] ( ) ( ) ( ) { } ( ) ( ) ( ) [ ] x f E x f E x y E x f E C E ∆ ∆ ∆ ∆ − × − = [ ] ( ) ( ) ( ) { } ( ) ( ) ( ) ( ) { } x f E x f E x y E x f E C E ∆ ∆ ∆ ∆ − × − = indépendant de ∆ ∆ ∆ ∆ Ph. Leray Le dilemme biais/variance (suite) • Retour à EP ( ) [ ] ( ) ( ) [ ] y , x , f C E E f EP E EP D xy D ∆ ∆ = = ( ) ( ) [ ] ( ) [ ] ( ) [ ] B E E A E E y , x , f C E E EP xy xy D xy ∆ ∆ ∆ + = = ( ) ( ) ( ) ( ) ( ) 2 x f E x f E A E ∆ ∆ ∆ − = ( ) ( ) ( ) ( ) ( ) 2 x y E x f E E B E − = ∆ ∆ ∆ VARIANCE BIAIS2 Ph. Leray Le dilemme biais/variance (suite) • EP =Biais² + Variance Biais = écart entre le modèle "moyen" et le modèle idéal Variance = variance de tous les modèles f possibles ⇒ On cherche à minimiser EP, donc le biais ET la variance … • En pratique, biais et variance sont antagonistes … – diminution de l'un = augmentation de l'autre » ex : • on choisit f dans une grande famille de fonctions (polynômes de degré <100) • on est sur de trouver de bonnes approximations : biais faible • la famille de fonctions est tellement grande que la variance est énorme ⇒ il faut trouver un compromis … C'est le dilemme biais/variance Ph. Leray 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.4 -0.2 0 0.2 0.4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.4 -0.2 0 0.2 0.4 Exemple polynômes de degré 1 polynômes de degré 12 biais important variance faible biais faible variance importante 50 interpolations polynomiales à partir de 15 points de la fonction bruitée uploads/Industriel/ 04-appgen.pdf
Documents similaires
-
20
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Nov 04, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 0.3339MB