Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire / expliquer les valeurs d’une variable quantitative Y à partir d’une autre variable X Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.fr Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Position du problème Variable à prédire Attribut classe Variable endogène Quantitative Variables prédictive Descripteur Variable exogène Quantitative ou binaire Identifiant (Pas utilisé pour les calculs, mais peut être utilisé pour les commentaires : points atypiques, etc.) Exemple de régression simple (Bourbonnais, page 12) Expliquer le rendement de maïs Y (en quintal) à partir de la quantité d'engrais utilisé (en kilo) sur des parcelles de terrain similaires. N° de parcelle Y X 1 16 20 2 18 24 3 23 28 4 24 22 5 28 32 6 29 28 7 26 32 8 31 36 9 32 41 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 9 32 41 10 34 41 i i i b x a y ε + + × = Modèle de régression simple : Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X. Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les variables qui sont absentes, etc.) Hypothèses Permettent de déterminer les propriétés des estimateurs Et de mettre en place les outils de statistique inférentielle (tests d’hypothèses, intervalle de confiance) H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée (exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle). H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués) (H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié ( ) 0 = E ε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 (H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié (H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité (H2.c) En particulier, l’erreur est indépendante de la variable exogène (H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que les erreurs « ne sont pas corrélées ») (H2.e) Loi normale ( ) 0 = i E ε ( ) 2 ε σ ε = i V 0 ) , ( = i i x COV ε 0 ) , ( = j i COV ε ε ( ) ε σ ε , 0 N i ≡ Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 Estimateur des MCO (Moindres carrés ordinaires) Critère numérique i x i y b x a i + × i ε Critère des moindres carrés : trouver les valeurs de a et b qui minimise la somme des carrés des écarts entre les vraies valeurs de Y et les valeurs prédites avec le modèle de prédiction. ∑ ∑ ∑ = = = − − = + − = = n i i i n i i i n i i b ax y S b ax y S S 1 2 1 2 1 2 ] [ )] ( [ ε Remarque : Pourquoi pas la somme des erreurs ? Ou la somme des écarts absolus ? Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 SOLUTION = ∂ ∂ = ∂ ∂ 0 0 b S a S = − − = − − ∑ ∑ 0 0 2 b x a y x b x a y x i i i i i Equations normales ( )( ) ( ) − = − − − = ∑ ∑ x a y b x x x x y y a i i i i i ˆ ˆ ˆ 2 Estimateurs des moindres carrés Voir détail des calculs… Exemple des rendements agricoles Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 1 16 20 -10.1 -10.4 105.04 108.160 2 18 24 -8.1 -6.4 51.84 40.960 3 23 28 -3.1 -2.4 7.44 5.760 4 24 22 -2.1 -8.4 17.64 70.560 5 28 32 1.9 1.6 3.04 2.560 6 29 28 2.9 -2.4 -6.96 5.760 7 26 32 -0.1 1.6 -0.16 2.560 8 31 36 4.9 5.6 27.44 31.360 9 32 41 5.9 10.6 62.54 112.360 10 34 41 7.9 10.6 83.74 112.360 Moyenne 26.1 30.4 Somme 351.6 492.4 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 y = 0.7141x + 4.3928 15 17 19 21 23 25 27 29 31 33 35 15 20 25 30 35 40 45 = × − = = = 39 . 4 4 . 30 714 . 0 1 . 26 ˆ 714 . 0 4 . 492 6 . 351 ˆ b a Quelques commentaires Autre écriture de la pente « a » X Y X r Y X V O C a σ σ σ ˆ ˆ ˆ ˆ ) , ( ˆ ˆ 2 = = Erreur et résidus : « erreur » = définie dans la spécification du modèle ; « résidus », erreurs observées sur les données b x a x y y i i i ˆ ˆ ) ( ˆ ˆ + = = i i i y y ˆ ˆ − = ε Résidus de la régression Pour la régression Relation entre la pente et le coefficient de corrélation linéaire !!! Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 0 ˆ = ∑ i i ε Centre de gravité du nuage de points : la droite de régression passe forcément par le barycentre du nuage de points. Pour la régression avec constante ! y x a y x a b x a x y = − + = + = ) ˆ ( ˆ ˆ ˆ ) ( ˆ Voir détail des calculs… y = 0.7141x + 4.3928 15 17 19 21 23 25 27 29 31 33 35 15 20 25 30 35 40 45 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Equation d’analyse de variance Décomposition de la variance ( ) ( ) ( ) ( ) ( )( ) y y y y y y y y y y y y y y i i i i i i i i i i i i i i i − − + − + − = − + − = − ∑ ∑ ∑ ∑ ∑ ˆ ˆ 2 ˆ ˆ ˆ ˆ 2 2 2 2 ( ) ∑ = − = n i i i y y S 1 2 ˆ Objectif de la régression : minimiser S. Mais 0 ≤ S ≤ +∞; à partir de quand peut-on dire que la régression est de « bonne qualité » ? Somme des écarts à la moyenne = 0 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 ( ) ( ) ( ) SCE SCR SCT y y y y y y i i i i i i i + = − + − = − ∑ ∑ ∑ 2 2 2 ˆ ˆ = 0 Décomposition de la variance SCT : somme des carrés totaux SCE : somme des carrés expliqués par le modèle SCR : somme des carrés résiduels, non expliqués par le modèle Voir détail des calculs… Coefficient de détermination Et coefficient de corrélation linéaire multiple ( ) ( ) ( ) ( ) ∑ ∑ ∑ ∑ − − − = − = − − = = i i i i i i i i i y y y y R SCT SCR R y y y y SCT SCE R 2 2 2 2 2 2 2 ˆ 1 1 ˆ Coefficient de détermination. Exprime la part de variabilité de Y expliquée par le modèle. R² 1, le modèle est excellent R² 0, le modèle ne sert à rien Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 Coefficient de corrélation linéaire multiple R 2 R R = On montre que R a sgn r X Y × = ) ˆ ( , Lien entre le coefficient de corrélation linéaire (de Pearson) et le coefficient de corrélation linéaire multiple de la régression linéaire simple Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149 2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461 3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922 4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574 6 29 28 uploads/Science et Technologie/ regression-lineaire-simple.pdf
Documents similaires
-
18
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 19, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.6917MB