Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´

Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´ ematiques et de statistique STT-2902 Automne 2012 Emmanuelle Reny-Nolin Corrig´ e - S´ erie 3 R´ egression lin´ eaire simple Exercice 1 - Densit´ e europ´ eenne a) y = 0,0001x + 1,9583 0 10 20 30 40 50 60 70 80 90 0 100000 200000 300000 400000 500000 600000 Population (millions d'habitants) Superficie (km2) Population en fonction de la superficie On voit qu’il y a probablement une relation lin´ eaire croissante entre la population et la superficie. Par contre, il est clair que la variance n’est pas constante autour de la droite (les r´ esidus afficheraient un entonnoir ouvert ` a droite). On peut donc ajuster un mod` ele lin´ eaire avec n’importe quelle m´ ethode d’estimation (calculer l’´ equation d’une droite), mais on ne peut pas associer de marge d’erreur aux estimations des moindres carr´ es comme on le ferait si tous les postulats ´ etaient respect´ es. b) Estimation de la densit´ e moyenne de la population en Europe : i) en calculant la moyenne des 27 densit´ es : 27 P i=1 yi/xi 27 = 166, 28 hab/km2 Ce calcul donne un poids ´ egal ` a chaque pays. C’est la moyenne des densit´ es des pays d’Europe, donc c’est la densit´ e moyenne par pays. Les petits pays, ayant souvent une grande densit´ e, ont plus de poids dans ce calcul. ii) en calculant la population totale des 27 pays, et en la divisant par la superficie totale des 27 pays : 27 X i=1 yi . 27 X i=1 xi = 112, 95 hab/km2 Ce calcul donne un poids ´ egal ` a chaque km2 de territoire. Les grands pays ont plus de poids dans ce calcul. Cette formule ne tient pas compte des divisions 1 Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´ ematiques et de statistique STT-2902 Automne 2012 Emmanuelle Reny-Nolin politiques. Si l’Europe ´ etait un pays, ce serait sa densit´ e de population. Bien sˆ ur, cette densit´ e n’est pas homog` ene. iii) en estimant la pente de la droite de r´ egression aux moindres carr´ es : 27 P i=1 xiyi −27x y 27 P i=1 x2 i −27x2 = 100, 74 hab/km2 Ce calcul donne une estimation de l’augmentation moyenne de la population lorsque le territoire augmente d’un km2. Cette estimation ne correspond pas exac- tement ` a la valeur en a), car elle est calcul´ ee en minimisant l’erreur de pr´ ediction de la population ` a partir d’une superficie connue (les distances verticales par rap- port ` a la droite). Si la droite passait par 0 exactement, ce serait une fa¸ con d’envisager la densit´ e ”moyenne” (et on n’en est pas loin, puisque ˆ β0 = 1, 96). ` A titre informatif, on peut forcer la droite de r´ egression ` a passer par 0 (en minimisant la somme du carr´ e des erreurs du mod` ele Yi = β1xi +εi), on obtient alors l’estimation suivante pour la pente : 27 P i=1 xiyi 27 P i=1 x2 i = 106, 84 Exercice 2 - Drill, baby, drill ! (Comme disait Sarah Palin) a) SXY = n P i=1 (Xi −X)(Yi −Y ) = n P i=1 (XiYi −XiY −YiX + XY ) = n P i=1 XiYi −Y n P i=1 Xi −X n P i=1 Yi + nXY = n P i=1 XiYi −Y (nX) −X(nY ) + nXY = n P i=1 XiYi −nX Y 2 Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´ ematiques et de statistique STT-2902 Automne 2012 Emmanuelle Reny-Nolin b) SXY = n P i=1 (Xi −X)(Yi −Y ) = n P i=1 (Xi −X)Yi − n P i=1 (Xi −X)Y = n P i=1 (Xi −X)Yi −Y n P i=1 (Xi −X) = n P i=1 (Xi −X)Yi −Y (0) = n P i=1 (Xi −X)Yi c) ∂S ∂β0 = 0 si n P i=1 Yi = n ˆ β0 + ˆ β1 n P i=1 Xi On isole ˆ β0 et on obtient ˆ β0 = Y −ˆ β1X . ∂S ∂β1 = 0 si n P i=1 XiYi = ˆ β0 n P i=1 Xi + ˆ β1 n P i=1 X2 i En rempla¸ cant ˆ β0 par ˆ β0 = Y −ˆ β1X, on obtient : n P i=1 XiYi −Y n P i=1 Xi = ˆ β1( n P i=1 X2 i −X n P i=1 Xi) n P i=1 XiYi −nX Y = ˆ β1( n P i=1 X2 i −nX 2) On isole ˆ β1 et on obtient ˆ β1 = SXY SXX d) En effet, ˆ β1 = SXY SXX = n P i=1 (Xi −X)Yi n P i=1 (Xi −X)2 La principale cons´ equence de cet ´ etat de fait est que ˆ β1 suit une loi normale lorsqu’on suppose que les Yi suivent une loi normale (autour de la droite). 3 Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´ ematiques et de statistique STT-2902 Automne 2012 Emmanuelle Reny-Nolin Exercice 3 - Dans le ventre de sa maman... Mod` ele 1 : Long´ evit´ e en fonction de Gestation Mod` ele 2 : Long´ evit´ e en fonction de ln(Gestation) Mod` ele 3 : ln(Long´ evit´ e) en fonction de Gestation Mod` ele 4 : ln(Long´ evit´ e) en fonction de ln(Gestation) a) Selon les quatre graphiques de dispersion, le mod` ele 4 est clairement celui qui pr´ esente la relation la plus lin´ eaire, avec une variance ` a peu pr` es constante pour toutes les valeurs de x. 0 5 10 15 20 25 30 35 40 45 0 100 200 300 400 500 600 700 Y=Longévité moyenne (années) x = Durée de gestation (jours) Modèle 1: Y vs x 0 5 10 15 20 25 30 35 40 45 Y ln(x) Modèle 2: Y vs ln(x) 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 4,00 0 100 200 300 400 500 600 700 ln(Y) x Modèle 3: ln(Y) vs x 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 4,00 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00 ln(Y) ln(x) Modèle 4: ln(Y) vs ln(x) b) Appellation dans Excel Symbole Formule Coeff. de d´ etermination multiple r coeff. de corr´ elation ´ echantillonnal Cov(X, Y ) SX · SY = SXY √SXX · SY Y Coeff. de d´ etermination R^ 2 R2 1 −SSE SST = SSR SST = r2 Coeff. de d´ etermination R^ 2 R2 ajuste 1 −SSE/(n −2) SST/(n −1) = 1 −MSE S2 y 4 Universit´ e Laval Facult´ e des sciences et de g´ enie D´ epartement de math´ ematiques et de statistique STT-2902 Automne 2012 Emmanuelle Reny-Nolin c) Mod` ele 1 : Y en fonction de X R2 = 0.3275 Mod` ele 2 : Y en fonction de ln(X) R2 = 0.3925 Mod` ele 3 : ln(Y) en fonction de X R2 = 0.3535 Mod` ele 4 : ln(Y) en fonction de ln(X) R2 = 0.5883 Le mod` ele 4 est encore privil´ egi´ e, car c’est celui pour lequel la proportion de variabilit´ e expliqu´ ee par le mod` ele est la plus grande. d) σ2 = MSE = 0.2000 e) moyenne des r´ esidus =−3.47 × 10−16 ≈0 et ´ ecart-type des r´ esidus = 0.4413. On aurait pu trouver ces valeurs sans utiliser la liste des r´ esidus, car la moyenne des ´ ecarts est toujours 0, et la variance ´ echantillonnale des r´ esidus correspond ` a une petite transformation du MSE, soit s2 ε = n P i=1 (ˆ εi −ε)2 (n −1) = n P i=1 ([yi −ˆ yi] −0)2 (n −1) = (n −2)MSE (n −1) Exercice 4 - Jouons avec les Y a) i) M´ ethode de Mayer : Deux points moyens : P1 = (19, 5, 3, 0) et P2 = (44, 17, 8, 3) ´ Equation de la droite : ˆ Y1 = 0, 2162 x −1, 2329 ii) M´ ethode m´ ediane-m´ ediane : Trois points m´ edians : P1 = (14, 5, 2, 1), P2 = (32, 5, 1) et P3 = (50, 5, 9, 4) Moyenne des points m´ edians : (32, 33, 5, 50) ´ Equation de la droite : ˆ Y1 = 0, 2028 x −1, 0565 b) La pente changera de signe, mais aura la mˆ eme valeur absolue. Pour l’ordonn´ ee ` s l’origine, les calculs sont n´ ecessaires : i) ´ Equation de la droite de Mayer : ˆ Y2 = −0, 2162 x + 12, 5329 ii) ´ Equation de la droite m´ ediane-m´ ediane : ˆ Y2 = −0, 2028 x + 12, 0565 c) Non, les valeurs de Y sont li´ ees aux valeurs de X. On ne peut pas s´ eparer les valeurs d’un mˆ eme individu. On uploads/Geographie/ serie3-corrige.pdf

  • 19
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager