Corrélation et régression linéaire simple 1. La corrélation 2. La régression li

Corrélation et régression linéaire simple 1. La corrélation 2. La régression linéaire simple Introduction Etude de la relation entre deux variables quantitatives: -description de l’association linéaire: corrélation, régression linéaire simple - explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple X Y Nuage de points: La corrélation Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon:  cov(x,y) 1 n xiyi i1 n  x y Estimation pour la population:  cov(x,y) ˆ  xy  1 n 1 (xi i1 n  x )(yi y ) cov(x,y)  1 n 1 xiyi i1 n   n n 1 x y Covariance et nuage de points  (xi x ) 0  x  y  (yi y ) 0 Contribution > 0 > 0 < 0 < 0 La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population: 2 2 y x xy xy s s s r   ˆ  xy r xy  sxy sx 2sy 2 La corrélation 2. Le coefficient de corrélation linéaire X1 X2 r = 0.9 X2 r = 0.5 X2 r = 0 r = 0 r = -0.5 Indice de covariance absolu: -1 ≤ r ≤ 1 La corrélation r = -0.9 X2 X2 X2 3. Conditions d’utilisation La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0.8 r = 0 La corrélation Normalité Homoscédasticité La variance de Y est indépendante de X et vice- versa. Y X Y Homoscédasticité Hétéroscédasticité La corrélation 3. Conditions d’utilisation Linéarité La relation est linéaire Y Linéarité X Y Non-linéarité X La corrélation 3. Conditions d’utilisation Non respect des conditions d’utilisation 0 10 20 30 40 50 AGE 20 30 40 50 60 FKLNGTH 0.5 1.0 1.5 2.0 LAGE 1.3 1.4 1.5 1.6 1.7 1.8 LFKL Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique La corrélation 4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho:  = 0: Attention, sous Ha:  ≠ 0: distribution complexe  R n 2 1R2 :Tn2 (Student) La corrélation b. Test de  = 0  H 0 : 0 H a : 0    Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho:  tobs r n 2 1r2 tn2, Si H0 est rejetée: corrélation ≠ causalité 4. Tests de la corrélation La corrélation La régression linéaire simple Y X Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Courbes de régression Description de la relation: densité de probabilité de Y conditionnellement à X: Y X fxx0 (y)dy P(y Y y dy /X x0) Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites E(Y/X) E(X/Y) - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, ) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y X Relation de causalité ≠ interdépendance La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Y X Mi ei M’i xi yi y = a+bx ei = yi - (a + bxi) ei 2  minimale  ˆ y i La régression linéaire simple Méthode des moindres carrés On cherche le minimum de ) , ( )) ( ( 1 2 b a E bx a y n i i i      E a  2(yi (a bxi))(1) 0 (1) i1 n  E b  2(yi (a bxi))(xi) 0 (2) i1 n         2. L’estimation des paramètres La régression linéaire simple  (1)  yi  (a bxi) i1 n  i1 n  na b xi i1 n   ny na nbx a y bx Méthode des moindres carrés 2. L’estimation des paramètres La régression linéaire simple  n(cov(x,y) x y ) (y bx )nx bn(sx 2 x 2) 0  cov(x,y) bsx 2  b cov(x,y) sx 2 Si y = a+bx alors  ˆ b cov(x,y) sx 2 et  ˆ a y bx On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon: ˆ y i ˆ a ˆ b xi Méthode des moindres carrés 2. L’estimation des paramètres La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, ) - distribution normale des erreurs - variance identique (homoscédasticité) - indépendance: - linéarité de la relation  cov(ei,e j) 0 Test a posteriori : étude du nuage de points/ du graphe des résidus La régression linéaire simple Normalité de l’erreur Valeurs prédites Résidus Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent- elles l’estimation des paramètres? La régression linéaire simple 3. Qualité de l’ajustement Homoscédasticité Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc La régression linéaire simple 3. Qualité de l’ajustement Indépendance entre erreurs, linéarité Résidus Résidus Structure de l’erreur? Relation non linéaire? La régression linéaire simple 3. Qualité de l’ajustement Décomposition de la variation Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE: SCET  (yi y )2 i1 n  nsy 2 La régression linéaire simple 4. Coefficient de détermination SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) Y Y = + ( ) Y Y i i N    1 2 (  ) Y Y i i N    1 2 ( ) Y Y i i N i    1 2 = + Décomposition de la variation La régression linéaire simple 4. Coefficient de détermination 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression:  r2 SCEreg.lin. SCET Coefficient de détermination Relation avec r? 0 ≤ r2 ≤ 1 La régression linéaire simple Relation entre r et r2  SCEreg.lin.  ( ˆ y i y )2 i1 n   ((a bxi) (a bx ))2 i1 n   b2 (xi x )2 i1 n  b2nsx 2 b2SCEx Donc r2 b2nsx 2 nsy 2 (cov(x,y) sx 2 )2 sx 2 sy 2 (cov(x,y))2 sx 2sy 2 (r)2 En particulier, r = 0 <=> r2 = 0 4. Coefficient de détermination La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : 2 = 0  reg.lin. 2 horsreg.lin. 2  SCEreg.lin. /1 SCEhorsreg.lin. /(n 2) : Fn2 1 NB:  SCEreg.lin. /1 SCEhorsreg.lin. /(n 2)  r2SCET (1r2)SCET /(n 2) (r n 2 1r2 )2 SCEreg.lin. /1 SCEhorsreg.lin. /(n 2) : Fn2 1 r n 2 1r2 :Tn2 numériquement équivalent à La régression linéaire simple Test sur la pente Ho: b = 0  ˆ b ˆ s b :Tn2 Ici:  ˆ b ˆ s b  ˆ b (1r2)sy 2 (n 2)sx 2 :Tn2 Principe des tests sur les paramètres: NB: ˆ b (1r2)sy 2 (n 2)sx 2 cov(x,y) sx 2 (n 2)sx 2 (1r2)sy 2 r n 2 1r2 Les tests de nullité de b, r et r2 sont numériquement équivalents La régression linéaire simple Autres tests - comparaison de la pente à une valeur non nulle - comparaison de l’ordonnée à l’origine à une valeur quelconque - comparaison de pentes La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Question Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, ) La régression linéaire simple X et Y aléatoires X contrôlée, Y aléatoire r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Lien Tests - test de  -Tests sur les pentes b et d - test de r2: ANOVA r2(n 2) 1r2 Fn2 1 - test sur la pente Bilan La régression linéaire simple uploads/Geographie/ 8-regression.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager