Bio-2042 Régression multiple - corrélation multiple et partielle 1 Daniel Borca

Bio-2042 Régression multiple - corrélation multiple et partielle 1 Daniel Borcard Département de sciences biologiques Université de Montréal Régression multiple Scherrer (2009): §19.1.1 à 19.1.3; 19.1.5; 19.3; Sokal & Rohlf: p. 617; Legendre & Legendre (1998) p. 517 1. Introduction Il arrive souvent qu'on veuille expliquer la variation d'une variable dépendante par l'action de plusieurs variables explicatives. Exemple: l'abondance de Bidonia exemplaris (y) est influencée par le taux d'humidité (x1) et par le pourcentage de matière organique dans le sol (x2). Lorsqu'on a des raisons de penser que la relation entre ces variables est linéaire (faire des diagrammes de dispersion!), on peut étendre la méthode de régression linéaire simple à plusieurs variables explicatives; s'il y a deux variables explicatives, le résultat peut être visualisé sous la forme d'un plan de régression dont l'équation est: ˆ y = b 1x1 + b2x2 + b0 x 1 x y 2 Bio-2042 Régression multiple - corrélation multiple et partielle 2 Le plan est ajusté selon le principe des moindres carrés où les sommes des carrés des erreurs d'estimation de la variable dépendante (on a donc affaire à une régression de modèle I) sont minimisées. S'il y a plus que deux variables explicatives (p. ex. m), on peut étendre la méthode en ajoutant les variables et leurs paramètres: ˆ y = b 1x1 + b2x2 +... + bjx j +... + bmxm + b0 Cette équation est celle d'un hyperplan à m dimensions (qu'on ne peut pas se représenter concrètement!). Les paramètres b1, b2…bm sont les "pentes" de l'hyperplan dans les dimensions considérées, et sont appelés "coefficients de régression". La régression multiple peut être utilisée à plusieurs fins: • Trouver la meilleure équation linéaire de prévision (modèle) et en évaluer la précision et la signification. • Estimer la contribution relative de deux ou plusieurs variables explicatives sur la variation d'une variable à expliquer; déceler l'effet complémentaire ou, au contraire, antagoniste entre diverses variables explicatives. • Juger de l'importance relative de plusieurs variables explicatives sur une variable dépendante en lien avec une théorie causale sous-jacente à la recherche (attention aux abus: une corrélation n'implique pas toujours une causalité; cette dernière doit être postulée a priori). 2. Calcul des coefficients de régression Le calcul des coefficients de régression peut être fait de plusieurs manières. L'une, qui repose sur le calcul matriciel, est utilisée dans les programmes d'ordinateur. On trouvera cette technique chez Legendre et Legendre (1998) pp. 79 et 517, et dans Scherrer (2009) p. 4 éq. 19.8. Les formules sont aussi données dans le cours théorique 11 (régression linéaire) du cours Bio2041. L'autre, détaillée par Scherrer Bio-2042 Régression multiple - corrélation multiple et partielle 3 (2009, p. 4 à 6), est présentée ci-dessous. Elle se base sur un système de m équations à m inconnues (p–1 dans Scherrer 20091) qui permet dans un premier temps d'obtenir les "coefficients de régression centrés et réduits" (voir plus bas: c'est comme si on calculait la régression sur les variables centrées-réduites). Les valeurs des coefficients de régression pour les variables brutes (non centrées-réduites) sont ensuite obtenues par multiplication par le rapport des écarts-types de la variable dépendante et de la variable explicative considérée. Finalement, on calcule la valeur de l'ordonnée à l'origine. 2.1 Calculs préliminaires On peut calculer les coefficients de régression et l'ordonnée à l'origine d'une régression multiple en connaissant: • les coefficients de corrélation linéaire simple de toutes les paires de variables entre elles (y compris la variable dépendante): rx1x2 , rx1x3... rx1y , ...etc.; • les écarts-types de toutes les variables: sx1, sx2, sx3...sy; • les moyennes de toutes les variables. 2.2 Étapes de calcul 1. On calcule d'abord les coefficients de régression centrés-réduits b1', b2', ... b' m en résolvant un système de m équations normales à m inconnues (m = nombre de variables explicatives). 2. On trouve les coefficients de régression pour les variables originales b1, b2, ... bm en multipliant chaque coefficient centré-réduit par l'écart- type de la variable dépendante (sy), et en divisant le résultat par l'écart- type de la variable explicative considérée (sxj). 3. On trouve l'ordonnée à l'origine en posant la moyenne de la variable dépendante y , et en lui soustrayant chaque coefficient obtenu au point 2, multiplié par la moyenne de la variable explicative correspondante: b0 = y −(b 1x 1 + b2x 2 + ... + bjx j... + bmx m) 1 Attention: dans la notation de Scherrer (2009), il y a p–1 variables explicatives et la p-ième est la variable dépendante y. Bio-2042 Régression multiple - corrélation multiple et partielle 4 2.3 Formules Cette technique est exposée par Scherrer (2009), p. 4 à 6, avec un exemple numérique. Les formules ci-dessous sont données pour 3 variables explicatives, avec la notation b0, b1... Les calculs sont bien sûr plus simples avec deux variables explicatives. 2.3.1. Équations normales: rx1y = b 1 ' + r x1x2b2 ' + r x1x3b3 ' rx2y = r x2x1b1 ' + b2 ' + rx2x3b3 ' rx3y = rx3x1b 1 ' + r x3x2b2 ' + b3 ' Ce système se résoud par substitutions successives. Première étape: b 1 ' = rx1y −rx1x2b2 ' −rx1x3b3 ' est placé dans les équations 2 et 3. On isole ensuite b2' ou b3' dans l'une des équations. Dès lors, on peut trouver une des valeurs b' et, en remontant la filière, on trouve les deux autres. 2.3.2. Coefficients de régression pour les variables d'origine: b 1 = b1 ' sy sx1 b2 = b2 ' sy sx2 b3 = b3 ' sy sx3 2.3.3. Ordonnée à l'origine: b0 = y −b 1x 1 −b2x 2 −b3x 3 Bio-2042 Régression multiple - corrélation multiple et partielle 5 2.4 Exemple Voici une équation de régression multiple à deux variables explicatives x1 et x2: ˆ y = 0.5543x1 + 0.7211x2 −41.6133 Si on remplace les symboles des variables par leur nom dans le "monde réel", on a: Abond. Bidonia = 0.5543×Humid. + 0.7211×M.O. – 41.6133 Les signes des paramètres b1 et b2 sont tous deux positifs, ce qui montre que Bidonia réagit positivement à une augmentation du taux d'humidité et de la teneur en matière organique. Cette équation peut servir à estimer l'abondance de B. exemplaris en fonction des deux descripteurs "Humidité" et " Matière organique" (exprimés en % dans cet exemple). Pour une humidité de 80% et un taux de matière organique de 30%, on estime l'abondance de B. exemplaris à Abond. B.ex. = 0.5543×80 + 0.7211×30 – 41.6133 = 24.3637 ind. 2.5 Le coefficient de détermination multiple R2 Comme en régression linéaire simple, on mesure la variation expliquée par la régression à l'aide du coefficient de détermination multiple R2, qui mesure le rapport entre la dispersion expliquée par la régression (SCR) et la dispersion totale (SCT): R2 = ˆ y i −y ( ) 2 ∑ yi −y ( ) 2 ∑ = SCR SCT Scherrer (2009) éq. 19.13 Le R2 peut aussi se calculer à partir des coefficients de régression centrés-réduits b'j et des coefficients de corrélation entre la variable dépendante y et chacune des variables explicatives xj: Bio-2042 Régression multiple - corrélation multiple et partielle 6 R2 = bj ' rx jy j=1 m ∑ où m = nombre de variables explicatives et rxjy représente la corrélation r entre la variable dépendante y et la jième variable explicative xj. Attention: le R2 fournit une estimation biaisée de la variance expliquée. Un ajustement est possible (voir plus loin). On l'utilise cependant pour la construction du test de signification ci-dessous. 3. Test de signification du modèle de régression multiple Les hypothèses du test sont: H0: la variable y est linéairement indépendante des variables xj H1: la variable y est expliquée linéairement par au moins une des variables xj La signification du modèle de régression multiple peut être testée par une variable auxiliaire FRMc : F RMC = R2 n −m −1 ( ) m 1−R2 ( ) = CMR / CME Scherrer (2009) éq. 19.16 On rejette H0 au seuil α lorsque FRMc ≥ F( ,m,n–m–1) De la même façon qu'en ANOVA, ce test compare la variance expliquée avec celle des résidus. Si H0 est vraie, ces deux valeurs devraient être à peu près semblables, et la statistique-test FRMc suivra une distribution F de Fisher-Snedecor à m et (n–m–1) degrés de liberté, où n = nombre d'observations et m = nombre de variables explicatives. Conditions d'application du test: la régression multiple est soumise aux mêmes contraintes que la régression linéaire simple: distribution normale des résidus, équivariance, indépendance des observations et Bio-2042 Régression multiple - corrélation multiple et partielle 7 linéarité des relations entre la variable dépendante y et chacune des variables explicatives x. 4. Coefficient de "corrélation multiple" La liaison entre la variable à expliquer y et l'ensemble des variables explicatives peut se mesurer par un coefficient de "corrélation multiple" défini comme la racine carrée du coefficient de détermination R2. Par définition (puisqu'on prend la racine carrée d'un nombre réel positif), la corrélation multiple obtenue ne peut pas être négative. De ce fait, la notion de uploads/Ingenierie_Lourd/ copie-de-regr-mult.pdf

  • 32
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager