1 Régression linéaire multiple 1. Le modèle de régression linéaire multiple. 1.
1 Régression linéaire multiple 1. Le modèle de régression linéaire multiple. 1.1. Position du problème. La régression linéaire multiple est une méthode d'analyse de données quantitatives. Elle a pour but de mettre en évidence la liaison pouvant exister entre une variable dite expliquée, que l'on notera Y et plusieurs autres variables dites explicatives que l'on notera X1, X2, ..., Xp-1. Les p-1 variables Xi, i = 1, …, p-1 peuvent être soit aléatoires, soit contrôlées c'est-à-dire qu'elles sont connues sans erreur. Nous supposerons dans la suite que les variables Xi, i = 1, ..., p-1 sont contrôlées. Nous nous intéressons aux modèles dits linéaires, c'est-à-dire aux modèles du type : Y = a0 +a1X1 + a2X2 + ... +ap-1Xp-1 dans lequel a0, a1, ... , ap-1 sont des réels appelés coefficients du modèle (c'est, ici, un modèle sans interaction). Montrons que ce modèle est insuffisant pour décrire la réalité. En effet, dans la pratique, on effectue n expériences, donc on dispose de n résultats de mesures. Nous utiliserons les notations suivantes : pour l'expérience i, X1 prend la valeur xi1, X2 prend la valeur xi2, …, Xp-1 prend la valeur xip-1. La valeur (yi)obs observée de Y obtenue lors de la réalisation de l'expérience i diffère de la valeur yi attendue d'une quantité aléatoire que nous noterons ei. L'existence du << facteur d'erreur>> ei est dû à des facteurs non contrôlés (dérive des appareils, adresse de l'expérimentateur, etc). Cela justifie le fait que nous adopterons désormais le modèle suivant : Y = a0 + a1X1 + a2X2 + ... + ap-1Xp-1 + e dans lequel a0, a1, a2, …, ap-1 sont en réalité des variables aléatoires, et e une variable aléatoire prenant le nom de facteur d'erreur. 1.2. Estimation des coefficients du modèle. On appelle << ajustement >> du modèle toute solution du système des n équations : yi = a0 + a1xi1 + ... + ap-1xip-1 + ei (i = 1, 2, ... , n) dans laquelle : a) yi, xi1, …, xip-1 sont les valeurs observées lors de la réalisation des expériences. b) ei sont les résidus d'ordre i observés lors de la réalisation des expériences. Ils sont définis par : 1 0 1 p i i k ik k e y a x a − = = − − ∑ c) a0, a1, …, ap-1 les estimateurs des variables aléatoires a0, a1, a2, …, ap-1 L'<< ajustement des moindre carrés >> est celui qui fournit les estimateurs a0, …, ak conduisant au minimum de la somme des carrés des résidus , autrement dit : 2 i i e ∑ = valeur minimale Le calcul des estimateurs a0, a1, …, ap-1 , résulte de l'application de résultats de l'algèbre linéaire qui n'ont pas leur place ici. On obtient alors : Y observé = a0 + a1X1 + a2X2 + ... + akXp-1 + e 2 Dans la pratique, pour ne pas alourdir le discours et les écritures, on écrira Y à la place de Yobservé, on dira que a0, a1, ... , ap-1 sont les coefficients du modèle et on omettra souvent le résidu e. Exemple: l'abondance de Bidonia exemplaris (y) est influencée par le taux d'humidité (x1) et par le pourcentage de matière organique dans le sol (x2).Lorsqu'on a des raisons de penser que la relation entre ces variables est linéaire (faire des diagrammes de dispersion!), on peut étendre la méthode de régression linéaire simple à plusieurs variables explicatives; s'il y a deux variables explicatives, le résultat peut être visualisé sous la forme d'un plan de régression dont l'équation est: ˆ y = a1x1 + a2x2 + b (dans cet exemple a0 = b ) Le plan est ajusté selon le principe des moindres carrés où les sommes des carrés des erreurs d'estimation de la variable dépendante sont minimisées. Exemple d'une équation de régression multiple à deux variables explicatives x1 et x2: ˆ y = 0.5543x1 + 0.7211x2 - 41.6133 Si on remplace les symboles des variables par leur nom dans le"monde réel", on a: Abond. Bidonia = 0.5543* « Humid.» + 0.7211* « Mat.Org.» – 41.6133 Les signes des paramètres a1 et a2 sont tous deux positifs, ce qui montre que Bidonia réagit positivement à une augmentation du taux d'humidité et de la teneur en matière organique. Cette équation peut servir à estimer l'abondance de Bidonia exemplaris en fonction des deux descripteurs "Humidité" et " Matière organique" (exprimés en % dans cet exemple). Pour une humidité de 80% et un taux de matière organique de 30%, on estime l'abondance de Bidonia exemplaris à Abond. Bidonia ex. = 0.5543*80 + 0.7211*30 – 41.6133 = 24.3637 individus. Comme en régression linéaire simple, on mesure la variance expliquée par la régression à l'aide du coefficient de détermination multiple R2: 2 2 2 ˆ ( ) ( ) i i y y R y y − = − ∑ ∑ Le coefficient de corrélation multiple est défini comme la racine carrée du coefficient de détermination multiple; 3 Le R2 peut aussi se calculer à partir des coefficients de régression centrés-réduits a'j et des coefficients de corrélation entre la variable dépendante y et chacune des variables explicatives xj (voir plus loin). 1.3. Intérêt de la régression multiple La régression multiple peut être utilisée à plusieurs fins: • Trouver la meilleure équation linéaire de prévision (modèle) et en évaluer la précision et la signification. • Estimer la contribution relative de deux ou plusieurs variables explicatives sur la variation d'une variable à expliquer; déceler l'effet complémentaire ou, au contraire, antagoniste entre diverses variables explicatives. • Estimer l'importance relative de plusieurs variables explicatives sur une variable dépendante, en relation avec une théorie causale sous-jacente à la recherche (attention aux abus: une corrélation n'implique pas toujours une causalité; cette dernière doit être postulée a priori). 2. Test de signification du modèle de régression multiple La signification du modèle de régression multiple peut être testée par une variable auxiliaire FRMc qui, sous H0, est distribuée comme un F de Fisher à (p–1) et (n–p) degrés de liberté. Rappelons que dans cette notation, p désigne le nombre de variables explicatives plus une, c'est-à-dire le nombre de paramètres de l'équation: coefficients de régression plus l'ordonnée à l'origine. Les hypothèses du test sont: H0: la variable y est linéairement indépendante des variables xj H1: la variable y est linéairement liée à au moins une des variables xj L'expression la plus commode de la variable auxiliaire F est basée sur le coefficient de détermination: ( )( ) 2 2 ( ) 1 1 C RM R n p F R p − = − − En ce qui concerne les conditions d'application du test, la régression multiple est soumise aux mêmes contraintes que la régression linéaire simple: - distribution normale de la variable dépendante - équivariance - indépendance des résidus - linéarité des relations entre la variable dépendante y et chacune des variables explicatives x. La liaison entre la variable à expliquer y et l'ensemble des variables explicatives peut se mesurer par un coefficient de "corrélation multiple" défini comme la racine carrée du coefficient de détermination R2. Par définition (puisqu'on prend la racine carrée d'un nombre réel), la corrélation multiple obtenue ne peut pas être négative. De ce fait, la notion de corrélation multiple a une interprétation douteuse et doit être manipulée avec beaucoup de prudence: par exemple, même dans un cas où une variable dépendante y serait influencée négativement par toutes les variables explicatives x1 à xp-1, le coefficient de corrélation multiple serait positif. Point important, les coefficients de régression obtenus par régression multiple sont en fait des coefficients de régression partielle, en ce sens que chacun mesure l'effet de la variable explicative concernée sur la variable dépendante lorsque la ou les autres variables explicatives sont tenues constantes. Cette propriété est très intéressante. En effet, si on désire connaître l'influence d'un groupe de facteurs sur une variable-cible (=dépendante) donnée, en contrôlant l'effet d'un autre groupe (par exemple on veut évaluer l'effet de la teneur en matière organique du sol sur l'abondance de Bidonia exemplaris, en ôtant l'effet de l'humidité), on peut calculer une régression intégrant toutes les variables explicatives, et examiner les coefficients de régression du groupe de variables voulu, en sachant que ces coefficients expliquent la variance de la variable dépendante en contrôlant pour l'effet de l'autre groupe. Cette démarche n'est pas triviale. En effet, les influences combinées des diverses variables en jeu aboutissent quelquefois à des effets apparents contraires à ceux qui sont en jeu. 4 Dans notre exemple, en régression simple, Bidonia a l'air de réagir négativement à l'augmentation de la teneur en matière organique (voir figure ci-dessous). Par contre, si l'on tient constant l'effet de l'humidité, le coefficient de régression partielle de la matière organique est positif (0.7211). Cela tient à ce que dans l'échantillonnage, les prélèvements les plus humides sont aussi ceux où le taux de matière organique est le plus faible. Or, Bidonia réagit fortement (et positivement) à l'humidité. Il réagit aussi positivement à une augmentation de la matière organique, mais pas de uploads/Finance/ regression-multiple.pdf
Documents similaires








-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 28, 2022
- Catégorie Business / Finance
- Langue French
- Taille du fichier 0.0887MB