Page 1 of 7 Corrélation et ajustement linéaire La covariance entre X et Y Défin

Page 1 of 7 Corrélation et ajustement linéaire La covariance entre X et Y Définition La covariance est égale la moyenne des écarts des couples ( ) de X et Y par rapport au point ( ̅ ̅). ( ) ∑ ( ̅)( ̅) ̅̅̅ ̅ ̅ La covariance indique le sens de la relation entre les variables X et Y. Ainsi, on peut distinguer les cas suivants : 1)- Si ( ) , alors on peut dire que la relation entre les deux variables est positive. Dans ce cas, ces deux variables varient dans le même sens. 2)- Si ( ) , alors on peut dire que la relation entre les deux variables est negative. Dans ce cas, ces deux variables varient en sens inverse. 3)- Si ( ) , alors on peut dire qu’il n’y a pas de relation entre les deux variables. Dans ce cas, les variables de ‘une n’entrainent pas la variation de l’autre. Propriétés 1)- ( ) ( ) ( ) ∑[( ) ( ̅ )][( ) ( ̅ )] ∑ [ ̅][ ̅] ∑ [ ( ̅)][ ( ̅)] ∑( )[( ̅)( ̅)] ( ) 2)- ( ) ( ) ( ) ∑ ( ̅)( ̅) ∑ ( ̅)( ̅) ( ) Page 2 of 7 3)- ( ) ( ) ( ) ∑( ̅)( ̅) ∑( ̅) ( ) 4)- ( ) ∑ ( ̅)( ̅) ̅ ̅ ̅ ̅ ̅ ̅ ( ) ∑( ̅)( ̅) ∑( ̅ ̅ ̅̅̅) [∑ ( ) ∑ ( ̅ ) ∑ ( ̅ ) ∑ ( ̅ ̅) ] [∑ ( ) ∑ ( ̅ ) ∑ ( ̅ ) ∑ ( ̅ ̅) ] [∑ ( ) ̅ ∑ ( ) ̅ ∑ ( ) ∑ ( ̅ ̅) ] [∑ ( ) ̅ ̅ ̅ ̅ ̅ ̅] [∑ ( ) ̅ ̅ ] ∑ ̅ ̅ ̅̅̅ ̅ ̅ Le coefficient de corrélation linéaire entre X et Y Définition Le coefficient de corrélation linéaire est un nombre sans dimension qui permet de mesurer le degré ou l’intensité de la liaison linéaire entre deux variables statistiques. Ainsi, la formule du coefficient de corrélation linéaire entre X et Y est : Page 3 of 7 ( ) ( ) √ ( )√ ( ) La covariance indique le sens de la relation entre les variables X et Y. Ainsi, on peut distinguer les cas suivants : 1)- Si , les deux variables varient dans le même sens. 2)- Si , les deux variables varient en sens inverse. 3)- Si , les deux variables sont lineairement independantes. Interprétation de la valeur de 1)- Si : on dit qu’il y a une parfaite corrélation linéaire positive entre les deux variables. 2)- Si : on dit qu’il y a une parfaite corrélation linéaire négative entre les deux variables. 3)- Si : on dit qu’il y a absence de corrélation linéaire entre les deux variables. On dit qu’il y a une forte corrélation linéaire entre les deux variables (ou forte dépendance linéaire) si r est proche de . En revanche, si r est proche de zéro, on dit qu’il y a une faible corrélation linéaire entre les deux variables. Ajustement linéaire d’un nuage de points On considère deux variables statistiques quantitatives x et y et on s’intéresse à une relation éventuelle entre elles. La représentation du nuage de points peut nous renseigner sur l’allure de la distribution a deux caractères. La forme de la relation entre deux variables peut être mise en évidence graphiquement par les courbes de régression. Généralement, on exprime y en fonction de x, on parle alors de la droite de régression de y sur x (ou de y en x). Dans ce cas, on cherche à expliquer la variable y par la variable x. De ce Page 4 of 7 fait, y dite variable expliquée ou variable endogène et x est appelée variable explicative ou variable exogène. La droite de régression de y sur x On considère n observations sur les deux variables x et y. Ces observations peuvent être représentées par un nuage de points. D’une manière générale, l’ajustement d’un nuage de point par une fonction mathématique, revient à estimer les valeurs des coefficients de cette fonction de telle sorte que sa courbe représentative se rapproche au mieux du nuage de points. Lorsqu’il s’agit d’une liaison linéaire entre les deux variables, on parle alors d’ajustement linéaire. L’ajustement linéaire consiste à estimer les coefficients de la droite de régression du type , c’est-à-dire à trouver la valeur de a et celle de b. Cette droite est supposée refléter l’évolution moyenne de la variable y (variable expliquée) en fonction de la variable explicative x. La méthode d’ajustement est celle de la méthode des Moindres Carrés Ordinaires ou MCO La méthode MCO consiste à ajuster le nuage de points par une droite de manière à minimiser la somme des carrés des distances entre les points du nuage et cette droite. Ceci revient à minimiser la somme des carrés des résidus. ̂ ( ) ( ) ̂ ̅ ̂ ̅ L’équation de la droite de régression est donnée par : ̂ ̂ Remarque : La droite de régression passe par le point moyen de coordonnées ( ̅ ̅). En effet, comme, ̂ ̅ ̂ ̅ on a alors ̅ ̂ ̅ ̂ L’étude de la droite de régression de y sur x permet de prévoir y en fonction x : ̂ ̂ ̂ La droite de régression de x sur y On peut exprimer x en fonction de y. Dans ce cas, on appelle x une variable endogène ou expliquée et y une variable exogène ou explicative, et on parle de la droite de régression de x sur y : En utilisant la méthode des moindres carrés ordinaires, on retrouve la valeur de et de exprimeees par : Page 5 of 7 ̂ ( ) ( ) ̂ ̅ ̂ ̅ Remarque : L’étude de la droite de régression de x sur y permet de prévoir x en fonction de y : ̂ ̂ ̂ Décomposition de la variance totale ∑( ̅) ∑[( ̂ ) ( ̂ ̅)] ∑[ ̂ ] ∑[ ̂ ̅] ∑( ̂ )( ̂ ̅) ( ̂ ̅) ( ̂ ̂) ( ̂ ̅ ̅) ̂( ̅) ( ̂ ) ( ̅) ( ̂ ̅) ( ̅) ̂( ̅) ( ̂ )( ̂ ̅) [ ̂( ̅)] [( ̅) ̂( ̅)] ∑( ̂ )( ̂ ̅) ̂ [∑[( ̅)( ̅)] ̂ ∑( ̅) ] ̂ ∑ ( ̅)( ̅) ∑ ( ̅) ̂ ∑( ̅) ∑( ̅)( ̅) Page 6 of 7 ∑( ̂ )( ̂ ̅) ̂ [∑[( ̅)( ̅)] ∑( ̅)( ̅) ] Donc : ∑( ̅) ∑[ ̂ ] ∑[ ̂ ̅] SCT = SCR + SCE SCT : Somme des Carrés totale SCR : Somme des Carres Résidus SCE : Somme des Carrés Expliquée En divisant les deux membres par n on obtient l’équation d’analyse de la variance. ∑( ̅) ∑[ ̂ ] ∑[ ̂ ̅] Variance Totale = Variance Résiduelle + Variance Expliquée Coefficient de détermination L’équation d’analyse de la variance nous permet d’avoir une idée sur la qualité d’ajustement, on définit le coefficient de détermination, noté , par la part de la variance expliquée dans la variance totale : Page 7 of 7 Remarque : On peut retenir le coefficient de détermination comme étant le carré du coefficient de corrélation linéaire entre x et y. ( ) ( ( ) ) Le coefficient de détermination est aussi égal au produit des pentes des deux droites de régression, de y sur x et de x sur y. Interprétation de la valeur de 1)- Si : on dit qu’il y a dépendance totale ou liaison fonctionnelle entre les deux variables. Les deux droites de régression, de y sur x et de x sur y, sont alors confondues. 2)- : on dit qu’il y a indépendance totale ou liaison nulle entre les deux variables. Les deux droites de régression sont alors perpendiculaires. Si : on dit qu’il y a liaison relative entre les deux variables. On dit que la qualité d’ajustement est bonne si est proche de 1. En revanche, si est proche de zéro, on dit que la qualité de l’ajustement est mauvaise. uploads/S4/ correlation-et-ajustement-lineaire.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Nov 09, 2022
  • Catégorie Law / Droit
  • Langue French
  • Taille du fichier 0.8416MB