TP 9 2006-2007 1/8 T.P. 9 Covariance – Corrélation – Régression Connaissances p

TP 9 2006-2007 1/8 T.P. 9 Covariance – Corrélation – Régression Connaissances préalables : Variance, écart type, moyenne. Buts spécifiques : Comprendre les relations possibles entre deux variables et une manière de les évaluer. Outils nécessaires : Papier, crayon, éventuellement une calculatrice. Consignes : Introduction : Certaines variables sont dites corrélées, c’est-à-dire qu’elles évoluent en parallèle : lorsque l’une d’entre elle augmente, les autres augmentent (ou diminuent) aussi, de sorte que, en connaissant l’évolution d’une variable on puisse en déduire la valeur de l’autre. Un exemple de corrélation peut se trouver en regardant des points de mathématique et de physique. On peut se dire qu’un élève brillant en mathématique sera également performant en physique. A l’opposé, certaines variables sont totalement indépendantes les unes des autres. Par exemple, un individu brillant en mathématique ne sera pas forcément un bon rameur. Il existe, en statistique, des méthodes pour calculer la corrélation entre les variables. Un premier pas est de regarder dans quelle mesure elles varient ensemble, c’est ce qu’on appelle « la covariance ». Elle est définie par la formule suivante : ) )( ( 1 1 Y Y X X N Cov i N i i XY − − = ∑ = où X et Y sont deux variables. Remarques : Ce nombre sera d’autant plus élevé, en valeur absolue, que les valeurs évoluent de manière proportionnelle ou inversement proportionnelle. - Si pour chaque augmentation de la variable X par rapport à sa moyenne on a une augmentation de la variable Y par rapport à sa moyenne et que pour chaque diminution de X on a une diminution de Y, le produit des différences sera toujours positif (soit parce que + par + donne + soit parce que – par – donne +) et la somme de ces produits sera nécessairement en constante progression. - Si pour chaque diminution de la variable X par rapport à sa moyenne on a une augmentation de la variable Y par rapport à sa moyenne, et inversement, le produit des différences sera toujours négatif (parce que – par + ou + par – donne toujours –) et la somme de ces produits sera donc en constante progression en valeur absolue. - Si, par contre, l’évolution des deux variables par rapport à leur moyenne respective est erratique (ce qui correspond à la situation où les variables ne sont pas corrélées), alors de temps en temps le produit sera négatif et de temps en temps il sera positif, de sorte que, la somme de ces produits s’annulent plus ou moins et que la corrélation soit proche de 0. 1. Voici quelques séries statistiques fictives. SérieA X 4 5 5 5 5 5 5 6 Y 4 5 5 5 5 5 5 6 TP 9 2006-2007 2/8 Série B X 5 5 6 5 0 1 1 1 Y 5 5 1 0 1 1 6 5 Série C Consommation de bières de Julien 4 4 5 7 8 8 8 10 T° en °C 9 12 12 21 21 24 27 30 Série D Résultats en Math 3 4 4 7 7 8 9 10 Résultats en Français 10 9 9 4 3 4 3 1 a) En regardant les séries statistiques, quelle série a une corrélation parfaite ? b) En regardant les séries statistiques, quelle série semble le moins corrélée ? c) Pour chacune des séries calculez : Série X 2 X S X S Y 2 Y S Y S ∑ = N i 1 (X i - X ) (Y i -Y ) CovXY Série A Série B Série C Série D d) En regardant les valeurs de la covariance, peut-on dire que plus la valeur est élevée, plus les variables sont corrélées ? TP 9 2006-2007 3/8 Conclusion : La covariance a comme désavantage de ne pas être étalonné. On peut se dire que plus elle est grande en valeur absolue plus les variables sont corrélées mais on ne sait pas jusqu’à quelle valeur elle peut monter. Pour pallier ce problème il est possible de diviser cette covariance par les écarts types de X et de Y. De cette manière on voit que lorsque la corrélation est parfaite cette valeur sera de ±1 selon que la corrélation soit positive ou négative et que lorsque les variables sont indépendantes la corrélation sera comprise entre -1 et 1, 0 étant l’indépendance parfaite. Cela s’explique mathématiquement par le fait que la corrélation est maximum lorsque les écarts par rapport à la moyenne sont toujours les mêmes pour X et pour Y. Dans ce cas la ∑ = − N i i X X 1 ) ( et la ∑ = − N i i Y Y 1 ) ( seront égales en valeur absolue, c’est donc comme si on élevait l’une des deux au carré. De même les écarts types des deux variables X et Y seront égales, c’est donc également comme si on les élevait au carré. Il en résulte que tout se simplifie à la fin et on obtient 1 comme valeur ou -1 les autres cas ne peuvent être qu’inférieur à 1, en valeur absolue. Cette indicateur s’appelle le coefficient de corrélation de Pearson et se note « r ». Coefficient de corrélation de Pearson : Y X XY N i i N i i i N i i XY S S Cov Y Y N X X N Y Y X X N r = − − − − = ∑ ∑ ∑ = = = 2 1 2 1 1 ) ( 1 ) ( 1 ) )( ( 1 Rappel : N’oubliez pas qu’avec une machine à calculer il faut soit taper [Cov]/[SX]/[SY], soit taper [cov]/([SX]*[SY]) MAIS PAS [cov]/[SX]*[SY] TP 9 2006-2007 4/8 e) Calculez les coefficients de corrélation pour chacune des séries : rsérieA rsérieB rsérieC rsérieD f) Tracez les nuages de points sur les axes suivants (en indiquant la légende et le sens des axes) : Ces graphes s’appellent les diagrammes de dispersion. Comme vous le voyez, plus la corrélation est grande, plus il y a moyen de faire passer une droite par les différents points de la dispersion. Tout le problème consiste à trouver l’équation de cette droite. La droite s’appellera droite de régression. Il existe deux moyens d’en trouver l’équation. Mais avant tout, posons-nous quelques questions : TP 9 2006-2007 5/8 g) En regardant le diagramme de dispersion, essayez de tracer (finement et au crayon) une droite qui représente, intuitivement, la meilleure solution pour représenter le nuage de points obtenu. h) A votre avis que permettrait cette droite ? Utilité de la droite de régression : Note : Pour trouver l’équation d’une droite il faut trouver le coefficient angulaire « b » et le terme indépendant « a ». Une possibilité pour ce faire est de trouver deux points de la droite et de faire un système d’équation à deux inconnues. Le tout est donc de trouver ces deux points. Meyer à imaginé une solution facile et rapide pour trouver une approximation de la droite qui consiste à séparer la série statistique en deux parties égales (selon la médiane), à prendre la moyenne de chacune de ces parties pour X et pour Y. Ces deux moyennes se trouveront sur la droite de régression, il ne reste qu’à résoudre le système d’équation. Une autre solution consiste à utiliser la méthode des moindres carrés. Cette méthode part du principe que les points sont rarement exactement sur la droite de régression. Chaque point en est à une certaine distance. Dès lors, il faut trouver la droite qui minimise l’ensemble des distances entre chacun de ces points et la droite. La démonstration mathématique n’est pas indispensable ici, mais voici la formule résultante qui permet de trouver « b » et « a » : Coefficient angulaire : Terme indépendant : X Y XY X Y S S r b = . X b Y a − = TP 9 2006-2007 6/8 i) Trouvez l’équation de la droite de régression des séries A et C par la méthode de Meyer. Moyennes demi-groupes : Moyennes demi-groupes : X1 = Y1 = X2 = Y2 = X1 = Y1 = X2 = Y2 = Equation série A : Equation série C : j) Trouvez l’équation de la droite de régression des séries B, C et D par la formule des moindres carrés. Equation série B Equation série C Equation série D k) Une situation qui serait confortable pour les calculs serait de transformer ces équations de telle manière à ce que le coefficient angulaire soit égal au coefficient de corrélation (donc que b = rXY) et que le terme indépendant soit nul (donc que a = 0), en regardant les formules permettant de trouver b et a, donnez les conditions nécessaires à l’obtention de cette situation. Conditions nécessaires : l) Comment pourrions-nous faire pour arriver à remplir ces conditions ? TP 9 2006-2007 7/8 T.P. 9 Corrélation- Régression Connaissances préalables : Buts spécifiques : Préciser les implications des corrélations et régression. Outils uploads/S4/ t-p-9-covariance-correlation-regression-y-y-x-x-n-cov.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 24, 2022
  • Catégorie Law / Droit
  • Langue French
  • Taille du fichier 0.0325MB