Exemple notes de la population des étudiants n° 1 La moyenne = (2+2+…+18) / 9 =

Exemple notes de la population des étudiants n° 1 La moyenne = (2+2+…+18) / 9 = 10 La variance = [(2-10)2+…+(18-10)2]/9 = 56,88 Rappel sur les variables quantitatives univariées notes de la population des étudiants n°2 La moyenne = (9+9+…+11)/ 9 = 10 La variance = [(9-10)2+…+(11-10)2]/9 = 0,88 Paramètres de dispersion La variance et l’écart-type i 1 2 3 4 5 6 7 8 9 Xi 2 2 2 2 10 18 18 18 18 i 1 2 3 4 5 6 7 8 9 Yi 9 9 9 9 10 11 11 11 11 = 56,88 Ecart-type = √56,88 = 7,54 Les étudiants du groupe 1 ont obtenu en moyenne une note de 10/20 avec un écart type de 7,54 21 = 0,88 Ecart-type = √0,88 = 0,94 Les étudiants du groupe 1 ont obtenu en moyenne une note de 10/20 avec un écart type de 0,94 S. BENABDALLAH L3 SOCIOLOGIE >> Les notes des étudiants du groupe 1 sont plus dispersées que les notes des étudiants du groupe 2.  Quand une série de donnée est peu dispersée, les indicateurs de dispersion sont faibles.  Les indicateurs de dispersion sont positifs.  Ils peuvent être nuls dans le cas où les observations sont identiques. Rappel sur les variables quantitatives univariées  Si une série de donnée X contient des valeurs qui se répètent au moins deux fois, on peut utiliser les formules des variances (ou écarts-type) pondérées : Pour une population : Pour un échantillon : Paramètres de dispersion La variance et l’écart-type ( ) 2 1 2 1 ∑ = − = = N i i i X X N N σ σ ( ) 2 1 2 1 1 ∑ = − − = = n i i i X X n n S S 22 Exemple (notes à l’examen) Variance = σ2 = [ 4.(2 - 10) + 1.(10 - 10) + 4.(18 - 10) ] / 9 =56,88 Ecart-type = σ = √56,88 = 7,54 Remarque : si les valeurs de la variable X sont regroupées en classes (exemple : classes d’âges), on prend comme Xi les centres de classes. S. BENABDALLAH L3 SOCIOLOGIE Xi 2 10 18 Total N ni 4 1 4 9 Rappel sur les variables quantitatives univariées  Le coefficient de variation est une mesure de dispersion relative. Il permet de comparer deux distributions exprimées dans des unités différentes (distributions de salaires en France et aux Etats-Unis par exemple) ou dont les moyennes ne sont pas égales. Exemple : comparaison de deux distributions de salaires de deux quartiers Paramètres de dispersion Coefficient de variation X C v σ = 23 Exemple : comparaison de deux distributions de salaires de deux quartiers d’une ville française Le salaire moyen dans le quartier 1 = 1200€, l’écart-type des salaires = 30€ Le salaire moyen dans le quartier 2 = 1500€, l’écart-type des salaires = 37,5€ Dans le quartier 1, Cv = 30 / 1200 = 0,025. Dans le quartier 2, Cv = 37,5 / 1500 = 0,025. La dispersion relative des salaires est identiques dans les deux quartiers. S. BENABDALLAH L3 SOCIOLOGIE Rappel sur les variables quantitatives univariées Bonus : comment faire sur Excel ? Nous disposons d’une série de données (nombre d’enfants par ménage) tirée d’une enquête : 24 S. BENABDALLAH L3 SOCIOLOGIE Statistique bivariée : corrélation et régression linéaire simple Corrélation Introduction  Dans de nombreuses études, on cherche à analyser les caractéristiques des individus de manière simultanée suivant deux variables quantitatives.  On cherche à définir et mesurer (graphiquement, par des indicateurs, par une équation) la relation pouvant exister entre : - Le niveau d’études des enfants et celui de leurs parents ; - Le nombre d’heures d’études et les résultats aux examens ; 25 S. BENABDALLAH L3 SOCIOLOGIE - Le nombre d’heures d’études et les résultats aux examens ; - Le niveau de pauvreté et le taux de chômage ; - Le volume des ventes et les dépenses en publicité ;  Cette relation peut-être nulle (le revenu d’un salarié et sa taille en cm), totale (le rayon et le périmètre d’un cercle) ou relative (le revenu et la consommation). Corrélation Introduction  On veut répondre aux questions suivantes :  Existe-il une relation ou une dépendance entre les variables statistiques?  La nature de cette relation, si elle existe, est-elle linéaire ou non ?  Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique ? Statistique bivariée : corrélation et régression linéaire simple 26 S. BENABDALLAH L3 SOCIOLOGIE  La relation, si elle existe, est-elle grande ou faible ?  Si l’équation mathématique de la relation entre les variables existe, comment l’utiliser pour prévoir la valeur d’une variable Yi à partir de la connaissance d’une valeur de la variable Xi (ou autres).  Pour répondre à ces question nous ferons appel à l’analyse de la régression.  Tout d’abord voyons ensemble deux indicateurs (les plus courants en statistique) permettant de préciser la nature des relations entre deux variables quantitatives : >>> covariance >>> coefficient de corrélation Corrélation La covariance  La covariance renseigne sur l'existence d'une relation linéaire quantitative. Elle se calcule par la formule suivante : ---> Si on travaille sur les données de la population Statistique bivariée : corrélation et régression linéaire simple ( )( ) ∑ = − − = N i i i Y Y X X N Y X Cov 1 1 ) , ( ( )( ) ∑ − − = n Y Y X X Y X Cov 1 ) , ( 27 S. BENABDALLAH L3 SOCIOLOGIE ---> Si on travaille sur un échantillon (souvent le cas)  Si Cov(X,Y) > 0, X et Y ont tendance à évoluer linéairement dans la même direction ;  Si Cov(X,Y) < 0, X et Y ont tendance à évoluer linéairement dans des directions opposées ;  Si Cov(X,Y) = 0 alors pas de liaison linéaire entre X et Y. ( )( ) ∑ = − − − = i i i Y Y X X n Y X Cov 1 1 1 ) , ( Corrélation La covariance  Exemple On dispose d’un échantillon de 8 salariés d’une entreprise. On souhaite savoir si une relation linéaire existe entre le nombre d’années d’expérience et le revenu mensuel des salariés. Expérience en années (X) Revenu mensuel net en € (Y) (Xi-X bar) (Yi-Y bar) (Xi-X bar) (Yi-Y bar) Salarié 1 5,5 2 400 -6,3 -300,0 1 890,0 Salarié 2 2,5 2 000 -9,3 -700,0 6 510,0 Salarié 3 18,9 3 000 7,1 300,0 2 130,0 Salarié 4 13,5 2 700 1,7 0,0 0,0 Salarié 5 25,5 3 200 13,7 500,0 6 850,0 Statistique bivariée : corrélation et régression linéaire simple 28 S. BENABDALLAH L3 SOCIOLOGIE La Cov(X,Y) = 2 757 > 0. Il existe une relation linéaire entre le nombre d’années d’expérience et les revenus mensuels des salariés de cette entreprise. Ils ont tendance à évoluer dans la même direction. Au global, quand on a de l’expérience on a tendance à voir un salaire élevé. Problèmes : La covariance dépend fortement des unités de mesure de X et de Y. Comment mesurer le degré de cette relation ? Salarié 5 25,5 3 200 13,7 500,0 6 850,0 Salarié 6 7,3 2 800 -4,5 100,0 -450,0 Salarié 7 2,3 2 600 -9,5 -100,0 950,0 Salarié 8 18,9 2 900 7,1 200,0 1 420,0 Somme 19 300,0 X bar Y bar Moyenne 11,8 2 700 Covariane 2 757 Corrélation Le coefficient de corrélation linéaire  On va diviser la covariance par l’écart type de X et l’écart type de Y. On obtient le coefficient de corrélation linéaire : Statistique bivariée : corrélation et régression linéaire simple ( )( ) ( ) ( ) ∑ ∑ ∑ = = = − − − − = n i i n i i n i i i Y Y X X Y Y X X r 1 2 1 2 1 29 S. BENABDALLAH L3 SOCIOLOGIE  Il me mesure le degré de relation linéaire entre deux variables quantitatives X et Y.  Il n'a pas d'unité de mesure.  Il est toujours compris entre -1 et 1.  Plus il est proche de -1, plus X et Y seront liées par une relation linéaire fortement négative.  Plus il est proche de 1, X et Y seront liées par une relation linéaire fortement positive.  S’il est proche de 0, il n’y a aucune relation linéaire entre X et Y. 0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 2 3 4 5 6 7 Y X Corrélation Le coefficient de corrélation linéaire r = 1 0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 2 3 4 5 6 7 Y X r = -1 0 5 1 0 1 5 2 0 2 5 3 0 3 5 0 2 4 6 8 1 0 1 2 1 uploads/Geographie/ cours-seance-2.pdf

  • 9
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager