1 ANALYSE STATISTIQUE DES DONNEES LICENCE PROFESSIONNELLE IGE R. EL HILA 2022/2

1 ANALYSE STATISTIQUE DES DONNEES LICENCE PROFESSIONNELLE IGE R. EL HILA 2022/2023 2 CHAPITRE I : ANALYSES STATISTIQUES BIDIMENSIONNELLES Les analyses statistiques bidimensionnelles (ou analyses bivariées). sont des méthodes qui mettent en relation deux variables Trois situations se présentent : - Il n'existe aucun lien entre les variations des deux variables étudiées : les variables sont indépendantes. - les deux variables varient soit dans le même sens, soit en sens contraire : la relation est soit positive (les deux variables augmentent ou diminuent parallèlement) soit négative (quand une variable augmente, l’autre diminue et inversement). - la connaissance de l’une entraine forcément la connaissance de l’autre : la liaison est fonctionnelle (par exemple, le revenu et l’impôt payé). I ) ANALYSE DE CORRELATION SIMPLE L’étude de la corrélation vise à établir le poids, le sens et la forme de la liaison entre deux variables. Une première étape de cette analyse, pour connaitre la configuration ou le profil de la relation, est de construire un graphique de la distribution appelé digramme de corrélation ou corrélogramme : absence de relation relation faible relation forte 3 1 ) Coefficient de corrélation simple de Pearson (ou Bravais-Person) Ce coefficient permet de détecter la présence ou l'absence d'une relation linéaire entre deux caractères quantitatifs continus. Noté r, ce coefficient est défini par le rapport suivant : r = Cov (x ; y) σx . σy La covariance est la moyenne du produit des écarts à la moyenne : 1.1- Sens et Poids de la relation : On peut démontrer que ce coefficient varie entre [ -1 et +1 ] : - si r est proche de 0, il n'y a pas de relation linéaire entre X et Y - si r est proche de -1, il existe une forte relation linéaire négative entre X et Y - si r est proche de 1, il existe une forte relation linéaire positive entre X et Y Le signe de r indique donc le sens de la relation tandis que la valeur absolue de r indique son poids c’est-à-dire la capacité de prévoir les valeurs de y connaissant celles de x : 4 1.2- Test d’hypothèse sur l’existence d’une relation Hypothèses : Ho : Pas de relation entre les deux variables H1 : La relation est significative Le coefficient de corrélation calculé étant rc, on détermine à partir de la table le coefficient tabulé rT correspondant à une taille n de l’échantillon et un niveau de risque fixé. Règle de décision : Si rc < rT On accepte Ho Si rc > rT On rejette Ho 1.3- Niveau d’explication Le coefficient r ne donne que le poids et le sens de la relation et pas le niveau d’explication. Pour le faire, on calcule le coefficient r2 appelé coefficient de détermination. Par exemple, si r = 0,97 alors r2 = 0,94 soit 94%. Cela veut dire que les variations de x expliquent 94% des variations de y. 1.4- Limites du coefficient de Pearson En principe, le coefficient de Pearson n'est applicable que pour mesurer la relation entre deux variables x et y ayant une distribution de type gaussien et ne comportant pas de valeurs exceptionnelles. Si ces conditions ne sont pas vérifiées (cas fréquent ...) l'emploi de ce coefficient peut aboutir à des conclusions erronées sur la présence ou l'absence d'une relation. A souligner également que l'absence d'une relation linéaire ne signifie pas l'absence de toute relation entre les deux caractères étudiés. 2 ) Coefficient de corrélation de rang de Spearman Le coefficient de corrélation de rang ou coefficient de Spearman, examine s'il existe une relation entre des observations classées pour deux variables x et y de nature ordinale, ce qui permet de détecter l'existence de relations monotones (croissante ou décroissante) quelle que soit leur forme (linéaire, puissance, exponentielle, ...). Ce coefficient est donc utile lorsque l'analyse du nuage de points révèle une forme qui semble mal s'ajuster à une droite. 5 Noté ρ, ce coefficient est défini par la relation : ρ = 1 - 6 ∑ (rang X – rang Y)2 N3 - N Soulignons que le coefficient de Spearman varie également entre [ -1 et +1 ]. Son interprétation est la même que celui de Pearson, sauf qu’il permet de mettre en évidence des relations non-linéaires lorsqu'elles sont positives ou négatives. 3 ) Coefficient de corrélation de Kendall Le coefficient de Kendall appelé tau de Kendall (noté τ) quantifie le degré de concordance monotone entre deux variables ordinales quantitatives ou catégorielles (càd qualitatives). C’est un indice authentiquement non paramétrique approprié aux variables ordinales. 3.1- Le Coefficient τ C’est un indice qui s’applique à des variables ordinales simples distinctes. Il est défini par la formule : τ = C - D ½ n (n – 1) Avec : C : nombre d’inégalités concordantes D : nombre d’inégalités discordantes n : nombre d’observations ou de paires x, y. 3.2- Le Coefficient τ-b Ce coefficient est une extension de l’indice τ pouvant s’appliquer à des données ordinales non distinctes. il est calculé à partir de la formule suivante : 6 τ = C - D M Avec : M = ½ √ [ n (n – 1) - Ux ] [n (n – 1) - Uy ] Où : Ux = ∑ ux ( ux – 1) Et : Uy = ∑ uy ( uy – 1) Ux et Uy sont déterminés à partir des nombre de valeurs X ou Y apparaissant plus d’une fois. II ) LA REGRESSION LINEAIRE SIMPLE La régression est l’une des méthodes les plus connues et les plus appliquées en statistique pour l’analyse de données quantitatives. Elle est utilisée pour établir une liaison entre une variable quantitative et une ou plusieurs autres variables quantitatives, sous la forme d’un modèle. Si on s’intéresse à la relation entre deux variables, on parlera de régression simple en cherchant à analyser l’effet d’une variable explicative X sur variable expliquée Y. 1 ) PRESENTATION DU MODELE Il s’agit d’une fonction : Y = f (X) On écrit : yi = a xi + b + εi ∀ i = {1,...,n} (ou bien y = a0 + a1 . x + εi) xi est une variable aléatoire observée appelée régresseur ou variable explicative yi est une variable aléatoire observée, appelée variable à expliquer a et b sont des paramètres réels inconnus appelés paramètres ou coefficients de régression εi sont des variables aléatoires, non observées appelées erreurs ou bruits. 7 Graphiquement, on a : Y f(x) = a xi + b X L’objectif est de déterminer les coefficients a et b qui minimisent le carré de la distance entre chaque point du nuage et la droite de régression : Min ∑ εi2 = Min ∑ (yi – a xi - b)2 a, b Soit L(a, b) = ∑ (yi – a xi - b)2, la fonction à minimiser. Ses points critiques sont obtenus par la résolution du système : ∂L = 0 ∂b ∂L = 0 ∂a Cette procédure utilise l’ajustement économétrique des moindres carrés ordinaires (MCO ou OLS) construit autour des hypothèses connues des méthodes de régression : En développant, on trouve : a = ∑xi yi – N  ȳ ; N étant le nbre d’observations ∑xi2 – N 2 Et b = ȳ – a  8 Pratiquement, on considère que les coefficients après calcul sont déterministes et sont notés â et b. Notons que le modèle peut être spécifié : - En coupe instantanée : les variables représentent des phénomènes observés au même instant mais concernant plusieurs individus. - En série temporelles : les variables sont observées à intervalles réguliers de temps. 2 ) ANALYSE DE LA VALIDITE DU MODELE Au plan statistique, la relation entre les variables étudiées doit être prouvée à travers une évaluation opérée à deux niveaux : une évaluation globale de l’équation et une évaluation isolée pour chaque coefficient de régression. 2.1- ANALYSE DE LA CORRELATION L’analyse de la corrélation et de la variance permet d’apprécier la validité globale de l’ajustement : Il s’agit de calculer le coefficient de corrélation simple : r = Cov (x ; y) σx . σy Ce coefficient peut être calculé à partir du coefficient de détermination : r2 = SCE SCT 2.2- ANALYSE DE LA VARIANCE Pour sa part, l’analyse de la variance met en relief un effet combiné des variables explicatives sur la variable expliquée. Les ŷi étant tels que ∑ έi2 soit minimale, puisque ∑ ŷi = ∑ yi , on a le théorème suivant : Théorème : La somme des carrés totale (SCT) est égale à la somme des carrés expliquée (SCE) plus la somme des carrés résiduelle (SCR) : ∑ (yi − ȳ)2 = ∑ (ŷi − ȳ)2 + ∑ (yi − ŷi)2 9 – SCT = ∑ (yi − ȳ)2 est la somme totale des carrés centrés de y – SCE = ∑ (ŷi − ȳ)2 est la somme des carrés expliquée par le modèle – SCR = ∑ (έi)2 = ∑ (yi − ŷi)2 est la somme des carrés résiduelle. Tableau d’analyse uploads/Management/ asdchap1-lic.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Mai 11, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.3871MB