Cours : Analyse des données 2ème LNSG 1 Chapitre 2 : Les analyses univariées et
Cours : Analyse des données 2ème LNSG 1 Chapitre 2 : Les analyses univariées et bivariées Introduction Lors de la détermination des résultats empiriques, le nombre des variables adoptées permet de déterminer les mesures ainsi que les tests appropriés susceptibles d’atteindre les objectifs prévus des études. En particulier, les analyses univariées seront utilisées lorsqu’on dispose d’une seule variable de l’étude permettant de générer des résultats, alors que les analyses bivariées nécessitent le recours à deux variables simultanément afin de générer des résultats. En pratique, il existe plusieurs mesures et tests statistiques qui s’intègrent dans le cadre de ces analyses. A cet effet, ce chapitre permet de présenter les principaux tests statistiques ainsi que les mesures en relation avec les analyses univariées (Paragraphe 1) et les analyses bivariées (Paragraphe 2). De surcroit, le présent chapitre présentera des illustrations sur SPSS se rapportant aux résultats statistiques de ces analyses. I. Les analyses univariées Au niveau de ce paragraphe, il importe de présenter certaines analyses notamment la distribution des fréquences, les mesures de position centrale, les mesures de dispersion, les mesures de formes, ainsi que le test de Chi-deux de conformité. 1. La distribution des fréquences et ses illustrations graphiques La distribution de fréquences permet d’avoir une répartition des réponses en fonction des modalités (ou encore des propositions de réponses) d’une question posée. La distribution de fréquence concerne une seule variable et permet de déterminer le nombre de réponses pour chaque modalité. La distribution de fréquences permet de calculer des pourcentages et de déterminer des fréquences cumulées. De plus, il est possible d’illustrer graphiquement les résultats issus de cette distribution. Exemple : On suppose que nous avons posé la question suivante lors d’une enquête et que nous avons obtenu ses résultats après la collecte des données : Question : Combien de fois accédez-vous à votre email par jour ? 1 fois 2 fois 3 fois Résultats sur SPSS après la collecte des données : Cours : Analyse des données 2ème LNSG 2 Tableau 1 : Accès à un email par jour Effectifs Pourcentage Pourcentage valide Pourcentage cumulé Valide 1 fois par jour 17 14,2 14,2 14,2 2 fois par jour 37 30,8 30,8 45,0 3 fois par jour 66 55,0 55,0 100,0 Total 120 100,0 100,0 Graphiquement, les résultats peuvent se représenter en utilisant un diagramme en bâtons ou bien un diagramme en secteurs qui indiquent la répartition des réponses en pourcentages. Ces illustrations sont indiquées ci-après : Figure 1 : Illustration graphique d’un diagramme en bâtons Figure 2 : Illustration graphique d’un diagramme en secteurs Cours : Analyse des données 2ème LNSG 3 2. Les mesures de position centrale Les mesures de position centrale (appelées aussi les mesures de tendance centrale) consistent à décrire le centre de la distribution. On distingue la somme, la moyenne, le mode et la médiane. a. La somme La somme est calculée en additionnant les valeurs des différentes modalités d’une variable afin d’obtenir le résultat total. b. La moyenne arithmétique Cette mesure est fréquemment utilisée. Elle se calcule par exemple en divisant la somme des scores par le nombre d’observations en vue d’obtenir une valeur moyenne. Elle consiste à évaluer la moyenne des données collectées en tenant compte d’une échelle d’intervalles ou de rapport (de ratio) (Malhotra et al, 2004). L’expression de la moyenne se présente comme suit : ∑ = = n i i n X X 1 Avec : Xi = valeurs observées de la variable X. n = nombre d’observations (taille de l’échantillon). c. Le mode Le mode se rapporte la valeur qui représente la plus grande fréquence d’apparition. En d’autres termes, c’est la valeur la plus rencontrée (Dodge, 2007). Au niveau du tableau 1 de ce chapitre, le mode est relatif à la modalité « 3 fois par jour » car elle a l’effectif de réponses le plus élevé (66 réponses). d. La médiane La médiane représente une valeur permettant de répartir en deux ensembles les données classées par ordre croissant ou décroissant (sur la base du calcul des fréquences cumulées). La médiane représente alors la valeur au dessus et au-dessous de laquelle se situe la moitié des observations. 3. Les mesures de dispersion Les mesures de la dispersion sont calculées sur la base des données métriques (d’intervalles ou de rapport). On distingue notamment la variance, l’écart-type et le coefficient de variation. Cours : Analyse des données 2ème LNSG 4 a. La variance La variance correspond à la mesure de la dispersion autour de la moyenne. La variance représente alors la moyenne des carrés des écarts (sachant qu’un écart est déterminé par la différence entre la moyenne et l’une des valeurs observées) (Malhotra et al, 2004). La formule de la variance se présente comme suit : n X X X VAR i / ) ( ) ( 2 ∑ − = b. L’écart-type C’est la racine carrée de la variance. Dans le cas d’un calcul sur un échantillon on divise par (n-1). Ainsi, la formule sera comme suit : 1 ) ( 1 2 − − = ∑ = n X X s n i i c. Le coefficient de variation Le coefficient de variation correspond au rapport entre l’écart-type et la moyenne (Carricano et Poujol, 2009). Cette mesure n’a pas d’unité comme elle s’exprime en pourcentage (Malhotra et al., 2004). L’expression du coefficient de variation s’exprime comme suit : X s CV = Selon INSEE, il est à noter que plus la valeur du coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande. De même, ce coefficient favorise la comparaison de distributions de valeurs dont les échelles de mesure ne sont pas comparables1. 4. Les mesures de formes Les mesures de forme permettent une meilleure compréhension de la distribution. On distingue principalement l’asymétrie et l’aplatissement. Ces deux coefficients permettent de vérifier si les variables suivent ou non une distribution normale (Carricano et Poujol, 2009). a. L’asymétrie (Skewness) Ce coefficient mesure l’asymétrie d’une distribution. Une distribution normale est symétrique si ses valeurs sont les mêmes de part et d’autre du centre de la distribution. Ainsi, sa valeur de 1 INSEE, https://www.insee.fr/fr/metadonnees/definition/c1366, consulté le 27/02/2021. Cours : Analyse des données 2ème LNSG 5 skewness est égale à 0. Si le skewness est positif et significatif, on obtient une distribution asymétrique à droite et si le skewness est négatif et significatif, on aura alors une distribution asymétrique à gauche (la distribution prend la forme d’une longue queue à gauche). Il est à noter que le skewness doit être inférieur à 1 (Carricano et Poujol, 2009). d. L’aplatissement (Kurtosis) L’aplatissement permet de mesurer le relief ou la platitude concernant la courbe de distribution des fréquences. L’aplatissement d’une distribution normale est égal à zéro (Malhotra et al., 2004). On suppose que le coefficient d’aplatissement doit être inférieur à 1,5 en vue de considérer que la variable étudiée suit une loi normale (Carricano et Poujol, 2009). Exemple : Soit la distribution suivante concernant le nombre de journaux achetés par chaque répondant durant une semaine. Il s’agit de vérifier si cette distribution suit ou non la loi normale. Les résultats se présentent comme suit : Figure 3 : Illustration graphique de la distribution des réponses Cours : Analyse des données 2ème LNSG 6 Tableau 2 : Résultats de l’asymétrie et de l’aplatissement N Valide 60 Asymétrie ,100 Erreur std. d'asymétrie ,309 Aplatissement -,329 Erreur std. d'aplatissement ,608 D’après les résultats ci-dessus, cette distribution suit la loi normale étant donné que l’indice d’asymétrie est inférieur à 1 en valeur absolue (0,1), alors que l’indice d’aplatissement ne dépasse pas 1,5 en valeur absolue (-0,329). 5. Le test de Chi-deux de conformité Ce test tient compte d’une seule variable et fait partie des tests de conformité avec une distribution théorique. D’après Védrine (1991), la loi de Chi-deux détermine la répartition des écarts entre les fréquences absolues théoriques et les fréquences absolues observées, compte tenu de l’hypothèse nulle (H0) selon laquelle il existe une égalité entre les fréquences théoriques et les fréquences observées. Ainsi, le Chi-deux est calculé en utilisant cette formule : j j j N X θ θ / ) ( 2 2 ∑ − = Avec : Nj : La fréquence absolue observée pour la modalité j. θj : La fréquence absolue théorique pour la modalité j. Cette valeur calculée sera comparée avec la valeur de la table de Chi-deux avec un degré de liberté de (m-1), sachant que m représente le nombre de modalités. Ainsi, si la valeur calculée est supérieure à la valeur de la table de Chi-deux, H0 sera rejetée avec un risque inférieur à α (par exemple α=0,05). En adoptant le logiciel SPSS, il sera pertinent de se concentrer sur la valeur de p et la comparer avec un seuil (par exemple 5%). Si la valeur de p est inférieure ou égale à 5%, on rejette H0 et on accepte H1 selon laquelle il existe une différence significative entre les fréquences absolues observées et les fréquences absolues théoriques. Exemple : On désire étudier la préférence des consommateurs envers la saveur des uploads/Management/chapitre-2-les-analyses-univariees-et-bivariees.pdf
Documents similaires










-
38
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Nov 03, 2021
- Catégorie Management
- Langue French
- Taille du fichier 2.4134MB