Les traitements élémentaires : Les analyses univariées (ou tris à plat) :  Con

Les traitements élémentaires : Les analyses univariées (ou tris à plat) :  Concernent le traitement d’une seule variable  Ont pour objet de synthétiser et d’analyser les informations disponibles sur cette variable Les analyses bivariées (ou tris croisés)  Ont pour objet de mettre en évidence les relations éventuelles qui existent entre 2 variables analysées simultanément Les analyses multivariées Les méthodes descriptives :  Cherchent à étudier les relations entre 2 groupes de variables  L’une d’entre elles mesure un phénomène que l’on cherche à expliquer  Les autres représentent des phénomènes qui sont supposés influencer et déterminer le précédent Les méthodes explicatives :  Prennent en compte un ensemble de variables  Cherchent à structurer ou résumer un groupe de variables  Cherchent à décrire de façon synthétique la structure des données disponibles Y = aX + b Y X Variable à expliquer Variable explicative Endogène Exogène Dépendante Indépendante  La régression linéaire Simple : Explication d’une variable quantitative Y à l’aide d’une variable également quantitative Multiple : utilisation de plusieurs variables explicatives (X1, X2…) pour expliquer Y  L’analyse de la variance (ANOVA)  L’analyse discriminante  L’analyse conjointe (MONANOVA)  La segmentation Les méthodes descriptives :  L’analyse en composantes principales (ACP)  L’analyse typologique  L’analyse factorielle des correspondances Les méthodes avancées d’analyse multivariée : L’analyse canonique :  Etend la régression au cas où il y a plusieurs variables à expliquer  Peut être considérée comme la plus générale des méthodes fondées sur le modèle linéaire Les modèles de causalité (ou équations structurelles) :  Constituent le stade actuellement le plus avancé des méthodes d’analyse de données  Permettent d’étudier simultanément la structure des relations entre variables et la qualité de la mesure de ces variables Références Bibliographiques - MARKET : études et recherches en Marketing Auteurs : Y . Evrard, B.Pras & E. Roux Editeur : Dunod - Les enquêtes par questionnaire avec Sphinx Auteur : Stéphane Ganassali Editeur : Pearson Education - Etudes de marché Auteurs : Jean-Luc Giannelloni & Eric Vernette Editeur : Vuibert - Le traitement des données en marketing Auteur : Jean-Pierre Vedrine Editeur : Les éditions d’Organisation Les traitements élémentaires : Les analyses univariées Introduction :  Les analyses univariées concernent le traitement d’une seule variable  Elles ont pour objet de synthétiser et d’analyser les informations disponibles sur cette variable  Ces données peuvent provenir de sources différentes Donnés d’observations Données expérimentales Séries statistiques Résultats d’une question posée dans le cadre d’un sondage Exemples :  Le nombre d’entrées dans un hypermarché à différentes heures de la journée  Les ventes d’un produit associées à un conditionnement expérimental  L’évolution des ventes d’un produit sur un certain nombre d’années  Les réponses à la question : « possédez-vous un auto-radio ? » Données quantitatives (métriques) :  Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne interrogée se voit demander la valeur qu’elle donne à la variable concernée  Pour chaque individu I, une valeur XIK sera obtenue pour cette variable. Si l’enquête porte sur n individus, la variable sera associée à un vecteur de n éléments  La synthétisation de ces données peut être réalisée à travers le calcul de divers indicateurs que fournissent la plupart des logiciels Données qualitatives (Nominales) :  Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne interrogée a le choix entre plusieurs modalités qui lui sont proposées explicitement ou implicitement (Cas d’une question ouverte avec post-codification)  Pour chaque individu I, la réponse correspond à un code ou éventuellement à plusieurs si le choix est multiple  Sur l’ensemble de la population enquêtée, on calcule alors la fréquence absolue (le nombre de fois qu’un code j donné est apparu pour la variable k étudiée) Données qualitatives (Ordinales) :  Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne interrogée se voit demander de classer plusieurs items proposés  Sur l’ensemble de la population enquêtée, il sera ainsi possible de comptabiliser : Le nombre de fois qu’un item donné a été classé en 1ere position, ou en 2e,… Le nombre de fois qu’un item donné a été classé avant un autre item ; ce type de résultats permettra d’établir une matrice des préférences Les indicateurs de position Cherchent à résumer par une caractéristique de tendance centrale les niveaux pris par une variable  Le mode : modalité pour laquelle les observations sont les plus nombreuses (Mo)  La médiane : Valeur qui divise la population étudiée en 2 parties égales (Me)  La moyenne : Généralement considérée comme « naturellement » la tendance centrale de la distribution d’une variable numérique : XAk = ∑ XIK / n Les indicateurs de dispersion mesurent la plus ou moins grande dispersion des valeurs autour de leur tendance centrale  L’étendue : Intervalle qui sépare les deux valeurs extrêmes : E = XMAX – XMIN  La variance : Moyenne des carrés des écarts par rapport à la moyenne (obtenue sur échantillon) : S2 k = ∑ (XIK – XAK) 2 / (n – 1)  L’écart-type : Racine carrée de la variance : Sk = [∑(XIK – XAK) 2 / (n – 1)] 1 /2  Le coefficient de variation : Pourcentage permettant de comparer la dispersion de variables ayant des moyennes différentes : C.V. = SK / XAK Le test de moyenne  Il s’agit de comparer la moyenne obtenue sur un échantillon A XA à une valeur prédéterminée µ  L’hypothèse nulle peut être formulée de 2 façons : Sous forme d’inégalité (par exemple XA > µ) : il s’agira alors d’un test unilatéral Sous forme d’égalité (par exemple XA = µ) : Il s’agira alors d’un test bilatéral  Deux test sont utilisables (z ou t) selon 2 conditions : Connait-on ou non l’écart-type de la variable dans la population (α) ? Si oui, on utilisera le test z Sinon (ce qui est le cas le plus fréquent dans la pratique), on utilisera l’écart-type de l’échantillon (α) comme estimateur de l’écart-type (inconnu) de la population : le choix dépend alors de la taille de l’échantillon : si n < 30, on utilisera le test t (sinon on utilisera le test z)  Le test z consiste alors à calculer la valeur z = |XA - µ| / SXA où l’écart-type de la moyenne SXA = S / n1/2  Valeur observée de z est comparée à la valeur zµ correspondant au seuil de signification µ retenu. Z suit une distribution normale, c’est donc sur une table de cette distribution que l’on trouvera zµ.  Si l’on désire travailler avec un seuil de confiance (1- µ), un intervalle de confiance pour la moyenne µ est obtenu à l’aide de l’expression : µ = XA +/- zα/2. sXA  Dans le cas du test t, la valeur à tester est calculée de la même façon, mais la valeur tα est lue dans la table de la loi de Student à (n-1) degrés de liberté (au-delà de 30 observations, la distribution de t est approximativement normale)  Dans le cas d’une proportion (ou pourcentage), la démarche à utiliser est analogue. Soit P la proportion « théorique », p la proportion observée et sp l’écart-type qui lui est associé : sp = [p(1- p)/n]1/2 on calcule alors : z = |P-p| / sp Exemple 1 : - L’association des étudiants d’une université envisage d’ouvrir un ciné-club ; afin d’en évaluer la fréquentation, elle a réalisé une enquête par sondage sur un échantillon de 400 individus. Une moyenne de fréquentation de 10 séances par an et par individu a été obtenue avec un écart-type égal à 20. Au seuil de 5%, donnez l’intervalle de confiance de la moyenne de fréquentation attendue (réelle) par étudiant, puis de la fréquentation globale annuelle (l’université comprend 5000 étudiants). On donne zα/2 = 1,96 µ = XA +/- zα/2. sXA Avec SXA = S/n1/2 = 20/4001/2 = 1 µ = 10 +/- 1,96 x 1 = 10 +/- 1,96 µ a 95 chances sur 100 de se situer dans la fourchette (ou intervalle de confiance) [8,04 ; 11,96] Si l’université comprend 5000 étudiant, une fréquentation globale de 50000 places peut être attendue en moyenne ; la fréquentation globale annuelle a 95% de chances de se situer dans l’intervalle [40200 ; 59800] Exemple 2 : - Répondre aux mêmes questions au cas où l’association se serait limitée à 21 interviews au lieu d’utiliser un échantillon de 400 personnes. On donne tµ = 2,086 Dans ce cas, la moyenne d’échantillon suit une loi de Student à 20 degrés de liberté (n-1) Donc µ = 10 +/- 2,086 x (20/211/2) = 10 +/- 9,10 µ a 95 chances sur 100 de se situer dans la fourchette |0,9 : 19,1] Les traitements élémentaires : Les analyses bivariées Introduction :  Les analyses bivariées concernent le traitement de deux variables.  Elles ont pour objet de mettre en évidence les relations éventuelles qui existent entre deux variables uploads/Management/analyse-de-donnees-cours.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 22, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.1382MB