1 ANALYSE DES DONNEES Professeur : Rachid JAHIDI 2 Syllabus MATIERE : Analyse d
1 ANALYSE DES DONNEES Professeur : Rachid JAHIDI 2 Syllabus MATIERE : Analyse des données NIVEAU : 3ème année PRE-REQUIS : Statistique descriptive Notions d’estimation Notions d’algèbre linéaire PROFESSEUR : M. Rachid JAHIDI OBJECTIF Le traitement des tableaux de données multidimensionnelles exige des méthodes de description statistique élaborées. L’objectif de ce cours est de présenter les principales méthodes d’Analyse Des Données (ADD) utiles dans les études marketing à base d’enquêtes et sondages. Ce cours propose à la fois ; Une présentation générale et pratique des principales méthodes d’ADD disponibles dans les logiciels Une aide à l’interprétation des sorties fournies par les logiciels statistiques Des exemples entièrement traités à l’aide de logiciels statistiques, principalement SPSS. 3 METHODOLOGIE Description des données utilisées pour présenter la méthode ; Présentation de la méthode en minimisant les aspects mathématiques et les démonstrations et en valorisant les aspects pratiques et méthodologiques ; Interprétation des sorties du programme statistique correspondant à la méthode présentée. PLAN DU COURS. Introduction générale Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Analyse Typologique (AT) Evaluation : • examen (60% de la note finale) • contrôle écrit (40% de la note finale) Bibliographie : P. Ardilly : Les techniques de sondage. Technip. L. Lebart et N. Tabard : Techniques de la description statistique. Dunod. M. Volle : Analyse des données. Economica. L. Lebart et Grangé : Traitement statistique des données. Dunod. B. Escofier et J Pagès : analyse factorielles simples et multiples M. Tenenhaus : Méthodes statistiques en gestion Y. Evrard ; B. Pras ;E. Roux : Market étude et recherche en marketing. 4 Introduction La multiplication des grandes bases de données nécessite le traitement de masses d'informations toujours plus grandes. Il est donc nécessaire de disposer de méthodes permettant d'extraire cette information à partir de grands tableaux de données. Ces méthodes sont regroupées dans ce qu'on appelle l‘Analyse Des Données. L’ordinateur et la statistique •L’ordinateur est devenu un outil essentiel pour l’analyse de données •L’industrie des logiciels statistiques et des ordinateurs ne cessent de croître •Les logiciels et les ordinateurs sont maintenant accessibles à un très grand nombre de gens •Les logiciels sont de plus en plus faciles à utiliser • Avantage: permet d’utiliser des méthodes statistiques sophistiquées et d’obtenir les résultats relativement rapidement. • Danger: facile d’appliquer une méthode statistique à un ensemble de données même si cette dernière n’est pas valide ou appropriée. Le simple fait de savoir comment utiliser un logiciel n’est pas une garantie d’une analyse statistique valide. Une bonne connaissance de la statistique est nécessaire pour savoir quelle méthode choisir et pourquoi, et comment interpréter les résultats. L'ensemble des méthodes de l'analyse des données peut être divisé en deux catégories : •les méthodes pour décrire •les méthodes pour expliquer Nous allons nous intéresser ici aux méthodes descriptives Rappels sur la statistique descriptive unidimensionnelle et bidimensionnelle La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées. Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas : 5 •Variable qualitative Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui correspondent à des « qualités » Exemple : Population : les résidents d‘Agadir Unité statistique : un résident Variable X : la langue maternelle d'un résident Valeurs : Arabe, Berbère, Français, Anglais, Autres. • Variable quantitative Ses valeurs sont des nombres réels et correspondent à des quantités. On distingue deux types de variables quantitatives : • la variable quantitative discrète • la variable quantitative continue Variable quantitative discrète Ses valeurs a priori sont des nombres isolés les uns des autres. Exemple, Population : les ménages de la ville de Settat Unité statistique : un ménage Variable étudiée : X : le nombre d'individus dans le ménage Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observées) Variable quantitative continue •Ses valeurs a priori ne peuvent être isolées. •Les valeurs se situent donc dans des intervalles de la droite réelle. •Exemple Population : les modèles automobiles sur le marché marocain Unité statistique : un modèle de voiture Variable étudiée : X : la consommation en litres sur 100 km (urbain) Valeurs : x appartient à [5 , 6) ou [6 , 7) ou ... ou [22 , 23) •Les données continues et discrètes sont des quantités : -On peut effectuer sur elles des opérations arithmétiques -Elles sont ordonnées •Les données qualitatives ne sont pas des quantités -Mais sont parfois ordonnées -Données ordinales souvent traités comme discrètes -Les données nominales ne sont pas ordonnées. Discrétisation des variables 6 Pourquoi discrétiser : -Traiter simultanément des variables quantitatives et qualitatives -Appréhender des liaisons non linéaires entres variables quantitatives -Neutraliser des valeurs extrêmes -Gérer les valeurs manquantes Comment discrétiser : -Il faut garder en tête que -Il faut éviter d’avoir un grand écart entre le nombre de modalités des différentes variables -Un nombre convenable tourne autour de 4 à 6 modalités -Pour les raisons que -Le poids d’une variable est proportionnel à son nombre de modalités -Le poids d’une modalité est inversement proportionnel à son effectif -Avoir peu de modalités fait perdre de l’information -Avoir beaucoup de modalités implique de petits effectifs et une moindre lisibilité Analyse exploratoire des données •Explorer la distribution des variables •Vérifier la fiabilité des variables : Valeurs incohérentes ou manquantes •Détecter les valeurs extrêmes : Si valeur aberrantes à éliminer •Tester la normalité des variables •Détecter les liaisons entre variables –Entre variables explicatives et à expliquer –Entres variables explicatives elles même •Variables continues –Détecter la non linéarité justifiant la discrétisation –Transformer pour augmenter la normalité •Variables discrètes –Regrouper certaines modalités aux effectifs trop petits Tendance centrale • la moyenne (arithmétique), éventuellement pondérée. • la médiane : M est insensible aux valeurs aberrantes, mais se prête moins bien aux calculs que la moyenne. • le mode dans le cas particulier d'une distribution unimodale. La comparaison de ces trois paramètres donne des indications sur la symétrie de la distribution. 7 Forme de la distribution Distribution symétrique : moyenne = médiane = mode Biais positif: mode < médiane < moyenne Biais négatif: Moyenne < médiane < mode 2. Position Les fractiles (quartiles, déciles, centiles) : ils subdivisent la série ordonnée en un certain nombre d'intervalles (4, 10, 100) contenant environ le même nombre de valeurs observées chacun. 3. Dispersion - étendue - variance et écart-type : calculés généralement en complément de la moyenne, pour mesurer la plus ou moins grande dispersion autour de celle-ci. - intervalle interquartile : sa longueur, l'écart-interquartile mesure la dispersion des 50 % valeurs les plus centrales. - Coefficient de variation : Cv = écart-type/moyenne Cv < 25% concentration Cv > 25% dispersion 8 Exemple : boisson alphajus 8,00 75 5,50 50 3,25 25 Centiles 12 Intervalle 8,830 Variance 2,972 Ecart-type 3(a) Mode 5,50 Médiane 5,88 Moyenne 0 Manquante 40 Valide N Cas alphajus : Statistique descriptive a Il existe de multiples modes Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1er et 3éme quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution. Construction utilisée ici : Une boîte, deux moustaches et des valeurs extrêmes : • La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. • Les extrémités des moustaches ou valeurs extrêmes sont : • Le min et le max ; •Ou encore, souvent proposées dans les logiciels: la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) avec (q1 = premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites). 9 •Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale. Box plot 1,100 0,180 0,631 0,620 0 0,2 0,4 0,6 0,8 1 1,2 Médiane Moyenne Minimum Maximum 1er quartile 3ème quartile Intervalle interquartiles (50 % des valeurs) Représentation : Le box plot permet de visualiser rapidement : • La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter- quartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). •Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées). •La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus uploads/Management/ cours-add.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/hSlt8Gh3RrjJAogcmUuUIXX95f4Nbm8uKTuL2N2fn3ADLThiGXblM6lYqoMWYjuAvO4xQsDr1AVlZ0fJmDuOrAKz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/S0Qkp5Mg5vPfhVxYxXCbCMSFzgH4YpwqBAUfICU7lNyRNwxHxvenxaSXmaXzB6FuMcYDZj5reuzTLRwlz2g2h1Id.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/SbIlAl5CsBQ95VIUmAfdK6wOu2IvHzhsIijeKwdFhOwNttDh9QJj1KOLP8scqOJrUXYTVzYMQtFmoKxMr73JFJ3D.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/DE6oqNylKWa0vZKsqgryhKvIoo3qtoikApTQwcegblpQwJKUxlVoYQIFxQVzIQDUS8B5rA9I4oK5ZtbDsYoJ2DrQ.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/O9OlFp2m0wYYMD2IzLSCdG1t1SAxfLOYXYmn6NsQNqH1SzxSuXUdtR7fQlxp8zZ7nujX19h4Zl6J8vcdjmNu3mQh.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/SUKgdLe9OlpaXUq8LdqPma0sQnKSivgRmXytrWvvMfQFzDWKfXS45BV52dm7tKA9LOepgKl58b4qDJi2cZ7zWDxg.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/VxdNfZJUM7RLVmo40xGQLWI6oItjb7ZBw8i95BDnSNE4dHTVHsLcXC2zreGzNdYObeeCQEvAw7DGWMTJWhmEPDKz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/7lK0RllX4IOYIeyjpir14wMOLuQ5FzJBpuuuV49hP41tyb5YMiGmRqTHPSPRLMInSMdSw4V5JIFaa7gPBT2fby9A.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/gQmXC3KscaUD3PmSRNVB9ib9CtqM3Fu1PmdqrortNlZKspDP5C86mby3ujd6W8d97X5nulU0u5DzfKBa9LUoxPYm.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/h6IzeKwIvGvJ350zM5RvZSqWJamFv3Gc5kN5UocmeRBbLdvg8OlClaBXBdFTe0AZYKVbekLLRlmlFylUFeHYZ9t3.png)
-
23
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 31, 2021
- Catégorie Management
- Langue French
- Taille du fichier 5.6924MB