NOTES DE COURS STT1700 Introduction à la statistique David Haziza Automne 2008

NOTES DE COURS STT1700 Introduction à la statistique David Haziza Automne 2008 2 Qu’est ce que la statistique? La statistique est la science dont le but est de donner un sens aux données. L’étude statistique comporte généralement 4 étapes : (1) la collecte des données ; (2) le traitement des données recueillies, aussi appelé la statistique descriptive. (3) l’analyse et l’interprétation des données aussi appelée l'inférence statistique, qui s'appuie sur la statistique mathématique. (4) la diffusion des résultats d’analyse. Dans ce cours, l’emphase est mise sur l’étape 2 (chapitre 1) mais surtout sur l’étape 3 (chapitre 2-10). Applications de la statistique : pharmacologie, psychologie, médecine, environnement, cour de justice, sondages, physique, chimie, sciences sociales, marketing, finance, économétrie, etc. 3 Chapitre 1 Statistiques descriptives 1.1 Introduction: variables et distributions Unité statistique (ou unité) : objet pour lequel nous sommes intéressés à recueillir de l’information. Peut être un individu, une compagnie, etc. Population : ensemble d’unités que l’on cherche à étudier (la population des personnes atteintes du VIH au Canada, la population des électeurs au Québec, la population de voitures fabriquées dans une chaîne de production donnée, la population des accidents observés à une certaine intersection dans la ville de Montréal, etc.) Échantillon : n’importe quel sous-ensemble de la population sur lequel nous prendrons des mesures qui serviront à produire des estimations sur l’ensemble de la population. 4 Variable : caractéristique d’une unité qui peut prendre différentes valeurs (modalités) pour différentes unités. Variable qualitative : classe les individus dans un groupe ou une catégorie. Par exemple, le sexe d’un individu (homme, femme) ou le niveau de scolarité d’un individu (primaire, secondaire, collégial, universitaire). Variable quantitative : variable dont les valeurs sont numériques. Les valeurs prises par une telle variable peuvent être continues (température, poids d’un individu) ou discrète (années de scolarité, nombre d’enfants dans un ménage). Distribution d’une variable : correspondance entre les valeurs de la variable et leurs fréquences ou leurs fréquences relatives. La fréquence représente le nombre d’observations appartenant à une catégorie et la fréquence relative est la fréquence divisée par le nombre total d’observations. La fréquence relative est parfois multipliée par 100, de façon à représenter un pour- centage. 5 Exemple 1.1 Le tableau 1.1 présente le salaire annuel (en millions de dollars américains) des 40 CEO (Chief Executive Officers) les mieux payés en 2006 ainsi que leur âge et leur plus haut diplôme obtenu. Ces données ont été publiées dans le magazine Forbes, édition du 8 mai 2006. Ce jeu de données comprend 3 variables qualitatives (Nom, Compagnie et Diplôme) ainsi qu’une variable quantitative discrète (Rang) et 2 variables quantitatives continues (Salaire et Âge). 6 Tableau 1.1 Salaires des CEO (Forbes, 2006) Rang Nom Compagnie Salaire Âge Diplôme 1 Fairbank CapitalOne 249.42 55 MBA 2 Semel Yahoo 230.55 63 MBA 3 Silverman Cendant 139.96 65 Droit 4 Karatz KBHome 135.53 60 Droit 5 Fuld LehmanBros 122.67 60 MBA 6 Irani OccidentalPetro 80.73 71 PhD 7 Ellison Oracle 75.33 61 Aucun 8 Thompson Symantec 71.84 57 Maîtrise 9 Crawford CaremarkRx 69.66 57 Bacc. 10 Mozilo Countrywide 68.96 67 Bacc. 11 Chambers CiscoSystems 62.99 56 MBA 12 Dreier RylandGroup 56.47 58 Bacc. 13 Frankfort Coach 55.99 60 MBA 14 Hovnanian HovnanianEnt 47.83 48 MBA 15 Drosdick Sunoco 46.19 62 Maîtrise 16 Toll TollBrothers 41.31 65 Droit 17 Ulrich Target 39.64 63 Bacc. 18 Rollins Dell 39.32 53 MBA 19 Cazalot MarathonOil 37.48 55 Bacc. 20 Novak YumBrands 37.42 53 Bacc. 21 Papa EOGResources 36.54 59 MBA 22 Termeer Genzyme 36.38 60 MBA 23 Adkerson FreeportCopper 35.41 59 MBA 24 Sharer Amgen 34.49 58 Maîtrise 25 Sugarman IStar 32.94 43 MBA 26 David UnitedTech 32.73 64 MBA 27 Simpson XTOEnergy 32.19 57 MBA 28 Lanni MGMMirage 31.54 63 MBA 29 Jacobs Qualcomm 31.44 64 PhD 30 Bollenbach HiltonHotels 31.43 63 MBA 31 Mulva ConocoPhillips 31.34 59 MBA 32 Mack MorganStanley 31.23 61 Bacc. 33 Williams Aetna 30.87 57 Maîtrise 34 Lesar Halliburton 29.36 53 MBA 35 Hanway Cigna 28.82 54 MBA 36 Cayne BearStearns 28.4 72 Aucun 37 Amos Aflac 27.97 54 Bacc. 38 Thiry DaVita 27.89 50 MBA 39 Rowe Exelon 26.9 60 Droit 40 Cornelius Guidant 25.18 62 MBA 7 Le tableau 1.2 représente la distribution de la variable «Diplôme » dans l’exemple 1.1 Tableau 1.2 Distribution de la variable «Diplôme » dans l’exemple 1.1 Valeurs Fréquence Fréquence Relative Aucun 2 0,05 Bacc. 8 0,20 Droit 4 0,10 Maîtrise 4 0,10 MBA 20 0,50 PhD 2 0,05 40 1,00 Il existe de nombreuses méthodes graphiques permettant d’illustrer la distribution d’une variable. 8 1.2 Quelques méthodes graphiques Ici, nous mentionnons quelques méthodes graphiques : Pour variable qualitative : (i) Diagramme circulaire (Pie chart, en anglais) (ii) Diagramme à bâtons (Bar chart, en anglais) Pour variable quantitative : (i) L’histogramme (Histogram, en anglais) (ii) Le graphique « tiges et feuilles » (Stem-and- leaf, en anglais) (iii) Le diagramme en boîte (Box plot, en anglais) (voir section 1.5) 9 Le diagramme à bâtons est une représentation courante de la distribution d’une variable qualitative. Dans l’exemple 1.1, on avait exhibé la distribution de la variable « Diplôme ». Ci-dessous, on présente un diagramme à bâtons. Figure 1.1 Diagramme à bâtons pour la variable « Diplôme » dans l’exemple 1.1 PhD MBA Maitrise Droit Bacc. Aucun 20 15 10 5 0 Diplôme Fréquence Diagramme à bâtons de la variable Diplome 10 Le diagramme circulaire est une autre représentation courante de la distribution d’une variable qualitative. Figure 1.2 Diagramme circulaire pour la variable « Diplôme » dans l’exemple 1.1 Aucun Bacc. Droit Maitrise MBA PhD Catégorie 5.0% 50.0% 12.5% 10.0% 17.5% 5.0% Diagramme circulaire de la variable "Diplome" 11 L’histogramme est la représentation la plus courante de la distribution d’une variable quantitative. Comment construire un histogramme? 1. Choisir un nombre de classes, habituellement entre 5 et 10. 2. Déterminer l’étendue de la distribution et la largeur de la classe. On obtient l’étendue en soustrayant la plus petite valeur de la plus grande valeur. On obtient la largeur de la classe en divisant l’étendue par le nombre de classes choisi à l’étape 1. 3. Arrondir vers le haut la largeur de la classe obtenu à l’étape 2 à une valeur appropriée (si nécessaire). 4. Déterminer les bornes des classes. La plus petite classe doit inclure la plus petite donnée. Si une observation est sur les bornes, compte-t-elle à droite ou à gauche? Le livre les classe à gauche mais il est possible de les classer à droite. 5. Construire un tableau comprenant les classes, leur fréquence respective ainsi que leur fréquence relative respective. 12 6. Construire l’histogramme en mettant les intervalles sur l’axe horizontal. Les fréquences (ou les fréquences relatives) représentent la hauteur des bâtons. Exemple 1.2 Les données suivantes représentent la moyenne académique de 30 étudiants au département de mathématiques et de statistique 2,0 3,1 1,9 2,5 1,9 2,3 2,6 3,1 2,5 2,1 2,9 3,0 2,7 2,5 2,4 2,7 2,5 2,4 3,0 3,4 2,6 2,8 2,5 2,7 2,9 2,7 2,8 2,2 2,7 2,1 Solution : 1. On choisit 8 classes. 2. Étendue 3,4 1,9 1,5 = − = . La largeur approximative des classes est donc : 1,5 / 8 0,1875 = . 3. Arrondir 0,1875 à 0,2. Donc, la largeur de la classe est égale à 0,2. 4. La première classe doit contenir la plus petite valeur, 1,9. Donc la première classe contiendra les données qui tombent dans l’intervalle [1,9; 2,1), etc. 13 5. On construit le tableau suivant : Classe Intervalle Fréquence Fréquence Relative 1 1,9 to < 2,1 3 3/30 2 2,1 to < 2,3 3 3/30 3 2,3 to < 2,5 3 3/30 4 2,5 to < 2,7 7 7/30 5 2,7 to < 2,9 7 7/30 6 2,9 to < 3,1 4 4/30 7 3,1 to < 3,3 2 2/30 8 3,3 to < 3,5 1 1/30 Figure 1.3 Histogramme de la variable Moyenne académique dans l’exemple 1.2 Moyenne académique Fréquence 3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 7 6 5 4 3 2 1 0 Histogramme de la variable Moyenne académique 14 Remarques : (1) Si on avait un très grand nombre d’observations et que l’on utilisait un grand nombre de classes, chacune d’une largeur très étroite, alors l’aspect général de l’histogramme serait une courbe assez lisse. (2) Le choix du nombre de classes a souvent un impact important sur le « look » de l’histogramme. (3) Distribution symétrique Distribution asymétrique à droite Distribution asymétrique à gauche 15 Le graphique « tiges et feuilles » est une autre représentation courante de la distribution d’une variable quantitative. Comment construire une graphique « tiges et feuilles »? 1. Séparer chaque nombre en une tige qui contient tous les chiffres sauf le dernier et une feuille, soit le dernier chiffre. Les tiges ont autant de chiffres que nécessaire, alors que la feuille n’a qu’un seul chiffre. 2. On place les tiges sur une colonne verticale avec la plus petite tige en haut. 3. On écrit chaque feuille à droite de sa tige en ordre croissant. Notons qu’une valeur est répétée autant uploads/Geographie/ id-8245-pdf.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager