Partie I : Statistique descriptive Description et représentation des données 1.

Partie I : Statistique descriptive Description et représentation des données 1. Variables 1.1 Variables qualitatives Parmi les variables qualitatifs, il faut distinguer les variables ordinales des variables nominales - Une variable nominale, représente des modalités distinctes les unes des autres mais sans possibilités d’ordre, de hiérarchie, ou de calcul entre elles. Par exemples : sexe, découpages géographiques. - Une variable ordinale, représente des modalités qui sont repérables et peuvent être hiérarchisés entre elles mais, elles ne peuvent pas être additionnées ou multipliées entre elles. Ces variables sont très fréquentes dans les enquêtes sur les préférences des consommateurs, ou dans les sondages d’opinion. Par exemple, dans une enquête de consommation, à la question « mangez-vous du fromage ? », les réponses proposées « beaucoup », »modérément », »un peu », »pas 1.2 Variables quantitatives Parmi les variables quantitatives, il faut distinguer les variables continues des variables discrètes • On appelle variable quantitative discrète une variable ne prenant que des valeurs entières. Exemple : - Le nombre d’enfants dans une population de famille. - Le nombre d’années d’études après le bac dans une population d’étudiants • On appelle variable quantitative continue une variable ne prenant que des valeurs réelles. Exemples : - La taille d’une personne - L’aire - Le volume 1 2. Données brutes Après la cueillette des données, celles-ci apparaissent de façon brute. Sous cette forme, elles sont peu informatives. Trouvons donc des moyens pour en extraire un maximum d'informations 3. Rangement des données C'est la méthode la plus simple d'organiser les données. Il s'agit simplement de replacer ces données selon un ordre ascendant ou descendant. Remarque : Cette méthode à plusieurs avantage. Elle donne immédiatement une idée de: - La «tendance centrale » - L'étendue - Des concentrations particulières de valeurs. En somme, ça donne déjà une image un peu plus précise .Cependant, cette méthode est peu pratique et manque de synthèse et de rigueur, surtout si le nombre de valeurs est élevé (imaginez s'il y avait 2000 étudiants/es!). 4. Distribution de fréquences C'est une façon de présenter les données sous une forme synthétique, sans perdre l'essentiel de l'information. Il s'agit alors simplement de classer (intelligemment) les données selon une caractéristique observable. Remarque : - La distribution de fréquences décrit l'aspect général des données. Cependant, dans la plupart des cas, cette «compression» des données entraîne une certaine perte d'information (exemple : l'étendue exacte), perte compensée par un gain de clarté. - Pour construire une distribution, il faut déterminer : 1 - Le nombre de classes à utiliser. 2 - La largeur de ces classes. 3 - Le nombre d'observations 2 5. Diagrammes en bâtons: Le diagramme en bâtons est une représentation graphique de la distribution des effectifs d'une variable qualitative. D'autres représentations sont également possibles. Par exemple: le camembert 6. Histogramme et polygone des effectifs 6.1 Histogramme L’histogramme est une représentation graphique (en rectangle) de la distribution des effectifs d’une variable quantitative. Souvent, les «rectangles» sont accolés pour montrer la continuité de la variable. La hauteur du tuyau est proportionnelle aux effectifs de la classe correspondante. 6.2 Polygone de fréquences Le polygone des effectifs est une autre représentation graphique (en ligne brisée) de la distribution des effectifs d'une variable quantitative. Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents par un segment de droite. Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal. Remarque : Le choix dépend de ce que l'on veut mettre en évidence : L'histogramme permet une représentation claire où l'aire des rectangles représente fidèlement l’effectifs de chaque classe Le polygone de fréquences peut être fort utile lorsqu'il s'agit de comparer plusieurs populations ou lorsque que le nombre de classes et de sujets est élevé et qu'un certain «polissage» s'avère pertinent Exemple : supposons que l'examen de comptabilité soit administré à tous les comptables de Casablanca. La représentation graphique des résultats obtenus ressemblerait probablement à la figure suivante: 3 Cette distribution, qui reviendra fréquemment dans la suite du cours, s'appelle la distribution normale. 7. Distribution des effectifs cumulés Dans certaines situations, il est plus intéressant de savoir le nombre d'observations se situant au-dessous ou au-dessus de certaines valeurs, plutôt qu'à l'intérieur d'un intervalle donné. Mesures de synthèse d’une distribution 1. Mesures de tendance centrale 1.1 Moyenne arithmétique : Soit un échantillon de n valeurs observées n x x x ,......, , 2 1 d’un caractère quantitatif X, on définit sa moyenne observée x comme la moyenne arithmétique) ∑ = = n i i x n x 1 1 1.2 Médiane Définition : La médiane, notée Me, est la valeur qui sépare une série d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations La formule générale est différente selon que le nombre d'observations (N) est pair ou impair. 4 Si N est impair dans le rangement ascendant (ou descendant) on a : 2 ) 1 ( n observatio N Me e + = Exemple : Si on a les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors 41 2 ) 1 7 ( = + n observatio e Si N est pair la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant). En formule, soit N = 2K, donc K = N/2; alors : 2 ) 1 ( n observatio K n observatio K Me e e + + = .3 Mode : Définition : Le mode, noté Mo, est la valeur la plus fréquente dans une série d’observations. (Note: le mode n'est pas nécessairement unique) Exemples : - Pour les données suivantes: 5, 6, 6, 7, 8, 8 ; il y a deux modes 6 et 8. 3 Proportion : Définition : Quantité qui exprime le rapport entre le nombre de mesures qui partagent une caractéristique quelconque et le nombre total de mesures. On transforme souvent la proportion en pourcentage. 3. Mesures de tendance centrale pour les données groupées 3.1 Moyenne : ∑ ∑ = = = = k i k i i i i n n avec x n n x 1 1 1 où i n = l’effectif de la classe i et i x = le centre de la classe i . 3.2 Médiane : Etapes : 5 1- Localiser la classe médiane, i.e. celle qui contient la médiane (à partir de la distribution des effectifs cumulés) 2- Déterminer à laquelle des observations de cette classe correspond la médiane 3- Déterminer, par interpolation, la valeur approximative de la médiane (on suppose une répartition uniforme des données à l'intérieur de la classe) La formule est : l n n N L Me Me c Me ×         − + = 2 / où LMe = la limite inférieure de la classe médiane nc = l’effectifs cumulé de toutes les classes précédant la classe médiane nMe = la fréquence de la classe médiane l = la largeur de la classe médiane 3.3 Mode : Définition : La classe modale est la classe qui a la plus haute fréquence. Hypothèse: on suppose que le mode appartient à la classe modale La formule est : où LMo = limite inférieure de la classe modale d1 = différence entre l’effectif de la classe modale et celui de la précédente d2 = différence entre l’effectif de la classe modale et celui de la suivante l = largeur de la classe modale 6 5. Mesures de dispersion 5.1 Etendue Définition : L'étendue est la différence entre la plus grande valeur et la plus petite valeur. La formule générale est : Où : G = la valeur la plus grande P = la valeur la plus petite 5.2 Variance et écart-type * Soit un échantillon de n valeurs observées n x x x ,....., , 2 1 d’un caractère quantitatif X et soit x sa moyenne observée. On définit la variance observée notée 2 s comme la moyenne arithmétique des carrés des écarts à la moyenne. ( ) 2 1 2 1 ∑ − = = n i i x x n s ou ∑ − = = n i i x x n s 1 2 2 2 1 L'écart type, noté s, est simplement la racine carrée de la variance. * Dans le cas des données groupées en k classes d’effectif i n , la formule de la variance est la suivante : ∑ − = = k i i i x x n n s 1 2 2 ) ( 1 6. Mesure de dispersion relative Jusqu'ici, les seules mesures de dispersion qui ont été présentées sont des mesures dites absolues. Considérons maintenant une mesure de dispersion relative. 6.1 Coefficient de variation Objectif: Dans certaines situations, on désire comparer le taux de dispersion de distributions alors que leurs échelles de mesure respective ne sont pas comparables. L'objectif du coefficient de variation est de fournir un indice quantitatif permettant cette comparaison. Définition : 7 Le coefficient de variation, noté CV, correspond à l'écart type de la uploads/Geographie/ resume 2 .pdf

  • 38
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager