STATISTIQUE I. Diagrammes en boîte La moyenne et la médiane sont des mesures de

STATISTIQUE I. Diagrammes en boîte La moyenne et la médiane sont des mesures de tendance centrale d’une série statistique. L’étendue mesure sa dispersion. Pour étudier la répartition des valeurs d’une série, on définit les quartiles et un nouvel outil graphique : le diagramme en boîte. 1) Les quartiles On dispose d’une série statistique (xi) d’effectif n dont les données sont rangées dans l’ordre croissant. x1  x2  …  xn À titre d’exemple, considérons les notes obtenues, rangées dans l’ordre croissant, par la classe au premier contrôle de mathématique : Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 Note 6 6,5 7 7,5 7,5 8 8,25 8,75 8,75 8,75 9 9 9 Rang 14 15 16 17 18 19 20 21 22 23 24 25 26 Note 9,5 10 10 11 11 11,5 11,5 12,5 12,5 12,5 12,8 12,8 13 Rang 27 28 29 30 31 32 33 34 35 Note 13 13 13,5 14 14,5 15 15,3 17,8 19,8 La médiane de cette série de notes est la 18e note, soit 11 : au moins 50 % des notes sont au dessus de 11, et au moins 50 % au dessous. La moyenne est de 11,15. Premier quartile Le premier quartile, noté Q1, est la plus petite valeur xi supérieure au égale à au moins 25% des données. C’est donc, contrairement à la médiane, une valeur de la série. Pratiquement, le premier quartile Q1 est la valeur de la série xi dont l’indice est le plus petit entier supérieur à n 4. Reprenons l’exemple précédent : comme 35 × 0,25 = 8,75, le premier quartile est la 9e valeur de la série, soit 8,75. Deuxième quartile : c’est la médiane, ici 11. Troisième quartile Le troisième quartile, noté Q3, est la plus petite valeur xi supérieure au égale à au moins 75% des données. C’est une valeur de la série. Pratiquement, le troisième quartile Q3 est la valeur de la série xi dont l’indice est le plus petit entier supérieur à 3n 4 . Reprenons l’exemple précédent : comme 35 × 0,75 = 26,25, le troisième quartile est la 27e valeur de la série, soit 13. 2) Le diagramme en boîte Les deux quartiles, Q1, Q3 et la médiane d’une série statistique, associés aux valeurs extrêmes de la série (minimum et maximum), permettent d’appréhender certaines caractéristiques de la répartition des données. On les représente à l’aide d’un diagramme à boîte (box plot in english, ou encore boîte à moustaches aussi en français). 3) Intervalle interquartile, écart interquartile L’intervalle interquartile est l’intervalle [Q1 ; Q3]. L’écart interquartile est l’intervalle Q3 – Q1. Dans notre exemple de référence, l’intervalle interquartile est l’intervalle [8,75 ; 13] : remarquons qu’il contient environ 50 % des valeurs de la série. L’écart interquartile est donc de 13 – 8,75 = 4,25. Plus il est grand, plus la série prend des valeurs étendue : c’est une mesure de ce que l’on appelle en statistique la dispersion de la dispersion de la série. La description de la série par le couple médiane-écart interquartile est « robuste » aux variations des valeurs extrêmes : si on remplace la note minimale 6 par 0, et la maximale par 20 (ou plus …), ni la médiane, ni l’écart interquartile ne seront modifiés. 4) Déciles De la même façon, on peut définir les neufs déciles de la série qui partagent la série en dix parties, par tranche de 10 %. On utilise les déciles sur des séries statistiques d’effectif suffisamment grands. Le premier décile D1 est la plus petite valeur xi supérieure ou égale à au moins 10 % des données. Me Q1 Q3 Min Max Le neuvième décile D9 est la plus petite valeur de la série supérieure ou égale à au moins 90 % des données. Exemple d’utilisation par exemple sur la répartition des salaires en France en 2005 pour les hommes et pour lels femmes ? Déciles de revenu salarial sur l'ensemble du champ salarial en 2005 en euros courants Décile Hommes Femmes 1ème décile (D1) 2 094 1 320 2ème décile (D2) 6 277 3 885 3ème décile (D3) 11 491 7 415 4ème décile (D4) 14 314 10 885 Médiane (D5) 16 430 13 382 6ème décile (D6) 18 725 15 526 7ème décile (D7) 21 686 18 039 8ème décile (D8) 26 252 21 356 9ème décile (D9) 35 230 26 785 D9/D1 16,8 20,3 D9/D5 2,1 2,0 D5/D1 7,8 10,1 Champ : tous salariés Source : Insee, DADS et fichiers de paie des agents de l'Etat, exploitation au 1/23 II. Variance et écart-type 1) Variance et écart-type La dispersion d’une série statistique peut être mesurée par les fluctuations des valeurs de la série autour de la moyenne, c’est-à-dire par les différences i x x − . Plus précisément, la variance d’une série statistique est la moyenne des carrés des écarts à la moyenne de la série statistique. Autrement dit : ( ) 2 1 1 p i i i n x x n = − ∑ C’est donc la moyenne de la série des ( ) 2 i x x − . L’écart-type est la racine carrée de la variance : s V = . Remarquons que l’écart-type s’exprime, comme la moyenne, dans la même unité que l’unité de la série statistique étudiée (par exemple des cm si on étudie des tailles). Un tableur, ou les listes de la calculatrice, sont tout à fait adaptés à ce calcul. Le tableur ou la calculatrice dispose aussi de fonctions statistiques, qui permettent le calcul direct de la moyenne et de la variance d’une série. Exemple Répartition de 10 notes obtenues par un élève en français : Note 6 9 10 11 12 13 16 Effectif 1 1 2 1 2 1 2 La moyenne est : On peut alors compléter le tableau suivant : Valeurs xi Effectif ni i x x − 2 ( ) i x x − 2 ( ) i i n x x − La variance est donc V(X) ≈ L’écart type est : s ≈ La variance, et l’écart-type, décrivent les fluctuations des valeurs de la série autour de la moyenne x : en d’autres termes, plus les valeurs de la série sont éloignées de la moyenne, plus les i x x − seront importants, et plus la variance, et donc l’écart-type, seront grands. 2) Une autre formule La variance est également donnée par la formule : 2 2 1 1 p i i i n x x n = − ∑ . La mise en œuvre du calcul est alors un peu plus simple car la moyenne n’intervient qu’une seul fois dans le deuxième terme de ce calcul. Remarque : on résume donc une série statistique par un paramètre de position, et un paramètre de dispersion comme : la moyenne et l’écart-type, la médiane et l’écart interquartile. Le couple moyenne et écart-type est plus sensible aux valeurs extrêmes de la série que le couple médiane et intervalle interquartile. III. Séries chronologiques 1) Qu’est-ce qu’une série chronologique ? Lorsqu’on relève les valeurs d’une variable à certains intervalles de temps (heures, jours, mois, etc.), on obtient une série chronologique. 2)Lissage d’une série chronologique par moyennes mobiles On appelle moyenne mobile centrée d’ordre 3, à la date i, la moyenne arithmétique des valeurs 1 i x −, i x et 1 i x + . Un tel calcul n’est possible, ni pour la première valeur de la série, ni pour la dernière. On peut aussi définir des moyennes mobiles centrées d’ordre 5, 7, etc. Lisser une série chronologique par les moyennes mobiles d’ordre 3 revient à remplacer les valeurs xi par la moyenne mobile qui correspond. Représenter une série statistique par un histogramme On utilise l’histogramme pour représenter un caractère quantitatif continu (pour un caractère discret, on utilise le diagramme en bâtons). Les données sont donc regroupées en classe souvent de la forme [a ; b[. Ce que l’on appelle l’amplitude de la classe est alors la longueur de l’intervalle [a ; b[, soit b – a. Dans un histogramme, l’aire d’un rectangle (c’est-à-dire ce que l’on perçoit visuellement) est proportionnelle à l’effectif de la classe représentée. Deux cas sont alors à envisager : • si les classes choisies ont même amplitude (c’est le plus fréquent), comme la largeur des rectangles est la même pour toutes les classes, il suffit que la hauteur des rectangles soit proportionnelle à l’effectif de la classe pour que l’aire le soit aussi. Ci-dessous l’exemple de l’histogramme de la taille des élèves d’une classe de 6e. • si les classes n’ont pas même amplitude, il faut veiller à ce que l’aire d’un rectangle soit proportionnelle à l’effectif correspondant. Le plus simple est de calculer pour chaque classe sa densité d’effectif, qui est le quotient effectif de la classe amplitude de la classe. La hauteur des rectangles est alors proportionnelle à cette densité. ( i i i i n kh b a = − veut bien dire que ( ) i i uploads/Philosophie/ statistique-co.pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager