CHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitati
CHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques): les valeurs sont numériques Exemples: - continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température, Vitesse d’un mobile, … - discontinues ou discrètes (dénombrements) : Nombre d’enfants dans une famille, Nombre de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au football … Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de FORME. Exemples: 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14} 2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7} 3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10} asymétrie gauche {5, 5, 5, 5, 5, 8, 10} asymétrie droite {5, 7, 10, 10, 10, 10, 10} 1 2 3 4 5 0 5 10 15 20 25 30 35 X DISTRIBUTION SYMETRIQUE Fréquence 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 X DISTRIBUTION ASYMETRIQUE A GAUCHE Fréquence 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 X DISTRIBUTION ASYMETRIQUE A DROITE Fréquence Variables qualitatives (non métriques): les valeurs sont non numériques Exemples: - ordinales: Classe de BMI, Intensité d’une douleur (absente, minime, légère, modérée, sévère, extrême), Echelle de satisfaction d’un produit (insuffisant, moyen, bon, excellent), Poids d’un bébé (petit poids, poids moyen, poids élevé), Vélocité d’un chien (lent, assez rapide, rapide), … - nominales: Sexe, Etat-civil, Commune de résidence, Profession, Faculté d’un étudiant, Couleur des cheveux, Groupe sanguin, Fonction d’un chien (chien de compagnie, de chasse, d’utilité, …), … Moins riches en paramètres. On s’intéresse aux représentations graphiques pour visualiser la répartition entre les différentes modalités (appelées aussi items). Exemples: Camemberts, Tartes, … Exemple graphique: le mode d’accouchement pour les naissances en Communauté Française de Belgique de 1994 à 2003 (échantillon de 250.379 naissances). spontané 179513 72% ventouse 19460 8% forceps 10015 4% césarienne 40993 16% manœuvre sur siège 398 0% Mode d'accouchement ( ONE / 1994 -2003 / échantillon de 250379 naissances) Statistiques de localisation I) X: x1, x2, x3, ……, xn Petites séries de données II) X: x1 *, x2 *, x3 *, ……, xc * Séries groupées – Variables continues Données regroupées en classes de centres x1 *, x2 *, ..., xc *; n1, n2 , n3, ……., nc n1+n2+n3+…...+nc = N III) X: x1, x2, x3, ……, xc Séries groupées – Variables discrètes n1, n2, n3, ……, nc Données répétées; n1+n2+n3+…...+nc = N 1. La moyenne arithmétique x Définition, pour les trois types de séries de données: I) x = 1 1 n i i x n II) x = * 1 1 j j c j n x N III) 1 1 j j c j x n x N (Petites séries) (Données groupées, variable continue) (Données groupées, variable discrète) - x est influencée par la présence de valeurs «extrêmes» Exemple: la série {10, 10, 10, 10, 80} donne une moyenne de (10+10+10+10+80)/5 = 24 qui ne reflète pas vraiment une valeur de tendance centrale. - La somme des écarts entre les valeurs observées et la moyenne est nulle 1 1 1 ( ) n n n i i i i i x x x x n x n x Influence d’une transformation linéaire: X Y =a X + b La moyenne d’une transformation linéaire des xi est la transformation linéaire de la moyenne x . X → Y = a X + b => x → y = a x + b (yi = axi + b). Vérification: Rappel préalable: 3 propriétés de ∑ 1) ∑ (xi + yi) = ∑ xi + ∑ yi 2) ∑ (axi) = a ∑ xi 3) ∑ a = na (! Remarque: lorsqu’il n’y a pas de confusion possible, nous notons 1 n i i x = ∑ xi) Démonstration: i i y (ax b) y ax b n n + = = = + å å 2. La médiane x (prononcer “x tilde”) La moitié des observations lui sont inférieures (ou égales) et la moitié supérieures (ou égales) a) Pour les séries non groupées en classes, la série étant ordonnée: - Si n est impair: la médiane est l’observation de rang (n + 1)/2: x = x ((n+1)/2) Exemples: {2, 2, 3, 4, 5} x = 3 {1, 7, 11} x = 7 - Si n est pair: la médiane est la moyenne arithmétique des observations x(n/2) et x ((n/2)+1): x = (x(n/2) + x((n/2)+1)) / 2 Exemples: {2, 2, 3, 3} x = (2+3)/2 = 2,5 {1, 1, 1, 3, 3, 7, 8, 157} x = (3+3) / 2 = 3 b) Pour les données groupées en classes, la «classe médiane» est la classe qui contient la médiane. - La médiane possède une grande stabilité par rapport aux valeurs extrêmes, (parfois aberrantes): elle n’est pas influencée par la valeur de telles observations. Exemple: la série {9, 10, 10, 11, 80} a comme moyenne 24 et comme médiane 10. 3. Le mode (cf. «à la mode», …) xM a) Pour les séries non groupées en classes, le(s) mode(s) est (sont) la ou les valeur(s) observée(s) de fréquence maximum b) Pour les séries groupées en classes, la ou les classe (s) modale(s) est (sont) la ou les classes de fréquence maximum si l’intervalle de classe est constant ou de fréquence unitaire maximum si cet intervalle n’est pas constant En fonction du nombre de modes, on parle de distribution unimodale, bimodale, … - Le mode est une caractéristique intéressante à connaître notamment dans le cas de distributions asymétriques. (C’est un paramètre également utilisable dans le cas de données qualitatives nominales!). 1 2 3 4 5 0 5 10 15 20 25 X / LE MODE UNIQUE = 3 FREQ.ABS. Le mode peut ne pas exister: exemple la série {1, 2, 3, 4, 5} xM = ??? Il peut y en avoir 2: exemple la série {1, 1, 3, 3, 8, 11} xM = 1 et 3 (distribution bimodale) Ou plus de 2: exemple la série {1, 1, 1, 2, 2, 2, 7, 7, 7, 23} xM = 1, 2 et 7 (distribution trimodale) 4. Quantiles Cas particuliers: Médiane, Quartiles, Déciles, Centiles, Percentiles, … Les quantiles d’ordre k: Q1, Q2, ……, Q k-1 divisent la série statistique ordonnée en k parties de même effectif. Les quartiles inférieur, moyen (=médiane) et supérieur divisent la série ordonnée en 4 parties de même effectif. Les déciles D1, D2,……, D9 la divisent en 10 parties; les centiles en 100. Le qème percentile d’une distribution est la valeur en dessous de laquelle q% des observations se trouvent (lui sont inférieures ou égales). La médiane est donc le 50ème percentile, le premier quartile est le 25ème percentile, le 3ème quartile est le 75ème percentile. Statistiques de dispersion Elles quantifient les écarts autour de la moyenne. Des séries statistiques peuvent avoir les mêmes moyennes mais se différencier par la dispersion des valeurs observées autour de cette moyenne. Exemples: les 3 séries ont la même moyenne mais leurs dispersions sont très différentes Série 1: {10, 10, 10, 10, 10} → x = 10 Série 2: {5, 5, 10, 15, 15} → x = 10 Série 3: {0, 0, 10, 20, 20} → x = 10 1. L’étendue E (ou «l’amplitude» ou en anglais, le «range») E = x (n) – x (1) L’étendue se définit comme la différence entre la plus grande et la plus petite des valeurs observées (la série étant ordonnée, le maximum = x(n) et le minimum = x(1)). Elle est sensible à la présence de valeurs aberrantes et ne peut donc, en conséquence, qu’être retenue pour des séries dont les observations sont réparties «convenablement» (sans valeurs extrêmes). Illustration: │********************___________________________________________*│ x(1) x(n) L’étendue ne convient pas ici │*_________________________***********_______________________*│ x(1) x(n) L’étendue ne convient pas ici │*___*__*__*___*__**_**___***__****_***_**_*_**___**__*___*__*__│ x(1) x(n) L’étendue convient, les données sont bien réparties 2. La variance: 2 x s Construction: 1) Ecarts à la moyenne: xi - x 2) Mise au carré: (xi - x )² 3) Sommation: ∑ (xi - x )² 4) Division par n-1 (inférence statistique): 1/(n-1) * ∑ (xi - x )² Statistique plus informative que l’étendue: elle tient compte de chacune des données. Selon le type de série de données: 2 2 1 1 ( ) 1 x n i i s x x n 2 * 2 1 1 ( ) 1 x j j c j s n x x N 2 2 1 1 ( ) 1 x j j c j s n x x N (Petites séries) (Données groupées, var. continue) (Données groupées, var. discrète) Formule « pratique» de la variance Pour les séries non groupées: 2 1 ( 1 ² ²) 1 x i n i s x uploads/s3/ statistiques-descriptives.pdf
Documents similaires
-
19
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 17, 2022
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 1.1560MB