INTRODUCTION À LA STATISTIQUE I COURS D’INTRODUCTION À LA STATISTIQUE, PARTIE I

INTRODUCTION À LA STATISTIQUE I COURS D’INTRODUCTION À LA STATISTIQUE, PARTIE I, NIVEAU BA Laurent Donzé Laurent.Donze@UniFr.ch Typeset with L AT EX c ⃝L. Donzé, 18 septembre 2018 @asamunifr Remarque préliminaire Ces notes n’ont comme ambition que de résumer les points traités au cours. Elles ne constituent en aucun cas un texte définitif sur le sujet et ne dispensent pas l’étudiant-e d’une présence au cours, de résolutions d’exercices ou de lectures complémentaires. Table des matières Table des matières 5 1 Chapitre introductif 7 1.1 Population et unité statistique . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Distributions empiriques 10 2.1 Variables catégorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Histogramme et fonction de distribution cumulée . . . . . . . . . . . . . 13 2.4 Estimation de distributions par fonction kernel . . . . . . . . . . . . . . . 14 2.5 Formes des fonctions de distribution . . . . . . . . . . . . . . . . . . . . 16 3 Caractérisation des fonctions de distribution 17 3.1 Mesures de localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Mesures de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 Mesures d’asymétrie et de curtosie . . . . . . . . . . . . . . . . . . . . . 22 3.4 Courbe de Lorenz et indice de concentration de Gini . . . . . . . . . . . 23 3.5 La distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.6 Le graphe des quantiles et des probabilités normales . . . . . . . . . . 27 4 Probabilités et inférence statistique 29 4.1 Le calcul de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 Variables aléatoires et lois de probabilité . . . . . . . . . . . . . . . . . . 33 4.3 Inférence statistique et intervalle de confiance . . . . . . . . . . . . . . . 37 Références 42 Index 43 SA 2018 7 1 Chapitre introductif 1.1 Population et unité statistique Le besoin d’informations sur des sujets d’intérêt ou tout simplement notre curio- sité nous incitent à collecter des données et à les analyser. Les données collectées sont appelées dans le grand public des « statistiques », tandis que la science qui propose les méthodes de collecte, de gestion puis d’analyse des données s’appelle « statistique ». Selon AGRESTI et FRANKLIN (2013), « statistics is the art and science of learning from data. » Les données concernent une population pour laquelle on aimerait extraire une information. Définition 1.1 (Population et échantillon). — Une population P est un ensemble d’individus (d’unités, d’éléments, de sujets, ...); — Un échantillon s est un sous-ensemble de P qui peut être obtenu par un pro- cessus de sélection aléatoire. Définition 1.2 (Unité statistique). Une unité statistique est un élément d’une population ou d’un échantillon. On dé- signe l’unité statistique par un indice, e.g. i. Définition 1.3 (Taille). La taille d’une population ou d’un échantillon est le nombre d’éléments de ces en- sembles. On désigne en général la taille d’une population par N et celle d’un échan- tillon par n. Bien souvent, on précisera les caractéristiques de la population. Cela nécessite de définir avec rigueur l’unité statistique (l’individu) en soulignant ses caractères (ou caractéristiques). La population sera donc l’ensemble des individus ayant telles ou telles caractéristiques. Exemple 1.4. Pour une population d’hommes et de femmes, le sexe, la taille, le poids, l’âge, le statut matrimonial, le revenu, etc., sont des caractères. c ⃝L. Donzé, Département d’informatique, Université de Fribourg (Suisse) 8 INTRODUCTION À LA STATISTIQUE I 1.2 Variables Définition 1.5 (Variables statistique (d’étude)). On appelle variables statistiques (variables d’étude) ou tout simplement variables, les caractères des unités statistiques. Notation 1.1. Soit s := {1, ... , n} un échantillon de n unités statistiques. Considérons une va- riable d’étude y. Lorsque l’on observe l’unité statistique i = 1, ... , n, on enregistrera la modalité (la valeur) yi obtenue par la variable y pour l’unité statistique i. On dira que yi est la i-ème observation sur la variable y. On distingue essentiellement les variables qualitatives des variables quantitatives. Définition 1.6 (Variables qualitative et quantitative). — Une variable qualitative est caractérisée par un nombre fini de modalités qui se distinguent par leur nature, mais non par leur valeur (e.g. sexe, état civil); — Une variable quantitative exprime une intensité ou une étendue. Au contraire d’une variable qualitative, ses valeurs se trouvent de façon naturelle parmi les nombres (e.g. revenu, âge). Définition 1.7 (Variables dichotomique et polytomique). — Une variable qualitative est dite dichotomique (ou binaire, muette) si elle pos- sède deux modalités; — Elle est dite polytomique si elle a plus de deux modalités. Définition 1.8 (Variables discrète et continue). — Une variable est dite discrète si elle ne peut prendre qu’un nombre fini ou dé- nombrable de modalités; — Une variable est dite continue si pour deux modalités différentes, toutes les va- leurs réelles intermédiaires sont réalisables et pour autant que l’ensemble des modalités soit un intervalle dans R. Définition 1.9 (Variables catégorielles (ordinales et nominales)). — Une variable est dite ordinale si ses modalités sont des catégories qui peuvent être classées; — Une variable est dite nominale si ses modalités représentent plusieurs résultats possibles ou catégories qui ne peuvent pas a priori être classés. c ⃝L. Donzé, Département d’informatique, Université de Fribourg (Suisse) SA 2018 9 FIGURE 1 – Types de variables quantitative qualitative z }| { continue discrète z }| { ordinale nominale | {z } catégorielle — On regroupe sous l’appellation « catégorielles », les variables ordinales et no- minales. Remarque 1.1. Une variable binaire (dichotomique, muette) est une variable catégorielle à deux catégories, notées en général par 0 et 1 et indiquant qu’un événement a eu lieu ou non ou qu’une caractéristique est présente ou non. On peut résumer les types de variables par la figure 1 (cf. POWERS et XIE (2000), p. 7). En pratique, il peut être admissible de considérer comme continues des variables discrètes. Par contre, les variables continues doivent être « discrétisées », par exemple en construisant des classes, si on veut les considérer comme variables discrètes. c ⃝L. Donzé, Département d’informatique, Université de Fribourg (Suisse) 10 INTRODUCTION À LA STATISTIQUE I 2 Distributions empiriques 2.1 Variables catégorielles Soit y une variable catégorielle. Les valeurs que peut prendre y sont appelées « catégories », « classes » ou « modalités ». Par exemple, la variable y désignant le sexe d’une personne a deux modalités : H et F. On désignera par Mj, j = 1, ... , M, les M modalités d’une variable. Enfin, on dispose sur y d’une série de n observations {y1, y2, ... , yi, ... , yn}. La valeur yi est la modalité observée de l’unité statistique i. Définition 2.1 (Effectif). Soit une variable catégorielle y avec M modalités. Considérons la modalité Mj, j = 1, ... , M. On appelle effectif, le nombre nj d’observations yi, i = 1, ... , n, ayant la modalité Mj. On a : nj := n X i=1 1{yi=Mj}. Définition 2.2 (Fréquences absolue et relative). 1. On appelle fréquence absolue de la modalité Mj, l’effectif nj ; 2. On appelle fréquence relative de la modalité Mj, le rapport fj := nj n . Propriétés 2.1 (Fréquences absolue et relative). En supposant que les données ne contiennent pas de valeurs manquantes, on a : 1. La somme des fréquences absolues (effectifs) donne le total des observations, i.e. n1 + n2 + ... + nM = M X j=1 nj = n; 2. La somme des fréqences relatives donne 1, i.e. M X uploads/Geographie/ beamer-stat1-article-draft-20180918-pdf.pdf

  • 36
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager