Cours de statistique UNINE - O.Maggioni page 1 Cours de Statistique Olivier Mag
Cours de statistique UNINE - O.Maggioni page 1 Cours de Statistique Olivier Maggioni Avertissement Ce document est conçu comme support de cours. Il ne possède ni la complétude ni l'exhaustivité d'un livre, voire d’un polycopié, qu'il ne saurait remplacer. Chapitres I Statistique Descriptive et Corrélative II Probabilités III Echantillonnage et estimations des paramètres IV Tests Statistiques V Séries Temporelles Bibliographie Statistique, cours et problèmes Murray R. Spiegel, Série Schaum, McGraw-Hill, Paris 1993 Probabilités et statistiques pour Biologistes Françoise Couty, Jean Debord, Daniel Fredon, Armand Colin, Paris 1990 Cours de statistique UNINE - O.Maggioni page 2 Introduction La Statistique : De quoi parle-t-on ? La statistique peut être vue comme l'ensemble des méthodes et techniques permettant de traiter les données (informations chiffrées) associées à une situation ou un phénomène. Cette démarche correspond à plusieurs objectifs, c'est pourquoi on subdivise la statistique en plusieurs domaines : • Description d'une situation donnée (faire parler les chiffres). C'est le cadre de la Statistique Descriptive. • Mettre en évidence certaines relations. On parle ici de statistique corrélative. • Faire des prévisions à propos de phénomènes évoluant dans le temps. Ce que l'on appelle les séries temporelles, ou chronologiques. • D'induire des conclusions générales à partir de mesures faites sur un échantillon. • De tester une hypothèse. C'est l'objet de la statistique inférentielle. Nous l'aborderons lors de la théorie des sondages (ou de l'échantillonnage). En conséquence la statistique se révèle être un outil fondamental d'aide à la décision. Objectifs du cours • Acquérir une culture de base en statistique. • Posséder le sens critique nécessaire à la compréhension de présentations ou travaux basés sur des études statistiques. • Maîtriser les outils et techniques de base. • Savoir choisir les outils adéquats pour le traitement des données, ceci en relation avec une problématique définie. • Pouvoir utiliser de façon adéquate les logiciels statistiques. Cours de statistique UNINE - O.Maggioni page 3 I Statistique Descriptive et Corrélative 1.- Population, Echantillon, Variable Statistique, Effectifs, Fréquences, Variables Discrètes et Continues, Densité de fréquence, Histogramme, Fonction de répartition. 2.- Indicateurs de position : Moyenne, Mode, Médiane, Quantiles. 3.- Indicateurs de dispersion : Variance, Ecart-type, Intervalle Semi-interquartile. 4.- Autres indicateurs : Coefficients de Variations, Coefficient de Dissymétrie 5.- Corrélation et Régression linéaire : Distributions Conjointes, Marginales, Conditionnelles. Covariance, Coefficient de Corrélation, Droite de Régression. Variance expliquée et Résiduelle. Cours de statistique UNINE - O.Maggioni page 4 1.1.- Population, Échantillon, Variable Statistique Définitions • Population : ensemble d'unités statistiques. Exemples : - Tous les malades atteints de sclérose en plaque (où ? quand ?). - Relevés pluviométriques quotidiens (population = jours). • Echantillon: sous-ensemble de la population. En général nous n’avons pas accès à toute la population (recensement), d’où l’idée d’en extraire un sous-ensemble. Si on a une connaissance a priori, on peut parler d’échantillon représentatif (stratification). • Variable statistique (ou caractère) : opération qui associe à chaque unité statistique une propriété, une modalité, un score. • Observation : valeur prise par la variable sur une unité statistique. • Données : sont constituées par l’ensemble des observations (tableaux, fichiers, données primaires). Au sens mathématique du terme, une variable est une application de la population sur l’ensemble des scores. S P X → : Le fait que l’on note X une application peut être source de confusion. Cette notation devient cohérente dès que l’on parle de la distribution de la variable. • On distingue les variables nominales (ou caractères qualitatifs) des variables numériques (ou caractères quantitatifs). Si on peut ordonner les modalités on parle aussi de variable ordinale. Les variables numériques se prêtent aux calculs (moyennes etc...), dans ce cas S est un ensemble numérique p.ex. S = IR. Exemples 1.- Etat clinique : guéri, stationnaire, aggravé. 2.- Groupe sanguin. 3.- Relevés pluviométriques quotidiens (NE ;1999). 4.- Statistique médicale (OFS). Codes diagnostics et d’interventions par patients, durée de séjour, régime d’assurance. 5.- Statistique administrative des établissements de santé (hôpitaux, cliniques, homes) (OFS). Nombre de cas et nombre de journées par service, nombre de médecins d’infirmières etc… Cours de statistique UNINE - O.Maggioni page 5 Remarques • Malgré la terminologie une population n'est pas nécessairement humaine. • Attention aux fausses variables numériques (No de tél. AVS etc…). • En général un relevé statistique fournit plusieurs variables que l’on peut voir comme un vecteur. Par exemple à 2 variables : → i i y x i IR P 2 • Une variable est dite discrète si elle peut prendre un nombre fini ou dénombrable (i.e. que l’on peut numéroter) de valeurs. Dans ce qui suit nous nous intéresserons exclusivement aux variables numériques. 1.2 Effectifs et fréquences Pour décrire la variable elle-même, il faut faire abstraction des unités statistiques, on regardera seulement combien d'unités ont obtenu chaque score. Ceci définit la distribution de la variable. Exemple: nombre de loges capsulaires du coquelicot, (Biometrika, vol. 2. 1902) Population 1905 coquelicots. Nombre de loges Nombre de coquelicots Scores xk Effectifs nk Fréquences fk fréquences cumulées 6 3 0.16% 0.16% 7 11 0.58% 0.73% 8 38 1.99% 2.73% 9 106 5.56% 8.29% 10 152 7.98% 16.27% 11 238 12.49% 28.77% 12 305 16.01% 44.78% 13 315 16.54% 61.31% 14 302 15.85% 77.17% 15 234 12.28% 89.45% 16 128 6.72% 96.17% 17 50 2.62% 98.79% 18 19 1.00% 99.79% 19 3 0.16% 99.95% 20 1 0.05% 100.00% Total 1905 100.00% Cours de statistique UNINE - O.Maggioni page 6 Représentations graphiques par des diagrammes en bâtons Coquelicots 0.00% 2.00% 4.00% 6.00% 8.00% 10.00% 12.00% 14.00% 16.00% 18.00% 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nombre de loges fréquences 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nombre de loges fréq. cumul. Cours de statistique UNINE - O.Maggioni page 7 Définitions • L'effectif d'un score est le nombre d'unités statistiques réalisant ce score. • L'effectif cumulé est donné par le nombre d'unités statistiques ayant un score inférieur ou égal. nk ↑= nj j=1 k ∑ • La fréquence d'un score est son effectif divisé par la taille de la population (ou effectif total) fk = nk n • La fréquence cumulée est obtenue par la somme des fréquences des scores inférieurs ou égaux au score considéré. fk↑= fj j=1 k ∑ Remarques : • Un effectif en soi n'amène aucune information, il ne dit pas si le score a été réalisé souvent ou non. C'est pourquoi nous portons en général notre attention sur les fréquences. • Les fréquences (cumulées) quant à elles fournissent beaucoup d'information sur la série statistique. Dans l'exemple précédant elle nous permettent de voir directement que environ ¾ des coquelicots ont 14 loges ou moins. • On représente graphiquement les fréquences (plus rarement les effectifs) à l'aide d'un diagramme en bâtons. Ou par des camemberts (surtout dans le cas des variables nominales): 1.3 Variables discrètes et continues On appelle variable discrète, une variable qui ne peut prendre qu'un nombre fini ou dénombrable de valeurs, par exemple dans le cas du nombre de loges capsulaires les scores étaient donnés par les nombres {6 ; 7 ; 8 ; … ; 20}. Si, en lieu et place de compter le nombre de loges capsulaires, nous avions mesuré la taille des coquelicots (au dixième de centimètre près), nous rendrions compte que toutes les valeurs comprises entre 0 et 50 cm pourraient potentiellement être atteintes. Dans ce cas on parle de variable continue. Comme représentation graphique le diagramme en bâton n'est pas adapté. Cours de statistique UNINE - O.Maggioni page 8 frequences taille La raison étant qu'il est rare que deux coquelicots aient exactement la même taille. Dans le cas des variable continues, il faut procéder à un regroupement en classes. Définitions Si [ak; bk [ désigne une classe (la k-ième), ak et bk sont appelés les bornes de la classe respectivement supérieure et inférieure. Sa longueur bk-ak est appelé le diamètre de la classe (ou l'amplitude) noté δ. δk = bk −ak La moyenne des nombres a et b, le centre de la classe. xk = ak + bk 2 On parle alors d'effectifs de classe et de fréquence de classe, mais une nouvelle notion doit être introduite, la densité de fréquence. La densité de fréquence est la fréquence d'une classe divisée par son diamètre. dk = fk δk Dans le cas des variables continues, on représente graphiquement la densité de fréquence, c'est ce que l'on appelle un histogramme. Cours de statistique UNINE - O.Maggioni page 9 densité X a b x d diamètre Remarques • Les classes doivent recouvrir tous les nombres compris entre la plus petite valeur que peut prendre la variable et la plus grande. Il ne peut donc pas y avoir d'espace entre la borne supérieure d'une classe et la borne inférieure de la suivante. • Il faut distinguer les bornes apparentes des bornes effectives d'une classe. Par exemple, dans le cas des âges, on trouve dans la littérature (journaux) 0 - 5 5 - 10 Alors que les uploads/Geographie/ cours-complet-de-statistique-descriptive.pdf
Documents similaires
-
19
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 07, 2021
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 0.1422MB