Biostatistique connaissances de base M. Fieschi Coordonnateur H. Chaudet, J. Ga

Biostatistique connaissances de base M. Fieschi Coordonnateur H. Chaudet, J. Gaudart, R. Giorgi, B. Giusiano, J. Gouvernet, J. Mancini ont collaboré à l’élaboration de ce document © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ Table des matières Avant-propos................................................................................................................ iv Chapitre 1 Introduction générale aux statistiques.................................................... 5 Généralités .............................................................................................................. 5 Population, échantillon....................................................................................... 5 Échantillonnage.................................................................................................. 6 Tirage au hasard.............................................................................................. 6 Stratification.................................................................................................... 6 Problème de l’estimation ........................................................................................ 7 Les tests statistiques................................................................................................ 7 Chapitre 2 Statistique descriptive .............................................................................. 8 Buts de la statistique descriptive............................................................................. 8 Les différents types de données.............................................................................. 8 Données de type qualitatif .................................................................................. 8 Données de type ordinal ..................................................................................... 8 Données de type quantitatif ................................................................................ 9 Caractérisation des données qualitatives et ordinales unidimensionnelles............. 9 Fréquence absolue et tableau des effectifs ......................................................... 9 Fréquences relatives......................................................................................... 10 Fréquences cumulées (relatives et absolues).................................................... 10 Diagramme « camembert »............................................................................... 11 Diagramme en bâtons, mode ............................................................................ 11 Diagramme en bâtons ................................................................................... 11 Mode ............................................................................................................. 12 Caractérisation des données qualitatives à deux dimensions................................ 12 Caractérisation des données quantitatives à une dimension ................................. 13 Généralités........................................................................................................ 13 Histogramme..................................................................................................... 13 Paramètres statistiques décrivant un ensemble de mesures quantitatives ....... 15 Paramètres de tendance centrale ou de position.............................................. 15 La moyenne................................................................................................... 15 La médiane.................................................................................................... 16 Le mode ........................................................................................................ 16 Les quantiles ................................................................................................. 18 Paramètres de dispersion ................................................................................. 18 Variance et écart-type ................................................................................... 19 Autres paramètres de dispersion................................................................... 20 Caractérisation des données quantitatives à deux dimensions.............................. 20 Introduction ...................................................................................................... 20 Représentation dans le plan.............................................................................. 20 Coefficient de corrélation................................................................................. 21 Ce qu’il faut savoir absolument............................................................................ 22 Chapitre 3 Notions de probabilité ............................................................................ 24 Introduction........................................................................................................... 24 Evènements........................................................................................................... 24 © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ i Définitions......................................................................................................... 24 Ensemble fondamental.................................................................................. 24 Evènements................................................................................................... 25 Opérations sur les évènements ......................................................................... 25 Union ............................................................................................................ 25 Intersection.................................................................................................... 25 Complémentarité........................................................................................... 25 Evènements incompatibles ou disjoints........................................................ 26 Partition......................................................................................................... 26 Probabilités ........................................................................................................... 26 Probabilités élémentaires ................................................................................. 26 Probabilités conditionnelles ............................................................................. 28 Indépendance en probabilité ............................................................................ 29 Théorème de Bayes ........................................................................................... 32 Ce qu’il faut savoir absolument............................................................................ 35 Chapitre 4 Variables aléatoires, lois de distribution .............................................. 36 Exemple introductif .............................................................................................. 36 Variables aléatoires discontinues ou discrètes...................................................... 37 Définitions......................................................................................................... 37 Espérance mathématique ou moyenne d’une v.a. discrète ............................... 37 Variance et écart-type d’une v.a. discrète ........................................................ 38 Variables aléatoires conjointes ou variable aléatoire à 2 dimensions................... 39 Variables aléatoires indépendantes.................................................................. 40 Covariance, coefficient de corrélation ............................................................. 41 Variables aléatoires continues............................................................................... 42 Lois de distribution ............................................................................................... 44 Loi Normale ...................................................................................................... 44 Loi de Student ................................................................................................... 45 Loi du Chi-deux (χ2) ......................................................................................... 46 Ce qu’il faut savoir absolument............................................................................ 47 Chapitre 5 Estimation ponctuelle et intervalle de confiance ................................. 49 Introduction........................................................................................................... 49 Échantillon, estimateur et estimation.................................................................... 50 Propriétés d’un « bon » estimateur ....................................................................... 50 Biais .................................................................................................................. 50 Variance............................................................................................................ 51 Estimation ponctuelle ........................................................................................... 51 Estimation de la moyenne et de la variance d’une population......................... 51 Estimation de la moyenne d’une population................................................. 51 Estimation de la variance d’une population.................................................. 54 Estimation d’une proportion et de la variance d’une proportion (échantillon au hasard).............................................................................................................. 55 Estimation d’une proportion ......................................................................... 55 Estimation de la variance d’une proportion.................................................. 55 Estimation par intervalle....................................................................................... 56 Définition .......................................................................................................... 56 Intervalle de confiance d’une moyenne (échantillon au hasard) ..................... 57 © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ ii Cas des grands échantillons (n ≥ 30) ............................................................ 58 Cas des petits échantillons (n < 30) .............................................................. 58 Intervalle de confiance d’une proportion (échantillon au hasard) .................. 59 Ce qu’il faut savoir absolument............................................................................ 61 Chapitre 6 Principes généraux des tests statistiques .............................................. 63 Position du problème (exemple)........................................................................... 63 Méthode « classique » d’un test statistique .......................................................... 64 Notion de risque.................................................................................................... 65 Degré de signification d’un test statistique........................................................... 67 Variations de β...................................................................................................... 68 Variation de β en fonction de α ........................................................................ 68 Variation de β en fonction de la taille de l’échantillon .................................... 68 Variation de β en fonction de l’écart H0 - HA................................................... 69 Récapitulatif...................................................................................................... 70 Choix d’un test statistique..................................................................................... 70 Les étapes d’un test statistique.............................................................................. 71 Ce qu’il faut savoir absolument............................................................................ 71 Annexe : Tables utiles................................................................................................. 73 Index …………………………………………………………………………..76 © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ iii Avant-propos Ce document est destiné aux étudiants inscrits au Master « Expertise et Ingénierie des Systèmes d’Information en Santé » dans une Unité d’Enseignement traitant de biostatistique ou d’épidémiologie. L’objectif de ce document est de rappeler les concepts de base en biostatistique : • type de variable observé ; • bases probabilistes ; • modélisation de la variabilité et de l’incertitude ; • principe de l’estimation statistique ; • principe d’un test statistique. Certaines de ces notions seront développées et approfondies lors des enseignements spécifiques. © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ iv Chapitre 1 Introduction générale aux statistiques Généralités Population, échantillon La méthode statistique, en général, a pour but de dégager certaines propriétés d’un ensemble de mesures (ou d’observations) ou de décrire cet ensemble (appelé population pour des raisons historiques). Une population peut être tout aussi bien un groupe d’êtres humains, un ensemble d’objets ; tous ces éléments ayant en commun un attribut ou une propriété qui caractérise cet ensemble d’éléments (exemple : les individus de sexe masculin). Généralement, le statisticien n’étudie pas le caractère sur l’ensemble de la population mais sur un échantillon extrait de la population, pour plusieurs raisons, entre autres : • La taille de la population peut être très importante et le coût de l’enquête serait trop important ; • L’accès à tous les individus de la population est matériellement impossible ; • L’étude du caractère peut détruire les éléments de la population. Le nombre d’éléments constituant l’échantillon est appelé l’effectif ou la taille de l’échantillon. Un bon échantillon doit constituer une image réduite de l’ensemble de la population dont on veut étudier un caractère bien défini. Dans le cas contraire, on dit que l’échantillon est biaisé. Le choix de l’échantillon, le recueil des données nécessaires à l’étude que l’on se propose, constituent la partie fondamentale, la plus longue, de l’étude. Afin de généraliser les résultats obtenus sur l’échantillon, on désire que celui-ci représente le mieux possible la population cible c’est à dire celle sur laquelle porte l’étude. © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 5 Échantillonnage Comment choisir un échantillon pour qu’il soit représentatif ? Il existe plusieurs techniques d’échantillonnage : Tirage au hasard Un échantillon ne doit en aucun cas être choisi par commodité. Afin de disposer d’un échantillon représentatif, il faut le constituer d’une manière « aléatoire » : on peut pour cela procéder à un véritable tirage au sort ou bien utiliser des tables de nombres aléatoires qui ont été construites à cet effet. On peut constituer un échantillon par un tirage au hasard dans toute la population ou bien par des procédés plus complexes comme la stratification. Stratification On subdivise la population en sous groupes (ou strates) et on choisit ensuite l’échantillon en tirant au sort dans chacune des strates. Chaque strate peut être représentée en fonction de son importance dans la population. Exemples : 1. Si l’on veut faire une enquête épidémiologique sur l’hypertension artérielle, on pourra constituer un échantillon qui sera un modèle réduit de la population étudiée. En stratifiant de telle sorte qu’il respecte les mêmes proportions que la composition de la population quant aux catégories socioprofessionnelles, aux tranches d’âges, au sexe … 2. Dans un essai thérapeutique d’un traitement anticancéreux, on pourra définir les strates en tenant compte des facteurs pronostiques tels que : taille de la tumeur, extension loco-régionale, métastase à distance, … Il faut remarquer qu’il n’est pas toujours facile de prélever un bon échantillon. Le prélèvement de l’échantillon doit être fait au hasard. Nous allons voir sur un exemple les difficultés qui peuvent être rencontrées dans le choix des échantillons : Exemple : On se propose d’étudier le pourcentage de décès dans la population française des sujets atteints d’un infarctus du myocarde. On peut constituer un échantillon en observant les décès des malades qui ont été hospitalisés dans un service hospitalier donné. Le biais introduit, si la population « cible » est la population de tous les français, est évident. En effet, le service hospitalier a un recrutement particulier et une renommée telle qu’il hérite, peut-être, de malades plus graves, ou d’une catégorie sociale dont le genre de vie, l’alimentation, l’âge, …, sont des facteurs pronostiques qui peuvent modifier l’issue de la phase aiguë. Un échantillon représentatif de la population française atteinte d’un infarctus du myocarde pourrait être obtenu par tirage au sort sur tous les cas d’infarctus du myocarde recensés en France. Toutefois on ne les connaît pas tous et il est toujours possible d’introduire un biais. © LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 6 Problème de l’estimation Il s’agit d’évaluer un paramètre (une caractéristique) sur un échantillon pour pouvoir estimer ce paramètre pour la population entière. Le problème de l’estimation est développé plus loin. Exemple : Évaluation, à partir de la mesure de la glycémie pratiquée sur un échantillon de sujets sains ayant entre 20 et 40 ans, de la valeur moyenne de la glycémie pour tous les sujets sains de cette tranche d’âge. Si l’on veut que cette estimation uploads/Philosophie/ biostatistique-connaissance-de-base.pdf

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager