Document de cours : Sous module Biostatistique 1ère année de Médecine 2020-2021
Document de cours : Sous module Biostatistique 1ère année de Médecine 2020-2021 Rédigé par2Université Abdelmalek Assadi Faculté de Médecine et de Pharmacie de Tanger Pr M. BE²RRAHO Pr A Najdi Sommaire 1.1. Introduction générale ; ….p.4 I. Quelques notions de base ;…p.6 1. Variabilité ;………….p.6 2. Conséquence de la variabilité et de la fluctuation d’échantillonnage ;………..p.8 3. Les méthodes statistiques dans les sciences de la vie ;…….p.8 4. Population, échantillon, variable aléatoire ;……...p.9 II. Statistique descriptive ;…………p.10 2. Les différents types de variables ;……..p.10 2.1. Variable qualitative ;… …….p.10 2.2. Variable quantitative ;……..p.11 3. Représentation graphique d’une distribution ;… ….p.12 4. Paramètres de description d’une distribution ;…….p.13 4.1. Les mesures de tendance centrale ;…… ….p.14 4.2. Les paramètres de dispersion ;…… ….p.16 III. Les lois de probabilité ;……..p.21 1. Loi Normale et son usage ;… ……….p.21 2. La loi normale centrée réduite ;……p.23 IV. Estimation ;………p.26 1. Intervalle de confiance d’une moyenne à 95% ;…..p.27 2. L’intervalle de confiance d’un pourcentage à 95% ;…. p.31 3. Signification d’un intervalle de confiance à 95% ;… …p.35 4. Formule générale de l’intervalle de confiance ;… …p.35 5. Situation d’un petit échantillon (n<30) ;… ….p.37 6. Intervalle de confiance pour des échantillons de grande taille par rapport à la population (n/N>10%) ;…..p.38 V. Test statistique ; ….p.4 1. Types de comparaisons ;………p.41 2. Principes des hypothèses ;…….p.41 3. Principe général des tests statistiques ;…… p.42 4. Stratégie d’utilisation des tests ;……p.50 5. Principe général des tests de comparaison ;….p.51 6. Principaux tests ;….p.52 a. Test Z : Test de la loi normale centrée réduite ;…..p.52 b. Tests T de Student ;…… …p.53 c. Tests de chi2 pour séries indépendantes ;… …..p.54 d. Test de chi2 pour séries appariées ;…….p.57 e. Test de chi2 avec correction de Yates ;…… …..p.59 7. Les risques α et β ;……….p.59 8. Degré de signification p ;………p.60 VI. Annexes ;… …….p.62 Exemples d’estimation par intervalles ;…..p.63 Exemples de tests statistiques ;… …..p.66 Table des lois statistiques ;…….p.73 Lecture des tables statistiques ;…..p.76 I. Introduction générale Les statistiques peuvent être un objet de recherche lorsqu’il s’agit de mettre au point de nouvelles méthodes ou d’améliorer des méthodes existantes. Elles sont aussi un instrument utilisé dans différents domaines pour traiter des données en grande nombre. La priorité est alors de connaitre suffisamment bien les méthodes statistiques, leur puissance et leurs limites pour les employer à bon escient. Ce document se situe dans cette optique et vise plus à montrer le principe et les conditions d’utilisation des méthodes qu’à entrer dans le détail des développements mathématiques sous- jacents. Comme tout instrument, les statistiques doivent être adaptées à leur champ d’utilisation. Dans le domaine biomédical, ce ne sont pas tant les méthodes elles-mêmes qui sont particulières que la façon de les mettre en œuvre et d’en interpréter les résultats. On parle d’ailleurs de biostatistique pour rendre compte de ce phénomène. Le développement d’outils informatiques a rendu les méthodes statistiques les plus sophistiquées assez facilement accessibles sur le plan technique. Il faut à la fois s’en réjouir et en mesurer le risque. Un logiciel donne (presque) toujours un résultat tel qu’un degré de signification « p » ou un intervalle de confiance, même si la méthode utilisée n’est pas adaptée aux données ou à la question posée. On voit trop souvent des conclusions fausses tirées de résultats obtenus grâce à la facilité de maniement de l’ordinateur par des utilisateurs n’ayant pas une formation statistique ou épidémiologique suffisante. Il est donc toujours important de repartir des bases pour expliquer les principes fondamentaux du raisonnement statistique. L’étudiant en médecine tout au long de sa formation sera confronté à interpréter comprendre et même utiliser des données statistiques. Que ce soit dans ces cours, stages ou dans la lecture des résultats des travaux de recherche et des publications. Les articles des plus grandes revues scientifiques font de plus en plus souvent appel à des méthodes statistiques relativement complexes. De nombreux praticiens des sciences de la vie, doivent utiliser les outils statistiques pour analyser des données, estimer des paramètres, tester des hypothèses etc. Toute opération statistique effectuée sur une série de données suppose que ces données suivent un modèle mathématique standard, une loi. La théorie statistique est fondée sur les lois du hasard. Lois purement abstraites qui n’ont de sens que si les variables étudiées sont strictement aléatoires, autrement dit engendrées seulement par le hasard. Or les variables étudiées dans les sciences de la vie ne sont pas gouvernées par le hasard. Elles sont déterminées à la fois par les lois de la génétique et les contraintes de l’environnement. C’est seulement la multitude du nombre de combinaisons possibles des messages du code génétique, soumis à l’immensité des contraintes environnementales externes, qui donne aux êtres vivants des caractéristiques dont la variabilité s’apparente à celle qui serait fournie par le seul hasard. Ainsi la variabilité biologique ne fait que donner une illusion, une image du hasard. Dans les sciences du vivant, l’utilisation de la statistique est fondée sur une approximation qui assimile la distribution des valeurs observées à des modèles théoriques. Le grand danger pour l’utilisateur est d’oublier cette approximation, de persister à utiliser des modèles sans vérifier leur pertinence et finalement d’obtenir des résultats juste d’un point de vue mathématique mais totalement faux dans leur interprétation statistique. Comme en pratique on ne peut pas toujours vérifier l’adéquation des données aux modèles théoriques, les statisticiens ont défini des conditions d’application à leur utilisation. Ces conditions doivent être impérativement respectées. Et si les conditions d’application d’une méthode ne sont remplies, il ne faut pas utiliser la méthode. Ce point est fondamental et on se gardera d’oublier qu’en biologie, les lois statistiques sont des modèles, mais que les modèles ne fond pas loi. La statistique est un outil qui permet : ● D’organiser les données disparates provenant des observations individuelles. ● De décrire clairement les phénomènes par des paramètres résumant ces observations. ● D’estimer les valeurs de ces paramètres dans les populations d’où proviennent les échantillons observés. ● De comparer ces paramètres entre plusieurs populations. ● De prédire la probabilité de survenue d’évènements. II. Quelques notions de base L’information est au cœur de la pratique clinique et de l’approche de santé publique. Dans sa pratique quotidienne, le médecin clinicien prend des décisions sur la base de l’information recueillie sur son patient. En effet, à partir de l’interrogatoire, l’examen clinique et éventuellement des examens paracliniques le médecin recueille de l’information qui l’aide à prendre ses décisions. En santé publique ce n’est plus un patient mais un groupe de sujets qui sont au cœur de l’intérêt. Ainsi, l’information à traiter ne concerne plus un seul sujet mais plutôt un groupe de sujet et pour chaque information, par exemple l’âge, on dispose de plusieurs valeurs. Le problème qui se pose pour le traitement de ces données : comment résumer l’information pour pouvoir les interpréter et en tirer de l’information utiles ? 1. Variabilité La valeur d’une caractéristique chez les sujets d’une population ou d’un échantillon (taille, poids, dosage biologique, réponse à une question…) varie d’un individu à l’autre. Cette variabilité est en partie due à des erreurs liées aux instruments de mesures utilisés (on parle d’erreur de mesure). Le terme « instrument » est ici pris au sens le plus large : cela peut être une toise ou une balance pour déterminer la taille ou le poids, mais aussi un questionnaire (et éventuellement l’enquêteur qui l’utilise) pour rechercher des renseignements sur l’état de santé ou les conditions de vie des sujets. L’ampleur des variations dues aux erreurs de mesure dépend de la qualité de l’instrument utilisé, mais elle est très souvent petite devant celle de la variabilité entre sujets (qui ont des tailles, des tensions artérielles …., différentes) et intra-sujet (par exemple, la tension artérielle d’un même sujet varie d’un mois voir d’un jour à l’autre). Ces sources de variabilité inter et intra-sujet, que nous regroupons sous le terme général de variabilité individuelle, sont une des spécificités fondamentales des sciences de la vie. Quelle que soit la caractéristique d’un organisme vivant à laquelle on s’intéresse, sa mesure varie d’un sujet à l’autre ou d’un moment à l’autre pour un même sujet, indépendamment des erreurs de mesure. 1.1 . Variabilité individuelle et fluctuation d’échantillonnage a. Variabilité individuelle On va prendre un exemple de variable quantitative (voir plus loin). Si l’on dit que la tension artérielle chez un adulte est de 14 mmHg, tout le monde comprend qu’on parle d’une valeur moyenne, ou habituelle. En fait la tension artérielle chez l’adulte varie d’un sujet à l’autre. Si on prend, par exemple, la tension artérielle de 2000 sujets adultes d’une population à un instant donné on obtient les résultats de la figure 1 qui montrent la grande variabilité des tensions artérielles. La variabilité des tensions artérielles illustrées par la figure 1 signifie que si l’on prend un adulte au hasard, il ne peut pas prétendre représenter la diversité des naissances. Un échantillon de ple, une population composée de 10% de diabétiqs adultes serait plus satisfaisant pour représenter l’ensemble uploads/Sante/ polycope-de-cours-biostatistique.pdf
Documents similaires
-
40
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 27, 2021
- Catégorie Health / Santé
- Langue French
- Taille du fichier 5.3182MB