LSVS – Semestre 5 – Biostatistiques - 1 BIOSTATISTIQUES Thierry THIBAUT - Thier

LSVS – Semestre 5 – Biostatistiques - 1 BIOSTATISTIQUES Thierry THIBAUT - Thierry.THIBAUT@unice.fr INTRODUCTION Le site internet de l’enseignement (www.unice.fr/LEML/Pages/Thierry/Thierry.htm) comprend des diaporamas de cours ainsi que des tables statistiques à télécharger. Ces supports ne dispensent pas de présence en cours magistral, certains points pouvant ou non y être abordés. Lors des TD, il sera nécessaire d’apporter cours, tables statistiques, fascicule de TD, calculatrice, ainsi que ses exercices préparés. Les prérequis en mathématiques sont relativement faibles, le cours étant basé sur l’apprentissage de l’utilisation d’outils indispensables à la poursuite des études en master et à une carrière scientifique en général. BUT DES STATISTIQUES Les statistiques permettent de confirmer ou d’infirmer une hypothèse avec une marge d’erreur la plus petite possible, et/ou prédire un évènement à l’aide d’outils. Il existe deux types de statistiques : • Les statistiques descriptives, permettant de décrire une série de données • Les statistiques inférentielles, consistant en des tests permettant de confirmer ou infirmer une hypothèse Sur l’organigramme ci-contre représentant le processus de démarche scientifique, les tests statistiques permettent d’une part l’interprétation des résultats, et d’autre par la confirmation ou l’information d’une hypothèse. STATISTIQUES DESCRIPTIVES IDENTIFICATION DES DONNEES La population cible est la population d’intérêt. Elle consiste en l’ensemble des éléments en principe visés par l’échantillonnage. Quelle est la population cible ? Il s’agit de la population sur laquelle on aimerait bien que les conclusions de l’étude portent. Dans le cadre d’études sur l’homme par exemple, celle-ci serait Homo sapiens. La population statistique permet de préciser notre échantillonnage : c’est l’ensemble des éléments effectivement représentés par celui-ci. Les éléments qui la composent se caractérisent par au moins une caractéristique LSVS – Semestre 5 – Biostatistiques - 2 commune et exclusive qui permet de les distinguer sans ambigüité. Quelle est la population statistique? Il faut mentionner la ou les caractéristiques qui permettent de la distinguer de toute autre population statistique. Reprenant notre exemple, nous travaillerons par exemple sur des français. L’échantillon (sample) est le fragment d’un ensemble prélevé pour juger de cet ensemble. Ou, dit d’une autre façon, la fraction de la population statistique sur laquelle des mesures sont faites pour connaître les propriétés de cette population. L’échantillon (notre sélection par le hasard ou non de français) est identifié par son effectif, noté n. L’échantillonnage peut être de deux types : • Echantillonnage aléatoire simple, au sein duquel on prélève au hasard et de façon indépendante un certain nombre n d’éléments de la population statistique à N éléments. Chaque élément de la population doit avoir la même probabilité d’être sélectionné. Exemple : mesure de la taille des personnes présentes dans l’amphi sur un effectif n=10 personnes. • Echantillonnage représentatif, reflétant fidèlement la complexité et la composition de la population. L’échantillonnage aléatoire ainsi que l’inventaire exhaustif ou recensement sont deux façons d’obtenir un échantillon représentatif d’une population. Exemple : en fonction de la connaissance du système étudié, on peut échantillonner uniquement les personnes brunes. L’élément correspond au membre d’une population statistique (spécimen, prélèvement d’eau, individu). Quel est l’élément ? Il faut le définir de manière à pouvoir le reconnaître sans ambigüité. C’est sur l’élément que l’on effectuera la mesure de variables. En expérimentation, si l’on pose très clairement les hypothèses et que l’on définit exactement les éléments, l’analyse de données et l’interprétation de résultats en découlera naturellement. La variable correspond à ce que l’on mesurera sur notre échantillon : c’est ce qui le décrira. Plus formellement, une variable consiste en toute caractéristique mesurable ou observable sur un élément d’échantillonnage (variable propre) ou sur son environnement (variable associée). Par exemple, un descripteur, caractère, attribut, observation, trait, profil (en géophysique), item (dans les questionnaires de psychologie), stimulus (dans une étude du comportement). Il existe différents types de variables, présentées dans le tableau ci- dessous. LSVS – Semestre 5 – Biostatistiques - 3 REPRESENTATION DES DONNEES L’objectif de la représentation de données est la transmission d’un message clair au lecteur. Le graphique le plus simple est toujours le plus clair. Prenons l’exemple de la comparaison entre la taille des filles blondes et rousses de notre amphi. La taille est ici une variable quantitative continue, induisant une série de données que l’on devra représenter. Le choix de la méthode de représentation se fait selon le type de série statistique (simple ou double), et le type de variable (qualitative, quantitative discrète ou continue). Dans le cadre de séries statistiques simples, une seule variable est observée sur chaque élément. Les représentations à utiliser sont incidemment : • Un tableau, pour les distributions de fréquences, • Une figure, différente en fonction du type de variable : o Qualitative ou discrète :  Diagramme en bâtons  Camembert o Quantitative continue :  Polygone de fréquences  Histogramme  Courbe de fréquences VARIABLE QUALITATIVE (OU SEMI QUANTITATIVE A FAIBLE NOMBRE DE CLASSES) Chaque catégorie d’observations forme une classe. On dénombre les éléments de chacune d’entre elles. Prenons l’exemple de tableau de distribution de fréquences de populations de souris en fonction de leur stade de développement. VARIABLE QUANTITATIVE (OU SEMI QUANTITATIVE A GRAND NOMBRE DE CLASSES) ETABLIR DES CLASSES Ces variables sont plus complexes à représenter. Il est nécessaire de regrouper les observations pour établir des classes en fonction de valeurs fixes d’une variable discrète ou semi quantitative (exemple : âge=1, 2, 3 ans…), d’une division imposée par la théorie (exemple : juvéniles, adultes, etc.…), ou d’utiliser des règles mathématiques permettant la production d’un nombre adéquat de classes. Parmi elles : • Règle de Sturge :    1  3,322. log • Règle de Yule :    2,5. √  2,5. √ Dans les deux cas, nous arrondirons le nombre de classes à l’entier le plus proche, le nombre de classes étant un entier. LSVS – Semestre 5 – Biostatistiques - 4 DEFINIR LES BORNES, INTERVALLES ET INDICES DE CLASSE Pour déterminer les intervalles et les bornes de classe : • La borne inférieure d’une classe est la plus petite valeur admise dans la classe • La borne supérieure d’une classe est au contraire la plus grande valeur admise dans la classe • L’intervalle de classe se calcule approximativement avec la formule suivante : !" # $% !" #&' '(#)" * + ,, , • L’indice de classe correspond à la valeur centrale de la classe. Il faut faire en sorte de faire coïncider les bornes et les indices de classe avec des nombres comportant peu de décimales, et délimiter des classes d’égale étendue ne se chevauchant pas. DENOMBREMENT Enfin, il faut dénombrer les éléments appartenant à chaque classe (fréquence absolue ou effectif de la classe). EXEMPLE Prenons la longueur totale du crâne (mm) pour un sous- échantillon de 60 souris sylvestres adultes (I, II et III), tiré d’un échantillon de 122 souris de Landry (2000). L’effectif de l’échantillon est de n=60. • Combien de classes ? Selon les règles de Sturge et Yule, nous devrons donc définir 7 classes. • Quelle sera l’étendue des classes ? L’étendue de variation de la variable est de 0,5mm. • Bornes, intervalles et indice des classes ? Attention, nous voulons des valeurs simples avec très peu de décimales ! La valeur minimum des données est de 22,28. Nous avons 7 classes de 0,5mm chacune. Une série simple donnerait les indices de classe suivants : 22,5, 23,0, 23,5, 24,0, 24,5, 25,0, 25,5. Les bornes inférieure et supérieure de la première classe sont 22,25 et 22,75, et celles de la dernière classe 25,25 et 25,75. Nos classes incluent donc l’ensemble des 60 données, ce qui est nécessaire. Attention, les classes ne se chevauchent jamais, la borne supérieure est généralement exclue de l’intervalle de classe. VOCABULAIRE Les différentes fréquences : • Fréquence absolue, notée f • Fréquence relative, notée frel, égale à f/n • Pourcentage, noté %, 100.frel • Fréquence cumulée d’une classe, notée fcum, correspond au cumul step-by-step des fréquences absolues, la dernière fréquence cumulée étant égale à n • Fréquence relative cumulée, notée frel.cumégale à fcum/n • Pourcentage cumulé, noté %cum, égal à 100.fcum/n LSVS – Semestre 5 – Biostatistiques - 5 PARAMETRES D’UNE DISTRIBUTION Il existe plusieurs paramètres permettant de décrire une distribution, avec en premier lieu les paramètres de position, correspondant aux valeurs centrales autour desquelles se groupent les valeurs observées. PARAMETRES DE POSITION La moyenne de la distribution théorique des éléments x, aussi appelée moyenne arithmétique, sera notée -. lorsque l’on considère un échantillon, et μ-lorsque l’on considère une population. On l’obtient par la formule suivante : -. ∑ -& ' &12  La médiane, notée 3, consiste en la valeur de la variable qui se trouve au centre de la série statistique, classée en ordre croissant. Elle sépare la série en deux groupes d’égale importance. S’il y a un nombre impair d’observations, 3 est une observation de la série. Sinon, la médiane est située entre les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux valeurs. Le mode, noté 3, est l’indice de la classe comportant le plus de valeurs. Dans une distribution continue, c’est la « uploads/Geographie/ cours-biostats.pdf

  • 13
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager