Introduction ` a la biostatistique – Mat 2779 L’´ et´ e 2010 Cours 9 — le jeudi

Introduction ` a la biostatistique – Mat 2779 L’´ et´ e 2010 Cours 9 — le jeudi 1 juin 9.1. Sur le test QQ de normalit´ e de distribution. Le jeu de donn´ ees sleep fait une partie du package psy de R. En utilisant package installer de R, installez psy. Apr` es, on importe sleep, > library(psy) > data(sleep} On peut donner un nom plus courte au data.frame sleep, par exemple, > d <- sleep Si on ne planifie pas d’utiliser l’invite de commandes, alors on peut importer le jeu de donn´ ees directement dans R commander en utilisant R commander →Data →data in pa- ckages →load data set from an atached package. Pour une description d´ etaill´ ee de ce jeu de donn´ ees, voir la description sous le titre Le sommeil chez les mammif` eres par Yannick Wurm, trouv´ ee sur le site http ://pbil.univ-lyon1.fr/R/enseignement.html (suivez le lien Donn´ ees →probl` emes divers), ou acc´ edez directement le lien http ://pbil.univ-lyon1.fr/R/pdf/pps005.pdf En bref, les donn´ ees portent sur la morphilogie et la composition de sommeil des 62 mam- mif` eres. Les donn´ ees sont issues d’une ´ etude publi´ ee en 1976 dans Science.1 Voici l’une des conclusions de l’´ etude : des grandes quantit´ es du sommeil sans rˆ eve d´ esavantagent les animaux de grande masse corporelle... Les dimensions de sleep sont > dim(sleep) [1] 62 11 Les lignes correspondent aux esp` eces d’animaux, et les colonnes aux variables. Pour obtenir les variables (les noms des colonnes), on tape > names(sleep) [1] "Species" "Body.weight" "Brain.weight" [4] "Slow.wave.sleep" "Paradoxical.sleep" "Total.sleep" [7] "Maximum.life.span" "Gestation.time" "Predation" 1Allison T, Cicchetti DV., Sleep in mammals : ecological and constitutional correlates. Science, 1976 Nov 12 ; 194 (4266) :732-4. 1 2 [10] "Sleep.exposure" "Danger" Les noms des lignes sont normalement retrouv´ es en tapant > row.names(sleep) [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "1 + .... On en conclut que les lignes sont numerot´ ees. Mais cela n’est pas int´ eressant, car les num´ eros en eux-mˆ emes ne nous disent rien. Donc, au lieu de cela, on retrouve la colonne “Species” : > sleep$Species [1] African.elephant African.giant.pouched.rat [3] Arctic.Fox Arctic.ground.squirrel [5] Asian.elephant Baboon [7] Big.brown.bat Brazilian.tapir [9] Cat Chimpanzee [11] Chinchilla Cow [13] Desert.hedgehog Donkey ................. Pour voir les donn´ ees d’une esp` ece particuli` ere, on cherche le nombre de la ligne corr´ espondante (c’est 9 pour le chat, ou bien 6 pour le babouin), et on tape > sleep[6,] Species Body.weight Brain.weight Slow.wave.sleep Paradoxical.sleep 6 Baboon 10.55 179.5 9.1 0.7 Total.sleep Maximum.life.span Gestation.time Predation Sleep.exposure 6 9.8 27 180 4 4 Pour une valeur particuli` ere de la matrice, il suffit d’indiquer les coordonn´ ees (le num´ ero de la ligne et le num´ ero de la colonne). Par exemple, la longueur du sommeil sans rˆ eve (slow wave sleep), en heures par jour, du babouin2 est retrouv´ ee par > sleep[6,4] [1] 9.1 Maintenant on applique le test Q-Q de normalit´ e de distribution ` a quelques variables al´ eatoires de cette ´ etude, sans aucun but particulier. Par exemple, choisissons le poids du cerveau comme la variable. On peut produire le graphe avec R commander, ou bien directement : > qq.plot(sleep$Brain.weight, dist= "norm", labels=FALSE) La distribution sur la figure 1, ` a gauche, est d´ ecidement non normale. Plus pr´ ecisement : on dit qu’avec la confiance 95 %, la distribution sous-jacente n’est pas normale. L’histogramme (` a droite) confirme cette conclusion. 2J’avais fait la connaissance de cet ˆ etre charmant en Afrique du Sud. 3 −2 −1 0 1 2 0 1000 2000 3000 4000 5000 norm quantiles sleep$Brain.weight sleep$Brain.weight frequency 0 1000 2000 3000 4000 5000 6000 0 10 20 30 40 50 FIG. 1. Le test Q-Q de normalit´ e (` a gauche) et l’histogramme (` a droite) pour la variable sleep$Brain.weight. −2 −1 0 1 2 5 10 15 norm quantiles sleep$Slow.wave.sleep sleep$Slow.wave.sleep density 0 5 10 15 0.00 0.02 0.04 0.06 0.08 0.10 FIG. 2. Le test Q-Q de normalit´ e (` a gauche) et l’histogramme (` a droite) pour la variable sleep$Slow.wave.sleep. Par contre, les r´ esultats pour la distribution de la dur´ ee du sommeil sans rˆ eve (figure 2) favourisent l’hypoth` ese de normalit´ e de la distribution. La normalit´ e de la distribution est consistente avec les r´ esultats du test. 4 Il est interessant de noter que la normalit´ e est toujours difficile de pr´ edire par la forme de l’histogramme, mˆ eme muni de la courbe en cloche de la mˆ eme moyenne et l’´ ecart-type. Cet histogramme a ´ et´ e produit avec : > Hist(sleep$Slow.wave.sleep, scale="density", breaks="Sturges", + xlim=c(-1,19), ylim=c(0,0.11), col="darkgray") > x<-seq(-2,20,length=100) > y<-dnorm(x,mean=mean(sleep$Slow.wave.sleep,na.rm=TRUE), + sd=sd(sleep$Slow.wave.sleep,na.rm=TRUE)) > points(x,y) La valeur du param` etre na.rm=TRUE sert ` a ce que le logiciel ignore les valeurs num´ eriques manquantes (qui sont remplac´ ees par le symbole NA, d’o` u le nom ; “rm” signifie “remove”). 9.2. Estimation ponctuelle. Notre but prochain est de raffiner davantage la relation entre la th´ eorie des probabilit´ es et la statistique. Rappellons-nous que le sujet de la statistique est de faire les conclusions g´ en´ erales sur le comportement des variables al´ eatoires X, Y, . . . sur un ensemble fondamental S ` a partir des valeurs connues de ces variables sur un sous-ensemble fini s1, s2, . . . , sn de l’ensemble fondamental, S. Les conclusions doivent rester valables si l’´ echantillon s1, . . . , sn est remplac´ e par un autre, tir´ e de S au hasard. La mani` ere de faire les conclusions sur une v.a. X consiste en estimation d’un param` etre de X, not´ e d’habitude par la lettre grecque θ : θ = θ(X). Les exemples des param` etres sont : – l’esperance math´ ematique de X, µ = E(X) ; – la variance de X, var (X) ; – l’´ ecart-type de X, σ(X) ; – la m´ ediane de X, – chaqu’un des q-quantiles de X, par exemple, le troisi` eme quartile Q3(X), .... Donc, un param` etre de X est un nombre r´ eel associ´ e ` a la v.a. X. Car on ne peut par acc´ eder ` a la valeur de θ directement, on estime θ en calculant la valeur d’un param` etre d’´ echantillon, not´ e t. Notons l’´ echantillon x1 = X(s1), x2 = X(s2), . . ., xn = X(sn). Voici quelques exemples des param` etres d’´ echantillon, dans le mˆ eme ordre. Exemple 9.1. La moyenne d’´ echantillon, ¯ x = x1 + x2 + . . . + xn n . La moyenne est le param` etre statistique qui est utilis´ e pour estimer la valeur de E(X). On dit que ¯ x est un estimateur de E(X). 5 X l’ensemble fondamental, S s1 s2 s3 ... s n x1 x2 . . . l’echantillon de donnees xn R θ = θ(X) ?? inconnu t, le parametre d’echantillon estimateur de θ v.a. FIG. 3. Un estimateur statistique. Exemple 9.2. Pour estimer la valeur de la variance var X, on peut utliser la variance de la restriction de X sur s1, . . . , sn, qui est bien sˆ ur une v.a. sur l’espace fondamental plus petit, ´ equiprobable {s1, . . ., sn}. Cette variance est donn´ ee par l’expression bien connue ` a nous : (9.1) (x1 −¯ x)2 + (x2 −¯ x)2 + . . . + (xn −¯ x)2 n . Pourtant, dans la statistique on utilise les plus souvent un autre estimateur de variance, appel´ e la variance d’´ echantillon (sample variance, en anglais). La variance d’´ echantillon est not´ ee s2. On obtient cet estimateur en remplac ¸ant n dans le d´ enominateur par n −1 : s2 = (x1 −¯ x)2 + (x2 −¯ x)2 + . . . + (xn −¯ x)2 n −1 . La raison d’ˆ etre de cette d´ efinition, c’est qu’il y a une relation de la d´ ependance lin´ eaire entre les ´ ecarts x1 −¯ x, x2 −¯ x, . . . , xn −¯ x, dont seulement n −1 sont libres. Par exemple, si n = 1, alors le seule ´ ecart en existence, x1 −¯ x = x1 −x1 = 0, ne contient aucune information sur la variance de X. Donc c’est tout ` a fait raisonnable que l’estimateur s2 n’est pas d´ efini quand n = 1. Cette explication est vague, mais en effet la variance d’´ echantillon donne un meuilleur estimateur de la variance th´ eorique σ2 = var (X) que la variance th´ eorique donn´ ee par la formule 9.1. La valeur de l’estimateur d’´ echantillon, t, d´ epend de l’´ echantillon, o` u, plus exactement, de sous-ensemble s1, s2, . . . , sn tir´ e de l’ensemble fondamental S au hasard. Pour cette rai- son, on peut regarder t, ` a son tour, comme une variable al´ eatoire. Cette variable uploads/Industriel/ biostatistique 1 .pdf

  • 26
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager