Estimations et intervalles de confiance Estimations et intervalles de confiance R

Estimations et intervalles de confiance Estimations et intervalles de confiance Résumé Cette vignette introduit la notion d’estimateur et ses propriétés : convergence, biais, erreur quadratique, avant d’aborder l’estimation ponctuelle de paramètres de loi : proportion, moyenne, variance. La connaissance des lois de ce estimateurs permet l’estimation par in- tervalle de confiance et donc de préciser l’incertitude sur ces esti- mations : intervalle de confiance d’une proportion, d’une moyenne si la variance est connue ou non, d’une variance. Retour au plan du cours. 1 Introduction Le cadre est le suivant : on dispose de données observées (en nombre fini) et l’on désire tirer des conclusions de ces données sur l’ensemble de la popu- lation. On fait alors une hypothèse raisonnable : il existe une loi de probabilité sous-jacente telle que les “valeurs observables" des différents éléments de la population étudiée puissent être considérées comme des variables aléatoires indépendantes ayant cette loi. Un aspect important de l’inférence statistique consiste à obtenir des “esti- mations fiables" des caractéristiques d’une population de grande taille à partir d’un échantillon extrait de cette population. C’est un problème de décision concernant des paramètres qui le plus souvent sont : – l’espérance mathématique µ ; – la proportion p ; – la variance σ2. Ces paramètres sont a priori inconnus car la taille réelle de la population étant très grande, il serait trop coûteux de tester tous les éléments de la population. Ainsi, comme un échantillon ne peut donner qu’une information partielle sur la population, les estimations que l’on obtiendra seront inévitablement entachées d’erreurs qu’il s’agit d’évaluer et de minimiser autant que possible. En résumé, estimer un paramètre inconnu, c’est en donner une valeur ap- prochée à partir des résultats obtenus sur un échantillon aléatoire extrait de la population sous-jacente. Exemple : Un semencier a récolté 5 tonnes de graines de Tournesol. Il a besoin de connaître le taux de germination de ces graines avant de les mettre en vente. Il extrait un échantillon de 40 graines, les dépose sur un buvard humide et compte le nombre de graines ayant évolué favorablement. On remarque que ce contrôle est de type destructif : l’échantillon ayant servi au contrôle ne peut plus être commercialisé. Il s’agit donc d’évaluer la proportion p des graines de la population à grand effectif, présentant un certain caractère X : succès de la germination. Même avec une population d’effectif restreint, un contrôle destructif impose de faire confiance à un échantillon restreint et la valeur exacte de p ne peut être calculée. Le modèle s’écrit comme n réalisations xi de v.a.r. indépendantes de Ber- noulli Xi définies par : Xi =  1 si l’individu i présente le caractère X 0 sinon. Il est naturel d’estimer p par xn = 1 n Pn i=1 xi, qui est la proportion des indi- vidus ayant le caractère X dans l’échantillon. En effet, la LGN nous assure de la convergence en probabilité de la v.a.r. X = 1 n Pn i=1 Xi vers l’espérance de X1, c’est-à-dire p ; X est l’estimateur de la proportion p et p est estimée par la réalisation xn de X. Dans l’expérience de germination, 36 graines ont eu une issue favorable avec xi = 1. La proportion estimée est x = 40/36 = 0, 9 C’est une estimation dite ponctuelle. D’autre part, dans toute discipline scien- tifique, il est important d’avoir une indication de la qualité d’un résultat ou encore de l’erreur dont elle peut-être affectée. Ceci se traduit en statistique par la recherche d’un intervalle, dit intervalle de confiance, dont on peut assurer, avec un risque d’erreur contrôlé et petit, que cet intervalle contient la “vraie” valeur inconnue du paramètre. Dans la suite nous nous intéresserons donc à deux types d’estimations : – soit une estimation donnée par valeur scalaire issue des réalisations des v.a.r. Xi : l’estimation ponctuelle ; – soit une estimation donnée par un ensemble de valeurs appartenant à un intervalle : l’estimation par intervalle de confiance contrôlé par un risque d’erreur fixé a priori. 1 Estimations et intervalles de confiance 2 Estimation ponctuelle 2.1 Estimateur Convergence DÉFINITION 1. — Un n-échantillon aléatoire issu d’une v.a.r. X est un en- semble (X1, . . . , Xn) de n v.a.r. indépendantes et de même loi que X. Soit θ un paramètre associé à la loi de X, par exemple θ = E(X) ou θ = Var(X). À partir de l’observation d’un échantillon aléatoire (X1, . . . , Xn), on souhaite estimer le paramètre θ. DÉFINITION 2. — Un estimateur b θn de θ est une fonction qui dépend unique- ment du n-échantillon (X1, . . . , Xn). Il est dit convergent s’il est “proche" de θ au sens de la convergence en probabilité : pour tout ϵ > 0, P  |b θn −θ| > ϵ  − → n→+∞0. Dans l’exemple de l’introduction, la quantité 1 n Pn i=1 Xi est un estimateur convergent de p et si, par exemple, on a observé 21 pièces défectueuses sur un lot de 1500 pièces prélevées, l’estimation ponctuelle de p obtenue est xn = 21/1500 = 1, 4%. Pour estimer l’espérance µ des variables aléatoires Xi, on utilise la moyenne empirique Xn = 1 n n X i=1 Xi, car par la LGN, on sait qu’elle converge en probabilité vers l’espérance µ = E(X1). Le but de la théorie de l’estimation est de choisir, parmi toutes les statistiques possibles, le “meilleur" estimateur convergent, c’est-à-dire celui qui donnera une estimation ponctuelle la plus proche possible du paramètre et ceci, quel que soit l’échantillon. Exemple : Considérons une v.a.r. X représentant le nombre de grippes attra- pées par une personne en un an. On peut supposer que X suit une loi de Poisson de paramètre λ > 0. Chercher la loi de X, c’est chercher λ, qui n’est autre que l’espérance mathématique de X. Par conséquent, la LGN nous indique que Xn est un estimateur convergent de λ : pour tout ϵ > 0, P 1 n n X i=1 Xi −λ ≥ϵ ! − → n→+∞0. Grâce à l’inégalité de Chebychev, on peut démontrer le théorème suivant : THÉORÈME 3. — Soit b θn un estimateur de θ. Si l’on a : lim n→+∞E(b θn) = θ et lim n→+∞Var(b θn) = 0, alors b θn est un estimateur convergent de θ. Biais DÉFINITION 4. — Soit b θn un estimateur convergent d’un paramètre θ. On appelle biais la quantité E(b θn) −θ. L’estimateur b θn est dit sans biais si E(b θn) = θ, et biaisé sinon. Exemple : La moyenne empirique Xn est un estimateur convergent et sans biais de l’espérance mathématique µ. Écart quadratique moyen Notons que l’on a E n (b θn −θ)2o = E n (b θn −E(b θn) + E(b θn) −θ)2o = E n (b θn −E(b θn))2 + (E(b θn) −θ)2 + 2(b θn −E(b θn))(E(b θn) − = Var(b θn) + (biais)2, car le terme E n (b θn −E(b θn))(E(b θn) −θ) o est nul. Ainsi, pour rendre l’écart quadratique moyen E n (b θn −θ)2o le plus petit possible, il faut que 2 Estimations et intervalles de confiance – E(b θn) = θ, donc choisir un estimateur sans biais, – la variance Var(b θn) soit faible. On choisira donc, parmi les estimateurs convergents et sans biais, celui qui a la variance la plus petite. En d’autres termes, si b θn est un estimateur convergent et sans biais de θ, on a tout intérêt à ce que b θn ne varie pas trop autour de sa moyenne. Cette propriété traduit ce que l’on appelle l’efficacité de l’estimateur. 2.2 Estimateur d’une moyenne ou d’une proportion On considère un n-échantillon (X1, . . . , Xn) issu d’une loi de moyenne µ et de variance σ2, toutes deux inconnues. 1. d’après la LGN, la moyenne empirique Xn est un estimateur convergent de µ. 2. l’estimateur Xn est sans biais. 3. par indépendance : Var(Xn) = σ2 n . 4. loi de Xn : – si X ∼N(µ, σ2), alors Xn ∼N(µ, σ2/n). – lorsque n est grand, d’après le TCL, la loi de Xn est approchée par une loi normale N(µ, σ2/n). L’estimation d’une proportion p est un cas particulier du précédent, au sens où les v.a.r. Xi considérées sont de Bernoulli de paramètre p. 2.3 Estimateur de la variance DÉFINITION 5. — La variance empirique associée à un n-échantillon (X1, . . . , Xn) est définie par S2 n = 1 n −1 n X i=1 (Xi −Xn)2. DÉFINITION 6. — Soit (Y1, . . . , Yn) un n-échantillon de v.a.r. de loi N(0, 1). On appelle loi du chi-deux à n degrés de liberté la loi de la v.a.r. Pn i=1 Y 2 i , et on la note χ2 (n). Propriétés de la variance empirique : 1. S2 n est un estimateur convergent de la variance σ2. 2. S2 n est sans biais. 3. loi de S2 n : pas de résultat général. Cependant, si X ∼N(µ, uploads/Geographie/ st-l-inf-estim-pdf.pdf

  • 19
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager