0%

Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Estimations et intervalles de conﬁance Estimations et intervalles de conﬁance R

Estimations et intervalles de conﬁance Estimations et intervalles de conﬁance Résumé Cette vignette introduit la notion d’estimateur et ses propriétés : convergence, biais, erreur quadratique, avant d’aborder l’estimation ponctuelle de paramètres de loi : proportion, moyenne, variance. La connaissance des lois de ce estimateurs permet l’estimation par in- tervalle de conﬁance et donc de préciser l’incertitude sur ces esti- mations : intervalle de conﬁance d’une proportion, d’une moyenne si la variance est connue ou non, d’une variance. Retour au plan du cours. 1 Introduction Le cadre est le suivant : on dispose de données observées (en nombre ﬁni) et l’on désire tirer des conclusions de ces données sur l’ensemble de la popu- lation. On fait alors une hypothèse raisonnable : il existe une loi de probabilité sous-jacente telle que les “valeurs observables" des différents éléments de la population étudiée puissent être considérées comme des variables aléatoires indépendantes ayant cette loi. Un aspect important de l’inférence statistique consiste à obtenir des “esti- mations ﬁables" des caractéristiques d’une population de grande taille à partir d’un échantillon extrait de cette population. C’est un problème de décision concernant des paramètres qui le plus souvent sont : – l’espérance mathématique µ ; – la proportion p ; – la variance σ2. Ces paramètres sont a priori inconnus car la taille réelle de la population étant très grande, il serait trop coûteux de tester tous les éléments de la population. Ainsi, comme un échantillon ne peut donner qu’une information partielle sur la population, les estimations que l’on obtiendra seront inévitablement entachées d’erreurs qu’il s’agit d’évaluer et de minimiser autant que possible. En résumé, estimer un paramètre inconnu, c’est en donner une valeur ap- prochée à partir des résultats obtenus sur un échantillon aléatoire extrait de la population sous-jacente. Exemple : Un semencier a récolté 5 tonnes de graines de Tournesol. Il a besoin de connaître le taux de germination de ces graines avant de les mettre en vente. Il extrait un échantillon de 40 graines, les dépose sur un buvard humide et compte le nombre de graines ayant évolué favorablement. On remarque que ce contrôle est de type destructif : l’échantillon ayant servi au contrôle ne peut plus être commercialisé. Il s’agit donc d’évaluer la proportion p des graines de la population à grand effectif, présentant un certain caractère X : succès de la germination. Même avec une population d’effectif restreint, un contrôle destructif impose de faire conﬁance à un échantillon restreint et la valeur exacte de p ne peut être calculée. Le modèle s’écrit comme n réalisations xi de v.a.r. indépendantes de Ber- noulli Xi déﬁnies par : Xi = 1 si l’individu i présente le caractère X 0 sinon. Il est naturel d’estimer p par xn = 1 n Pn i=1 xi, qui est la proportion des indi- vidus ayant le caractère X dans l’échantillon. En effet, la LGN nous assure de la convergence en probabilité de la v.a.r. X = 1 n Pn i=1 Xi vers l’espérance de X1, c’est-à-dire p ; X est l’estimateur de la proportion p et p est estimée par la réalisation xn de X. Dans l’expérience de germination, 36 graines ont eu une issue favorable avec xi = 1. La proportion estimée est x = 40/36 = 0, 9 C’est une estimation dite ponctuelle. D’autre part, dans toute discipline scien- tiﬁque, il est important d’avoir une indication de la qualité d’un résultat ou encore de l’erreur dont elle peut-être affectée. Ceci se traduit en statistique par la recherche d’un intervalle, dit intervalle de conﬁance, dont on peut assurer, avec un risque d’erreur contrôlé et petit, que cet intervalle contient la “vraie” valeur inconnue du paramètre. Dans la suite nous nous intéresserons donc à deux types d’estimations : – soit une estimation donnée par valeur scalaire issue des réalisations des v.a.r. Xi : l’estimation ponctuelle ; – soit une estimation donnée par un ensemble de valeurs appartenant à un intervalle : l’estimation par intervalle de conﬁance contrôlé par un risque d’erreur ﬁxé a priori. 1 Estimations et intervalles de conﬁance 2 Estimation ponctuelle 2.1 Estimateur Convergence DÉFINITION 1. — Un n-échantillon aléatoire issu d’une v.a.r. X est un en- semble (X1, . . . , Xn) de n v.a.r. indépendantes et de même loi que X. Soit θ un paramètre associé à la loi de X, par exemple θ = E(X) ou θ = Var(X). À partir de l’observation d’un échantillon aléatoire (X1, . . . , Xn), on souhaite estimer le paramètre θ. DÉFINITION 2. — Un estimateur b θn de θ est une fonction qui dépend unique- ment du n-échantillon (X1, . . . , Xn). Il est dit convergent s’il est “proche" de θ au sens de la convergence en probabilité : pour tout ϵ > 0, P |b θn −θ| > ϵ − → n→+∞0. Dans l’exemple de l’introduction, la quantité 1 n Pn i=1 Xi est un estimateur convergent de p et si, par exemple, on a observé 21 pièces défectueuses sur un lot de 1500 pièces prélevées, l’estimation ponctuelle de p obtenue est xn = 21/1500 = 1, 4%. Pour estimer l’espérance µ des variables aléatoires Xi, on utilise la moyenne empirique Xn = 1 n n X i=1 Xi, car par la LGN, on sait qu’elle converge en probabilité vers l’espérance µ = E(X1). Le but de la théorie de l’estimation est de choisir, parmi toutes les statistiques possibles, le “meilleur" estimateur convergent, c’est-à-dire celui qui donnera une estimation ponctuelle la plus proche possible du paramètre et ceci, quel que soit l’échantillon. Exemple : Considérons une v.a.r. X représentant le nombre de grippes attra- pées par une personne en un an. On peut supposer que X suit une loi de Poisson de paramètre λ > 0. Chercher la loi de X, c’est chercher λ, qui n’est autre que l’espérance mathématique de X. Par conséquent, la LGN nous indique que Xn est un estimateur convergent de λ : pour tout ϵ > 0, P 1 n n X i=1 Xi −λ ≥ϵ ! − → n→+∞0. Grâce à l’inégalité de Chebychev, on peut démontrer le théorème suivant : THÉORÈME 3. — Soit b θn un estimateur de θ. Si l’on a : lim n→+∞E(b θn) = θ et lim n→+∞Var(b θn) = 0, alors b θn est un estimateur convergent de θ. Biais DÉFINITION 4. — Soit b θn un estimateur convergent d’un paramètre θ. On appelle biais la quantité E(b θn) −θ. L’estimateur b θn est dit sans biais si E(b θn) = θ, et biaisé sinon. Exemple : La moyenne empirique Xn est un estimateur convergent et sans biais de l’espérance mathématique µ. Écart quadratique moyen Notons que l’on a E n (b θn −θ)2o = E n (b θn −E(b θn) + E(b θn) −θ)2o = E n (b θn −E(b θn))2 + (E(b θn) −θ)2 + 2(b θn −E(b θn))(E(b θn) − = Var(b θn) + (biais)2, car le terme E n (b θn −E(b θn))(E(b θn) −θ) o est nul. Ainsi, pour rendre l’écart quadratique moyen E n (b θn −θ)2o le plus petit possible, il faut que 2 Estimations et intervalles de conﬁance – E(b θn) = θ, donc choisir un estimateur sans biais, – la variance Var(b θn) soit faible. On choisira donc, parmi les estimateurs convergents et sans biais, celui qui a la variance la plus petite. En d’autres termes, si b θn est un estimateur convergent et sans biais de θ, on a tout intérêt à ce que b θn ne varie pas trop autour de sa moyenne. Cette propriété traduit ce que l’on appelle l’efﬁcacité de l’estimateur. 2.2 Estimateur d’une moyenne ou d’une proportion On considère un n-échantillon (X1, . . . , Xn) issu d’une loi de moyenne µ et de variance σ2, toutes deux inconnues. 1. d’après la LGN, la moyenne empirique Xn est un estimateur convergent de µ. 2. l’estimateur Xn est sans biais. 3. par indépendance : Var(Xn) = σ2 n . 4. loi de Xn : – si X ∼N(µ, σ2), alors Xn ∼N(µ, σ2/n). – lorsque n est grand, d’après le TCL, la loi de Xn est approchée par une loi normale N(µ, σ2/n). L’estimation d’une proportion p est un cas particulier du précédent, au sens où les v.a.r. Xi considérées sont de Bernoulli de paramètre p. 2.3 Estimateur de la variance DÉFINITION 5. — La variance empirique associée à un n-échantillon (X1, . . . , Xn) est déﬁnie par S2 n = 1 n −1 n X i=1 (Xi −Xn)2. DÉFINITION 6. — Soit (Y1, . . . , Yn) un n-échantillon de v.a.r. de loi N(0, 1). On appelle loi du chi-deux à n degrés de liberté la loi de la v.a.r. Pn i=1 Y 2 i , et on la note χ2 (n). Propriétés de la variance empirique : 1. S2 n est un estimateur convergent de la variance σ2. 2. S2 n est sans biais. 3. loi de S2 n : pas de résultat général. Cependant, si X ∼N(µ, uploads/Geographie/ st-l-inf-estim-pdf.pdf

Tags

Administrationconﬁance variance estimateur v.a.r. intervalle

Documents similaires

30
0
0

Licence et utilisation

Gratuit pour un usage personnel Attribution requise

Partager

Détails
Publié le Apv 22, 2022
Catégorie Geography / Geogra...
Langue French
Taille du fichier 0.2899MB

Nous utilisons des cookies

Ce site utilise des cookies pour améliorer votre expérience utilisateur.

Cookies de fonctionnement

Nous devons utiliser certains cookies pour pouvoir faire fonctionner certaines pages web. C'est la raison pour laquelle ils ne nécessitent pas votre consentement.

disserty_cookie_consent

1 an 1 mois 1 jour

Stockage des préférences de consentement aux cookies de l'utilisateur.
disserty_session

2 heures

Identification de la session de navigation de l'utilisateur.
XSRF-TOKEN

2 heures

Protection de l'utilisateur et notre site contre les attaques d'usurpation d'identité lors des requêtes.

Plus d'informations

Cookies analytiques

Nous utilisons ces cookies uniquement à des fins de recherche interne sur la manière dont nous pouvons améliorer le service que nous offrons à tous nos utilisateurs. Ces cookies permettent d'évaluer la manière dont vous interagissez avec notre site web.

_ga

2 ans 2 mois 2 jours

Cookie principal utilisé par Google Analytics, permettant de distinguer un visiteur d'un autre.
_ga_C6FBBSLVBT

2 ans 2 mois 2 jours

Utilisé par Google Analytics pour conserver l'état de la session.
_gid

1 jour

Utilisé par Google Analytics pour identifier un visiteur.
_gat

1 minute

Utilisé par Google Analytics pour limiter le taux de demande.

Plus d'informations