CTU, Licence de Mathématiques Statistique Inférentielle Jean-Yves DAUXOIS Unive

CTU, Licence de Mathématiques Statistique Inférentielle Jean-Yves DAUXOIS Université de Franche-Comté Année scolaire 2011-2012 Ce polycopié contient le cours, les sujets d’exercice et leurs corrigés ainsi que les sujets des devoirs proposés. Les énoncés des exercices sont donnés en fin de chapitre auxquelles ils font référence. Il est vivement conseillé d’essayer de faire sérieusement les exercices, sans aller trop rapidement voir leurs corrections détaillées en fin de polycopié. On sait en effet que, pour qu’une correction soit efficace, il faut qu’elle vienne après une période de recherche personnelle de la solution. Les devoirs, quant à eux, ne sont pas des exercices supplémentaires (ces derniers accompagnés de leurs corrections sont déjà assez nombreux !). Pour qu’ils apportent réellement autre chose que les exercices, ils doivent être faits dans les conditions d’un devoir surveillé ou d’un examen. En conséquence, il vous est vivement conseillé de faire les devoirs et de m’envoyer votre copie (éventuellement les unes après les autres). En retour vous recevrez votre copie corrigée et également une correction type du devoir. Le premier des devoirs peut être résolu dès que l’on est parvenu à la fin de la seconde section du Chapitre 5. Le second est lui réalisable après avoir travaillé l’ensemble du Chapitre 5. Les trois autres, même s’ils peuvent être “attaqués” plus tôt, ne seront réalisables qu’une fois assimilé l’ensemble des notions. Ils peuvent fournir de bons exercices de révision en perspective de l’examen. Enfin, ce polycopié contient certainement de nombreuses coquilles et mérite encore d’être amélioré. Merci d’avance aux lecteurs attentifs de transmettre leur remarques, suggestions ou indications sur la localisation des coquilles. Un petit mail à l’adresse jean-yves.dauxois@univ-fcomte.fr et l’amélioration est prise en compte... Bon courage ! Table des matières Partie 1. Introduction et Modèle Statistique 5 Chapitre 1. Introduction 7 Chapitre 2. Modèle Statistique 11 1. Définition 11 2. Modèle d’échantillonnage 15 3. Vraisemblance 15 4. Familles Exponentielles 16 5. Modèle position-échelle 17 6. Exercices 18 Partie 2. Estimation ponctuelle 21 Chapitre 3. Statistique et Estimateur 23 Chapitre 4. Construction d’estimateurs 27 1. Estimateurs empiriques (des moments) 27 2. Méthode de substitution 29 3. Méthode des moments 29 4. Maximum de vraisemblance 30 5. Exercices 33 Chapitre 5. Qualité d’un estimateur 37 1. Estimateur convergent 37 2. Estimateur sans biais 39 3. Risque d’un estimateur 40 4. Information de Fisher 43 5. Borne de Cramer-Rao (ou Fréchet-Darmois-Cramer-Rao) 46 6. Exercices 48 Chapitre 6. Amélioration d’estimateurs 51 1. Statistique exhaustive 51 2. Statistique exhaustive minimale 54 3. Théorème de Rao-Blackwell 54 4. Théorème de Lehmann-Scheffé 56 5. Cas des familles exponentielles 57 6. Exercices 57 3 Chapitre 7. Comportement asymptotique d’un estimateur 59 1. Normalité asymptotique 59 2. Estimateurs empiriques des moments 60 3. Estimateur du maximum de vraisemblance 60 4. La δ-méthode ou l’étude asymptotique d’un estimateur obtenu par la méthode de substitution 61 5. Estimateurs par la méthode des moments 62 6. Exercices 63 Partie 3. Intervalles de confiance 65 Chapitre 8. Intervalles de confiance exacts 67 Chapitre 9. Intervalles de confiance asymptotiques 71 Chapitre 10. Exercices sur les intervalles de confiance exacts et asymptotiques 73 Partie 4. Correction des exercices 75 Correction des exercices du Chapitre 2 77 Correction des exercices du Chapitre 4 85 Correction des exercices du Chapitre 5 99 Correction des exercices du Chapitre 6 119 Correction des exercices du Chapitre 8 129 Partie 5. Devoirs 135 Partie 1 Introduction et Modèle Statistique CHAPITRE 1 Introduction Considérons un problème de Fiabilité où l’on étudie la durée de vie X d’un matériel. Il est raisonnable d’admettre que celle-ci est aléatoire et X est alors une variable aléa- toire (v.a.) de fonction de répartition (f.d.r.) F. Supposons que l’on soit précisément intéressé par l’évaluation de la probabilité que le matériel soit en marche après un temps t0 de fonctionnement, c’est à dire évaluer ¯ F(t0) = P(X > t0) = 1 −F(t0). Pour cela on observe le fonctionnement n matériels similaires et on relève leurs temps de panne respectifs: x1, . . . , xn. On note Kn = Pn i=1 1 lxi≤t0 le nombre de matériels tombées en panne au temps t0. Il en reste donc n −Kn encore en marche à cet instant. Il est assez naturel d’estimer la probabilité ¯ F(t0) par : b ¯ F(t0) = nombre de cas favorables nombre de cas possibles = n −Kn n = 1 n n X i=1 1 l{xi>t0}. Posons maintenant une hypothèse supplémentaire. On suppose (on sait ou on a pu vérifier) que la loi de X est une loi exponentielle E(λ), mais dont on ignore le paramètre λ. Calculons l’espérance de X. On a E(X) = Z +∞ 0 xλe−λxdx = 1 λ Z +∞ 0 ue−udu = Γ(2) λ , où Γ(α) = Z +∞ 0 uα−1e−udu est la fonction Gamma. On sait que Γ(n) = (n−1)!, ce qui nous donne ici E(X) = 1/λ. Il est assez naturel d’estimer l’espérance de X par la moyenne empirique des temps observés, i.e. par ¯ x = 1 n n X i=1 xi. Ainsi λ peut être estimé par : ˆ λ = 1 ¯ x = n Pn i=1 xi . 7 8 Chapitre 1. Introduction Un calcul simple montre que ¯ F(t0) = Z +∞ t0 λe−λxdx = exp(−λt0) et on peut donc estimer la probabilité que le matériel fonctionne durant le temps t0 par : e ¯ F(t0) = exp(−ˆ λt0). Les estimations précédentes sont appelées estimations ponctuelles. On constate en particulier que plusieurs estimateurs ont été proposés pour ¯ F(t0). Ils conduisent à des estimations différentes de la même quantité pour un seul lot de matériel testé. Mais on remarque également qu’un même estimateur peut mener à différentes estimations si on considère plusieurs lots de matériels. Les valeurs observées x1, . . . , xn n’ont en effet aucune raison d’être les mêmes. Ainsi on se pose naturellement les questions suivantes. Comment peut-on comparer différents estimateurs ? Quelle(s) définition(s) donner de la qualité d’un estimateur ? Comment mesurer l’erreur commise par un estimateur (puisqu’en particulier elle varie d’une observation à l’autre) ? Toutes ces question seront abordées dans la Partie 2 de ce cours. Ce qui précède montre que l’estimation ponctuelle a un inconvénient majeur, celui de se tromper presque toujours. Au moins dans le cas de v.a. absolument continues, ce qui était le cas précédemment, il apparaît clairement que l’on est presque sûr de ne pas “tomber” sur la valeur théorique que l’on cherche à estimer. C’est pourquoi on préfère parfois donner un intervalle plutôt qu’une valeur. On parle d’intervalle de Confiance ou parfois de fourchette d’estimation. Bien sûr il reste une erreur possible. On donnera alors l’intervalle en fonction de l’erreur que l’on s’autorise (ou que l’on nous autorise). Plus on souhaitera que la probabilité d’erreur soit petite, plus grand sera l’intervalle. Et inversement plus la probabilité d’erreur que l’on s’autorise est grande, plus on pourra donner un intervalle étroit. L’estimation par intervalles de confiance fait l’objet de la Partie 3 de cours. Il reste un troisième axe fondamental de la Statistique Inférentielle que nous n’abor- derons pas dans ce cours. Il est de nature assez différente des deux précédents et consiste à pouvoir se donner des outils statistiques pour décider entre deux hypothèses différentes. Ainsi, si l’on considère à nouveau l’exemple précédent sur la fiabilité d’un matériel, on peut être assez rapidement amené à répondre à des questions comme les suivantes. La fiabilité du matériel ¯ F(t0) en un instant t0 fixé (par exemple 2000h) est- elle supérieure ou pas à 0,99 ? Appartient-elle à l’intervalle [0.975, 0.985] (il ne s’agit pas ici du même problème que celui du paragraphe précédent sur la notion d’intervalle de confiance comme nous le verrons en étudiant plus en détails ces notions) ? L’hypothèse de loi exponentielle pour la durée de vie X du matériel est-elle raisonnable ou pas ? Ou encore si l’on dispose de deux versions du matériel : l’un est-il plus fiable que l’autre en un instant t0? Autrement dit, en notant respectivement F1 et F2 les fonctions de répartitions de la durée de vie de chaque matériel, a-t-on F1(t0) ≤F2(t0) ou le contraire ? Jean-Yves Dauxois c ⃝Juillet 2011 0. 9 La théorie des tests d’hypothèses permet de répondre, entre autres, à toutes ces questions. Dans ce domaine les erreurs sont également possibles : celles de choisir l’une des deux hypothèses alors que c’est l’autre qui est vraie. L’objectif est alors naturellement de chercher à réduire au maximum ces deux erreurs mais nous verrons rapidement que cela n’est pas possible conjointement. Ici aussi se posera également la question de l’optimalité (dans un sens à définir) de la procédure de test choisi. D’une manière générale. Statisticien confronté à des données : brutes (résultat du contrôle qualité d’un produit, taille d’individus, âge de la mère à la naissance du premier enfant, concentra- tion en ozone de l’atmosphère etc...) ou résultats d’expériences (expériences biologiques, pharmaceutiques, agronomiques etc...). Travail du statisticien. Extraire de l’information (résumée et pertinente) de ces données (comme par exemple la taille moyenne des uploads/Geographie/ cours-stat-inf.pdf

  • 16
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager