Tests paramétriques Tests paramétriques Retour au plan du cours 1 Introduction

Tests paramétriques Tests paramétriques Retour au plan du cours 1 Introduction Nous introduisons la problématique des tests statistiques par un exemple dans le domaine du contrôle de la qualité. Une usine fabrique des machines. Ces machines tombent en panne à un instant X aléatoire supposé suivre une loi exponentielle E(λ) pour un certain λ > 0 inconnu. Cette usine vend ces machines à une grande surface avec laquelle elle passe un contrat sur la qualité des machines fournies. Sur ce contrat on veut que la probabilité pour qu’une machine tombe en panne avant un instant t0 (qui peut être par exemple la durée de la garantie proposée par la grande surface à ses clients) soit plus petite qu’une quantité donnée. Dans le cadre dans lequel nous sommes, il faut donc savoir si Pλ (X ≤t0) ≤1 −e−λ0t0, (1) pour un certain λ0 > 0 connu, fruit des négociations entre la grande surface et son fournisseur. Comme la variable X suit une loi E(λ), (1) est vérifiée si et seulement si λ ≤λ0. Pour savoir si la convention est respectée, le fournisseur lance régulièrement des études dans lesquelles il observe n machines prélevées parmi sa production et note X1(ω), ..., Xn(ω) les instants de panne des dites machines. Les Xi i = 1, ..., n forment un n-échantillon de v.a. de loi E(λ), le λ inconnu peut être estimé par la méthode des moments (ou du maximum de vraisemblance) par ˆ λ = 1/ ¯ X. Pour savoir si λ ≤λ0, une idée naturelle est de décider, au vu des observations, que l’hypothèse n’est pas vérifiée si ˆ λ est grand ou de manière équivalente si ¯ X est petit, plus petit qu’un seuil t à déterminer. Le problème revient donc à choisir le seuil. Comme nous allons le voir, le choix du seuil dépend des intérêts de chacun. 1.1 Point de vue du fournisseur : Le fournisseur a intérêt à trouver un seuil pour lequel la probabilité de se tromper, sous l’hypothèse que λ ≤λ0, est faible. En effet, cela obligerait le fournisseur à arreter sa production alors que ses produits sont d’une qualité ac- ceptable. Il doit donc se fixer un niveau d’erreur assez petit, α = 1%, 5%, 10% et cherche un seuil t = tα de manière à ce que ∀λ ≤λ0, Pλ ¯ X ≤tα  ≤α, ou encore que sup λ≤λ0 Pλ ¯ X ≤tα  ≤α. Pour évaluer le membre de gauche, faisons quelques rappels sur la loi Gamma. DÉFINITION 1. — On appelle loi Gamma de paramètres a, λ > 0 et notée γ(a, λ), la loi sur R+ ayant pour densité par rapport à la mesure de Lebesgue λa Γ(a)xa−1e−λx⊮{x > 0}dx. On a – pour a = 1, γ(1, λ) = E(λ), – pour n ∈N∗, γ(n/2, 1/2) = χ2(n) = L Pn i=1 Z2 i  où les Zi sont i.i.d. N(0, 1). Les lois Gamma ont les propriétés suivantes : – si X ∼γ(a, λ), Y ∼γ(b, λ) et si X et Y sont indépendantes alors X + Y ∼γ(a + b, λ). – si X ∼γ(a, λ) alors ∀µ > 0, µX ∼γ(a, λ/µ). En particulier on a que 2λSn ∼γ(n, 1/2) = χ2(2n). Soit Z ∼χ2(2n). On a donc sup λ≤λ0 Pλ ¯ X ≤tα  = sup λ≤λ0 Pλ (2λSn ≤2λntα) = sup λ≤λ0 P (Z ≤2λntα) = P (Z ≤2λ0ntα) , 1 Tests paramétriques et le tout est donc plus petit que α en prenant tα = x2n,α/(2nλ0), où x2n,α vérifie P (Z ≤x2n,α) = α (on trouve la valeur dans une table). On a fait ce qu’on appelle un test de niveau α de l’hypothèse λ ≤λ0 contre (l’alternative) λ > λ0. Pour ce test on rejette l’hypothèse si la statistique de test ¯ X vérifie ¯ X ≤tα = x2n,α/(2λ0) (règle de décision). Remarque : Comme nous allons le voir un test n’est pas du tout symétrique entre son hypothèse et son alternative : ici on a choisi de minimiser la probabi- lité de se tromper sous l’hypothèse que λ ≤λ0 est vraie, on ne dit rien sur ce qui se passe sous l’alternative. 1.2 Point de vue de la grande surface : Pour se garantir au mieux sur la qualité de la marchandise livrée, la grande surface aimerait que le seuil soit choisi de manière à ce que si λ > λ0, Pλ ¯ X ≤tα  soit grande ! c’est à dire aimerait que infλ>λ0 Pλ ¯ X ≤tα  soit proche de 1. Or, par des calculs analogues on obtient que le test précédent donne inf λ>λ0 Pλ ¯ X ≤tα  = inf λ>λ0 P (Z ≤2λntα) = α. On ne peut pas trouver de tα qui contente à la fois la grande surface et de son fournisseur. 2 Formalisme mathématique Soit (E, E, F) un modèle statistique, soit Θ0 ⊂Θ, Θ1 ⊂Θ tels que Θ0 ∩ Θ1 = ∅. DÉFINITION 2. — Faire un test de niveau α ∈]0, 1[ de l’hypothèse H0 : θ ∈ Θ0, contre H1 : θ ∈Θ1 au vu de l’observation X c’est se donner une zone de rejet Rα ∈E tel que sup θ∈Θ0 Pθ (X ∈Rα) | {z } Taille du test ≤α. On applique alors la règle de décision : on rejette H0 si X ∈Rα. Dans l’exemple précédent, X = (X1, ..., Xn), Rα = {x ∈Rn, Pn i=1 xi ≤ ntα}. Comme on l’a vu, un test permet de garantir que sous l’hypothèse, la probabilité de se tromper est faible. Il ne garantit rien de ce qui se passe sous l’alternative. Un test n’est pas forcément un bon test : en prenant Rα = ∅(ce qui correspond à accepter tout le temps l’hypothèse !) on a un test de niveau α et de taille 0 ! Pour savoir si un test est bon ou mauvais il faut étudier ses performances sous l’alternative. DÉFINITION 3. — On appelle fonction puissance l’application Θ1 : − − → [0, 1] θ : 7→ Pθ (X ∈Rα) . Parmi les tests de même niveau on préfère toujours celui qui est le plus puis- sant. DÉFINITION 4. — On dira que le test basé sur la région de rejet Rα est meilleur que celui basé sur la région R′ α s’ils sont tous les deux de niveau α et que ∀θ ∈Θ1, Pθ (X ∈Rα) ≥Pθ (X ∈R′ α) . Evidemment, on ne peut pas toujours comparer deux tests. DÉFINITION 5. — On dit que le test basé sur la région de rejet Rα est unifor- mémént plus puissant au niveau α si : 1) supθ∈Θ0 Pθ(X ∈Rα) ≤α . 2) Pour toute région de rejet R′ α telle que supθ∈Θ0 Pθ(X ∈R′ α) ≤α, on a ∀θ ∈Θ1, Pθ(X ∈Rα) ≥Pθ(X ∈R′ α). 3 Lemme de Neyman-Pearson Soit (E, E, F) un modèle statistique pour lequel on suppose, que pour tout θ, Pθ << µ, on notera f(θ, .) les densités correspondantes. On cherche à tester que θ ∈Θ0 contre θ ∈Θ1 au niveau α. On considère le cas de deux hypothèses simples Θ0 = {θ0} et Θ1 = {θ1}. On s’intéresse aux tests qui consistent à rejeter H0 : θ = θ0 si X ∈Rα = {x, f(θ1, x) > kαf(θ0, x)} 2 Tests paramétriques où kα est déterminé pour que Pθ0(X ∈Rα) ≤α. Dans certains cas, nous aurons besoin de tests de taille α c’est-à-dire de tests pour lesquels Pθ0(X ∈Rα) = α. Pour garantir cette égalité, on a parfois recours à des tests randomisés : soit cα = inf{k, Pθ0(f(θ1, X) > kf(θ0, X)) ≤α}. Si Pθ0(f(θ1, X) > cαf(θ0, X)) = α, on a un test de taille α. Sinon, Pθ0(f(θ1, X) > cαf(θ0, X)) = α′ < α. On pose η = (α −α′)/Pθ0(f(θ1, X) = cαf(θ0, X)) (le dénominateur est non nul dans ce cas). On définit alors le test randomisé de la façon suivante : -si f(θ1, X) > cαf(θ0, X), on rejette H0 -si f(θ1, X) = cαf(θ0, X) on rejette H0 avec probabilité η, et on l’accepte avec probabilité 1 −η (on randomise) -si f(θ1, X) < cαf(θ0, X), on accepte H0. Vérifier que ce test est de taille α. LEMME 6. — Lemme de Neyman-Pearson On considère un test de taille α (pour tester H0 : θ = θ0 contre H1 : θ = θ1) pour lequel on rejette H0 si f(θ1, X) > cαf(θ0, X) et on accepte H0 si f(θ1, X) < cαf(θ0, X), où cα = inf{k, Pθ0(f(θ1, X) > kf(θ0, X)) ≤α}. (si nécessaire, on randomise lorsque f(θ1, X) = cαf(θ0, X). Un tel test est appelé test de Neyman-Pearson et il est uniformément plus puis- sant parmi les tests de niveau α pour tester H0 : θ = θ0 contre H1 : θ = θ1. 3.1 Exemple 1 : Modèle de Bernoulli On prend Θ =]0, 1[, Pθ = B(θ)⊗n, X = (X1, ..., Xn), Θ0 = {θ0} et Θ1 = uploads/Industriel/ st-m-inf-test.pdf

  • 13
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager