Université Dr : Tahar Moulay de Saida Faculté des sciences et de la technologie

Université Dr : Tahar Moulay de Saida Faculté des sciences et de la technologie Département de Mathémathiques et Informatique Master : Probabilités et Applications Matière : Estimation parametrique Tests de Normalité parM elles : Allou Nacéra ;Bakour Amina Sous la direction de : Dr : F.Madani Année Universitaire :2012-2013 Table des matières 1 Introduction 2 2 Approches empiriques et graphiques 3 2.1 Histogramme de la distribution . . . . . . . . . . . . . . . . . . . . . 3 2.2 Boîte à moustaches (box-plot) . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Coe cients d'asymétrie et d'aplatissement . . . . . . . . . . . . . . . 5 3 Approche probabiliste 7 3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2 Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.3 Test d'adéquation du X2 . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.4 Test de Shapiro-wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4 Conclusion sur les tests de normalité 13 1 Introduction En statistiques, les tests de normalité permettent de véri er si des données réelles suivent une loi normale ou non. Les tests de normalité sont des cas particuliers des tests d'adéquation (ou tests d'ajustement, tests permettant de comparer des distributions), appliqués à une loi normale. Ces tests prennent une place importante en statistiques. En eet, de nombreux tests supposent la normalité des distributions pour être applicables. En toute rigueur, il est indispensable de véri er la normalité avant d'utiliser les tests. Cependant, de nombreux tests sont su samment robustes pour être utilisables même si les distributions s'écartent de la loi normale. Dans ce support, nous présenterons dans un premier temps les techniques descrip- tives, notamment le très populaire graphique Q-Q plot.Et dans un second temps, nous dé nons quleques tests statistiques reconnus et implémentés dans la plupart des logiciels de statistique. 2 Approches empiriques et graphiques L'appréhension d'un jeu de données passe systématiquement par les statistiques descriptives. Elles donnent une image globale. Bien souvent, elles permettent de se faire une idée sur les techniques que l'on pourrait utiliser et les dangers ou artefacts dont il faudra se mé er. Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des données. 2.1 Histogramme de la distribution Il est possible de visualiser la forme de la distribution des données à analyser en les représentant sous forme d'histogramme puis de comparer la forme de cet histogramme avec une courbe représentant une loi normale (les paramètres de cette loi étant calculés à partir des données à analyser). Ceci ne permet pas de conclure à la normalité des données mais peut donner une idée du type de loi sous-jacente : loi normale, loi de Cauchy ou loi de Student si la distribution semble symétrique, loi log-normale, loi gamma, loi de Weibull, loi exponentielle ou loi bêta si la distribution est asymétrique. 2.1 Histogramme de la distribution 4 L'outil graphique le plus simple est l'histogramme de fréquence. Il s'agit de couper automatiquement l'intervalle de dé nition de la variable en k intervalles de largeur égales, puis de produire une série de barres dont la hauteur est proportionnelle à l'eectif associé à l'intervalle. Certains logiciels procédent automatiquement à l'estimation des deux principaux paramétres de la loi normale (µ la moyenne, s l'écart-type) et tracent la fonction de densité correspondante pour apprécier le rapprochement entre la distribution empirique (histogramme) et la distribution théorique. La moyenne est estimée à l'aide de la moyenne empirique : x = 1 n X i xi On utilise l'estimateur non biaisé de l'écart-type : s = s 1 n −1 X i (xi −x)2 2.2 Boîte à moustaches (box-plot) 5 2.2 Boîte à moustaches (box-plot) La boîte à moustaches, est un outil graphique très pratique représentant une distribution empirique, permet de visualiser rapidement la symétrie de la distribution des données réelles et la présence de valeurs atypiques. 2.3 Coe cients d'asymétrie et d'aplatissement La loi normale est caractérisée par un coe cient d'asymétrie et un coe cient d'aplatissement nuls. Il paraît naturel de calculer ces indicateurs pour se donner une idée, ne serait-ce que très approximative, du rapprochement possible de la distribution empirique avec une gaussienne. Pour le coe cient d'asymétrie, appelé skewness en anglais, nous utilisons : G1 = n (n −1)(n −2) n X i=1 xi −¯ x s 3 Pour le coe cient d'aplatissement, appelé kurtosis en anglais, nous utilisons : G2 = (n + 1)n (n −1)(n −2)(n −3) n X i=1 xi −¯ x s 4 −3 (n −1)2 (n −2)(n −3) avec s est la racine d'un estimateur non biaisé de la variance. 2.3 Coe cients d'asymétrie et d'aplatissement 6 Si ces indicateurs sont su samment proches de la valeur 0, l'hypothèse de compatibilité avec la loi normale ne peut être rejetée. Tout le problème est de quant er ce degré de proximité. Il faudrait connaître la loi de probabilité de ces indicateurs pour mettre en place un test statistique permettant de déterminer si l'écart est signi catif ou non ; ou tout du moins, calculer les écart-type et utiliser les distributions asymptotiques pour réaliser le test. Nous détaillerons ces procédures plus loin. A ce stade, les coe cients d'asymétrie et d'aplatissement sont uniquement calculés à titre indicatif. Nous constatons néan- moins, sans trop s'avancer quant aux résultats des tests, qu'elles s'éloignent peu des valeurs de référence. L'adéquation à la loi normale paraît plausible. 3 Approche probabiliste Très commodes, les approches empiriques n'ont pas la rigueur des techniques sta- tistiques. Dans ce chapitre, nous présentons les tests de compatibilité à la loi normale. Encore une fois, il s'agit bien de véri er l'adéquation (la compatibilité) à la loi nor- male et non pas déterminer la loi de distribution. tous les tests présentés dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit basés sur les coe cients d'asymétrie et d'aplatissement. Il existe également un grand nombre de tests de normalité :  Tests basés sur la fonction de répartition empirique : Test de Kolmogorov-Smirnov et son adaptation le test de Lilliefors, ou le test de Anderson-Darling et le test de Carmer-Von Mises  Tests basés sur les moments, comme le Test de Jarque Bera ou test D'Agostino's K-squared  Test d'adéquation du X2  Ou encore le test de Shapiro-wilk, ou le test de Shapiro-Francia. 3.1 Généralités Les tests de normalité sont des tests d'hypothése. En notant F(x) la fonction de répartition basée sur les données à analyser et F0(x) la fonction de répartition théorique, les hypothéses nulle et alternative peuvent s'écrire : 3.2 Test de Lilliefors 8    H0 : F(x) = F0(x) H1 : F(x) ̸= F0(x) Les tests sur les moments ont une hypothése moins forte, ils ne testent pas si la fonction de répartition est normale, mais si les moments (coe cients d'asymétrie et d'aplatissement) de la distribution inconnue sont identiques à ceux d'une loi normale : H0 : G1 = 0 et G2 = 3 H1 : G1 ̸= 0 ou G2 ̸= 3 On remarquera que ce n'est pas su sant pour caractériser une loi normale (Problème des moments). 3.2 Test de Lilliefors Le test de Lilliefors est une variante du test de Kolmogorov-Smirnov où les para- mètres de la loi (µ et s) sont estimées à partir des données. La statistique du test est calculée de la même manière. Mais sa loi est tabulée diéremment, les valeurs critiques sont modi ées pour un même risque . Elles ont été obtenues par simulation. Les avis sont partagés quant à la puissance de ce test. Il semble qu'il soit sensible au désaccord de la distribution empirique avec la loi théorique aux alentours de la partie centrale de la distribution, là où justement les écarts ont peu d'eets sur les tests paramétriques. Il est moins performant en revanche lorsque le désaccord porte sur les queues de distribution, pourtant préjudiciables. Certains le déconseillent et préfèrent le test de Shapiro-Wilk ou les tests basés sur les coe cients uploads/s3/ expose-test-de-normalite 2 .pdf

  • 59
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager