1 Chapitre 7 Analyse de la variance (ANOVA) Introduction L’analyse de la varian
1 Chapitre 7 Analyse de la variance (ANOVA) Introduction L’analyse de la variance (ANOVA) a pour objectif d’étudier l’influence d’un ou plusieurs facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou modalités, des facteurs sont fixés par l’expérimentateur. On parle alors de modèle fixe. C’est la comparaison de moyennes pour plusieurs groupes (> 2). Il s'agit de comparer la variance intergroupe (entre les différents groupes : écart des moyennes des groupes à la moyenne totale) à la variance intragroupe (somme des fluctuations dans chaque groupe). S'il n'y a pas de différence entre les groupes, ces deux variances sont (à peu près) égales. Sinon, la variance intergroupe est nécessairement la plus grande. L’ANOVA se résume à une comparaison multiple de moyennes de différents échantillons constitués par les différentes modalités des facteurs. Les conditions d’application du test paramétrique de comparaison de moyennes s’appliquent donc à nouveau. L'analyse de variance (analysis of variance ou ANOVA) peut être vue comme une généralisation du test de Student. On souhaite tester les effets de k traitements qui ont été administrés respectivement à n1,………nk individus. En analyse de variance, le paramètre susceptible d'influer sur les données étudiées s'appelle un facteur, et ses valeurs sont les modalités (ici les différents traitements). Dans le modèle probabiliste, chaque modalité correspond à un échantillon. Pour h = 1,…..k, on note : On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard, ou s'il existe effectivement des différences significatives entre les classes, imputables au facteur. Pour cela, on va comparer les variances empiriques de chaque échantillon, à la variance de l'échantillon global, de taille n1+…+nk=n . La moyenne des variances (pondérée par les effectifs) résume la variabilité à l'intérieur des classes, d'où le nom de variance intra-classes (intra- groupes), ou variance résiduelle. La variance des moyennes décrit les différences entre classes qui peuvent être dues au traitement, d'où le nom de variance inter-classes (intra-groupes), ou variance expliquée. On note : la moyenne empirique de la -ième classe, la variance empirique de la -ième classe, la moyenne de l'échantillon global, La moyenne des variances (variance intra-classes), Vintra 2 La variance des moyennes (variance inter-classes), Vinter la variance de l'échantillon global. Alors : Test d'homogénéité des variances Pour beaucoup de tests paramétriques (ANOVA, régression), l'homogénéité des variances est une condition nécessaire. Homogénéité des variances = homoscédasticité Plusieurs méthodes existent pour tester l'homogénéité des variances dans plusieurs groupes qui n'ont pas nécessairement le même nombre d'objets. Un test très utilisé est le test de Bartlett, détaillé ici. Ce test est valide si les distributions des objets sont Normales (Le test de Bartlett estime si les différentes sous-catégories d'une variable de distribution normale ont la même variance). Le test donne un résultat global et ne permet pas d'estimer les différences de variances des sous-catégories deux à deux. Il est très sensible à la non-normalité. . Exemple Nombre/km2 (densité) de sapins poussant dans 3 (= k) forêts différentes (groupes) : Groupe 1 Groupe 2 Groupe 3 45 78 354 34 69 338 35 86 351 29 58 332 42 57 341 37 64 358 44 347 28 Variance 42,214 131,867 86,476 Avant de tester l'effet du milieu (forêt) sur la densité de sapins par une ANOVA, il faut vérifier l'homogénéité des variances. Question : à un niveau de risque de 5 %, les variances de ces trois groupes sont-elles homogènes? Hypothèses : H0 : toutes les variances sont égales H1 : au moins une des variances est différente des autres Test : Sp2 = Σ((ni – 1)si2)/Σ(ni – 1) B = (Σ(ni – 1))(ln Sp2) - Σ((ni – 1)ln si2) 3 C = 1 + 1/(3(k – 1))[Σ1/(ni – 1) – 1/(Σ(ni – 1))] BC = B/C. Sous H0, BC suit une loi du Khi-carré (χ²) à (k – 1) ddl (ν). Condition : distributions Normales des populations d'origine. Règle de décision : H0 est rejetée si BC > χ² 0,05;2, soit 5,99. Calcul du test : Sp2 = ((7)42,214 + (5)131,867 + (6)86,476)/(7 + 5 + 6) = 81,872 B = (7 + 5 + 6)ln 81,872– (7 ln42,214 + 5 ln131,867 + 6 ln86,476) = 1,925 C = 1 + (1/6)[(1/7 + 1/5 + 1/6) – (1/(7 + 5 + 6))] = 1,076 BC = 1,925/1,076 = 1,789 Décision : BC < 5,99, H0 est acceptée : Les trois variances sont homogènes. Explication de ANOVA à un critère (ou facteur) 4 5 6 7 d’indépendance 8 Exemple Mêmes données que précédemment, mais la question devient : la densité moyenne de sapin est-elle la même dans les 3 forêts ? Hypothèses H0: toutes les moyennes selon le facteur sont égales H1: au moins une des moyennes µr est différente des autres Variable dépendante : Densité en sapin (nb/km2) Facteur : Forêt (s = 3 niveaux). Calculs : Total1 = 294, Total2 = 412, Total3 = 2421 ; Total (T)= 3127 ΣΣx2 = 877889 n = 21 ; n1 = 8 ; n2 = 6 ; n3 = 7 k (Nbre de groupes) = 3 SCER = ΣΣx2 - Σ(Tj2/nj) = 877889– (2942/8 + 4122/6 + 24212/7) = 1473,69 SCEA = Σ(Tj2/nj) – T2/n = (2942/8 + 4122/6 + 24212/7) – 31272/21 = 410790,119 SR 2 = SCER/(n - k) = 1473,69/(21 – 3) = 81,872 SA 2 = SCEA/(k - 1) = 410790,119/(3 – 1) = 205395,060 9 Test statistique F = SA 2 / SR 2 = 205395,060/81,872 = 2508,743 F est comparé à un F à (3 – 1 = 2) et (21 – 3 = 18) degrés de liberté Donc: Fcritique = F(2; 18) = 3,555 à 5 %. Attention, l’ANOVA est toujours un test unilatéral. Si Fcal > F* (H0) : on rejette l’hypothèse d’indépendance Si Fcal < F* (H1) on accepte l’hypothèse d’indépendance, on accepte H1 (pas de relation entre les variables). Décision Fcalculé > Fcritique: les densités moyennes de sapins ne sont pas les mêmes = le facteur « Forêt » a un effet sur la densité des sapins (il y a un effet du milieu (forêt) sur la densité de sapins). Il y a une relation de dépendance. 10 Exemple 2 : H0 : lorsque le poids augmente, on n’assiste pas forcement à une augmentation des corticoïdes urinaires. 11 12 Exercice 1 Le tableau suivant présente des mesures de la hauteur (en mm) de la plante Saede brassica, réalisées dans plusieurs milieux différents. Un chercheur désire comparer ces données afin de connaître l'effet du milieu sur la taille de S. brassica (on admet que les données suivent une distribution Normale). Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 5 12 141 56 87 241 15 146 67 105 264 12 135 43 79 225 18 147 78 123 257 24 154 45 114 248 32 69 258 31 236 15 Tj (=Σxj) 159 723 358 508 1729 1. Quelle analyse permet d'estimer l'effet du milieu sur la hauteur des plantes ? 2. Quelles sont les conditions requises pour pouvoir réaliser cette analyse ? 3. Vérifiez ces conditions et réalisez l'analyse statistique appropriée. Exercice 2 On veut savoir si la quantité de nitrates varie d'une station à l'autre le long d'une rivière. Pour cela, on prélève en 10 points (n=10) chaque fois une certaine quantité d'eau dans 3 stations différentes (k=3). Station 1 Station 2 Station 3 50,00 162,00 120,00 52,00 350,00 120,00 123,00 125,00 122,00 100,00 320,00 221,00 200,00 112,00 253,00 250,00 200,00 141,00 220,00 40,00 182,00 220,00 162,00 175,00 300,00 160,00 160,00 220,00 250,00 214,00 13 uploads/Management/ chapitre-7.pdf
Documents similaires










-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 03, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.4069MB