L'ANALYSE FACTORIELLE DES CORRESPONDANCES C. LOPEZ Institut de l'Elevage Servic
L'ANALYSE FACTORIELLE DES CORRESPONDANCES C. LOPEZ Institut de l'Elevage Service Biométrie Août 1992 L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 1 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (introduction) ________________________________________________________________________ I. Présentation des données et du problème : Associations entre lésions et boîteries 2 II. Rappels sur le Chi-deux de contingence 3 III L'identification des lésions à risque 5 IV L'AFC : une ACP particulière sur les profils-lésions 6 V Les axes factoriels 9 VI Les résultats de l'analyse des profils-lésions 10 VI-1 Les valeurs propres 10 VI-2 Une aide à l'interprétation des axes factoriels : les contributions absolues 11 VII Une autre ACP possible : l'ACP des points-évolutions 12 VIII Une propriété intéressante : la représentation simultanée des 2 ensembles de profils 14 IX L'examen du plan (1 ; 2) 16 X En conclusion 18 Bibliographie 21 L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 2 Cette note a pour but de présenter à partir d'un petit exemple l'analyse factorielle des correspondances (AFC). Les données (qui proviennent d'une étude réelle) ne servent ici qu'à illustrer la méthode. I Présentation des données 242 taurillons présentant une boîterie ont été suivis. L'évolution de celle-ci a été notée ainsi que la lésion supposée être à l'origine de la boîterie. La répartition des taurillons suivant la lésion et son évolution est présentée dans le tableau ci-dessous. abattage chronicité guérison Total ___________________________________________________________________ arthrite 7 6 4 17 traumatisme 5 5 27 37 défaut d'aplomb 4 4 0 8 jarret droit 4 4 1 9 panaris 1 0 8 9 érosion des talons 1 4 13 18 clou de rue 0 4 5 9 ouverture ligne blanche 6 27 77 110 fourbure 0 2 20 22 fissure de muraille 0 0 3 3 ___________________________________________________________________ 28 56 158 242 -tableau 1- L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 3 Le problème On veut savoir s'il existe des lésions à risque c'est-à-dire prédisposant plus à un abattage des animaux. Classiquement ce type de problème est résolu à l'aide du test du Chi-deux de contingence. II Rappels sur le Chi-deux de contingence Sous l'hypothèse nulle (H0) d'absence de lésions à risque, toutes les lésions présenteraient le même risque d'abattage. Plus généralement elles auraient le même profil d'évolution estimé par le profil moyen : abattage chronicité guérison ____________________________________ 28/242 56/242 158/242 La répartition des taurillons ayant eu une lésion donnée, entre les trois évolutions, se ferait alors au prorata de l'importance relative de celles-ci. Ainsi les 17 taurillons de lésion "arthrite" se répartiraient entre les 3 classes d'évolution de la façon suivante: abattage 17 x 28/242 = 1.97 chronicité 17 x 56/242 = 3.93 guérison 17 x 158/242 = 11.10 On constate, par exemple, que les cas d'abattage seraient alors deux fois moins fréquents, relativement, que les cas de boîteries chroniques pour les taurillons à "arthrite" mais aussi pour les autres lésions. La présence de décimales, ici, ne doit pas surprendre. Ces chiffres sont des effectifs théoriques (Espérés) sous H0. Ce sont des moyennes (les mathématiciens disent des "Espérances mathématiques") qui s'interprètent de la façon suivante : si on pouvait disposer d'un "très grand nombre" d'échantillons de 17 taurillons provenant de la même population et présentant au départ une arthrite, 1.97 animaux seraient, en moyenne, abattus, 3.93 auraient une boîterie chronique et 11.10 guériraient en moyenne. L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 4 On aboutit ainsi au tableau des effectifs espérés suivant : abattage chronicité guérison Total ___________________________________________________________________ arthrite 1.97 3.93 11.10 17 traumatisme 4.28 8.56 24.16 37 défaut d'aplomb 0.93 1.85 5.22 8 jarret droit 1.04 2.08 5.88 9 panaris 1.04 2.08 5.88 9 érosion des talons 2.08 4.16 11.76 18 clou de rue 1.04 2.08 5.88 9 o. ligne blanche 12.73 25.45 71.82 110 fourbure 2.54 5.09 14.37 22 fissure de muraille 0.35 0.69 1.96 3 ___________________________________________________________________ 28 56 158 242 -tableau 2- Le test du Chi-deux consiste alors à comparer le tableau observé (tableau 1) au tableau espéré sous H0 (tableau 2) à l'aide de la statistique suivante : (Oij - Eij)2 χ2 = Σ Σ ________ i j Eij où Oij est le nombre "observé" de taurillons présentant la lésion i et l'évolution j (tableau 1), Eij est le nombre "attendu" (Espéré) de taurillons présentant la lésion i et l'évolution j sous H0 (tableau 2). Le calcul donne ici une valeur de χ2 = 71.33 à (10-1)*(3-1) = 18 ddl. Un tel résultat a moins de une chance sur mille d'être observé s'il y a indépendance entre la lésion à l'origine de la boîterie et l'évolution ultérieure !! ... L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 5 ... on rejette donc l'hypothèse nulle d'indépendance et on conclut qu'il y a des lésions présentant plus de risque que les autres. Remarque : le test précédant est approché car il faut théoriquement pour pouvoir l'utiliser que tous les effectifs théoriques (les Eij) soient supérieurs à 5 ce qui n'est pas le cas ici. Il fournit néanmoins un résultat qui suffit pour notre exemple étant donné la valeur élevée du chi-deux. III L'identification des lésions à risque Une première méthode consiste à regarder quelles sont les lésions qui présentent un nombre d'abattage (très) supérieur au nombre d'abattages attendus sous H0. Oi1 >> Ei1 =====> lésion i à risque Oi1 << Ei1 =====> lésion i sans risque On trouve alors 3 lésions plutôt associées à abattage: Oi1/Ei1 _______ arthrite 7/1.97 défaut d'aplomb 4/0.93 jarret droit 4/1.04 alors que "fourbure" est plutôt associé à guérison 0/2.54 Oi1/Ei1 est en quelque sorte une mesure de risque relatif. Les boîteries ayant pour cause une arthrite sont associées 3.5 fois plus à un abattage que par le simple fait du hasard. Cette méthode est déjà un embryon d'Analyse Factorielle des Correspondances (A.F.C.) dans la mesure où l'on voit déjà apparaître la démarche de recherche d'associations (ou encore de correspondances) entre les modalités de la variable "LESION" et celles de la variable "EVOLUTION". L'AFC va permettre d'affiner cette première analyse en quantifiant et en ordonnant l'importance des associations trouvées et en offrant également une représentation graphique des modalités lésions et des modalités d'évolution mettant en évidence de façon optimale ces associations. L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 6 IV L'AFC : une ACP particulière sur les profils-lésions Les 10 lésions peuvent être tout d'abord considérées comme un nuage de points dans l'espace à 3 dimensions des évolutions. Chaque coordonnée d'une lésion donnée serait alors le nombre de cas recensés dans l'évolution correspondante. Ainsi à la lésion "arthrite" correspondrait le point : (7, 6, 4). En fait en AFC les lésions ne sont pas représentées par le profil des fréquences absolues mais le profil des fréquences relatives pour ne pas favoriser les lésions les plus fréquentes quelle que soit leur évolution. Les dix lésions seront représentées alors par les dix profils-lésions suivants : abattage chronicité guérison (masse) __________________________________________________________________ arthrite 0.412 0.353 0.235 (0.070) traumatisme 0.135 0.135 0.730 (0.153) défaut d'aplomb 0.500 0.500 0.000 (0.033) jarret droit 0.444 0.444 0.112 (0.037) panaris 0.111 0.000 0.889 (0.037) érosion des talons 0.056 0.222 0.722 (0.074) clou de rue 0.000 0.444 0.556 (0.037) o. ligne blanche 0.055 0.246 0.700 (0.454) fourbure 0.000 0.091 0.909 (0.091) fissure de muraille 0.000 0.000 1.000 (0.012) __________________________________________________________________ Profil-lésion moyen : 0.116 0.231 0.653 (1.000) -tableau 3- Le centre de gravité du nuage est alors tout simplement le profil des fréquences relatives d'évolution sur l'ensemble de toutes les lésions: le profil marginal "profil-lésion moyen". L'analyse des correspondances C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 7 L'AFC est alors l'Analyse en Composantes Principales (A.C.P.) du nuage des dix profils- lésions avec deux particularités : 1/ Chaque individu (profil-lésion) a un poids ou encore "masse" (représenté par la dernière colonne du tableau 3) égale à son importance relative dans l'échantillon. Ainsi l'individu "arthrite" a une masse égale à 17/242 = 0.070 puisque 17 taurillons sur 242 ont été diagnostiqués comme ayant eu une arthrite à l'origine de la boîterie. 2/ La "métrique" (c'est-à-dire la règle) pour mesurer la distance entre deux points lésions dans cet espace à trois dimensions ne donne pas la même importance à toutes les coordonnées (évolutions) mais privilégie les évolutions les plus rares. Ainsi en ACP classique la distance entre les individus "Arthrite" et "Traumatisme" aurait été : 2 2 2 ) 730 . 0 235 . 0 ( ) 135 . 0 353 . 0 ( ) 135 . 0 412 . 0 ( ) e traumatism , arthrite ( ce tan Dis − + − + − = 607 . 0 ) 245 . 0 047 . 0 077 . 0 ( = + + = C'est la distance euclidienne classique des cours élémentaires de géométrie (voir le théorème de Pythagore). En AFC les carrés des écarts entre fréquences relatives, pour chaque modalité d'évolution, sont divisés uploads/Management/ l-x27-analyse-factorielle-des-correspondances-c-lopez-institut-de-l-x27-elevage-service-biometrie-aout-1992.pdf
Documents similaires










-
29
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 06, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.1421MB