Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitat

Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 101 Analyse factorielle des correspondances de Benzécri Laboratoire d’Analyse – Recherche en Economie Quantitative One Pager Décembre 2013 Vol. 8 – Num. 011 Copyright © Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration à l’aide de la métrique de Chi – deux Yannick Mavita Mukwanga « L’incompréhension vient de trois déficits majeurs, à savoir : le manque de pré – requis ; la non maîtrise du jargon ; . . . » Jean – Paul Tsasa Résumé Ce papier présente un outil d’analyse des données, l’analyse factorielle des correspondances, en se basant sur la notion de la métrique de Chi – deux. Mots – clé : métrique de chi –deux, analyse factorielle des correspondances Abstract This paper focuses on the correspondence analysis, based on the notion of chi-squared distance metric. Introduction L’analyse en composantes principales [ACP] permet de produire dans un espace de faible dimension une ou plusieurs représentations graphiques cherchant à mettre en vedette les principales caractéristiques des données initiales [Mavita, 2013, One pager vol.8, num. 11]. De ce fait, son efficacité dépend fortement de la nature des données, dans le sens où cette méthode devient inappropriée en face des données qualitatives. C’est sous cet angle que ce papier propose un outil alternatif de l’analyse factorielle, l’analyse factorielle des correspondances [AFC], permettant de trancher sur l’analyse des données qualitatives. Contrairement à l’ACP, l’AFC s’intéresse plus au lien entre ces variables qu’à leur intensité. Précisons d’ores et déjà que cette méthode des correspondances, permettant la visualisation et la hiérarchisation de l’information a été mise au point dès 1941 par Louis Guttman. Cependant, c’est en 1962 que le statisticien français Jean –Paul Benzécri 1 développa une analyse des correspondances particulière sur base de la métrique de Chi – deux. Depuis lors, cette méthode est devenue très pratique du fait de sa particularité de faire recours à une distribution classique. L’objet de ce papier est de procéder à une présentation succincte et pratique de l’AFC et plus particulièrement de l’AFC de Benzécri. A cet effet, deux sections seront retenues dont la première rappelle la métrique de Chi – deux et la seconde expose la méthode AFC. 1Jean – Paul Benzécri est un statisticien français né en 1932 et il est le fondateur de l’école française d’analyse des données. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 102 Métrique de Chi - deux Cette section fournit un aperçu global de la métrique de Chi – deux, mise au point par le statisticien britannique Karl Pearson en 1900. Pour une présentation et une démonstration plus rigoureuses, nous renvoyons à Tombola [2013]. S’agissant de variables qualitatives, il sied de noter qu’une variable qualitative est une variable dont les valeurs ne sont pas numériquement mesurables. Selon la hiérarchisation des modalités, ces variables peuvent être ordinales, si les états de la variable ou modalités peuvent être hiérarchisés ou ordonnés ; ou nominales si les modalités peuvent être ordonnées. Selon la variabilité des modalités, on distingue généralement la variable binaire (dichotomique) et la variable polytomique, selon qu’elle prend respectivement deux ou modalités. Ainsi, c’est à la recherche de l’explication de liaison entre deux variables qualitatives que Pearson a pu proposer la métrique de Chi – deux. Ce test est connu sous le nom d’indépendance des caractères étudiés dans un tableau de contingence. . Nous en présentons la démarche. Considérons un tableau de contingence1 de deux variables polytomiques X et Y sur un échantillon de taille T et des modalités respectives et . Tableau 1 Modalités de Y Modalités de X … … Total … … … … … … … … … … … … … … … … … … … … Total … … Ainsi, on peut présenter ce tableau sur base des fréquences qui sont déterminées par : où et représentent les fréquences marginales. 1 Pour plus de détails sur le tableau de contingence, nous pensons à Tombola (2013, p. 55). Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 103 En cherchant à éliminer l’incidence des effets marginaux ou conditionnels, on détermine les fréquences relatives. Pour les colonnes, on obtient le tableau des profils – colonnes avec : la probabilité conditionnelle. Il convient de noter que l’avantage de cette transformation est qu’elle autorise une pondération de chaque fréquence par la fréquence marginale de sorte que la comparaison entre deux lignes ne soit pas influencée par la différence de leurs effectifs. Tableau 2 : Tableau des profils – colonnes Modalités de Y Modalités de X … … Distribution marginale selon X … … … … … … … … … … … … … … … … … … … … Total 1 … 1 … 1 1 Par analogie, on trouve le tableau des profils – lignes. Présentation de la méthode AFC L’intérêt de la méthode AFC réside dans le fait que la méthode de l’ACP apparaît inopérante en face des données qualitatives. Aussi, le niveau élevé de la fréquence des analyses des faits intrinsèquement qualitatifs ont poussés les scientifiques à réfléchir sur une méthode pratique traitant des données qualitatives, la méthode de l’AFC. Cette méthode base son analyse sur la comparaison des modalités de deux variables Le choix sur l’AFC de Benzécri se justifie par le simple fait que dans son approche, Benzécri fait appel une notion connue et pratique concernant les données qualitatives, la métrique de Chi – deux. Mise en œuvre de l’AFC1 La méthode de l’AFC suit la même démarche que la méthode de l’ACP, de la transformation des données à l’interprétation en passant par l’analyse de chaque nuage des points. 1 Pour question de détails et d’applications numériques sur la méthode AFC, lire Delgado (2001) et Zouhhad (2002). Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 104 Transformation des données en profils : la première démarche consiste à transformer les données en tableaux des profiles – lignes et profiles – colonnes. Analyse des nuages des points Représentation graphique des profils – colonnes Les profils lignes peuvent être représentés dans et les axes du système représentant les catégories. Chaque profil – ligne donne un point de coordonnées , les probabilités conditionnelles de chaque colonne du tableau des profils – colonnes. Ces points ont un barycentre noté et les coordonnées sont calculées par : Figure 1 Cette carte factorielle indique que les modalités j1 et j2 sont voisines, la modalité jn est proche du barycentre tandis que la modalité j3 est un point extrême et opposé à tous les autres. Représentation graphique des profiles – lignes Cependant, l’AFC en tant une des méthodes d’analyse factorielle cherche des axes principaux en projetant tous ces points sur un même plan. Le premier axe factoriel est déterminé par la droite des moindres carrés qui ajuste tous points . Cette droite est dans ce plan de projection, suit naturellement la direction d’inertie maximale de tous ces points, passe par et l’équation est déterminée dans . Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à . Comme les profiles – colonnes, les profiles – lignes peuvent être également représentés dans et n axes représentant les catégories. Chaque profil – ligne donne un point de coordonnées les probabilités conditionnelles de chaque ligne du tableau des profils – lignes. j1 j2 jn j3 Bj F1 F2 Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 105 Ces points ont un barycentre noté dont les coordonnées sont trouvées par : En projetant ces points sur un même plan, le premier axe factoriel F3 est donné par la droite des moindres carrés qui ajuste ces points. Cette droite est dans ce plan de projection, suit naturellement la direction d’inertie maximale de tous ces points, passe par et l’équation est déterminée dans . Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à . Figure 2 Cette carte factorielle montre que les modalités i1 et i2 sont voisines, la modalité in est proche du barycentre tandis que la modalité i3 est un point extrême et opposé à tous les autres. Dualité des profils – lignes et des profils - colonnes Il s’agit de représenter sur même graphique les deux cartes factorielles précédentes. Figure 3 i1 i2 in i3 Bi F3 F4 i2 j2 j1 i1 i3 j3 F1 F3 F2 F4 Bj Bi M Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 106 Les zones encerclées selon les proximités montrent les correspondances entre les modalités. La figure indique que la zone M fait apparaître deux sous zones particulières avec évidemment deux correspondances particulières. Somme toute, le présent papier a donné une vision plus ou moins simplifiée de la méthode d’analyse factorielle des correspondances (AFC). Par ailleurs, il reste une série de méthodes d’analyse factorielle qui seront abordées dans des publications ultérieures, et ce sera également de fournir des illustrations plus pratiques à l’aide des logiciels appropriés. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 107 Références bibliographiques uploads/Management/ analyse-factorielle-des-correspondances-de-benze-cri.pdf

  • 25
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jul 02, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.6370MB