Analyse en Composantes Principales (ACP) suivie d’une CAH TUTORIEL en EXCEL ave

Analyse en Composantes Principales (ACP) suivie d’une CAH TUTORIEL en EXCEL avec le logiciel XLSTAT Définition d'une analyse en composantes principales • L'analyse en composantes principales est l'une des méthodes d'analyse de données multivariées les plus fréquemment utilisées. Elle permet d'étudier des ensembles de données multidimensionnelles avec des variables quantitatives. Elle est largement utilisée dans de nombreux autres domaines. • Il s'agit d'une méthode de projection car elle projette les observations d'un espace à p dimensions avec p variables vers un espace à k dimensions (où k < p) de manière à conserver le maximum d'information (l'information est mesurée ici par la variance totale de l'ensemble de données) des dimensions initiales. • Les dimensions de l'ACP sont également appelées axes ou facteurs. Si l'information associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale du nuage de points, les observations peuvent être représentées sur un graphique à 2 ou 3 dimensions, ce qui facilite grandement l'interprétation. • L'ACP peut donc être considérée comme une méthode d'exploration de données car elle permet d'extraire facilement des informations de grands ensembles de données. Utilisation de l’ACP • L'étude et la visualisation des corrélations entre les variables, afin d'éventuellement limiter le nombre de variables à mesurer par la suite ; • L'obtention de facteurs non corrélés qui sont des combinaisons linéaires des variables de départ, afin d'utiliser ces facteurs dans des méthodes de modélisation telles que la régression linéaire, la régression logistique ou l'analyse discriminante ; • La visualisation des observations dans un espace à deux ou trois dimensions, afin d'identifier des groupes homogènes d'observations, ou au contraire des observations atypiques. Jeu de données pour réaliser une Analyse en Composantes Principales • Les données proviennent du US Census Bureau (le fichier original peut-être obtenu sur http://eire.census.gov/popest/states_dataset.csv). Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants. Paramétrer une Analyse en Composantes Principales • Ouvrir XLSTAT • Choisir XLSTAT / Analyse de données / Analyse en Composantes Principales. Une fois le bouton cliqué, la boîte de dialogue correspondant à l'ACP apparaît. • Sélectionner les données sur la feuille Excel. • Cocher l'option Libellés des variables, car la première ligne de données contient le nom des variables. • Sélectionner Observations/Variables dans le champ Format des données. • Sélectionner Corrélation dans le champ Type d'ACP. Cela signifie que les calculs seront basés sur une matrice composée des coefficients de corrélation de Pearson, le coefficient de Pearson étant le coefficient de corrélation classiquement utilisé. Les matrices de covariance allouent plus de poids aux variables ayant des variances élevées. Les corrélations de Spearman peuvent être plus appropriées lorsque l’ACP est exécutée sur des variables aux distributions différentes. Les corrélations polychoriques sont adaptées aux variables ordinales. • Dans l'onglet Sorties, activer l'option Tester la significativité pour afficher en gras les corrélations significativement différentes de 0. • Dans l'onglet Graphiques, activer toutes les options d'Etiquettes afin que les libellés des variables et des observations soient bien affichés et désactiver l'option Filtrer afin d'afficher toutes les observations. • Cliquer sur OK pour lancer les calculs. • Dans la boîte de dialogue Choix des axes sélectionner les axes F1 et F2 puis cliquer sur Sélectionner et répéter ensuite la même chose avec les axes F1 et F3. En effet le pourcentage de variabilité représenté sur les deux premiers axes n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc aussi demandé. Interpréter les résultats de l'Analyse en Composantes Principales • Le premier résultat intéressant à analyser est la matrice des corrélations. On remarque le résultat évident que les taux de la proportion de gens étant agés de plus et moins de 65 ans sont parfaitement corrélés (r = -1). Les deux variables sont donc redondantes. • On remarque l'immigration provenant d'autres états des USA est très peu corrélée avec les autres variables, y compris avec l’immigration provenant de pays étrangers. Cela indique que les raisons d'immigration sont sûrement différentes pour les deux populations concernées. • Le tableau suivant et le graphique associé sont liées à un objet mathématique, les valeurs propres, qui sont heureusement liées à un concept très simple : la qualité de la projection lorsque l'on passe de N dimensions (N étant le nombre de variables, ici 7) à un nombre plus faible de dimensions. Dans notre cas, on voit que la première valeur propre vaut 3.567 et représente 51% de la variabilité. Cela signifie que si l'on représente les données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui sera préservée. A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison linéaire des variables de départ. Les facteurs ont la particularité de ne pas être corrélés entre eux. Les valeurs propres et les facteurs sont triés par ordre décroissant de variabilité représentée. • Idéalement, les deux premières valeurs propres correspondent à un % élevé de la variabilité, si bien que la représentation sur les deux premiers axes factoriels est de bonne qualité. Dans notre exemple, cela n'est pas tout à fait le cas, d'où la nécessité de valider les hypothèse formulées par l'utilisation des graphiques sur les facteurs F1 et F2 d'une part, et F1 et F3 d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors que nous avions au départ 7 variables. Cela est dû aux deux variables redondantes. On comprend bien que l'information puisse être synthétisée sur 6 dimensions. Le nombre de dimensions "utiles" maximum est automatiquement détecter par la méthode utilisée. • Le premier graphique particulier à la méthode est le cercle des corrélations (voir ci-dessous le cercle sur les axes F1 et F2). Il correspond à une projection des variables initiales sur un plan à deux dimensions constitué par les deux premiers facteurs. Lorsque deux variables sont loin du centre du graphique, alors si elles sont : proches les unes par rapport aux autres, alors elles sont significativement positivement corrélées (r proche de 1), orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrélées (r proche de 0), symétriquement opposées par rapport au centre, alors elles sont significativement négativement corrélées (r proche de -1). Lorsque les variables sont relativement proches du centre du graphique, alors toute interprétation est hasardeuse, et il est nécessaire de se référer à la matrice de corrélations à d'autres plans factoriels pour interpréter les résultats. Dans notre exemple, nous pourrions déduire du graphique ci-dessous que les variables Immigration domestique, et Immigration Internationale sont corrélées, alors qu'elles ne le sont pas, ce que l'on peut voir sur la matrice des corrélations ou sur le cercle des corrélations sur les axes F1 et F3. En revanche, on voit bien la forte corrélation entre le taux de mortalité et le taux de personnes dont l'âge est supérieur à 65 ans. • Le cercle des corrélations est aussi utile pour interpréter la signification des axes. Dans notre cas, l'axe F1 est clairement lié à l'âge de la population et à son renouvellement, alors que l'axe F2 est essentiellement lié à l'immigration domestique. Ces tendances sont particulièrement intéressantes à dégager pour l'interprétation du graphique des individus (voir ci-dessous). Pour confirmer le fait qu'une variable est fortement liée à un facteur, il suffit de consulter la table des cosinus : plus le cosinus est élevé (en valeur absolue), plus la variable est liée à l'axe. Plus le cosinus est proche de zéro, moins la variable est liée à l'axe. Dans notre cas, nous voyons que ce qui concerne l'immigration internationale sera mieux interprétée sur les F2/F3. • Le graphique ci-dessus correspond à l'un des objectifs de l'ACP. Il permet de représenter les individus sur une carte à deux dimensions, et ainsi d'identifier des tendances. On voit dans notre exemple que sur la base des variables démographiques dont on dispose, le Nevada et la Floride sont assez particuliers, de même que l'Utah et Alaska qui semblent partager des caractéristiques : en regardant les données, on s'aperçoit que ces deux états ont une population nettement plus jeune que la moyenne, et une natalité très élevée. Utiliser une ACP en amont d'une régression • L'Analyse en Composantes Principales est souvent utilisée avant une régression car elle permet d'éviter d'utiliser des variables redondantes, ou avant une classification car elle permet d'identifier la structure de la population et éventuellement de déterminer le nombre de groupes à construire. Les données utilisées dans ce tutoriel sont aussi utilisées dans le tutoriel sur la Classification Ascendante Hiérarchique. En tenant compte des remarques faites ci- dessus, la variable "pop >65" a été supprimée afin de ne pas rendre le poids des variables liées à l'âge trop important pour le regroupement des états. Rajouter des variables supplémentaires sur l’ACP • Il est possible de rajouter uploads/Management/ analyse-en-composantes-principales-acp-suivie.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Apv 05, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.5866MB