1 Analyse en Composantes Principales (ACP) Analyse en Composantes Principales (
1 Analyse en Composantes Principales (ACP) Analyse en Composantes Principales (ACP) Résumé Méthode factorielle de réduction de dimension pour l’exploration statistique de données quantitatives complexes. Construction du mo- dèle statistique associé, estimation. Représentations graphiques des individus, des variables et simultanée ; qualité de représentation. Travaux pratiques de complexité croissante par l’études de données de températures puis de données socio-économiques cubiques. Retour au plan du cours. 1 introduction Lorsqu’on étudie simultanément un nombre important de variables quantita- tives (ne serait-ce que 4 !), comment en faire un graphique global ? La difficulté vient de ce que les individus étudiés ne sont plus représentés dans un plan, es- pace de dimension 2, mais dans un espace de dimension plus importante (par exemple 4). L’objectif de l’Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité (cf. l’introduction élémentaire à l’ACP). Il s’agit donc d’obtenir le résumé le plus pertinent possible des données initiales. C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données considérées. De cette matrice, on va extraire, par un procédé mathématique adéquat, les facteurs que l’on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet espace de petite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration globale des individus selon l’ensemble des variables initiales (ainsi remplacées par les facteurs). C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données analysées. Cette interprétation sera guidée par un certain nombre d’indicateurs numériques et graphiques, appelés aides à l’interpréta- tion, qui sont là pour aider l’utilisateur à faire l’interprétation la plus juste et la plus objective possible. L’analyse en Composantes Principales (ACP) est un grand classique de l”analyse des données” en France pour l’étude exploratoire ou la compres- sion d’un grand tableau n × p de données quantitatives. Le livre de Jolliffe (2002)[2] en détaille tous les aspects et utilisations de façon exhaustive. Elle est introduite ici comme l’estimation des paramètres d’un modèle, afin de pré- ciser la signification statistique des résultats obtenus. L’ACP est illustrée dans ce chapitre à travers l’étude de données élémentaires. Elles sont constituées des moyennes sur dix ans des températures moyennes mensuelles de 32 villes françaises. La matrice initiale X est donc (32 × 12). Les colonnes sont l’ob- servation à différents instants d’une même variable ; elles sont homogènes et il est inutile de les réduire. L’ACP joue dans ce cours un rôle central ; cette méthode sert de fondement théorique aux autres méthodes de statistique multidimensionnelle dites facto- rielles qui en apparaissent comme des cas particuliers. Cette méthode est donc étudiée en détail et abordée avec différents niveaux de lecture. La première section présente les grands principes de façon très élémentaire, voire intuitive, tandis que les suivantes explicitent les expressions matricielles des résultats. D’un point de vue plus “mathématique”, l’ACP correspond à l’approxima- tion d’une matrice (n, p) par une matrice de même dimensions mais de rang q < p (cf. rappels d’algèbre linéaire) ; q étant souvent de petite valeur 2, 3 pour la construction de graphiques facilement compréhensibles. 2 Espaces vectoriels 2.1 Notations Soit p variables statistiques réelles Xj (j = 1, . . . , p) observées sur n indi- vidus i (i = 1, . . . , n) affectés des poids wi : ∀i = 1, . . . , n : wi > 0 et n X i=1 wi = 1 ; ∀i = 1, . . . , n : xj i = Xj(i), mesure de Xj sur le i` eme individu. Ces mesures sont regroupées dans une matrice X d’ordre (n × p). 2 Analyse en Composantes Principales (ACP) X1 · · · Xj · · · Xp 1 x1 1 · · · xj 1 · · · xp 1 . . . . . . . . . . . . i x1 i · · · xj i · · · xp i . . . . . . . . . . . . n x1 n · · · xj n · · · xp n • À chaque individu i est associé le vecteur xi contenant la i-ème ligne de X mise en colonne. C’est un élément d’un espace vectoriel noté E de dimension p ; nous choisissons Rp muni de la base canonique E et d’une métrique de matrice M lui conférant une structure d’espace euclidien : E est isomorphe à (Rp, E, M); E est alors appelé espace des individus. • À chaque variable Xj est associé le vecteur xj contenant la j-ème co- lonne centrée (la moyenne de la colonne est retranchée à toute la colonne) de X. C’est un élément d’un espace vectoriel noté F de dimension n ; nous choisissons Rn muni de la base canonique F et d’une métrique de matrice D diagonale des poids lui conférant une structure d’espace eucli- dien : F est isomorphe à (Rn, F, D) avec D = diag(w1, . . . , wn); F est alors appelé espace des variables. 2.2 Métrique des poids L’utilisation de la métrique des poids dans l’espace des variables F donne un sens très particulier aux notions usuelles définies sur les espaces euclidiens. Ce paragraphe est la clé permettant de fournir les interprétations en termes statistiques des propriétés et résultats mathématiques. Moyenne empirique de Xj : xj = Xej, 1n D = ej′X′D1n. Barycentre des individus : x = X′D1n. Matrice des données centrées : X = X −1nx′. Écart-type de Xj : σj = (xj′Dxj)1/2 = xj D . Covariance de Xj et Xk : xj′Dxk = xj, xk D . Matrice des covariances : S = Pn i=1 wi(xi −x)(xi −x)′ = X ′DX. Corrélation de Xj et Xk : ⟨xj,xk⟩D ∥xj∥D∥xk∥D = cos θD(xj, xk). Attention : Par souci de simplicité des notations, on désigne toujours par xj les colonnes de la matrice centrée X. On considère donc que des vecteurs “variables” sont toujours centrés. Ainsi, lorsque les variables sont centrées et représentées par des vecteurs de F : • la longueur d’un vecteur représente un écart-type, • le cosinus d’un angle entre deux vecteurs représente une corrélation. 2.3 Objectifs Les objectifs poursuivis par une ACP sont : • la représentation graphique “optimale” des individus (lignes), minimisant les déformations du nuage des points, dans un sous-espace Eq de dimen- sion q (q < p), • la représentation graphique des variables dans un sous-espace Fq en ex- plicitant au “mieux” les liaisons initiales entre ces variables, • la réduction de la dimension (compression), ou approximation de X par un tableau de rang q (q < p). Les derniers objectifs permettent d’utiliser l’ACP comme préalable à une autre technique préférant des variables orthogonales (régression linéaire) ou un nombre réduit d’entrées (réseaux neuronaux). Des arguments de type géométrique dans la littérature francophone, ou bien de type statistique avec hypothèses de normalité dans la littérature anglo- saxonne, justifient la définition de l’ACP. Nous adoptons ici une optique in- termédiaire en se référant à un modèle “allégé” car ne nécessitant pas d’hypo- thèse “forte” sur la distribution des observations (normalité). Plus précisément, l’ACP admet des définitions équivalentes selon que l’on s’attache à la repré- sentation des individus, à celle des variables ou encore à leur représentation simultanée. 3 Modèle Les notations sont celles du paragraphe précédent : • X désigne le tableau des données issues de l’observation de p variables quantitatives Xj sur n individus i de poids wi, • E est l’espace des individus muni de la base canonique et de la métrique 3 Analyse en Composantes Principales (ACP) de matrice M, • F est l’espace des variables muni de la base canonique et de la métrique des poids D = diag(w1, . . . , wn). De façon générale, un modèle s’écrit : Observation = Modèle + Bruit assorti de différents types d’hypothèses et de contraintes sur le modèle et sur le bruit. En ACP, la matrice des données est supposée être issue de l’observation de n vecteurs aléatoires indépendants {x1, . . . , xn}, de même matrice de cova- riance σ2Γ, mais d’espérances différentes zi, toutes contenues dans un sous- espace affine de dimension q (q < p) de E. Dans ce modèle, E(xi) = zi est un paramètre spécifique attaché à chaque individu i et appelé effet fixe, le modèle étant dit fonctionnel. Ceci s’écrit en résumé : {xi ; i = 1, . . . , n}, n vecteurs aléatoires indépendants de E, xi = zi + εi , i = 1, . . . , n avec E(εi) = 0, var(εi) = σ2Γ, σ > 0 inc. Γ rég. et connue, ∃Aq, sous-espace affine de dim. q de E tel que ∀i, zi ∈Aq (q < p). (1) Soit z = Pn i=1 wizi. Les hypothèses du modèle entraînent que z appartient à Aq. Soit donc uploads/Management/ st-m-explo-acp-pdf.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/w4mVVbrtMu9IIy2tmH0dGbjjdCDsMGx9GDoZQkTFxVJvJsTpdFIHG2kRjFMM3iLt1xJvm7yb5WlTzi3zipkjo9rj.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/iz0j5gd5ELP2EIkJsVhFQZhHoVWBbkJaNCvxmhFk6UYsKNFFxxjaz8s37nc77qERRv6kTezc5SdGFupzTYcu4UaU.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/lOm0axFFGVCy9RcHbM9udYG0icUOCVTdboSLCwdRLnSbEV9XrHcgMZwJjSKrmjiJyqfSJVlzYmZpMLrRvWEPsf0T.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/xJEEWb6w7DGMn7ItDbqfmVqZkxQZOf4McseLrZcNAg6xVziEXfpPlBFJV9sfnetZFAZHA7kdgzmXGugyRq4xf1VA.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/BSk4q6iFccZ1mMLfJZwJUnk9HfZSPaMbFDjlZ3aqDJkEzIRQvlere6yPrF0jtg1WbEoql3X6Lu2lf0cD0dr79cE4.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/YgEPhaUNmqi6JKgNglDnS4ZW6EkteUuqwEmrjvRBFWTAz60NNwSdYTvYLt43AS5TEL5pIBCh3FUgulcZFOZtYpx5.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/e2r1brHMDms8ddk4TEQT8Qa6yGKklmzqcEnQ9XDYshXlUHHTaLMzWjIoZe2zwxY2aA9BtFx52CqKtg1Np1cEQgvx.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/7qxsb2O71fcrz6FN5T2tgNtTEOEjFKk3bFcc35nko9M77ij9kG99UEGKQSRtIJw4VRTUEyMFd2UyPcbrkcWNCgcC.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/QXC5gRhOxGyvsVlHGZZhBt4Zs9wnF7VZW3o29wRBdWpOIZCvjejPyRRcAjOvxyvW5ahNPUzNHZX5l9ftx2rEoLRv.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/pTxUtuJ9jXxg1tduBZoSB25NFCmsA8ou7TuWDi9QsMFT7EaeobMC1rz1RsFotKws5g8KOHtU1vI47VbdPRXQ05iW.png)
-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 05, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.4192MB