Introduction Mathématique de l’ACP Espace métrique des individus et inerties Es
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Data Mining Analyse en Composantes Principales W. Toussile wilson.toussile@gmail.com 1Département MSP École Nationale Supérieure Polytechnique 20/07/2020 W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 1 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références 1 Mathématique de l’ACP 2 Espace métrique des individus et inerties 3 Espace métrique des variables 4 Analyse en Composantes Principales 5 Pratique de l’ACP 6 Exemples 7 Références W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 2 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Section 1 Introduction W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 3 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Introduction L’ACP fait partie des méthodes exploratoires multidimensionnelles dites factorielles, qui sont géométriques et non probabilistes. L’ACP permet de réduire la dimension des données numériques, en déformant le moins possible les distances entre données. De telles méthodes servent à comprendre la structure des données et à formuler des hypothèses à étudier à l’aide d’outils de statistique inférentielle. W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 4 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Les données Elles se présentent sous la forme d’une matrice X de dimensions n × p: X = xj i 1≤i≤n;1≤j≤p , (1) où xj i ∈R est l’observation de la variable X j sur l’individu i, n la taille de l’échantillon et p le nombre de variables. Données de l’individu i : xi = x1 i . . . xp i ∈Rp Données de la variable j : xj = xj 1 . . . xj n ∈Rn W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 5 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Les objectifs Visualiser, comprendre, classifier ou plus généralement modéliser les données est en général relativement plus complexe sur des données de grandes tailles. Lorsque le nombre de variables p ou le nombre d’individus n sont “très” grands, une question est : Sans réduire le nombre de variables ou d’individus, est-il possible de réduire la complexité du problème en perdant le minimum d’information? Deux principaux objectifs : ▶Condenser l’information contenu dans les données dans un nombre q ≤p de nouvelles variables qui sont des combinaisons linéaires des premières en déformant au minimum le nuage des individus, perdant ainsi le minimum d’information; ▶Dégager les liaisons entre variables et les ressemblances entre individus; W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 6 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Exemple (Cornillon et al. 2008) I Le fichier decathlon.csv contient les résultats d’athlètes aux 10 épreuves de décathlon. Ce jeu de données se trouve aussi dans le package factoextra. On souhaite ▶Analyser les liaisons entre les performances aux différentes épreuves ▶Déterminer des profils d’athlètes ▶Savoir si certaines épreuves mesurent les mêmes aptitudes ⋆On se doute par exemple que les performances au 100m, 110m-haies et saut en longueur soient corrélées. Est-il utile de garder les données des trois épreuves, ou d’en fabriquer une variable qui “résume” ces trois? W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 7 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Exemple (Cornillon et al. 2008) II Sous R Le jeu de données est disponible dans la librairie factoextra de R # Se trouve dans le package factoextra require(factoextra) require(dplyr) # 1eres lignes decathlon2 %>% head() # Les dimensions du tableau dim(decathlon2) W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 8 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Exemple (Cornillon et al. 2008) III Sous Python Copier le fichier decathlon.csv dans votre repertoire de travail. import pandas as pd decathlon = pd.read_csv("decathlon.csv", sep=";", index_col = 0) print("Dimensions = ".format(decathlon.shape)) decathlon.head() W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 9 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Section 2 Mathématique de l’ACP W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 10 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Quelques définitions I Soit (ei)i la base canonique de Rp. Alors xj = X · ej Definition (Centre de gravité) Le centre de gravité du nuage des individus affectés des poids (ωi)n i=1 ∈Sn est le point x = (xj)j = X i ωixi = tXD1n ∈Rp ωi > 0 et P i ωi = 1 et en général, ωi = 1 n Matrice des poids : D = diag(ω1, · · · , ωn) W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 11 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Quelques définitions II Nuage des individus : I := {(xi, ωi)}i Données centrées : Y := (xj i −xj)i,j = X −1ntx Matrice des covariances empiriques : V = tXDX −xtx = tYDY avec [V]j,j′ = P i ωi(xj i −xj)(xj′ i −xj′) Remarque : ▶y = 0Rp ▶∥xi −xi′∥2 = ∥yi −yi′∥2 W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 12 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Quelques définitions III Données centrées et réduites : Z := xj i −xj sj ! i,j , où s2 j := X i ωi(xj i −xj)2 Si on pose S−1 = diag( 1 sj )j, on a Z = YS−1. Matrice des corrélations empiriques : R = S−1VS−1 = S−1tYDYS−1 = tZDZ Note : R est la matrice des covariances des données centrées-réduites, elle résume la structure des dépendances linéaires entre les p variables X j W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 13 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Exemple I Sous R X = decathlon2[, 1:10] Y = scale(X, scale = FALSE) n = nrow(X) D = diag(rep(1/n, n)) S_1 = diag(1/diag(V)) Z = Y%*%S_1 V = t(Y)%*%D%*%Y # Covariances R = t(Z)%*%D%*%Z # Corrélations M = diag(1/diag(V)) W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 14 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Exemple II Sous Python import sklearn from sklearn.preprocessing import StandardScaler X = decathlon.iloc[:, 0:10] Y = StandardScaler(with_std = False).fit_transform(X) Z = StandardScaler(with_std = True).fit_transform(X) n = X.shape[0] D = (1/n)*np.diag(np.ones(n)) M = np.diag(1/X.var()) V = Y.T.dot(D).dot(Y) R = Z.T.dot(D).dot(Y) W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 15 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Section 3 Espace métrique des individus et inerties W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 16 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Espace métrique des individus I Il est nécessaire de munir l’espace des individus d’une mesure de “proximité.” Quelle distance choisir? La distance euclidienne n’est pas forcément le plus adaptée, surtout lorsque les variables n’ont pas le même ordre de grandeur d2(xi, xi′) = X j (xj i −xj i′)2 = t(xi −xi′)(xi −xi′) =: ∥xi −xi′∥2 I En général, on utilise une distance de la forme d2 M(xi, xi′) := t(xi −xi′)M(xi −xi′) =: ∥xi −xi′∥2 M où M est une matrice symétrique définie positive choisie de sorte à donner la même importance aux variables Remarque : d2 = d2 I W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 17 / 80 Notes Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références Espace métrique des individus II On choisit très souvent M = S−2 = diag( 1 s2 j )j ▶Ce choix revient à réduire chaque variable ▶La distance associée donne la même importance à toutes uploads/Management/ analyse-de-donnees-acp.pdf
Documents similaires










-
37
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 10, 2021
- Catégorie Management
- Langue French
- Taille du fichier 1.7383MB