Module d’Analyse des Données 5ème année Economie et Prospective Analyse des don

Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 1 Chapitre 2 : L’Analyse en Composantes Principales (ACP) 1. Introduction L’Analyse en Composantes Principales (ACP) est sans doute la méthode d’analyse de données la plus connue et la plus utilisée. Proposée dès les années 30 par HOTELLING (1933), mais nécessitant d’importants calculs numériques, L’ACP n’est devenue une technique opérationnelle qu’à partir des années 60, avec le développement des moyens de calculs informatique. Elle est la méthode de base en statistique exploratoire multidimensionnelle (ou analyse des données) - Multidimensionnelle : l’analyse porte sur plusieurs variables - Exploratoire : descriptive (par opposition à inférentielle) Il s’agit de résumer l’information portant sur plusieurs variables en : - faisant émerger des liaisons entre variables - formant des groupes d’individus se ressemblant. L’analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage de points des individus peut être centré ou non, parmi ces variantes, l’analyse en composantes principales normée (nuage centré- réduit) certainement la plus utilisée. 2. Les données en ACP En ACP les données se présentent dans un tableau X à n lignes et p colonnes où : - Chaque ligne représente un individu - Chaque colonne représente une variable Les variables sont quantitatives : la matrice X est constituée de valeurs numériques Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 2 X est une matrice (n × p) de valeurs numériques : Un individu est un élément de Le ième individu : Une variable est un élément de La jème variable : Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 3 3. Principe de l’ACP Le principe de l’ACP est d’obtenir une représentation approchée du nuage des individus N(I) dans un sous espace de faible dimension k inférieur ou égale à p et pour cela on projette les individus sur un sous espace de dimension faible, le choix de sous espace de projection s’effectue suivant le critère : « les distances en projection doivent être déformées le plus possible ».ce qui veut dire l’inertie du nuage projetée sur le sous espace (F) doit être maximale. On dispose des observations de p variables quantitatives sur n individus, on associe à chaque individu poids Pi. Les valeurs sont rangées dans un tableau à n lignes et p colonnes ; On note X la matrice associée à ce tableau : Où est la valeur prise par la variable j sur l’individu i. (on peut écrire aussi ) Une variable j sera identifié au vecteur , et un individu i sera identifié au Vecteur . 3.1 Les Poids affectés aux Individus (Données Centrées Réduites) A) La Matrice des Poids Afin de calculer la distance entre deux variables, il est parfois nécessaire d’attribuer des poids aux individus selon l’importance que l’on souhaite leur donner. On appellera alors matrice des poids la matrice : Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 4 Souvent, on aura : D = (1/n) In où In est la matrice identité, c’est-à-dire que l’on affecte le même poids à chaque individu : = (1/n) B) Le Centre De Gravité du Tableau On appellera centre de gravité associé à la matrice des poids D le vecteur g défini par : Est en fait la moyenne pondérée des valeurs de la variable j prises par l’ensemble des individus. C) Le Tableau De Données Centrées Réduites On note : Où est la variance de la variable j. On note de même la covariance entre les variables j et et le coefficient de corrélation linéaire entre les variables j et . Le tableau centré réduite associé à X, noté Z, est défini Par : Où : la matrice associé à (Données Centrées) Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 5 D) La Matrice de Variance-Covariance et La Matrice de Corrélation En utilisant les notions précédentes, la matrice de variance-covariance s’écrit : La Matrice de Corrélation : R En effet, R est la matrice de variance-covariance du tableau de données centrées réduites. Ainsi, R résume la structure des dépendances linéaires entre p variables. E) La détermination des facteurs et des composantes principales (traitement géométrique) Lors de la projection, le nuage de points peut être déformé est donc serait différent de réel, alors les méthodes d’ajustement consistent a minimisé cette possible déformation et ce en maximisant les distances projetées. Comme la régression, l’analyse en composantes principales ACP peut être présentée dans deux espaces : celui des individus et celui des variables. La dispersion d’un nuage de points unidimensionnel par rapport à sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage par rapport à son barycentrese se mesure par l’inertie. On remarque que l’inertie est définie comme la somme des distances au carré des points à leur centre de gravité. Dans le cas où les variables sont quantitatives, c’est aussi la somme des variances empiriques de chacune des variables, c’est à dire la trace de la matrice de variance-covariance empirique L’inertie I : est une quantité réelle qui mesure la dispersion des individus dans l’espace à p dimensions. - Lorsque les variables sont centrées et réduites I = p - Une inertie nulle signifie que tous les individus sont identiques Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 6 Décomposition de l’inertie • L’Idée : construction d’une suite de p axes permettant de restituer la forme du nuage • Construction itérative • On en déduit des représentations planes simples à interpréter • Principe de réduction de la dimension • Basé sur la décomposition de l’inertie • 1er axe : Axe principal de variabilité du nuage • Direction de Rp qui maximise l’inertie projetée : On cherche telle que maximum. • Projection orthogonale des points sur l’axe 1 : • On cherche ensuite un axe , orthogonal à qui maximise l’inertie projetée • C’est le second axe de variabilité du nuage • Ce second axe présente moins de variabilité que le précédent …etc. Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 7 1) Dans l’espace des individus N(I) L’objet de l’ACP est de décrire de façon synthétique la dispersion du nuage de points selon les étapes suivantes : - A l’étape 1, L’ACP détermine l’axe F1 passant par l’origine selon lequel la dispersion du nuage de points est maximale ; cet axe F1 passe au plus près du nuage de points, c'est-à-dire est tel que la moyenne des carrées des distances entre les n points et l’axe F1 est minimale. Soit le vecteur directeur normé de F1 ; est alors le vecteur propre normé associé à la valeur propre la plus élevée de la matrice de corrélation entre les variables 2 3 - A l’étape p, L’ACP détermine l’axe Fp passant par l’origine, de vecteur directeur normé orthogonal aux axes ( ) des étapes précédentes, selon lequel la dispersion du nuage de points est maximales ; cet axe Fp passe au plus près du nuage de points, c'est-à-dire est tel que la moyenne des carrées des distances entre les n points et l’axe Fp est minimale. 2) Dans l’espace des variables N(J) - A l’étape 1, L’ACP détermine U1 le vecteur propre de : associé à sa valeur propre la plus élevée. 2 3 - A l’étape p, L’ACP détermine une variable synthétique Up résumant le mieux possible les variables de départ, et non corrélée aux (p-1) premières composantes principales c'est-à-dire détermine Up le vecteur propre de associé à sa pième valeur propre la plus élevée disponible. Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 8 F) La Démarche de La Méthode (traitement algébrique) Algébriquement, il s’agit de chercher les valeurs propres maximales de la matrice des données et par conséquent ses vecteurs propres associés qui représenteront ces sous espaces vectoriels (axes factoriels ou principales). La démarche de l’ACP peut se résume donc dans l’algorithme suivant :  Calcul des moyennes des variables  Calcul de l’écart type des variables tel que Si les écarts types sont égaux alors les variables sont homogènes, et on utilise une ACP simple (non normée). Sinon les variables sont hétérogènes, on utilisera une ACP normée.  Calcul du tableau Z centré réduit.  Calcul de la matrice à diagonaliser R.  Calcul des valeurs propres de la matrice R, i = 1…p rangés par ordre décroissant  Détermination des vecteurs propres associés aux valeurs propres i= 1…p ou le vecteur propre associé à la valeur propre , =  Calcul des composantes principales  Présentation des variables : donne les coordonnées des p variables, est aussi le coefficient de corrélation entre les variables et la α ième composante principale . Ces coordonnées nous permettent de représenter les variables dans un cercle de corrélation. Module d’Analyse des Données 5ème année Economie et Prospective Analyse des données 9 4. Interprétation Pour interpréter les résultats fournis par une ACP, on procédera uploads/Management/ chapitre-2-l-x27-analyse-en-composantes-principales-acp.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Apv 15, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.6314MB