Analyse en composantes principales méthode de la famille de l'analyse des donné

Analyse en composantes principales méthode de la famille de l'analyse des données Pour les articles homonymes, voir ACP, PCA et KLT (homonymie). L'analyse en composantes principales (ACP ou PCA en anglais pour principal component analysis), ou selon le domaine d'application la transformation de Karhunen–Loève (KLT)[1], est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites « corrélées » en statistique) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées « composantes principales », ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l'information moins redondante. Il s'agit d'une approche à la fois géométrique[2] (les variables étant représentées dans un nouvel espace, selon des directions d'inertie maximale) et statistique (la recherche portant sur des axes indépendants expliquant au mieux la variabilité — la variance — des données). Lorsqu'on veut compresser un ensemble de variables aléatoires, les premiers axes de l'analyse en composantes principales sont un meilleur choix, du point de vue de l'inertie ou de la variance. L'outil mathématique est appliqué dans d'autres domaines que les statistiques et est parfois appelée décomposition orthogonale aux valeurs propres ou POD (anglais : proper orthogonal decomposition). Histoire et applications Extrait de l'article de Pearson de 1901 : la recherche de la « droite du meilleur ajustement ». L'ACP prend sa source dans un article de Karl Pearson publié en 1901[3]. Le père du test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable à partir des autres (comme en régression), mais pour décrire et résumer l'information contenue dans ces variables. Encore connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de nouveau développée et formalisée dans les années 1930 par Harold Hotelling[4]. La puissance mathématique de l'économiste et statisticien américain le conduira aussi à développer l'analyse canonique des corrélations, généralisation des analyses factorielles dont fait partie l'ACP. Les champs d'application sont aujourd'hui multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est majoritairement utilisée pour: décrire et visualiser des données ; les décorréler ; la nouvelle base est constituée d'axes qui ne sont pas corrélés entre eux ; les débruiter, en considérant que les axes que l'on décide d'oublier sont des axes bruités. La méthode de décomposition orthogonales aux valeurs propres est également utilisée : pour réduire la taille de modèle d'éléments finis[5]. Exemples introductifs Premier exemple Dans le cas d'une image, comme dans la figure ci-contre, les pixels sont représentés dans un plan et considérés comme une variable aléatoire à deux dimensions. L'ACP va déterminer les deux axes qui expliquent le mieux la dispersion de l'objet, interprété comme un nuage de points. Elle va aussi les ordonner par Les deux axes d'une ACP sur la photo d'un poisson. inertie expliquée, le second axe étant perpendiculaire au premier. Second exemple Dans une école imaginaire, on n'enseigne que deux matières sur lesquelles les élèves sont notés : le français et les mathématiques. En appliquant l'ACP au tableau de notes, on dégagera probablement en premier axe des valeurs par élève très proches de leur moyenne générale dans les deux matières. C'est cet axe qui résumera au mieux la variabilité des résultats selon les élèves. Mais un professeur voulant pousser l'analyse des résultats, s'intéressa aussi au second axe, qui ordonne les élèves selon l'ampleur de leurs écarts entre les deux notes, et indépendamment du premier axe. On comprend l'intérêt de la méthode d'ACP quand on étend l'analyse à 10 matières enseignées : la méthode va calculer pour chaque élève 10 nouvelles valeurs, selon 10 axes, chacun étant indépendant des autres. Les derniers axes apporteront très peu d'information sur le plan statistique : ils mettront probablement en évidence quelques élèves au profil singulier. Selon son point de vue d'analyse, le professeur, dans sa pratique quotidienne, veillera donc plus particulièrement à ces élèves qui auront été mis en évidence par les derniers axes de la méthode ACP, et corrigera peut-être une erreur qui se serait glissée dans son tableau de notes, mais à l'inverse, il ne prendra pas en compte ces derniers axes s'il mène une réflexion globale s'intéressant aux caractéristiques pédagogiques majeures, ou autrement dit, principales. Si on prend pour exemple une classe de 1re S, on a de fortes chances pour avoir comme axe principal un regroupement des matières scientifiques, et comme second axe les matières littéraires. Ces deux variables expliquent les notes obtenues par les élèves de la classe. La puissance de l'ACP est qu'elle sait aussi prendre en compte des données de nature hétérogène : par exemple un tableau des différents pays du monde avec le PNB par habitant, le taux d'alphabétisation, le taux d'équipement en téléphones portables, le prix moyen du hamburger, etc. Elle permet d'avoir une intuition rapide des effets conjoints entre ces variables. On applique généralement une ACP sur un ensemble de N variables aléatoires X1, …, XN connues à partir d'un échantillon de réalisations conjointes de ces variables. Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M, à K lignes et N colonnes. Échantillon Chaque variable aléatoire Xn, dont X1, n, …, XK, n sont des réalisations indépendantes, a une moyenne et un écart type σXn. Poids Si les réalisations (les éléments de la matrice M) sont à probabilités égales alors chaque réalisation (un élément de la matrice) a la même importance dans le calcul des caractéristiques de l'échantillon. On peut aussi appliquer un poids différent à chaque réalisation conjointe des variables (cas des échantillons redressés, des données regroupées, ...). Ces poids, qui sont des nombres positifs de somme 1 sont représentés par une matrice diagonale D de taille K: Dans le cas le plus courant de poids égaux, où est la matrice identité. Transformations de l'échantillon Le vecteur est le centre de gravité du nuage de points ; on le note souvent g. On a où désigne le vecteur de dont toutes les coordonnées sont égales à 1. La matrice M est généralement centrée sur le centre de gravité : . Elle peut être aussi réduite : . Le choix de réduire ou non le nuage de points (i.e. les K réalisations de la variable aléatoire (X1, …, XN)) est un choix de modèle : si l'on ne réduit pas le nuage : une variable à forte variance va « tirer » tout l'effet de l'ACP à elle ; si l'on réduit le nuage : une variable qui n'est qu'un bruit va se retrouver avec une variance apparente égale à une variable informative. Si les variables aléatoires sont dans des unités différentes, la réduction est obligatoire. Calcul des covariances et des corrélations Dans le cas de poids uniformes ( ), une fois la matrice transformée en ou , il suffit de la multiplier par sa transposée pour obtenir: la matrice de variance-covariance des X1, …, XN si M n'est pas réduite : ; la matrice de corrélation des X1, …, XN si M est réduite : . Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont donc diagonalisables dans une base orthonormée en vertu du théorème spectral. De façon plus générale, dans le cas de poids non uniformes, la matrice de variance-covariance s'écrit . De plus, si l'on note la matrice diagonale des inverses des écarts- types: alors on a: . La matrice des coefficients de corrélation linéaire entre les N variables prises deux à deux, notée R, s'écrit: . Dans la suite de cet article, nous considèrerons que le nuage est transformé (centré et réduit si besoin est). Chaque Xn est donc remplacé Critère d'inertie par ou . Nous utiliserons donc la matrice pour noter ou suivant le cas. Le principe de l'ACP est de trouver un axe u, issu d'une combinaison linéaire des Xn, tel que la variance du nuage autour de cet axe soit maximale. Pour bien comprendre, imaginons que la variance de u soit égale à la variance du nuage; on aurait alors trouvé une combinaison des Xn qui contient toute la diversité du nuage original (en tout cas toute la part de sa diversité captée par la variance). Un critère couramment utilisé est la variance de l'échantillon (on veut maximiser la variance expliquée par le vecteur u). Pour les physiciens, cela a plutôt le sens de maximiser l'inertie expliquée par u (c'est-à-dire minimiser l'inertie du nuage autour de u). Projection Finalement, nous cherchons le vecteur u tel que la projection du nuage sur ait une variance maximale. La projection de l'échantillon des X sur u s'écrit : la variance empirique de vaut donc : où C est la matrice de covariance. Comme nous avons vu plus haut que C est diagonalisable dans une base orthonormée, notons P le changement de base associé et la matrice diagonale formée de son spectre : Les valeurs uploads/Management/ analyse-en-composantes-principales-wikipedia.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Aoû 04, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.7007MB