Année 2011-2012 Biostatistiques Rappels de cours et travaux dirigés Analyse des
Année 2011-2012 Biostatistiques Rappels de cours et travaux dirigés Analyse des données M2 auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr - 1 - SOMMAIRE Table des matières VIII – ANALYSE EN COMPOSANTES PRINCIPALES.....................................................................4 Fiche 36 – Principe de la méthode ACP.............................................................................................6 Fiche 37 – Aides à l'interprétation......................................................................................................8 Fiche 38 – Représentation graphique des variables..........................................................................10 Fiche 39 – Représentation graphique des individus.........................................................................11 IX ANALYSE FACTORIELLE DES CORRESPONDANCES...........................................................14 Fiche 40 – Principe de l'AFC............................................................................................................15 Fiche 41 – Aides à l'interprétation....................................................................................................17 Fiche 42 – Représentation graphique des profils..............................................................................19 X CLASSIFICATION............................................................................................................................22 Fiche 43 – Exemple manuel de CAH...............................................................................................24 Fiche 44 – Exemple de CAH avec ade4...........................................................................................25 ANNEXES.............................................................................................................................................28 Annexe A : Lois de probabilités usuelles..........................................................................................29 Annexe B : Construction d'un test statistique....................................................................................32 Annexe C : Installation de R..............................................................................................................33 - 2 - VIII – ANALYSE EN COMPOSANTES PRINCIPALES Objectifs et données pour l'ACP Cette technique s'applique à des tableaux décrivant chaque individu par p variables quantitatives X k. Les techniques classiques ne permettent que l'étude de la liaison entre deux variables : corrélation, régression et nuage de points par exemple. L'objectif est ici de faire une synthèse de l'ensemble du tableau afin de : ● synthétiser les liaisons entre variables (cercle des corrélations), définir les variables qui vont dans le même sens, dans un sens opposé, indépendantes ... ● représenter dans un plan les individus afin de déterminer les individus proches ou éloignés, les regrouper en classe homogène, ... On parle de topologie des individus. ● construire de nouvelles variables, appelées composantes principales, non corrélées et qui permettent de synthétiser l'information Ainsi, au lieu d'analyser le tableau à travers p variables, on se limitera à l'étude de quelques variables synthétiques, les composantes principales. La difficulté sera de donner un sens à ces variables et de proposer une analyse des résultats. Le tableau se présente sous la forme : X 1 ... X j ... X p individu 1 x11 x1 j x1 p ... individu i xi1 xij xip ... individu n xn1 xnj xnp Exemple : Nous étudions dans cette partie les masses de différentes parties d'un groupe de 23 bovins constitué de 12 charolais (1 à 12) et 11 zebus (13 à 23). Les variables représentent: poids vif. poids de la carcasse. poids de la viande de première qualité. poids de la viande totale. poids du gras. poids des os. Retrouver à l'aide du logiciel R et son interface R-commander les différents résultats ci-dessous et expliquer leur apport respectif dans l'analyse des données. 1. Paramètres statistiques: Moyenne et écart-type par race Variable: carc mean sd n 1 233.0000 8.790491 12 2 224.2727 6.018154 11 Variable: gras mean sd n 1 7.258333 1.439986 12 2 10.845455 1.758615 11 Variable: os mean sd n 1 16.30833 0.9949494 12 2 16.51818 1.2584261 11 Variable: qsup mean sd n 1 31.99167 1.344658 12 2 27.66364 1.343334 11 Variable: tota mean sd n 1 76.60000 1.502120 12 2 72.56364 1.297130 11 Variable: vif mean sd n 1 402.5000 9.885711 12 2 399.7273 4.221159 11 Matrice des corrélations vif carc qsup tota gras os vif 1.00 0.64 -0.09 -0.13 0.16 -0.06 carc 0.64 1.00 0.28 0.39 -0.33 -0.09 qsup -0.09 0.28 1.00 0.89 -0.86 -0.06 tota -0.13 0.39 0.89 1.00 -0.91 -0.12 gras 0.16 -0.33 -0.86 -0.91 1.00 -0.27 os -0.06 -0.09 -0.06 -0.12 -0.27 1.00 - 3 - 2. Représentation graphique 3. Nuage de points Dans R, on peut utiliser les commandes suivantes pour construire des nuages 3d. On pourra changer les 3 variables. A défaut, utiliser R commander. >library(rgl) >attach(zebu) >col <- ifelse(race==1,"blue","red") >plot3d(gras,tota,qsup,type="s",col=col) les échelles sont différentes suivant les axes >plot3d(gras,tota,qsup,type="s",col=col,xlim=c(0,450),ylim=c(0,450),zlim=c(0,450)) les échelles sont les mêmes Quelques liens : http://pbil.univ-lyon1.fr/R/enseignement.html http://www.unilim.fr/pages_perso/vincent.jalby/m1sm/documents/m1sm_S_03.pdf http://infolettres.univ-brest.fr/~carpenti/2006-2007/Ana-mult-1-2007.doc http://www.lirmm.fr/~guindon/dess/acp.df - 4 - Fiche 1 – Principe de la méthode ACP Chaque individu est décrit ici par p=6 variables quantitatives. Un individu est représenté par un point dont les coordonnées sont les valeurs prises par les 6 variables (espace à p=6 dimensions). On peut ainsi mesurer la distance entre deux individus à l'aide d'une distance classique entre deux points. Le principe de l'ACP répond simultanément aux deux objectifs suivant : ● Pour les individus L'objectif de la méthode ACP est de projeter les individus sur des axes appelés axes factoriels en conservant le mieux possible les distances entre individus. Cela revient à déformer le moins possible le nuage de points initial lorsqu'on le projette sur un axe ou un plan. Dans la pratique, la projection sur l'axe F 1 permet d'obtenir le maximum de dispersion (=inertie = variance en une dimension) des points projetés sur l'axe. ● Pour les variables Cela revient à construire des variables, appelées composantes principales, par combinaison linéaire des variables initiales et telles que ces nouvelles variables aient la plus grande variance possible. Les composantes principales sont de plus non corrélées. On ne s'intéresse alors qu'aux composantes principales qui ont la plus forte variance (=valeur propre de l'axe). On construit ensuite des nuages de points des individus en fonction de ces composantes principales dans les plans factoriels F 1 F 2, ou F 1 F 3 ... Interprétation graphique de l'ACP Régression linéaire de y en x ACP avec x, y -2 -1 0 1 2 -3 -2 -1 0 1 2 XY[,1] XY[,2] -2 -1 0 1 2 -3 -2 -1 0 1 2 XY[,1] XY[,2] Remarque importante : En général, du fait de l'hétérogénéité des variables initiales et de leurs unités, on réduit ces variables. On parle alors d'ACP normée. Une variable est dite réduite quand sa variance vaut 1. De la sorte, chaque variable initiale aura une même importance dans l'analyse car sa contribution est proportionnelle à sa variance. Dans la pratique, on normalise presque toujours et surtout lorsque les variables sont exprimées dans des unités différentes. L'objectif est ainsi de construire des variables qui synthétisent la dispersion du nuage. Si plusieurs variables initiales sont ainsi fortement corrélées entre elles, celles-ci sont alors représentées par une - 5 - composante principale qui les résume. Au final, au lieu de travailler avec p=6 variables, on peut espérer travailler sur 2 ou 3 variables synthétiques qui résument l'essentiel de l'information. On retrouve une partie des résultats de l'acp dans Rcmdr, statistiques, ajustement multivarié. Projection des individus dans les plans définis par les axes Projection de l'inertie sur les F 1 F 2 F 3 différents axes factoriels Mais il est fortement conseillé sous R d'utiliser la librairie ade4. >library(ade4) >zebu.acp <- dudi.pca(zebu[,1:6]) >zebu.acp$eig (valeurs propres) >zebu.acp$li (composantes principales) >zebu.acp$co (coordonnées des variables) …. voir l'aide en ligne Guide pratique de l'analyse ACP ● Etape 1 : Sélection des axes et des plans retenus principalement par rapport aux valeurs propres. ● Etape 2 : Projection des variables et individus dans un plan donné ( F 1 F 2 en premier) ■ Examen des qlt dans le plan pour éliminer les individus mal représentés ■ Bilan des ctr pour un axe afin de donner un sens à cet axe (opposition, tendance ...) ■ Topographie des variables et individus afin d'identifier des groupes, des oppositions, des tendances notamment à l'aide de la fonction s.class ■ Utiliser ses connaissances sur le sujet pour proposer des explications sur les résultats de l'analyse ■ Utiliser des individus ou variables supplémentaires ou des profils type (moyenne des H et des F par exemple) - 6 - Fiche 2 – Aides à l'interprétation 1. Valeurs propres et choix des axes Pour définir le nombre d'axes étudiés, on étudie les valeurs propres obtenues. Chaque valeur propre correspond à la part d'inertie projetée sur un axe donné. Remarque importante: La somme des valeurs propres est égale à l'inertie totale du nuage (= nombre de variables en ACP normé). On caractérise ainsi chaque axe par le pourcentage d'inertie qu'il permet d'expliquer. On ne retient donc que les axes avec les plus fortes valeurs propres. Le choix des axes retenus est un peu délicat. On peut donner quelques règles : ● Règle de Kaiser en ACP normée: on ne s'intéresse qu 'aux axes avec une valeur propre supérieure à 1 (= inertie d'une variable initiale). ● Règle de l'inertie minimale : On sélectionne les premiers axes afin d'atteindre un % donné d'inertie expliquée (70% par exemple). ● Règle du coude : On observe souvent de fortes valeurs propres au départ puis ensuite de faibles valeurs avec un décrochage dans le diagramme. On retient les axes avant le décrochage. ● Règle de bon sens : On analyse les plans et axes et on ne retient que ceux interprétables. Exemple zebu > round(acp$eig,2) [1] 2.95 1.62 1.07 0.27 0.08 0.01 > round(acp$eig/sum(acp$eig)*100) [1] 49 27 18 5 1 0 Avec ade4: réaliser l'acp >acp=dudi.pca(tableau) Extraire les valeurs propres >acp$eig Calcul des % >acp$eig/sum(acp$eig)*100 2. Qualité de représentation qlt Les individus représentés dans un plan factoriel ne sont pas forcément correctement représentés. - 7 - 0.0 0.5 1.0 1.5 2.0 2.5 Qualité de représentation qlt: Si l'angle est grand, le point initial est éloigné de sa projection. On utilise le paramètre cos2 pour caractériser la qualité de représentation (qlt) sur un axe. ■ uploads/Management/ biostatistiques-rappels-de-cours-et-travaux-diriges.pdf
Documents similaires
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 31, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.5360MB