Isabelle Le Viol & Christian Kerbiriou CESCO-UMR7204 MNHN-UPMC-CNRS ileviol@mnh
Isabelle Le Viol & Christian Kerbiriou CESCO-UMR7204 MNHN-UPMC-CNRS ileviol@mnhn.fr et Kerbiriou@mnhn.fr Méthodes d’analyses statistiques descriptives et multivariées 1. Analyses à un tableau Tableaux complexes de données comprenant de nombreuses variables (souvent de typologie diverse / plusieurs dizaines, centaines de lignes et colonnes) var1 var 2 var3 var4 var5……….. ind1 ind2 Ind3 . . . . . . . - Méthodes statistique uni ou bivariée - Analyses factorielles Des analyses multivariées: pour quels types de données ? - Présence/absence, abondances, mesures, pourcentages, noms… Colonnes Lignes Entrées site ou sp var Grande diversité Quels types de données ? - Présence/absence, abondances, mesures, pourcentages, noms… Colonnes - Mesures de différences (dissimilarité) Objet Objet var site site Entrées Entrées Grande diversité Quels types de données ? Lignes site ou sp - Couplage Abondances sites Espèces Mesures Variables environnementales Grande diversité Quels types de données ? - K- tableaux Mesures sites Mesures Var. env. Var. env. Var. env. Mesures sites sites Année 1 Année 2 Année 3 Quels types de données ? Grande diversité Comment choisir une analyse ? 1) Nature des problèmes posés par l’utilisateur -de description: Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître. structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier Résumer l’information en minimisant la déperdition d’informations et repérer des dimensions cachées ACP, AFC, ACM… -de structuration (classer) synthétiser son information en structurant la population par "groupes homogènes » . Méthode de regroupement des individus selon leurs ressemblances. Constituer des groupes aussi similaires que possibles Classification (classification hiérarchique ascendante, descendante… ‘cluster’.) -d’explication Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif d’un phénomène en utilisant d’autres phénomènes. Expliquer une variable par plusieurs Régressions, analyses discriminantes Comment choisir une analyse ? 1) Nature des problèmes posés par l’utilisateur -de description: Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître. structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier Résumer l’information en minimisant la déperdition d’informations et repérer des dimensions cachées ACP, AFC, ACM… -de structuration (classer) Synthétiser son information en structurant la population par "groupes homogènes » . Méthode de regroupement des individus selon leurs ressemblances. Constituer des groupes aussi similaires que possibles Classification (classification hiérarchique ascendante, descendante… ‘cluster’.) -d’explication Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif d’un phénomène en utilisant d’autres phénomènes. Expliquer une variable par plusieurs Régressions, analyses discriminantes Comment choisir une analyse ? 1) Nature des problèmes posés par l’utilisateur -de description: Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître. structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier Résumer l’information en minimisant la déperdition d’informations et repérer des dimensions cachées ACP, AFC, ACM… -de structuration (classer) Synthétiser son information en structurant la population par "groupes homogènes » . Méthode de regroupement des individus selon leurs ressemblances. Constituer des groupes aussi similaires que possibles Classification (classification hiérarchique ascendante, descendante… ‘cluster’.) -d’explication Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif d’un phénomène en utilisant d’autres phénomènes. Expliquer une variable par plusieurs Régressions, analyses discriminantes 2) Nature des données du tableau (et techniques utilisables) - Données quantitatives • Données continues : elles sont issues de mesures (taille, poids, âge, quantité de nourriture, taux d’hormones, quantité de nitrates, valeurs du pH, etc.) ; • Données discrètes : effectifs (anciennement fréquences), issues de recensements ou d’enquêtes. - Données qualitatives • Données descriptives qui définissent des catégories. (Sexe (mâle, femelle), avoir les yeux bleus ou noirs ou gris, etc.) Elles peuvent se coder pour créer un tableau. Elles peuvent être codées en chiffres à valeurs arbitraires (1 et 2 par exemple, mais pourrait être aussi bien 0 et 1). Dans ce codage arbitraire, il n’y a pas de relation d’ordre entre les nombres. Comment choisir une analyse ? * Nota bene sur les données * Possible de transformer des variables quantitatives (continues ou discrètes) en variables qualitatives. Relation d’ordre entre les classes : nombre plus petit à la première classe, plus grand à la classe supérieure. Problèmes : Perte d’information. Intervalles Découper en classes à intervalles ou effectifs constants. Créer des tableaux de présence/absence (codées 1 et 0), des tableaux disjonctifs complets (avec plusieurs modalités pour chaque variable, chaque individu n’étant représenté que dans une modalité * Pour les variables quantitatives continues : 1. on peut les conserver telles quelles ; 2. lorsqu’il y a de grandes différences entre unités des variables, on peut remplacer chaque mesure en la divisant par une quantité (valeur maximale, moyenne, écart-type de la variable) ; 3. lorsque les échelles de mesure diffèrent, on peut retrancher la moyenne et diviser par l’écart-type: On obtient des valeurs centrées réduites; 4. on peut également recoder les mesures en classes Les techniques utilisées ne conduisent pas au même résultat et dépendent de la nature des données. Comment choisir une analyse ? Exemple de méthodes d’analyses multivariées Analyses à un tableau -ACP (ou PCA) -Hill et Smith -AFC (ou CA – dudicoa) -PcoA (ou PCO) -… ACP Analyse en composantes principales ACP (Analyse en Composantes Principales) 4,56 sites Var (T°, Azote,phosphates…) Données multivariées Données quantitatives Nombreuses variables (dont certaines corrélées) ACP (Analyse en Composantes Principales) 4,56 sites Var (T°, Azote,phosphates…) 9,02 sp Var (longueur_aile, masse…) Données multivariées Données quantitatives Nombreuses variables (dont certaines corrélées) Explorer le jeu de données: visualiser l’information, voir quelles variables sont corrélées… ou Projeter sur un plan le tableau de données à p* dimensions L’objectif est de représenter sous forme graphique l’essentiel de l’information contenue dans le tableau de données quantitatif. mais… *p= nombre de variables Problème de visualisation d’une image multidimensionnelle ! Quand deux dimensions (ex: largeur et longueur), facile de représenter les données sur un plan : ? Au delà de 3 dimensions, impossible de représenter les données sur un plan ou même de les visualiser mentalement. Avec trois dimensions (largeur, hauteur et profondeur): plus difficile : * * * * * * * * * * * * Le tableau de données ayant p variables, les individus (sites ou sp dans nos exemples) se trouvent dans un espace à p dimensions. n ind p Var * * * * * * Problème de visualisation d’une image multidimensionnelle ! Le tableau de données ayant p variables, les individus (sites ou sp dans nos exemples) se trouvent dans un espace à p dimensions. n ind p Var * * * * * * L’objectif est d’obtenir de “bonnes photos” – Bonnes: fidèle, i.e. étalement maximal – Photos: 2D, i.e. réduction de dimensions Selon le point de vue, l’information retenue ne sera pas la même. L’ACP (Analyse descriptive) propose un point de vue permettant de voir au mieux les individus d’un tableau (sites ou sp dans nos exemples) 4,56 sites Var (T°, Azote,phosphates…) Données multivariées Nombreuses variables (dont certaines corrélées) p ACP (Analyse en Composantes Principales) ACP (Analyse en Composantes Principales) 4,56 sites Var (T°, Azote,phosphates…) Données multivariées Nombreuses variables (dont certaines corrélées) n observations effectuées sur p variables numériques potentiellement corrélées n p 4,5 3 15 19……………….. 6 7 26 7………………… ……………………………….. ……………………………….. 4,56 sites Var (T°, Azote,phosphates…) Données multivariées Nombreuses variables (dont certaines corrélées) Résume un ensemble de n observations effectuées sur p variables numériques potentiellement corrélées en un ensemble de k facteurs non-corrélés (composantes principales-axes) n p n k 4,5 3 15 19……………….. 6 7 26 7………………… ……………………………….. ……………………………….. ACP (Analyse en Composantes Principales) n sites p Var.env pH CaCo3 ……..etc * * * * * * * * * * * Nuage de points dans un espace à p dimensions Nuage de points dans un espace à 2 dimensions * (xi,yi) (xi,yi,zi,wi….) ACP (Analyse en Composantes Principales) * * * * * * * * * * * * G : barycentre du nuage G ACP (Analyse en Composantes Principales) * * * * * * * * * * * * Axe 1 = axe d’allongement maximal du nuage (première composante principale) G : barycentre du nuage G * * * * * * * * * * * * Axe 1 = axe d’allongement maximal du nuage (première composante principale) G : barycentre du nuage G Objectif: maximiser la somme des inerties (variance) projetées Objectif: minimiser la distance à l’axe Axe qui porte le maximum d’inertie c’est à dire qui explique la plus grande part de variance La méthode consiste à définir la première droite D1 de façon à maximiser les carrés des distances de projection des points sur la droite * * * * * * * * * * * * Axe 2 = axe perpendiculaire uploads/Litterature/ analysesmultivariees-acp.pdf
Documents similaires
-
14
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 29, 2021
- Catégorie Literature / Litté...
- Langue French
- Taille du fichier 2.6973MB