Pierre Dumolard Introduction Ce manuel a pour objectif de faciliter la compréhe

Pierre Dumolard Introduction Ce manuel a pour objectif de faciliter la compréhension et l’usage des principales méthodes d’analyse statistique multivariée à tous ceux que concerne l’information spatialisée, géographes bien sûr mais, aussi, de plus en plus d’autres scientifiques, de disciplines environnementales aussi bien que sociales. L’approche spatiale étant, par essence, combinatoire (donc complexe), nécessite des outils dédiés à l'analyse multidimensionnelle et à la représentation synthétique de ses résultats. Que cette approche soit purement exploratoire (comme dans le « data mining » opérant sur de grandes bases de données) ou confirmatoire (d’un modèle sémantique posé a priori pour validation), les méthodes multi-variables ont pour utilité essentielle d’être des « valoriseurs » de connaissance disciplinaire et non des ersatz de celle-ci. Parmi toutes les techniques possibles d’analyse multidimensionnelle, le choix a été fait de ne présenter que : - des méthodes purement statistiques (alors que d’autres façons de faire se développent, liées à « l’intelligence artificielle » comme les réseaux neuronaux par exemple), - des méthodes couramment utilisées dont les résultats sont suffisamment stables et bien maîtrisés. Ce manuel a une optique résolument appliquée : plus que d’une formulation mathématique pointue, il part de notions (finalement assez « naturelles ») mises en œuvre via des logiciels courants sur des exemples, complétés par des exercices corrigés. C’est là la structure d’un chapitre type. Bien sûr, la compréhension (à travers exemples et exercices) des notions multivariées implique comme pré-requis une connaissance minimale de la statistique descriptive uni- et bi-variée et, tout autant, une certaine culture disciplinaire. L’ information géographique est nécessairement contextuelle : elle comporte des influences de voisinage et d’interaction à diverses échelles (distances, connexités, concurrences / complémentarités, …). Un certain nombre de méthodes (qu’on peut regrouper sous le terme d’analyse spatiale des données) intègrent certaines de ces caractéristiques dans les algorithmes eux mêmes : elles ne sont pas présentées ici vu leur grand nombre et leur caractère assez peu universel (sauf exception). Sont par contre présentées ici des techniques relevant de ce qu’on appelera analyse des données spatiales qui ne se préoccupent de contraintes spatiales qu’a posteriori, via l’examen cartographique des résultats par exemple. On distingue, dans ce manuel, deux grands types d’analyse multi-variables des données: - des méthodes descriptives (de synthèse numérique) - analyses factorielles (chapitres 1, 2, 3, 4) - classifications descriptives (chapitre 5) - des méthodes davantage explicatives. - régressions multiples (chapitre 6) - classification explicative (chapitre 7) description explication Analyses Factorielles Classifications ascendantes Régression multiple An. discriminante segmentation ANALYSE DES DONNEES SPATIALES TABLE DES MATIERES ! Chapitre 0 introduction ! Chapitre 1 Analyses factorielles : généralités 1. Historique des analyses factorielles 2. Traits communs aux analyses factorielles 2.1 Un tableau numérique peut se représenter par un nuage de points 2.2 Résumer ce nuage de points : le projeter sur un sous – espace 2.3 Axes factoriels 3. Procédure algébrique 4. Informatiquement ! Chapitre 2 L’analyse en composantes principales (ACP) A) Connaissances de base 1. Types de tableaux pour l’ACP 1.1 Matrice d’information non spatiale 1.2 Matrice d’information spatiale 1.3 Matrice d’information spatio - chronologique 1.4 Matrice d’information chronologique multivariée 2. La création d’un tableau de données pour l’ACP 3. Les 3 phases de l’ACP sur ces types de tableau 3.1 Transformation du tableau de données et calcul des covariances 3.2 Calcul des axes factoriels et de leurs % de variance 3.3 Aides à l’interprétation des résultats 4. Quelques conseils de bon usage B) Exercices corrigés - Exercice 1 : démographie des pays d’Afrique occidentale - Exercice 2 : croîts naturels et migratoires des départements du S.E. de la France ! Chapitre 3 L’analyse factorielle des correspondances (AFC) A) Connaissances de base 1. Types de tableau pour l’AFC 1.1 Tableaux de contingence 1.2 Extension de la notion de tableau de contingence 2. Différences de l’AFC par rapport à l’ACP 2.1 Transformation des données et calcul des covariances 2.2 Calcul des Vecteurs Propres et valeurs propres 2.3 Aides à l’interprétation d’une AFC 3. AFC sut tableaux de contingence à plus de 2 caractères 3.1 Exemple 3.2 Interprétation de l’axe 1 3.3 Interprétation de l’axe 2 3.4 Plan des axes 1 et 2 B) Exercices corrigés - Exercice 1 : structure d’âge des logements par région française - Exercice 2 : usages de l’eau dans 16 départements du littoral atlantique ! Chapitre 4 L’analyse des correspondances multiples (AFCM) A) Connaissances de base 1. Généralités 1.1 Transformation d’un fichier en tableau de Burt 1.2 Tableau disjonctif complet 1.3 Equivalence des AFCM sur ces 2 types de tableau 2. Résultats sur le tableau binaire 4.3 C) Exercices corrigés - Exercice 1 : enquête d’opinions aux USA sur les dépenses publiques - Exercice 2 : 5 indicateurs de gestion environnementale de 34 villes françaises ! Chapitre 5 Méthodes de classification A) Connaissances de base 1. Utilité en géographie 2. Méthodes graphiques de classification 2.1 Sur graphique cartésien 2.2 Par arborescence « raisonnée » 2.3 Sur diagramme triangulaire 2.4 Par matrice ordonnable de Bertin 3. Méthodes statistiques de classification 3.1 Algorithmes de convergence 3.2 Classifications arborescentes hiérarchiques (CAH) B) Exercices corrigés - Exercice 1 : Quelques indicateurs de l’Indice de Développement Humain pour 25 pays européens - Exercice 2 : Recolonisation par le chêne pubescent d’un adret chartrousin ! Chapitre 6 Régression multiple A) Connaissances de base 1. Le modèle de la régression multiple 1.1 Extension du modèle de régression simple à plusieurs variables explicatives 1.2 Exemple élémentaire 1.3 En résumé 1.4 Tests sur données d’échantillon 2. Corrélations, multiple et partielles 2.1 Coefficient R de corrélation multiple 2.2 Tests de R et R² 2.3 Coefficients de corrélation partielle 3. Régression multiple pas à pas 4. Ajout d’une variable catégorielle à une régression multiple 4.1 Exemple 4.2 Conditions de validité B) Exercices corrigés - Exercice 1 : Explication des températures moyennes de janvier pour un échantillon de villes des U.S.A. - Exercice 2 : Types de contrat de travail de la population active de 20 régions de France métropolitaine ! Chapitre 7 Méthodes explicatives : compléments 1. L’analyse discriminante 1.1 Modèle général 1.2 Deux usages de l’analyse discriminante 1.3 Exemple : discriminer populations rurales et non rurales en Alaska 2. La segmentation 2.1 L’algorithme 2.2 Aides à l’interprétation 2.3 Usages, avantages et limites 2.4 1er exemple : les femmes suisses prises entre la famille et le travail 2.5 2nd exemple : la morphologie du terrain sur la planète Mars Chapitre 1 ANALYSES FACTORIELLES : GENERALITES Le but des analyses factorielles est de résumer de grands tableaux numériques en diminuant leur nombre de colonnes (passant de p colonnes à q « axes factoriels » les résumant). p q n En géographie, ces tableaux sont fréquemment des tableaux où les lignes repèrent des unités spatiales (par exemple, 96 départements de France métropolitaine) et les colonnes des variables juxtaposées (par exemple, 20 variables socio-économiques). On nomme habituellement « matrice d’information spatiale » ce type de présentation de données. Pour en maîtriser l’information, il est impératif de la résumer et il est impossible de le faire sans instrument adapté (dans l’exemple, 96*20 = 1920 nombres !). Faire l’analyse factorielle d’un tel tableau consiste à résumer ses 20 colonnes par 2 ou 3 « facteurs ». Les expressions « facteurs » et « analyse factorielle » sont d’ailleurs très mal choisies puisqu’on obtient non pas des facteurs explicatifs mais des résumés descriptifs et qu’il ne s’agit pas d’analyse mais de synthèse : c’est l’histoire qui explique ce contresens. 1. Historique des analyses factorielles Des psychomètres au début du 20ième siècle (Pearson, 1900) ont mis au point les premières analyses factorielles. Ils cherchaient, « cachées » derrière les résultats d’individus à des tests variés, des mesures de capacité intellectuelle (intelligence, mémoire, …) qu’ils ont nommées « facteurs » sous-jacents, explicatifs des résultats fournis par les tests psychologiques. Avant la 2nde guerre mondiale, des statisticiens (Hotelling, Thurstone, 1934 sqq) ont repris ces travaux dans une perspective descriptive, mettant au point l’analyse en composantes principales (A.C.P.), adaptée au résumé, à la synthèse de variables quantitatives. Après la 2nde guerre mondiale, un statisticien français (J.P.Benzecri, 1957 sqq) a adapté, sous le nom d’analyse factorielle des correspondances (A.F.C.), cette méthode à la synthèse de tableaux composés de variables qualitatives, fréquemment issues d’enquêtes (comme les tableaux de contingence). Ces deux types d’analyse factorielle ne se sont répandus qu’à partir du moment où l’informatique s’est diffusée car il est à peu près impossible d’en réaliser les calculs à la main. Bien qu’adaptés à des données de nature différente, ils possèdent de larges traits communs. 2. Traits communs aux analyses factorielles 2.1 Un tableau numérique peut se représenter par un nuage de points Par exemple, un tableau ayant 96 lignes (départements français métropolitains) et 2 colonnes (par exemple taux de natalité, taux de mortalité) sera représenté graphiquement par un nuage de 96 points-département définis par leurs coordonnées sur deux axes perpendiculaires (l’un représentant le taux de natalité, l’autre le taux de mortalité). Ce graphique est un nuage de 96 points dans un espace géométrique de dimension 2 (un plan). Si le tableau comporte non plus 2 colonnes mais 4 uploads/Management/ bk-multiv.pdf

  • 15
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Aoû 19, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 3.0672MB