14/10/2011 Introduction à l’analyse des correspondances et à la classification

14/10/2011 Introduction à l’analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1 - 17/10/2011 Les catégories de méthodes d’analyse de données Les méthodes descriptives : L'analyse en composantes principales cherche à représenter dans un espace de dimension faible un nuage de points représentant n individus, ou objets, décrits par p variables numériques en utilisant les corrélations existant entre ces variables. L'analyse des correspondances (AFC ou ACM) étudie les proximités entre individus décrits par deux ou plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables. Les méthodes de classification ou de typologie procèdent par regroupement des individus en classes homogènes. Les méthodes explicatives et prédictives : La régression logistique étudie la prévision d'une variable binaire au moyen de plusieurs autres. L'analyse discriminante étudie la prévision d'une variable qualitative par des variables numériques. Les arbres de décision / régression étudient la prévision d'une variable respectivement qualitative ou quantitative ACP – Analyse en composantes principales Données type : tableau rectangulaire de mesures où : les colonnes sont des variables quantitatives et dont les lignes représentent des individus statistiques Objectif : visualiser, résumer l’information contenue dans ce tableau afin d’avoir une réprésentation permettant plus facilement l’interprétation ACP – Analyse en composantes principales Démarche X1 … Xp F1 F2 1 M i x1i … xpi ⇒ F1i F2i … M n * Tableau des données Facteurs centrés-réduits résumant les données (non corrélés entre eux) i 0 F1(i) F2(i) Le plan factoriel Xj 0 Cor(Xj,F1) Cor(Xj,F2) La carte des variables ∑= = p 1 j j hj h X u F Plan du cours 1.Introduction à l’Analyse Factorielle des Correspondances 2.Exemple 3.Formalisation mathématique de l’AFC 4.Exemple 5. Analyse des correspondances multiples 6.Classification 7. Synthèse 8.Évaluation Analyse factorielle des correspondances (AFC) Etude des corrélations entre deux variables catégorielles (dites aussi « qualitatives ») Exemples : Variables nominales : sexe, catégorie socio-professionnelle Variables ordinales : mention à un examen, tranche d’âge Historique : Principes théoriques : Fisher (1940) AFC développée par J-P Benzécri et ses étudiants en France (> 1965) « Analyse de données à la française » Nombreux développements ultérieurs Objectifs de cette introduction [ Source : cours de Rémi Bachelet, EC Lille ] Comprendre les concepts de l’AFC Connaître les principes de calcul Savoir interpréter les résultats Placer l’AFC par rapport à l’ACP et aux méthodes de classification Exemple 1 Dans une entreprise, la répartition par sexe et catégorie socio-professionnelle (CSP) est la suivante : Y-a-t-il un lien entre le sexe S à deux modalités et la CSP à trois modalités ? Ouvriers Techniciens Cadres Hommes 20 40 40 Femmes 30 60 10 Exemple 2 Dans une entreprise, la répartition par âge et catégorie socio-professionnelle (CSP) est la suivante : Y-a-t-il un lien entre l’âge à 4 modalités et la CSP à 4 modalités ? Ouvriers Techniciens Administrat Cadres sup < 30 ans 5 8 3 12 [30 ; 40[ ans 10 6 5 15 [40 ; 50[ ans 15 4 4 15 >= 50 ans 6 4 4 15 Exemple 3 : enquête sur les séjours-vacances des français Données publiées par l’INSEE en 2002 et étudiées dans Saporta, 2006 Rsec = rés. 2ndaire Rppa = rés. principale parents amis Rspa = rés. 2ndaire parents amis CSP Mode d’hébergement n = 18532 Y-a-t-il un lien entre la CSP à 8 modalités et le mode de vacances à 9 modalités? Principes généraux de l’AFC L’AFC consiste à remplacer un tableau de nombres difficile à analyser par une série de tableaux plus simples qui sont une bonne approximation de celui-ci. Les tableaux sont simples car ils sont exprimables sous forme de graphiques Factorielle = mise en facteur du tableau initial Correspondance = corrélation pour des variables qualitatives 20 A 30 BDD' 20 CE 30 FGH Université Classes Prépa Autres Exemple 4 : devenir des bacheliers [ Exemple issu de Bachelier, EC Lille ] A BDD' CE FGH 100 université classes prépa autres destination 13 2 5 20 2 8 10 5 5 7 1 22 total 20 30 20 30 total 50 10 40 100 Stats MEN 1975 - 1975 204 489 lycéens Représentation graphique par le diagramme en barre Comment faire parler les données ? Trouver des valeurs inattendues dans les données, c’est-à-dire des valeurs qui dévient d’une situation attendue (uniforme) 1. Évaluer ce que serait une situation d’uniformité, d’indépendance 2. Calculer en quoi la situation constatée en diffère 3. Exprimer cette différence graphiquement pour pouvoir l’analyser 4. Interpréter les graphiques obtenus 5. Optimiser la lisibilité des graphiques Matrice « T » des données d’entrée Ce tableau est aussi une matrice, appelons-la « T » Quelle matrice aurait-on si la répartition dans les filières post-Bac ne dépendait pas du type de Bac ? A BDD' CE FGH 100 université classes prépa autres destination 13 2 5 20 2 8 10 5 5 7 1 22 total 20 30 20 30 total 50 10 40 100 Situation d’indépendance 12 3 15 8 12 8 2 10 3 15 2 10 30 40 20 30 20 10 50 On reconstitue la matrice à partir de ses marges 10 = 50 * 20% (produit matriciel /100 puisqu’on raisonne en %) Situation d’indépendance 12 3 15 8 12 8 2 10 3 15 2 30 40 20 30 20 10 50 On reconstitue la matrice à partir de ses marges Appellons cette matrice « T0 » 10 = 50 * 20% (produit matriciel /100 puisqu’on raisonne en %) 10 2 8 15 3 12 10 2 8 15 3 12 Matrice des écarts à l’indépendance T – T0 = R 13 2 5 10 2 8 3 0 -3 20 2 8 15 3 12 5 -1 -4 10 5 5 10 2 8 0 3 -3 7 1 22 15 3 12 -8 -2 10 - = Quelle est la particularité de R ? Expression simple de R On décompose la matrice des écarts à l’indépendance en une somme de matrices R = T1 + T2 Chacune de ces matrices étant mise en facteur (produit d’un vecteur ligne et d’un vecteur colonne) T1 = C1L1 (une matrice dont la plus petite dimension est N (rang N) est décomposable au maximum en N matrices pouvant se mettre en facteurs ) Ici T = T0 + T1 + T2 T est de rang 3, mais R est de rang 2 Mise en facteur de R : 3 0 -3 1 1 -2 1 2 -1 -1 1 5 -1 -4 1 1 -2 1 4 -2 -2 2 0 3 -3 2 2 -4 2 -2 1 1 -1 -8 -2 10 -4 -4 8 -4 -4 2 2 -2 1 1 -2 2 -1 -1 R = T1 + T2 = C1L1 + C2L2 R T1 L1 L2 C2 C1 T2 Représentation graphique de R A 1 BDD’ 2 CE -1 FGH -2 Univ CPGE Autres 2 -1 -1 Un vecteur colonne (resp. ligne) correspond à une modalité des données en colonnes (resp. lignes) Un axe unidimensionnel + un axe unidimensionnel = un repère -2 1 1 -4 2 1 1 -1 -1 2 -2 -1 2 1 Autre s CPGE Univ FGH CE BDD’ A A CE BDD’ CPGE FGH Aut. Univ. Interprétation du graphique 1. Conjonction : Produit scalaire positif Les Bac CE ont une affinité pour la prépa 2. Opposition Produit scalaire négatif Les Bacs A ne vont pas vers les « autres » (IUT, BTS) 3. Quadrature Produit scalaire nul Les bacs A ne vont ni plus ni moins vers les prépas que la moyenne des bacheliers A Prépa CE Autres Question ouverte Quelle est la meilleure décomposition possible pour R ? Quel est le critère permettant de définir les meilleurs T1 et T2 ? L’idée sera de trouver séquentiellement le T1 qui exprime le plus de sens, puis le T2, … R = T1 + T2 = C1L1 + C2L2 Plan du cours 1.Introduction à l’Analyse Factorielle des Correspondances 2.Exemple 3.Formalisation mathématique de l’AFC 4.Exemple 5. Analyse des correspondances multiples 6.Classification 7. Synthèse 8.Évaluation Quantification de l’influence de certaines actions (appoints d’eau) lors d’un accident grave dans un réacteur nucléaire (fusion du cœur) Simulation d’accidents graves Scenario Scenario : : Dégradation coeur, transfert et interaction du corium (en cuve et hors cuve) 23 variables de sortie : 23 variables de sortie : Masses de corium Temps de percement de la cuve Temps de percement du radier 32 variables d 32 variables d’ ’entr entré ée e al alé éatoires (lois uniformes) : atoires (lois uniformes) : Gestion de l’eau, propriétés physique, variables scénario, … Chute du corium dans le fond de cuve Interaction corium- béton Dégradation et fusion du cœur Chute du corium dans le puits de cuve radier Analyse de 2 variables catégorielles On analyse souvent des tableaux individus x variables Pour l’analyse bivariable de variables catégorielles, on utilise le tableau de contingence On regroupe les individus Lignes = modalités 1ère variable Colonnes = modalités 2ème uploads/Management/ introdcution-a-l-x27-afc.pdf

  • 19
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Sep 16, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 2.3243MB