Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Ricco RAKOTOMALALA Caractériser de manière multidimensionnelle (à l’aide de plusieurs variables, simultanément) l’appartenance des individus à des groupes prédéfinis PLAN 1. Position du problème 2. Détermination des variables discriminantes (axes factoriels) 3. Analyse des résultats 4. Etude de cas Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 5. Classement (prédiction) avec l’analyse discriminante 6. Les logiciels (Tanagra, R avec lda, SAS avec PROC CANDISC) 7. Conclusion 8. Bibliographie Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3 Analyse discriminante descriptive - Objectif Une population est subdivisée en K groupes (classes), elle est décrite par une série de J caractères (variables) quantitatives. Ex. Les vins de Bordeaux (Tenenhaus, 2006; page 353) Les lignes correspondent aux années (1924 à 1957) Description Groupe d’appartenance Annee Temperature Soleil Chaleur Pluie Qualite 1924 3064 1201 10 361 medium 1925 3000 1053 11 338 bad 1926 3155 1133 19 393 medium 1927 3085 970 4 467 bad 1928 3245 1258 36 294 good 1929 3267 1386 35 225 good Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Objectif(s) : (1) Descriptif (Schéma d’explication) : Mettre en évidence les caractéristiques qui permettent de distinguer au mieux les groupes  Objectif principal (2) Prédictif (Schéma de prédiction) : Classer automatiquement un nouvel individu (l’affecter à un groupe) à partir de ses caractéristiques  Objectif secondaire dans notre contexte (!) (on se reproche de l’AD Prédictive dans ce cas, cf. support associé – Analyse discriminante linéaire) Analyse discriminante descriptive - Démarche Principe : Trouver une succession de combinaisons linéaires des variables initiales (on parle de variables latentes ou variables discriminantes, elles sont deux à deux orthogonales) qui permet de distinguer au mieux (au sens des barycentres) les groupes  analyse factorielle discriminante 1550 1650 1750 1er axe AFD sur les var. Temp et Soleil ) ( ) ( 2 2 2 1 1 1 x x a x x a z i i i − + − = On souhaite que les barycentres conditionnels, projetés sur l’axe factoriel, Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 850 950 1050 1150 1250 1350 1450 1550 2800 3000 3200 3400 3600 3800 Soleil Temperature bad good medium soient le plus écartés possibles. ( ) ( ) ( ) ∑ ∑ ∑∑ − + − = − i k k i k ik k k i z z z z n z z 2 2 2 SCT = SCE + SCR SC totaux = SC expliqués (groupes) + SC résiduels Analyse discriminante descriptive – Démarche (suite) SCT SCE y z = 2 , η 1 0 2 , ≤ ≤ y z η avec 1  discrimination parfaite, les points associés aux groupes sont agglutinés sur leurs barycentres (SCR = 0) 0  discrimination impossible, barycentres confondus (SCE = 0) Un indicateur de qualité de la séparation des groupes à maximiser : le rapport de corrélation Trouver les coefficients (a1,a2) qui définissent la variable discriminante Z (ou axe factoriel) maximisant le rapport de corrélation Le nombre d’axes factoriels est égal à M = MIN(J, K-1) Les axes sont deux à deux orthogonaux Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 Le pouvoir discriminatoire est quantifié par le rapport de corrélation 850 950 1050 1150 1250 1350 1450 1550 1650 1750 2800 3000 3200 3400 3600 3800 Soleil Temperature 1er axe AFD sur les var. Temp et Soleil bad good medium 726 . 0 2 , 1 = y z η 051 . 0 2 , 2 = y z η Les axes suivants maximisent l’écart entre les barycentres en contrôlant l’effet des axes précédents c.-à-d. ils essaient d’expliquer les écarts entre les barycentres non pris en compte encore par les axes précédents Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7 Analyse discriminante descriptive Formulation mathématique Matrice de variance covariance totale ( )( ) ∑ − − = → i c ic l il lc x x x x n v V 1           = J a a a M 1 « a » est le vecteur des coefficients permettant de définir le premier axe factoriel Z c.-à-d. Va a SCT ' = Matrice de variance covariance intraclasses ( )( ) ∑∑ = − − = → k k y i k c k ic k l k il lc i x x x x n w W : , , , , 1 Matrice de variance covariance interclasses Wa a SCR ' = ( )( ) n ) ( ) ( 1 1 1 J J J x x a x x a z − + + − = L [à un facteur (1/n) près] Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8 ( )( ) ∑ − − = → k c k c l k l k lc x x x x n n b B , , Ba a SCE ' = Théorème d’Huyghens  V = B + W L’ADD consiste à chercher le vecteur de coefficients « a » qui permet de définir une axe (variable latente Z) qui maximise le rapport de corrélation avec Y 2 , max ' ' max y z a a Va a Ba a η ⇔ Analyse discriminante descriptive Solution mathématique Va a Ba a a ' ' max est équivalent à Ba a a ' max Sous la contrainte 1 ' = Va a Le vecteur « a » est normé Solution : former le lagrangien, et annuler la dérivée c.-à-d. ( ) 1 ' ' ) ( − − = Va a Ba a a L λ Va Ba a a L λ = ⇒ = ∂ ∂ 0 ) ( λ est la première valeur propre de V-1B Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 a Ba V a λ = ⇒ ∂ −1 « a » est le vecteur propre associé De manière générale, les axes factoriels de l’ADD sont définis par les valeurs et vecteurs propres de la matrice V-1B. 2 η λ = La valeur propre est égal au rapport de corrélation associé à l’axe (0 ≤ λ ≤ 1) λ η = Est la « corrélation canonique » Au plus, nous avons M = min(K-1, J) valeurs propres non nulles, et donc autant d’axes factoriels. Analyse discriminante descriptive Vins de Bordeaux (X1 : Température et X2 : Soleil) ( ) ( ) 225 . 0 051 . 0 0105 . 0 0092 . 0 2 2 2 1 1 2 = = − + − − = η x x x x Z i i i L’écartement entre les barycentres est moindre sur cet axe. Nombre d’axes M = min (J = 2; K-1 = 2) = 2 0.5 1.0 1.5 2.0 medium Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 ( ) ( ) 852 . 0 726 . 0 0075 . 0 0075 . 0 1 2 2 1 1 1 = = − + − = η x x x x Z i i i L’écartement entre les barycentres est élevé sur cet axe. -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0 bad good medium good medium bad (2.91; -2.22) : les coordonnées factorielles d’un individu sont appelées « score » dans les logiciels anglo- saxons (SAS, SPSS, R…) Analyse discriminante descriptive Solution mathématique (bis) – Logiciels anglo-saxons Wa a Ba a a ' ' max Qui est équivalent à Ba a a ' max Sous la contrainte 1 ' = Wa a (Le vecteur « a » est normé) Puisque V = B + W, on peut reformuler le problème à résoudre de la manière suivante : Les axes factoriels de l’AFD sont définis par les valeurs et vecteurs propres de la matrice W-1B. Les vecteurs propres « a » de W-1B sont identiques à ceux de V-1B  les axes factoriels sont définis de la même manière. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11 définis de la même manière. Les valeurs propres sont reliées par la relation suivante : ρ = SCE / SCR pour l’axe associé m m m λ λ ρ − = 1 Ex. Fichier « Vins de Bordeaux » Avec les variables « Température » et « Soleil » uniquement Root Eigenvalue Proportion Canonical R 1 2.6432 0.9802 0.8518 2 0.0534 1 0.2251 7255 . 0 1 7255 . 0 8518 . 0 1 8518 . 0 6432 . 2 2 2 − = − = On peut aussi exprimer les axes en termes de « pouvoir discriminatoire relatif » Ex. le 1er axe explique 98% de l’écartement entre les barycentres dans l’espace initial : 98% = 2.6432 / (2.6432 + 0.0534). Les 2 premiers axes expliquent 100% de cet écartement.  Clairement, le 1er axe suffit largement ici !!! Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 Analyse discriminante descriptive – Choisir le nombre d’axes adéquat H0 : les « q » derniers rapports de corrélation sont tous nuls ⇔H0 : ⇔H0 : on peut négliger les « q uploads/Management/ analyse-discriminante-descriptive.pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 19, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 2.8786MB