Analyse Des Données Ouazza Ahmed Institut National de Statistique et d’Economie

Analyse Des Données Ouazza Ahmed Institut National de Statistique et d’Economie Appliquée (INSEA) 2020-2021 1 / 59 Plan 1 Introduction 2 Analyse en Composante Principales ACP 3 Analyse Factorielle des Correspondances AFC 4 Méthodes de classification 2 / 59 Introduction • Dans toute étude statistique, la première démarche consiste à décrire et explorer l’ensemble des données qu’on dispose. • Dans le cas où des données sont de grande dimension (c-à-d le nombre de variables ou de caractères est trop élevées), il est difficile de les visualiser. Alors il est nécessaire d’extraire l’information pertinente contenue dans l’ensemble des données, les techniques d’analyse des données répondent à ce besoin. • Par conséquent, on peut définir l’analyse des données comme ensemble de méthodes descriptives ayant pour objectif de visualiser et résumer l’information contenue dans un grand tableau de données. 3 / 59 Introduction Tableau de données: (Individu × Variable) On suppose qu’on dispose p variables X1, X2, ..., Xp observées sur n individus I1, I2, ..., In, alors chaque variable Xj , j ∈{1, 2, ..., p} est un élément de Rn et chaque individu Ii , i ∈{1, 2, ..., n} est un élément de Rp. X1 ... Xj ... Xp I1 x11 ... x1j ... x1p . . ... . ... . . . ... . ... . . . ... . ... . Ii xi1 ... xij ... xip . . ... . ... . . . ... . ... . . . ... . ... . In xn1 ... xnj ... xnp 4 / 59 Introduction La forme matricielle du tableau précédent est donnée comme suit: X = (X1, ..., Xp) =         x11 · · · x1j · · · x1p . . . . . . xi1 · · · xij · · · xip . . . . . . xn1 · · · xnj · · · xnp         5 / 59 Introduction Tableau de données: (Variable × Variable) Dons ce cas, on cherche à croiser deux variables X et Y d’une population en dénombrant l’effectif correspondant à la conjonction «variable 1» et «variable 2», on parle de tableau de contingence: X \ Y y1 ... yj ... yK x1 n11 ... n1j ... n1K . . ... . ... . . . ... . ... . . . ... . ... . xi ni1 ... nij ... niK . . ... . ... . . . ... . ... . . . ... . ... . xL nL1 ... nLj ... nLK 6 / 59 Analyse en Composante Principales ACP 7 / 59 ACP • Analyse en composante principale ACP est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles. • Analyse en composante principale permet d’explorer les liaisons entre variables et les ressemblances entre individus. 8 / 59 ACP Objectifs: • L’ACP permet de réduire la dimension de l’espace des variables avec le minimum de perte d’information. • Visualiser le positionnement des individus les uns par rapport aux autres (ressemblance) ⇒Notion de distance entre individus. • Visualiser les corrélations entre les variables. • Donner une interprétation aux facteurs. 9 / 59 ACP Les données: Les données pour l’ACP sont généralement présentées sous la forme du tableau précédemment vu (pages 4 et 5): X =         x11 · · · x1j · · · x1p . . . . . . xi1 · · · xij · · · xip . . . . . . xn1 · · · xnj · · · xnp         • Les variables X1, ..., Xp sont supposées quantitatives. • xij est la valeur de la variable Xj pour l’individu Ii. • n désigne le nombre d’individus (observations) et p le nombre de variables. 10 / 59 ACP Exemple du tableau des données pour ACP: On considère les notes (de 0 à 20) obtenues par neuf étudiants dans cinq matières: Mathématiques, Statistique, Français, Anglais et Musique. Etudiant Math Stat Fran Angl Musique I1 6 6 5 5,5 8 I2 4,5 5 7 7 14 I3 6 7 11 9,5 11 I4 14,5 14,5 15,5 15 5 I5 14 14 12 12,5 6 I6 16 15 5,5 5 7 I7 5,5 7 14 11,5 10 I8 13 12,5 8,5 9,5 12 I9 6 8,5 13,5 13 18 11 / 59 ACP Matrice des poids: On affecte à chaque individu Ii un poids pi reflétant son importance par rapport aux autres individus, avec 0 < pi < 1 et Pn i=1 pi = 1. On appelle matrice des poids la matrice diagonale d’ordre (n × n) dont les éléments diagonaux sont les poids pi , i = 1, .., n D = diag(p1, ..., pn) =    p1 · · · 0 . . . ... . . . 0 · · · pn    Le cas le plus fréquent est de considérer que tous les individus ont la même importance c-à-d : pi = 1 n Le vecteur G des moyennes arithmétiques de chaque variable G = (x1, x2, ..., xp) ′ définit le point moyen, ou centre de gravité du nuage. On a G = X′D1n où 1n désigne le vecteur de Rn dont toutes les composantes sont égales à 1. 12 / 59 ACP Matrice des poids: De la même manière, on peut définir la matrice des poids pour les variables, en affectant à chaque variable Xj un poids mi reflétant son importance par rapport aux autres. Ainsi, la matrice des poids pour les variable est donnée comme suit:: M = diag(m1, ..., mp) =    m1 · · · 0 . . . ... . . . 0 · · · mp    Le cas le plus fréquent est de considérer que tous les variables ont la même importance c-à-d : mi = 1 p 13 / 59 Notion de ressemblance: Critère de la distance Euclidienne Définition 0.1 Deux individus se ressemblent s’ils possèdent des valeurs proches pour l’ensemble des variables. Donc on parle d’une notion de proximité qui se traduit par une distance. Ainsi, nous définissons la distance euclidienne entre deux individus Ii et Ij par : d2(Ii, Ij) = p X k=1 (xik −xjk)2 Remarque: Dans le cas où les différentes variables n’ont pas la même importance (c-à-d le poids mk ̸= 1 p), la distance entre deux individus Ii et Ij devient : d2(Ii, Ij) = p X k=1 mk(xik −xjk)2 14 / 59 Notion de ressemblance: Critère de la distance Euclidienne Par exemple, dans le plan, la distance euclidienne entre deux points A et B est donnée par: 15 / 59 Liaison entre les variables: Définition 0.2 Deux variables sont liées si elles ont un fort coefficient de corrélation linéaire. Le coefficient de corrélation linéaire entre deux variables Xk et Xj est donné par : Corr(Xj, Xk) = Cov(Xj, Xk) SjSk = 1 n n X i=1 xij −xj Sj  xik −xk Sk  Remarque: Dans certains cas il est intéressant de pondérer différemment chaque individu Ii par un poids pi, ainsi le coefficient de corrélation devient : Corr(Xj, Xk) = n X i=1 pi xij −xj Sj  xik −xk Sk  Avec Sj est l’écart-type de la variable Xj et Sk est l’écart-type de la variable Xk 16 / 59 ACP Transformation des données (Problèmes des unités de mesure) : Parfois, les variables contenues dans le tableau X peuvent être exprimées en différentes unités (cm, kg...) ⇒Pour neutraliser ce problème des unités on remplace les données d’origine X1, ..., Xp par les données centrées-réduites. Ainsi chaque variables Xj , j = 1, ..., p est remplacée par: X⋆ j = Xj −xj Sj avec xj et Sj sont respectivement la moyenne empirique et l’écart-type de la variable Xj. 17 / 59 ACP Tableau centré-réduit: X⋆ 1 ... X⋆ j ... X⋆ p I1 . . . . . . . Ii . ... xij−xj Sj ... . . . . . . . In . 18 / 59 ACP Tableau centré-réduit: X = (X⋆ 1, ..., X⋆ p) =         . · · · . · · · . . . . . . . . . . . · · · xij−xj Sj · · · . . . . . . . . . . . · · · . · · · .         19 / 59 ACP Matrice de Covariance: La matrice de covariance associée au tableau X est donnée par: V =      V ar(X1) Cov(X1, X2) · · · Cov(X1, Xp) Cov(X1, X2) V ar(X2) · · · . . . . . . . ... . . . Cov(X1, Xp) · · · · · · V ar(Xp)      et on a: uploads/Management/ cours-acp-ouazza.pdf

  • 24
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Sep 15, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.4576MB