Analyse de Données Multidimensionnelle : Analyse en Composantes Principales (AC

Analyse de Données Multidimensionnelle : Analyse en Composantes Principales (ACP) Sous SPSS Réalisé par : Nabil EL BAOUCHARI Science économique Année Universitaire : 2016 - 2017 ** Sommaire :  Introduction : Démarche statistique  Partie 1 : ACP [problème et L’analyse]  ACP ? problème ?  Les objectifs L’ACP ?  Des outils d’analyses ACP  Partie 2 : traitement L’ACP sous SPSS  Introduction  Matrice des données  La démarche à suivre sous SPSS  Analyse des résultats  Conclusion Introduction : Démarche statistique  On désigne par statistique descriptive multidimensionnelle l'ensemble des méthodes de la statistique descriptive permettant de traiter simultanément un nombre quelconque de variables. Ces méthodes sont purement descriptives, c'est-à-dire qu'elles ne supposent, a priori, aucun modèle Sous-jacent, de type probabiliste.  Parmi ces modèles on a L’ACP (pour les variables quantitatives) dont le but est de résumer le maximum d’information possibles en perdant le moins possible pour :  Faciliter l’interprétation d’un grand nombre de données initiales  Donner plus de sens aux données réduites ACP permet donc de réduire des tableaux de grandes tailles en un petit nombre de variables (2 ou 3 généralement) tout en conservant un maximum d’information. o Analyse les résultats de L’ACP répondre à trois questions : 1. Les données sont-elles factorisables ? 2. Combien de facteurs retenir ? 3. Comment interpréter les résultats ? Alors l’ACP permet d’explorer les liaisons entre variables et les ressemblances entre individus. Les données : p variables quantitatives observées sur n individus On recherche à représentation le nuage des individus, chaque e'i on peut associer un point dans Rp (espace des individus) Impos- sible à visualiser dès que p > 3 On cherche une représentation des n individus, dans un sous-espace Fk de Rp de dimension k ( k petit 2,3…) Autrement dit, on cherche à définir k nouvelles variables com- binaisons linéaires des p variables initiales qui feront perdre le moins d’information possible. o Ces variables seront appelées « composantes principales » o Les axes qu’elles déterminent : « axes principaux » o Les formes linéaires associées : « facteurs principaux » « Perdre le moins d’information possible » Distance projection Orthogonale Le choix de la distance Entre individus : INERTIE Dans l’espace Rp à p dimensions, la distance euclidienne entre deux individus s’écrit: Le problème des unités ? Pour résoudre ce problème, on choisit de transformer les données en don- nées centrées-réduites. Fk devra être « ajusté » le mieux possible au nuage des individus: la somme des carrés des distances des individus à Fk doit être minimale. Fk est le sous-espace tel que le nuage projeté ait une inertie (dispersion) maximale. écart-type de la variable Xk moyenne de la variable Xk INERTIE TOTALE : L’inertie mesure la dispersion totale du nuage de points. Et donc aussi égale à la somme des variances des variables étu- diées. S1²……….. S1p² S2² S2²….....S2p² V= … ……. … …….. S1p²……….Sp² Donc le cas les variances sont centrées réduits Si²=1 Inertie to- tal est alors égale à p (nombre des variables). « LA SOLUTION DU PROBLÈME POSÉ » La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles variables de variance maximale. En d’autres termes, on effectue un changement de repère dans Rp de façon à se placer dans un nouveau système de représentation où le premier axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le premier axe, et ainsi de suite. « la diagonalisation de la matrice de variances-covariances » a. Axes principaux : On appelle axes principaux d’inertie les axes de direction les vecteurs propres de V normés à 1. Il y en a p. Le premier axe est celui associé à la plus grande valeur propre on le note u1. V la matrice de variances-covariances Le deuxième axe est celui associé à la dexième valeur propre on le note u2. ……………. ……………. ……………. b. Composantes principales : À chaque axe est associée une variable appelée composante principale. La composante cⁱ est le vecteur renfermant les cordonnées des projections des individus sur l’axe i. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales. Par Exemple :  La variance d’une composante principale est égale à l’inertie portée par l’axe principal qui lui est associé.  Les composantes principales sont non corrélées deux à deux (en effet les axes associés sont orthogonaux). « REPRÉSENTATION DES INDIVIDUS » C1 1 La jème composante principale cj= C2 2 . . Cpj Fournit les coordonnées des n individus sur le jème axe principal. Si on désire une représentation plane des individus, la meilleure sera celle réalisée grâce aux deux premières composantes principales. « REPRÉSENTATION DES VARIABLES » Les « proximités » entre les composantes principales et les variables initiales sont mesurées par les covariances, et surtout les corrélations r(cj,Xi) :est le coefficient de corrélation linéaire entre cj et Xi. C2 Xi r (c2 , xi ) r (c2 , xi ) C1 CERCLE DES CORRÉLATIONS « QUELLES QUE FOURMULES D’INTERPERITER DES VARAIBLES » i. Le produit scalaire : Permettant d’associer aux paramètres courants : écart-type, coefficient de corrélation linéaire des représentations géométriques.(on suppose les variables centrées). ii. Coefficient de corrélation linéaire Le cosinus de l’angle formé par les variables Xi et Xj est le coefficient de corrélation linéaire de ces deux variables  Partie 2 : traitement L’ACP sous SPSS i. Introduction : Le traitement et l’analyse l’ACP manuellement peut-être compliqué car par exemple si on travaille avec plus que 100 variables statistiques dont le nombre d’observation plus grand, le traitement devient très difficile alors les logiciels (R, Excel…) permettent de facilité le traitement pour n’importe qu’ils cas, parmi ces logiciels on a SPSS. ii. Matrice des données : Pour développer mieux le traitement et l’analyse ACP on dispose la matrice des données suivants : 1ère année Economie et gestion Semestre 1 Economie et gestion Semestre 2 Economie et gestion M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 Etudiant 1 E 1 7 12 11 9 14 20 9 14,5 18 7,5 10 13 13,5 8,5 Etudiant 2 E 2 5 7 10 6 13 18 12 14,5 7 5 10 14 11,5 10,5 Etudiant 3 E 3 6 14 11,5 11 5 12,5 13 11,5 15 1 5 12 11,5 15 Etudiant 4 E 4 8,5 11 10 3 2 5 10 12 10 5 10 15 10 12,5 Etudiant 5 E 5 10,5 10 12,5 10 8 11,5 11 10 9 10 10 18 6 14,5 Etudiant 6 E 6 11 8 12,5 9 13 3 10 11,5 9 7 7 6 4,5 11 Etudiant 7 E 7 12 15 11 13 18 14 14 15,5 18 8,5 5 12 14,5 13,6 Etudiant 8 E 8 11 15 16 13 10 7 6 12 19 15 12 10 18 14 Etudiant 9 E 9 10 10 15 18 11 15 15 9 12 19 16 14 10 13 Etudiant 10 E 10 10 15 18 11 8 10 12 12 14 12 19 14 16 18 M1 :introduction à l’économie M2 :microéconomie 1 M3 :comptabilité générale 1 M4 :management 1 M5 : statistique descriptif M6 : analyses mathématique M7 :LT 1 M8 :macroéconomie M9 :microéconomie 2 M10 :comptabilité générale 2 M11 :management 2 M12 :probabilités M13 :algèbres et math fin M14 : LT 2 On dispose les notes de 1er années économie et gestion dont 14 modules (variables statistiques) on note Mi(M1 à M14) avec 10 étudiants (individus) on note Ei (E1à E10). On transfert notre base de données dans le SPSS et en suite en décodé les variables. Fichier SPSS : « Matrice DD.sav » iii. La démarche à suivre sous SPSS :  Pour faire analyse de l’ACP on faire les étapes suivantes : La boîte de dialogue suivante apparaît alors : On choisit les variables qui nous paraissent les mieux adaptées à l’analyse en les sélectionnant dans la partie de droite puis en cliquant sur la flèche qui pointe vers la droite. Cinq boites de dialogue d’options s’offrent maintenant à nous :  Caractéristiques…  Extraction…  Rotation…  Scores…  Options… Dans « matrice de corrélation » cliquer sur « Coefficients » et « Indice KMO et test de shéri- cité de Bartlett’s ». et poursuivre ! Dans la biote EXTRACTION on choisit Tracé d’effondrement (Gra- phique des valeurs propres), on re- marque que la méthode utilisé est composante principales, pour les valeurs propres on va détailler dans les résultats ! click sur poursuivre ! Pour l’instant, il ne faut rien toucher dans «méthode». L’option « Vari- max » pourra être choisie si les résul- tats ne sont pas suffisants dans un premier temps. Par contre, cocher l’option « Carte(s) factorielle(s)» Cette option permet d’avoir une représentation des diffé- rents axes. Pour l’instant, il ne faut toucher à rien. Choisir l’option « Classement des variables par taille uploads/Management/ analyse-de-donnees-multidimensionnelle-a.pdf

  • 15
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Sep 24, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.5292MB