Ingénierie de l'analyse des données Jean-Louis Girard http://www.u-picardie.frT
Ingénierie de l'analyse des données Jean-Louis Girard http://www.u-picardie.frTOUS/Documentation/Master1/IAD Plan de cours 1. Introduction générale.......................................................................................................... 2 1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2 1.2. Une autre illustration.................................................................................................. 3 1.3. Plan............................................................................................................................. 6 1.4. Lexique....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9 2. L'inertie comme somme des distances des points d'un nuage.......................................... 10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…................................................................................... 15 3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage… .............................................................................. 17 3.4. Quelles sont les coordonnées des points projetés ?.................................................. 19 3.5. Comment représenter les variables (relations de transition) ? ................................. 20 3.6. Compléments et interprétations................................................................................ 22 3.7. Résumé..................................................................................................................... 26 3.8. Exemples .................................................................................................................. 29 4. Passons maintenant à l'analyse de tableaux de variables qualitatives….......................... 37 4.1. L'analyse des correspondances (croisement de deux variables qualitatives)........... 37 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives).......................................................................................................................... 48 5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse factorielle.........................................................................................Erreur ! Signet non défini. 5.1. Quelques algorithmes de diagonalisation................................................................. 53 5.2. Et les autres directions d'allongement ? ................................................................... 53 Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 2 - 1. Introduction générale "Il avait appris sans effort l'anglais, le français, le portugais, le latin. Je soupçonne cependant qu'il n'était pas très capable de penser. Penser, c'est oublier des différences, c'est généraliser, abstraire. Dans le monde surchargé de Funes il n'y avait que des détails, presque immédiats." Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils peindre ? Pourquoi les Egyptiens antiques peignaient les personnages dans une position peu naturelle alors que par ailleurs ils savaient depuis très longtemps représenter un corps en 3D ? Le roi Amenemhat III XIX° siècle avant J.-C. Stèle de la dame Tapéret (Détail) Xe ou IXe siècle avant J.-C. Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 3 - 1.2. Une autre illustration On dispose d'un tableau donnant les coordonnées de points dans un espace tridimensionnel : IND X Y Z 1 52,58 -25,13 -101,93 2 51,5 -24,86 -101,77 3 52,49 -23,58 -101,61 4 52,03 -26,22 -101,55 5 54,32 -23,64 -101,44 6 53,63 -26,4 -101,4 7 50,47 -25,56 -101,36 … … … … 21488 -49,21 79,23 60,14 21489 -47,28 86,02 60,15 21490 -46,34 87,09 60,16 21491 -48,21 81,83 60,19 21492 -46,91 79,37 60,19 21493 -43,92 87,68 60,2 21494 -47,29 84,45 60,23 21495 -45,55 81,08 60,23 21496 -44,41 83,48 60,25 21497 -43,46 85,53 60,26 21498 -45,39 85,67 60,3 21499 -45,39 85,67 60,3 Quelle forme a ce nuage de point ( reconnaissance de forme) ? Représentation des différents plans : Plan X-Y Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 4 - Plan Y-Z Plan X-Z Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ? Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 5 - Graphique factoriel Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 6 - 1.3. Plan 1. Introduction générale 1.1. Les Egyptiens antiques savaient-ils peindre ? 1.2. Une autre illustration 1.3. Plan 1.4. Lexique 1.5. Principe de représentation géométrique 2. L'inertie comme somme des distances des points d'un nuage 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales… 3.1. Quelques rappels sur les matrices et le calcul matriciel 3.2. Pour préparer une "bonne" matrice, il faut… 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage… 3.4. Quelles sont les coordonnées des points projetés ? 3.5. Comment représenter les variables (relations de transition) ? 3.6. Compléments et interprétations 3.7. Résumé 3.8. Exemples 4. Passons maintenant à l'analyse de tableaux de variables qualitatives… 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) 5. Compléments 5.1. Quelques algorithmes de diagonalisation 5.2. Et les autres directions d'allongement ? Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 7 - 1.4. Lexique Population (ou population statistique) Ω Ensemble (au sens mathématique du terme) concerné par une étude statistique. On parle parfois du champ de l'étude Individu (ou unité statistique) x∈Ω Tout élément de la population Ω Echantillon Sous-ensemble de la population sur lequel sont effectivement réalisées les observations Taille de l'échantillon Cardinal du sous-ensemble correspondant Enquête (statistique) Opération consistant à observer (ou mesurer, ou questionner…) l'ensemble des individus d'un échantillon Recensement Enquête dans laquelle l'échantillon observé est la population tout entière (enquête exhaustive) Sondage Enquête dans laquelle l'échantillon observé est un sous-ensemble strict de la population (enquête non exhaustive) Variable (statistique) → Ω ve quantitati si e qualitativ si x ε Caractéristique (âge, salaire, sexe…) définie sur une population et observée sur l'échantillon ; mathématiquement, il s'agit d'une application définie sur l'échantillon. Si la variable est à valeurs dans (ou une partie de , ou un ensemble de parties de ), elle est dite quantitative (âge, salaire, taille…) ; sinon, elle est dite qualitative (sexe, CSP…) et les valeurs que peut prendre cette variable sont appelées modalités. Données (statistiques) Ensemble des individus observés (échantillon), des variables considérées, et des observations de ces variables sur ces individus. Elles sont généralement présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées dans un fichier informatique. Lorsqu'un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codées associées aux variables qualitatives), il correspond à la notion mathématique de matrice. | R | R | R | R Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 8 - ∇ ∇ ∇ ∇ : chaque individu est doté d'un "poids" (ou masse) différent. Par exemple, il n'y a aucune raison a priori de traiter différemment les personnes qui constituent une population (une personne = une personne) ; mais les régions ou les département ont des importances différentes, dont il faut parfois tenir compte (notion à rapprocher de celle de moyenne pondérée). ∇ ∇ ∇ ∇ : une variable quantitative peut être "classée" ou ordonnée, en effectuant par exemple des découpages sur les valeurs que peut prendre cette variable Exemple : [{moins de 20 ans} ; {de 20 ans à 39 ans}; {de 40 ans à 59 ans}, {60 ans et plus}]. Dans ce cas, cette variable peut être traitée comme une variable qualitative, identique à [{jeune}, {adulte}, {mûr}, {âgé}] ∇ ∇ ∇ ∇ : les modalités d'une variable peuvent être : • Exhaustives : o modalités non-exhaustives [{adulte}, {âgé}] les jeunes n'y figurent pas o êtes-vous venu à la Préfecture pour : retirer votre permis de conduire ? retirer votre passeport ? d'autres réponses sont possibles. • Exclusives : o modalités non exclusives [{moins de 30 ans} ; {de 20 ans à 39 ans}; {de 40 ans à 59 ans}, {60 ans et plus}] si l'on a de 20 à 30 ans, on figure dans deux modalités o êtes-vous venu à la Préfecture pour : retirer votre permis de conduire ? retirer votre passeport ? les deux réponses sont possibles. ∇ ∇ ∇ ∇ : ✓ On peut rendre les modalités exhaustives en proposant, par exemple, une modalité {autre} ✓ On peut rendre les modalités exclusives en demandant, par exemple, "quelle est la principale raison qui vous a fait venir à la préfecture ?" Ingénierie de l'analyse des données - Introduction générale Jean-Louis Girard - 9 - 1.5. Principe de représentation géométrique Les tableaux peuvent être vus comme un ensemble de lignes ou de colonnes. Par convention, • En lignes figurent les individus • En colonnes figurent les variables Deux nuages de points peuvent alors être construits : • Le nuage des individus (les points-lignes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre de variables • Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre d'individus 1 j p 1 , , , , , , , i , , , xij , , , , , , n , Vecteurs lignes Vecteurs colonnes 1 j p j j' 1 i i i' n n points p points dans un espace à dans un espace à p dimensions (axes) n dimensions (axes) Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage Jean-Louis Girard - 10 - 2. L'inertie comme somme des distances des points d'un nuage On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau du type : Variable 1 Variable 2 … Variable j … Variable p Individu 1 … Individu 2 … … … Individu i … … … tij … … … … Individu n … Les tij uploads/Management/ cours 5 .pdf
Documents similaires










-
36
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 23, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.3562MB