Support de cours de Analyse Des Données 1 Année académique 2021 – 2022 MASTER 1
Support de cours de Analyse Des Données 1 Année académique 2021 – 2022 MASTER 1 INFORMATIQUE ANALYSE DES DONNEES Support de cours ✓ Un cours pédagogique ✓ Des exemples pour comprendre ✓ Des exercices pratiques pour s’entraîner Enseignant : M. KELASSA KODJO Support de cours de Analyse Des Données 2 Avertissement Ce document est conçu comme support de cours. Il ne possède ni la complétude ni l'exhaustivité d'un livre, voire d’un polycopié, qu'il ne saurait remplacer. Merci de contribuer à l’amélioration de ce document en : ➢ nous envoyant vos suggestions et critiques à notre adresse E-mail ➢ ou en déposant vos suggestions et critiques à l’administration de l’établissement. Support de cours de Analyse Des Données 3 SOMMAIRE CH 1 : INTRODUCTION A L’ANALYSE DES DONNEES I- Généralités II- Les données et leurs caractéristiques III- Tableaux d’analyse associés IV- Exercices – Application : le logiciel R CH 2 : ANALYSE EN COMPOSANTES PRINCIPALES - ACP I. Définition II. Ajustement du nuage de points 2.1. Coordonnées d’un point en IRq 2.2. Ajustement du nuage par un axe suivant la méthode des Moindres Carrés a) Graphiquement b) La méthode du Multiplicateur de Lagrange 2.3. Ajustement du nuage par un plan selon la méthode des Moindres Carrés 2.4. Ajustement par un sous-espace vectoriel selon la méthode des Moindres Carrés III. Analyse en Composantes Principales Normées IV. Exercices – Applications CH 3 : ANALYSE FACTORIELLE DES CORRESPONDANCES - AFC I. Détermination des axes factoriels II. Interprétation des axes III. Notion de proximité 3.1. Distance de deux points de IRq 3.2. Distance des projections sur un axe de deux points en IRq 3.3. Etude des projections sur un axe de p points en IRq IV. Exercices – Applications Support de cours de Analyse Des Données 4 CH 1 : INTRODUCTION A L’ANALYSE DES DONNEES I- Généralités 1.1 Statistique-Analyse des données Les statistiques peuvent être vues en fonction de l'objectif fixé ; classiquement les méthodes statistiques sont employées soit pour explorer les données (nommée statistique exploratoire) soit pour prédire un comportement (nommée statistique prédictive ou décisionnelle ou encore inférentielle). La statistique exploratoire s'appuie sur des techniques descriptives et graphiques. Elle est généralement décrite par la statistique descriptive qui regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrélation, ...) et la statistique exploratoire multidimensionnelle. L'analyse de données s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Les méthodes d'analyse de données ont commencées à être développées dans les années 50 poussées par le développement de l'informatique et du stockage des données qui depuis n'a cessé de croître. L'analyse de données a surtout été développée en France par J.P. Benzécri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances représenter les données de manière simple et interprétable. L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données et faire face à des considérations de traitements en temps réel en dépit de la quantité de données toujours plus importante. Les méthodes développées (et l'analyse de données) sont maintenant souvent intégrées avec des méthodes issues de l'informatique et de l'intelligence artificielle (apprentissage numérique et symbolique) dans le data mining traduit en français par ‘‘fouille de données’’ ou encore extraction de connaissance à partir de données. 1.2 Types de données Nous considérons tout d'abord que la population1 peut être décrite par des données de deux types de caractères : qualitatif ou quantitatif. Les caractères qualitatifs peuvent être purs Support de cours de Analyse Des Données 5 (variables nominales) i.e. que les modalités ne possèdent pas de structure d'ordre ou ordonnés (variables ordinales) i.e. que les modalités qualitatives sont ordonnées. Il est aisé de comprendre que les données à caractère qualitatif doivent être adaptées pour les méthodes numériques. Les méthodes d'analyse de données supposent souvent une organisation des données particulière, naturelle, mais parfois difficile à réaliser selon l'application et les données. Le choix d'un tableau permet une organisation dans le plan de toutes les données et ainsi de traiter simultanément toute l'information. Ainsi la plupart des méthodes nécessitent une organisation des données présentée sous forme de tableau. En général, ce tableau est quelque peu modifié, mais l'idée de tableau reste présente dans toutes les méthodes d'analyse de données. 1.3 Etendue des données Aujourd'hui les méthodes d'analyse de données sont employées dans un grand nombre de domaines qu'il est impossible d'énumérer. Actuellement ces méthodes sont beaucoup utilisées en marketing par exemple pour la gestion de la clientèle (pour proposer de nouvelles offres ciblées par exemple). Elles permettent également l'analyse d'enquêtes par exemple par l'interprétation de sondages (où de nombreuses données qualitatives doivent être prises en compte). Nous pouvons également citer la recherche documentaire qui est de plus en plus utile notamment avec internet (la difficulté porte ici sur le type de données textuelles ou autres). Le grand nombre de données en météorologie a été une des premières motivations pour le développement des méthodes d'analyse de données. En fait, tout domaine scientifique qui doit gérer de grande quantité de données de type varié ont recours à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel (assurance, banque, téléphonie, etc). Ces approches ont également été mises à profit en traitement du signal et des images, où elles sont souvent employées comme prétraitements (qui peuvent être vus comme des filtres). En ingénierie mécanique, elles peuvent aussi permettre d'extraire des informations intéressantes sans avoir recours à des modèles parfois alourdis pour tenir compte de toutes les données. Support de cours de Analyse Des Données 6 1.4 Méthodes ACP et AFC L'analyse de données regroupe deux familles de méthodes suivant les deux objectifs cités précédemment : - Une partie des méthodes cherche à représenter de grands ensembles de données par peu de variables i.e. recherche les dimensions pertinentes de ces données. Les variables ainsi déterminées permettent une représentation synthétique recherchée. Parmi ces méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC), l'Analyse Factorielle des Correspondances Multiples, ou encore l'Analyse Canonique. L'analyse en composantes principales (ACP) est l'une des méthodes les plus employées. Elle est particulièrement adaptée aux variables quantitatives, continues, a priori corrélées entre elles. Une fois les données projetées dans différents plans, les proximités entre variables s'interprètent en termes de corrélations, tandis que les proximités entre individus s'interprètent en termes de similitudes globales des valeurs observées. L'analyse factorielle des correspondances (AFC) (ou analyse des correspondances binaires) a été conçue pour l'étude des tableaux de contingence obtenus par croisement de variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes ont un rôle symétrique et s'interprètent de la même façon. L’analyse factorielle des correspondances multiples est une extension de l'analyse factorielle des correspondances qui ne permet que le croisement de deux variables qualitatives. Elle est donc adaptée à la description de grands tableaux de variables qualitatives par exemple pour le traitement d'enquêtes. L'analyse canonique est très peu utilisée en pratique, son intérêt porte sur son aspect théorique. Elle cherche à analyser les relations entre deux groupes de variables de nature différente. De ce fait l'analyse factorielle des correspondances peut être vue comme analyse canonique particulière. - Une autre partie des méthodes cherche à classer les données de manière automatique. Ces méthodes sont complémentaires avec les précédentes pour synthétiser et analyser Support de cours de Analyse Des Données 7 les données et répondre plus particulièrement à l'objectif fixé de caractériser les proximités entre individus et celles entre variables. Ces méthodes de classification sont soit à apprentissage supervisé (i.e. qui nécessitent une base de données d'apprentissage - ces méthodes sont appelées en statistique les analyses discriminantes) soit à apprentissage non-supervisée (i.e. qui ne nécessitent aucune donnée préalable). 1.5 Logiciels utilisés en Analyse des données Les méthodes d'analyse de données nées de la recherche universitaire sont depuis longtemps entrées dans le monde industriel. Il y a cependant peu de logiciels qui savent intégrer ces méthodes pour une recherche exploratoire aisée dans les données. Nous citons ici cinq logiciels - SAS : Ce logiciel est un logiciel de statistique très complet et très performant. Il a d'abord été développé pour l'environnement Unix, mais est maintenant accessible sous tout environnement. Il permet une puissance de calcul importante et ainsi est très bien adapté à tous traitements statistiques sur des données très volumineuses. Son manque de convivialité et surtout son prix fait qu'il est encore peu employé dans les entreprises qui ne se dédient pas complètement à la statistique. De nombreux cours universitaires de statistique sont proposés avec ce logiciel qui s'approche d'un langage (ex. Université de Rennes 1). - Splus : Splus est à la fois un langage statistique et graphique interactif interprété et orienté objet. C'est donc à la fois un logiciel statistique et un langage de programmation. La particularité de ce langage est qu'il permet de mélanger des commandes peu évoluées à des commandes très évoluées. Il a été développé par Statistical Sciences autour du langage S, conçu par les uploads/Management/ support-de-cours-d-x27-analyse-des-donnees-ch1-complet.pdf
Documents similaires
-
16
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 23, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.3538MB