République Tunisienne Ministère de l’Enseignement Supérieur Institut Supérieur

République Tunisienne Ministère de l’Enseignement Supérieur Institut Supérieur des Etudes Technologique de Kef Support de Cours Entrepôts de Données Mention : Technologies de l’Informatique (TI) Parcours : Développement des Systèmes d’Information (DSI) Semestre : S5 Volume horaire : 22.5 h /semestre (à raison de 1.5h /semaine) Coefficient : 1.5 Enseignante: Amira SEDIKI Année Universitaire 2011-2012 1 Présentation du cours Ce cours est conçu comme une introduction à l’informatique décisionnelle. Il présente les notions de base des entrepôts de données ainsi que ceux de la fouille de données : ETL,Cube de données, table de fait, table de dimension, datamarts, méta-données, ECD, apprentissage supervisé et non supervisé. Les concepts seront illustrés par une application de la fouille de données avec les arbres de décisions. Niveaux cibles : Étudiants de la troisième année, Semestre 5, option DSI Pré-requis : Base de données, Méthodologies de Conception, Atelier Système d'information Formule pédagogique :  Exposé informel Moyens pédagogiques :  Tableau  Support de cours Méthodologie :  Cours intégré  Travaux dirigés (réalisation et correction d’exercices) Volume Horaire :  22.5 heures de cours intégré Objectifs Généraux - Développer des habiletés de construction d'un entrepôt de données - Développer les habilités d'analyse de données Objectifs Spécifiques - Comprendre l'importance de l'information dans les métiers, - analyser les limites des systèmes de production existants pour les besoins en traitement de l'information, notamment dans les applications décisionnelles - introduire le concept d'entrepôt de données comme une solution alternative et en décrire les propriétés. 2 - Distinguer les différents niveaux de stockage de données qui composent une architecture à base d'entrepôt et comprendre les étapes de la construction de ces niveaux de stockage. - Comprendre les concepts du modèle de données multidimensionnel et introduire les opérateurs sur des cubes multidimensionnels ; - Comprendre les modèles de données ROLAP et les difficultés de cette modélisation - Comprendre la notion d'information cachée dans les données et les différents types d'algorithmes pour fouiller les données et trouver de l'information. Eléments de Contenu I- Objectifs des entrepôts de données. II- Architecture des systèmes à base d'entrepôts de données et Technologies OLAP, ROLAP, MOLAP III- Modélisation multidimensionnelle et Méthodes de conception des entrepôts. IV- Objectifs de la fouille de données : application l’arbre de décision Évaluation : 1 test, 1 DS et un examen final écrits Bibliographie :  Cours de ESPINASSE B., Université Aix-Marseille.  Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann Publishers, 2004.  Cours de PREUX Ph., Université de Lille 3. 3 Table des matières Chapitre 1 Introduction aux Entrepôts de données ..................................................................5 1.1 Importance de l’information dans les métiers ................................................................5 1.2 Informatique décisionnel vs Informatique de production...............................................6 1.2.1. Informatique de Production...................................................................................6 1.2.2 Informatique Décisionnel.......................................................................................7 1.3 Définition de data warehouse........................................................................................8 Chapitre 2 Architecture des systèmes à base d’entrepôt de données ......................................11 2.1. Les niveaux fonctionnels de l’architecture..................................................................11 2.2. Structure générale des données d’un ED ....................................................................12 2.2.1 Axe historique et axe synthétique.........................................................................12 2.2.2 Les méta données.................................................................................................13 2.3. Architectures des serveurs OLAP...............................................................................16 2.3.1 Systèmes MOLAP (Multidimensionnel OLAP)....................................................16 2 .3.2 Systèmes ROLAP (Relationnal OLAP) ...............................................................16 2.3.3 Systèmes HOLAP (Hybrid OLAP).......................................................................16 2.4. Alimentation d’un Entrepôt de données......................................................................17 2.4.1. Sélection des données sources.............................................................................17 2.4.2. Extraction des données........................................................................................17 2.4.3. Nettoyage et Transformation...............................................................................18 2.4.4. Chargement.........................................................................................................19 2.5. Utilisation, exploitation..............................................................................................20 2.5.2 Agrégats et navigation..........................................................................................20 2.5.3 Visualisation ........................................................................................................21 Chapitre 3 Modélisation multidimensionnelle.......................................................................22 3.1. Concept de base de la modélisation multidimensionnelle ...........................................22 3.1.1 La notion de dimension........................................................................................22 3.1.2. La notion de fait ..................................................................................................23 3.1.3 La notion de cuboïde............................................................................................23 3.1.4 Notion de Cube de données..................................................................................23 3.1.5 Notion de dimensions multi-niveaux ....................................................................24 3.1.6 Hiérarchies de concepts d’une dimension.............................................................25 3.2. Opérations sur le data cube ........................................................................................25 3.2.1 Opération Slice ....................................................................................................26 3.2.2 L’opération Dice ..................................................................................................26 3.2.3 L’opération Pivot .................................................................................................27 3.2.5 L’opération Drill-down ........................................................................................28 3.3. Conception d’un entrepôt de données.........................................................................29 3.3.1 Approches de Conception.....................................................................................29 3.3.2 Schéma Conceptuel d’un entrepôt de données......................................................30 3.3.2.2 Schéma en flocon ..........................................................................................32 3.3.2.3 Schéma en constellation ................................................................................33 Chapitre 4 Introduction à la fouille de données .....................................................................35 4.1 Définition de la fouille de données ? ...........................................................................35 4.2 Le processus ECD.......................................................................................................36 4.3 Méthodes de fouille de données ..................................................................................37 4.3.1 Apprentissage supervisé et non supervisé .............................................................37 4.3.2 Les arbres de décision ..........................................................................................38 4 4.3.2.1 Problèmes fondamentaux pour construire un arbre.........................................38 4.3.2.2 L’algorithme ID3...........................................................................................40 4.3.2.3 Calcul de l’entropie .......................................................................................40 4.3.2.4 Exemple de mise en oeuvre ...........................................................................41 5 Chapitre 1 Introduction aux Entrepôts de données Objectifs spécifiques  Introduire l’importance de l’information dans les métiers  Introduction des limites des systèmes de production existants  Introduire le concept d’entrepôt de données Eléments de contenu I. Importance de l’information dans les métiers II. Informatique décisionnel vs Informatique de production III. Définition de datawarehouse Volume Horaire : Cours : 1,5 heures TD : 0 heure 1.1 Importance de l’information dans les métiers Les sociétés de téléphone gardent au moins un an les positions géographiques et les consommations de leurs abonnés ‘mobiles’. Les grands magasins et les entreprises de vente par correspondance (VPC) conservent les achats de leurs clients (tickets de caisse en grande distribution, commandes en VPC), collectent des informations sur leurs clients grâce à des systèmes de cartes de fidélité ou de crédit, et achètent des bases de données géographiques et démographiques. Les sites web conservent des traces de connexions sur leurs sites marchands. En résumé, les entreprises en secteur très concurrentiel conservent les données de leur activité et achètent même des données. Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales pour pouvoir justifier les facturations, des raisons de sécurité pour pouvoir détecter les fraudes, des motifs commerciaux pour suivre l'évolution des clients et des marchés. Quelle que soit la raison initiale, les entreprises se sont rendues compte que ces données pouvaient être une source d'informations à leur service. Ce constat, valable pour les sociétés du secteur marchand, peut être 6 étendu à de nombreux domaines comme la médecine, la pharmacologie. Il faut donc définir des environnements permettant de mémoriser de grands jeux de données et d'en extraire de l'information. Les structures qui accueillent ce flot important de données sont des entrepôts de données ou data warehouse. Ils sont construits sur une nouvelle architecture bien différente de celle prévue pour l'informatique de production, basée elle sur des systèmes de gestion de bases de données relationnelles et des serveurs transactionnels. Un entrepôt de données est construit en l'alimentant via les serveurs transactionnels de façon bien choisie et réfléchie pour permettre aux procédures d'extraction de connaissances de bien fonctionner. L'organisation logique des données est particulièrement conçue pour autoriser des recherches complexes. 1.2 Informatique décisionnel vs Informatique de production 1.2.1. Informatique de Production Une des principales caractéristiques des systèmes de production est une activité constante constituée de modifications et d'interrogations fréquentes des données par de nombreux utilisateurs. Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client, ... Conserver la cohérence (interdire la modification simultanée d'une même donnée par deux utilisateurs différents) de la base de données, est donc l'objectif et la difficulté principale pour l'informatique de production. Il s'agit donc de privilégier un enregistrement rapide et sûr des données. Les systèmes transactionnels (temps réel) OLTP (On-Line Transaction Processing) qui est la tâche principale des SGBD, garantissent l'intégrité des données. Les utilisateurs accèdent à des éléments de la base par de très courtes transactions indécomposables, isolées. L'isolation permet de garantir que la transaction ne sera pas perturbée ni interrompue. La brièveté garantit que les temps de réponse seront acceptables 7 La dernière caractéristique de ces bases de données est qu'elles conservent l'état instantané du système. Dans la plupart des cas, l'évolution n'est pas conservée. On conserve simplement des versions instantanées pour la reprise en cas de panne et pour des raisons légales. 1.2.2 Informatique Décisionnel À l'inverse de l’informatique de production, les utilisateurs des systèmes d'information de décision n'ont aucun besoin de modification ou d'enregistrement de nouvelles données. Ils vont interroger le système d'information et les questions posées seront par exemple de la forme Exemple :  Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C.  Comment se comporte le produit X par rapport au produit Y ?  Et par rapport à l'année dernière ?  Quel type de client peut bien acheter mon produit Z ? Une telle interrogation peut nécessiter des temps de calcul importants. Or, l'activité d'un serveur transactionnel ne peut être interrompue. Il faut donc prévoir une nouvelle organisation qui permette de mémoriser de grands jeux de données et qui facilite la recherche d'informations ; c’est le système OLAP (On-line Analytical Processing). L'existence d'un entrepôt simplifiera donc la tâche d'extraction de connaissances à partir de données et permettra donc d'optimiser le temps de développement d'un projet de fouille de données. Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser quelques statistiques élémentaires (moyenne, écart-type,...). La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, on est amené à introduire de la redondance dans les informations stockées en mémorisant des calculs intermédiaires (dans l'exemple, on uploads/Ingenierie_Lourd/ cours-entrepots-de-donnees.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager