Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2014-2015  Contexte

Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2014-2015  Contexte et problématique  Le processus de prise de décision  L’entrepôt de données  Définition  Différence avec un SGBD  Caractéristiques  Architecture d’un système décisionnel  Modélisation multidimensionnelle  Niveau conceptuel  Niveau logique  Niveau physique  Réalisation d’un entrepôt  Représentation et manipulation  Le cube OLAP  Solutions existantes 3 Contexte (1) Besoin : Prise de décisions stratégiques et tactiques Réactivité Qui : les décideurs (non informaticiens, non statisticiens) Comment : Répondre aux demandes d’analyse de données Dégager des informations qualitatives nouvelles 4 Contexte (2) Type de données : données opérationnelles (de production) Bases de données, Fichiers, Paye, Gestion RH, … Caractéristiques des données : Distribuées : systèmes éparpillés Hétérogènes : systèmes et structures de données différents Détaillées : organisation de données selon les processus fonctionnels et données trop abondantes pour l’analyse Peu/pas adaptées à l’analyse : des requêtes lourdes peuvent bloquer le système transactionnel Volatiles : pas d’historisation systématique 5 Problématique (1) Nous avons donc : Une grande masse de données Distribuées Hétérogènes Très détaillées à traiter Synthétiser / résumer Visualiser Analyser pour une utilisation par des Experts / analystes d’un métier Non informaticiens Non statisticiens 6 Problématique (2) Comment répondre aux besoins de décideurs afin d’améliorer les performances décisionnelles de l’entreprise? En donnant un accès rapide et simple à l’information stratégique En donnant du sens aux données En donnant une vision transversale des données de l’entreprise (intégration de différentes bases de données) En extrayant, groupant, organisant, corrélant et transformant (résumé, agrégation) les données 7 Problématique (3) Mettre en place un SI dédié aux applications décisionnelles : un entrepôt de données (datawarehouse) Transformer des données de production en informations stratégiques Sources : Th. Ester, HEC Lausanne 8 Le processus de prise de décision (1) Sources : Lydie Soler, AgroTechParis 9 Le processus de prise de décision (2) Sources : Lydie Soler, AgroTechParis 10 L’entrepôt : Définition Le DW est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. W.H. Inmon (1996) C’est une BD à des fins d’analyse !! 11 Pourquoi pas un SGBD ? (1) Fonctions d’un SGBD : Systèmes transactionnels (OLTP) Permettre d’insérer, modifier, interroger rapidement, efficacement et en sécurité les données de la base Sélectionner, ajouter, mettre à jour, supprimer des tuples Répondre à de nombreux utilisateurs simultanément 12 Pourquoi pas un SGBD ? (2) Fonctions d’un DW : Systèmes pour l’aide à la prise de décision (OLAP) Regrouper, organiser des informations provenant de sources diverses Intégrer et stocker les données pour une vue orientée métier Retrouver et analyser l’information rapidement et facilement 13 Pourquoi pas un SGBD ? (3) OLTP DW Utilisateurs Nombreux Employés Peu Analystes Données Alphanumériques Détaillées / atomiques Orientées application Dynamiques Numériques Résumées / agrégées Orientées sujet Statiques Requêtes Prédéfinies « one-use » Accès Peu de données (courantes) Beaucoup d’informations (historisées) But Dépend de l’application Prise de décision Temps d’exécution Court Long Mises à jour Très souvent Périodiquement 14 Pourquoi pas un SGBD ? (4) Sources : Lydie Soler, AgroTechParis 15 Caractéristiques d’un DW (1) Données orientées sujet Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données Sources : Lydie Soler, AgroTechParis 16 Caractéristiques d’un DW (2) Données intégrées Normalisation des données Définition d’un référentiel unique Sources : Lydie Soler, AgroTechParis 17 Caractéristiques d’un DW (3) Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production Sources : Lydie Soler, AgroTechParis 18 Caractéristiques d’un DW (4) Données historisées / datées Les données persistent dans le temps Mise en place d’un référentiel temps Sources : Lydie Soler, AgroTechParis 19 Caractéristiques d’un DW (5) Inconvénient : De par sa taille, le DW est rarement utilisé directement par les décideurs car il contient plus que nécessaire pour une classe de décideurs 20 Le datamart Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers Sources : Lydie Soler, AgroTechParis 21 Architecture d’un système décisionnel Sources : C. Chrisment, IRIT 22 Plus en détails… 23 Modélisation multidimensionnelle Niveau conceptuel Niveau logique Niveau physique 24 Niveau conceptuel Description de la base multidimensionnelle indépendamment des choix d'implantation Les concepts: Dimensions et hiérarchies Faits et mesures 25 Dimension (1) Axes d'analyse avec lesquels on veut faire l'analyse Géographique, temporel, produits, etc. Chaque dimension comporte un ou plusieurs attributs/membres Une dimension est tout ce qu'on utilisera pour faire nos analyses. Chaque membre de la dimension a des caractéristiques propres et est en général textuel Remarque importante : tables de dimension << Table de fait 26 Dimension (2) Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids Clé de substitution Attributs de la dimension 27 Hiérarchie (1) Les attributs/membres d'une dimension sont organisés suivant des hiérarchies Chaque membre appartient à un niveau hiérarchique (ou niveau de granularité) particulier Exemples : Dimension temporelle : jour, mois, année Dimension géographique : magasin, ville, région, pays Dimension produit : produit, catégorie, marque, etc. Attributs définissant les niveaux de granularité sont appelés paramètres Attributs informationnels liés à un paramètre sont dits attributs faibles 28 Hiérarchie (2) Hiérarchies multiples dans une dimension Année Semestre Semaine Mois Jour Pays Département Ville Client Région de ventes Secteur de ventes 29 Granularité (1) Niveau de détail de représentation Journée > heure du jour Magasin > rayonnage Choix de la granularité 30 Granularité (2) 31 Fait Sujet analysé un ensemble d'attributs appelés mesures (informations opérationnelles) les ventes (chiffre d'affaire, quantités et montants commandés, volumes des ventes, ...) les stocks (nombre d'exemplaires d'un produit en stock, ...), les ressources humaines (nombre de demandes de congés, nombre de démissions, …). Un fait représente la valeur d’une mesure, calculée ou mesurée, selon un membre de chacune des dimensions Un fait est tout ce qu'on voudra analyser. Exemple : 250 000 euros est un fait qui exprime la valeur de la mesure Coût des travaux pour le membre 2002 du niveau Année de la dimension Temps et le membre Versailles du niveau Ville de la dimension Découpage administratif. La table de fait contient les valeurs des mesures et les clés vers les tables de dimensions 32 Mesure Élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions. Ces valeurs sont le résultat d’opérations d’agrégation sur les données Exemple : Coût des travaux Nombre d’accidents Ventes … 33 Clés Tables de dimension Clé primaire Tables de fait Clé composée Clés étrangères des tables de dimension 34 Modélisation Au niveau conceptuel, il existe 2 modèles : en étoile (star schema) ou en constellation (fact constellation schema) 35 Modèle en étoile (1) Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages : Facilité de navigation Nombre de jointures limité Inconvénients : Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures 36 Modèle en étoile (2) Sources : Lydie Soler, AgroTechParis 37 Constellation (1) Série d’étoiles Fusion de plusieurs modèles en étoile qui utilisent des dimensions communes Plusieurs tables de fait et tables de dimensions, éventuellement communes 38 Constellation (2) Sources : http://gankahhwee.com 39 Niveau logique Description de la base multidimensionnelle suivant la technologie utilisée : ROLAP (Relational-OLAP) MOLAP (Multidimensional-OLAP) HOLAP (Hybrid-OLAP) 40 ROLAP (1) Les données sont stockées dans une BD relationnelle Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel Avantages : Facile à mettre en place Peu couteux Evolution facile Stockage de gros volumes Inconvénients : Moins performant lors des phases de calculs Exemple de moteur ROLAP : Mondrian 41 ROLAP (2) Sources : EPFL, Lausanne 42 MOLAP (1) Les données sont stockées comme des matrices à plusieurs dimensions : Cube[1:m,1:n,1:p](mesure) Accès direct aux données dans le cube Avantages : Rapidité Inconvénients : Difficile à mettre en place Formats souvent propriétaires Ne supporte pas de rtès gros volumes de données Exemple de moteurs MOLAP : Microsoft Analysis Services Hyperion 43 MOLAP (2) Sources : EPFL, Lausanne 44 HOLAP (1) Solution hybride entre ROLAP et MOLAP Données de base stockées dans un SGBD relationnel (tables de faits et de dimensions) + données agrégées stockées dans un cube Avantages / inconvénients : Bon compromis au niveau des coûts et des performances (les requêtes vont chercher les données dans les tables et le cube) 45 HOLAP (2) Sources : EPFL, Lausanne 46 Modélisation Au niveau logique, il existe 1 modèle : en flocon (snowflake schema) 47 Modèle en flocon (1) Modèle en étoile + normalisation des dimensions Une table de fait et des dimensions en sous-hiérarchies Un seul niveau hiérarchique par table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait (elle a la granularité la plus fine) Avantages : Normalisation des dimensions Economie d’espace disque (réduction du volume) Inconvénients : Modèle plus complexe (nombreuses jointures) Requêtes moins performantes Navigation difficile 48 Modèle en flocon (2) Sources : Lydie Soler, AgroTechParis uploads/Management/ bi.pdf

  • 17
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Mai 17, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.5171MB