Chapitre 5: Entrepôt de données et l’analyse en ligne (OLAP) 2020/2021 Entrepôt
Chapitre 5: Entrepôt de données et l’analyse en ligne (OLAP) 2020/2021 Entrepôt et OLAP Un entrepôt de données contient des données nombreuses, homogènes, exploitables, multidimensionnelles, consolidées Comment exploiter ces données à des fins d’analyse ? traditionnellement : les requêtes OLTP sont exécutées sur les données sources L’entrepôt de données est mis à jour chaque nuit les requêtes OLAP sont exécutées sur les données de l’entrepôt de données . Analyser les données d’un entrepôt de données c’est : Résumer Consolider Observer appliquer des formules statistiques synthétiser des données selon plusieurs dimensions … Objectifs L’entrepôt a pour objectif final l’analyse des données en vue de la prise de décision. Différents types d’analyse peuvent être réalisés comme des analyses statistiques ou des analyses en ligne des données. L'analyse en ligne des données consiste à naviguer dans les données. Cette analyse peut être qualifiée d’exploratoire. Le principe général est d’arriver au cours de la navigation à détecter des points intéressants que l’utilisateur essaye de décrire, d’expliquer en naviguant au sein même des données, par exemple en allant chercher davantage de détails ou en recoupant les informations. Par exemple, un utilisateur peut décider d'observer le nombre de connexion d'un mode de communication donné par pays puis décider d'analyser plus finement ce nombre de connexion selon la ville d'un pays données afin de mieux comprendre ce qui se passe au sein de ce pays. Le rôle de l’utilisateur est ici central puisque c’est lui qui réalise la navigation ; celle-ci nécessite une connaissance du domaine afin d’être en mesure de savoir si les valeurs des mesures sont intéressantes ou non. Objectifs Les qualités importantes sont l'exactitude, les données mises à jour, les données complètes, la cohérence, la traçabilité, la disponibilité et la clarté. Dans la précision, les données doivent avoir les valeurs correctes et réelles car au moment de l'ETL, les chances de valeurs manquantes sont élevées et il faut également éviter de donner une valeur non standard à tout attribut. Objectifs Les données doivent être mises à jour périodiquement et ne doivent pas contenir d'anciennes données. Les cubes de données ne doivent pas être manqués. Parce que chaque ensemble de données représente des clés primaires uniques et que toutes les valeurs doivent être stockées de haut en bas et doivent être disponibles sous forme de données complètes. La représentation des données doit être dans un agencement approprié d'une manière ordonnée où elle donne à l'utilisateur une performance de cohérence élevée. Les données doivent être facilement disponibles et accessibles à l'utilisateur à tout moment. Le pool de données doit avoir une navigation correcte sur les sources afin que l'utilisateur puisse facilement accéder à cette partie des données sans perte de temps. Les données doivent être très claires et faciles à comprendre. OLAP/OL TP OL TP(On Line T ransaction Processing) Les applications OLTP sont des applications opérationnelles (de production), constituées de traitements factuels concernant les produits, les ressources ou les clients de l’entreprise Les requêtes OLTPsont exécutées sur les données sources OLAP(On LineAnalytical Processing) Les applications OLAP sont des applications d’aide à la décision Elles sont constituées de traitements ensemblistes réduisant une population à une valeur ou un comportement. Les requêtes OLAP sont exécutées sur l’ED Le terme OLAPdésigne : L’ensemble des moyens et techniques à mettre en œuvre pour réaliser des systèmes d’aide à la décision efficaces Des traitements semi-automatiques visant à interroger, visualiser et synthétiser les données, traitements définis et mis en œuvre par les décideurs. On-Line : signifie que le processus se fait en ligne, l'utilisateur doit avoir la réponse de façon quasi-instantanée. OLAP/OLTP Navigation au sein d'un entrepôt Si un des objectifs de l’analyse en ligne est bien entendu la rapidité des temps de réponse, la richesse des possibilités d’analyse a également son importance. Cette richesse dépend du schéma de l’entrepôt et, plus particulièrement, des dimensions et de leur(s) hiérarchie(s). En effet, la navigation dans les données est conditionnée par cette organisation dimensionnelle des données. Cette navigation se fonde entre autres sur l’agrégation des données. L’agrégation des données L’agrégation des données est soutenue par le concept de hiérarchie. En effet, dans les entrepôts de données, les hiérarchies vont permettre de représenter la manière avec laquelle les données sont agrégées. La hiérarchisation des données dans les modèles multidimensionnels permet des analyses à différents niveaux de détail. Hiérarchie Classiquement, les hiérarchies sont représentées par des concepts qui sont reliés par des relations un à plusieurs. Autrement dit, une instance d’un niveau inférieur correspond à une seule instance du niveau supérieur et une instance du niveau supérieur correspond à plusieurs instances du niveau inférieur. Par exemple, dans le cas d'une dimension géographique, une ville appartient à pays, un pays contient plusieurs villes.Ainsi le niveau ville constitue le niveau inférieur et le pays le niveau supérieur dans la hiérarchie représentant notre dimension géographique. D’une façon générale, les hiérarchies correspondent à une réalité des données. Exemple d’un entrepôt de données Soit l’entrepôt en schéma en étoile le suivant : L ’hiérarchie d’une dimension Hiérarchie simple Hiérarchie multiple Analyse des données Structure de l’Entrepôt : Table de faits : ventes ( codeProduit , date , vendeur , montant ) Tables de dimension : produits ( codeProduit , modèle , couleur) vendeurs (nom, ville , département , état , pays ) temps ( jour , semaine , mois , trimestre , année ) Analyse des ventes de divers produits Quels sont les produits dont les ventes ont chuté l’an dernier ? Quelles sont les quinze meilleures ventes par magasin et par semaine durant le premier trimestre de l’année 2001 ? Quelle est la tendance des chiffres d’affaire (CA) par magasin depuis 3 ans ? Quelles prévisions peut-on faire sur les ventes d’une catégorie de produits dans les 6 mois à venir ? Problématique de l’OLAP Exécution de requêtes sur des BD de plusieurs Go Besoins spécifiques Langages de manipulation Organisation des données Fonctions d’agrégation ... Organiser les données de manière similaire aux abstractions de l’analyste Plusieurs dimensions Différents niveaux de détail Vue d’ensemble La donnée : point dans l’espace associé à des valeurs (cube OLAP) De la table … au cube Cube de données CubeOLAP OLAP: cube à N dimensions où toutes les intersections sont calculées -> accès à l’information à l’intersection souhaitées est très rapide . L’analyse multidimensionnelle utilise les structures suivantes: Composants d’un cube Dimension : Données utilisées comme contraintes (filtres) ou en- têtes dans les rapports. Des axes d’analyse contiennent un ensemble de valeurs. Temps, Produit, Géographie, ... Hiérarchies sont spécifiées sur les dimensions afin de permettre une consolidation des indicateurs. Une dimension peut être élémentaire ou bien hiérarchisée Lorsqu’elle est hiérarchisée, elle est composée d’un ensemble de niveaux Exemples : Niveau : hiérarchisation des dimensions Temps :Année, Semestre, Trimestre, Mois, Semaine, ... Produit :Rayon, Catégorie, Nature, ... graphie : Région, Département, Ville, Magasin Composants d’un cube Membres : Valeur prise par un niveau d’une hiérarchie. Exemples Produit::Branche : Alimentation, Electroménager, Produit::Branche.Catégorie : Alimentation.Légume, Produit::Branche.Catégorie.Produit : Alimentation.Légume.Carottes Cellule : intersection des membres des différentes dimensions. Chaque cellule du cube correspond à une occurrence du fait Composants d’un cube Chaque indicateur a une fonction d’agrégat afin d’être exploité sur la hiérarchie. Chaque cellule contient des indicateurs (variables, ou mesures) . Terminologie autour le cube Hiérarchiede granularité Le cubeOLAP Le traitement analytique est un type d’application informatique orienté vers l’analyse sur le champ d’informations selon plusieurs axes, dans le but d’obtenir des rapports de synthèse tels que ceux utilisés en analyse financière. Architecture OLAP L’architecture d’un OLAP est constituée de trois parties : La base de données : un support de données agrégées ou résumées possédant une structure multidimensionnelle c’est-à-dire basée sur un SGBD multidimensionnel ou relationnel. Le serveur OLAP : permet la gestion de la structure multidimensionnelle dans le SGBD et la gestion d’accès aux données de la part des utilisateurs. Le module client : permet à l’utilisateur de manipuler et d’exploiter les données, permet aussi l’affichage des données sous formes de graphiques ou de tableau. La base de données La base de données d’une architecture OLAP doit posséder une structure multidimensionnelle. Celle-ci peut être implantée à l’intérieur d’un système de gestion de base de données (SGBD) relationnel (et objet-relationnel) ou multidimensionnel. Lorsqu’un SGBD relationnel est utilisé, les données doivent être structurées selon une approche multidimensionnelle en utilisant des schémas particuliers. Il s’agit principalement des schémas en étoile et en flocon. Lorsqu’un SGBD multidimensionnel est utilisé, les données doivent être chargées dans la structure multidimensionnelle propriétaire à partir d’une base de données relationnelle ou d’un fichier texte. La base de données d’une architecture OLAP doit pouvoir supporter des données agrégées. Le serveur OLAP Le serveur OLAP est le logiciel qui gère la base de données OLAP et l’accès des utilisateurs à celle-ci. Il comprend un engin de calcul et permet habituellement à plusieurs utilisateurs concurrents d’effectuer des requêtes de type agrégatif sur la base de données. Le serveur OLAP est conçu spécifiquement pour manipuler des données structurées de façon multidimensionnelle. Le module client Le module client est un logiciel d’accès, de manipulation et d’exploration des données de uploads/Management/chapitre-5-new.pdf
Documents similaires










-
32
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 30, 2021
- Catégorie Management
- Langue French
- Taille du fichier 1.5578MB