OLAP et SOLAP Notions avancées de bases de données SIG Yvan Bédard OLAP « Il s’
OLAP et SOLAP Notions avancées de bases de données SIG Yvan Bédard OLAP « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron, 1998) OLAP Catégorie de logiciels : S’exprime par une grande quantité de produits logiciels disponibles sur le marché Exploration et analyse rapide : OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité OLAP Facilité L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes L’usager interroge directement les données, en interagissant avec celles-ci Rapidité OLAP exploite une dénormalisation maximale des données, sous la forme d’une pré-agrégation stockée L’usager devient opérationnel en très peu de temps L’usager peut se concentrer sur son analyse et non sur le processus (les moyens utilisés pour l’analyse) OLAP Approche multidimensionnelle : Basée sur des thèmes d’analyse (dimensions) Plus intuitive Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents niveaux de granularité (les regroupements sont pré- calculés, par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois). Granularité : niveau de détail des données emmagasinées dans une base de données. Vocabulaire OLAP Dimension : Une dimension peut être définie comme un thème, ou un axe (attributs), selon lequel les données seront analysées (en fonction de …) Ex. Temps, Découpage administratif, Produits Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année Vocabulaire OLAP Mesure : Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d’accidents, ventes, dépenses Vocabulaire OLAP Fait : Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre de chacune des dimensions (ex. ce qui est recueilli par les systèmes transactionnels). Ex. « le coût des travaux en 1995 pour la région 02 est 250 000 $ » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 1995 » du niveau « année » de la dimension « temps » et le membre « 02 » du niveau « région » de la dimension « découpage administratif ». Vocabulaire OLAP Cube : Un ensemble de mesures organisées selon un ensemble de dimensions (aussi hypercube) Ex. Un cube de ventes qui comprend : Les dimensions Temps, Produit, Magasin La mesure Ventes en $ Cube multidimensionnel Ce cube multidimensionnel présente les profits d’entreprises agricoles par propriété, par exploitation et par année. Cas 1: visualisation des profits des propriétés > = 0.05 km2 pour toutes les exploitations durant les 4 années. Cas 2: visualisation des profits des propriétés >= 1.5 km2 pour l’exploitation de légumes pour l’année 1993. Composantes OLAP L’architecture OLAP consiste en trois services : Base de données : Doit supporter les données agrégées ou résumées Peut provenir d’un entrepôt ou d’un marché de données* Doit posséder une structure multidimensionnelle (SGDB multidimensionnel ou relationnel) Serveur OLAP : Gère la structure multidimensionnelle dans le SGBD Gère l’accès aux données de la part des usagers Module client : Permet aux usagers de manipuler et d’explorer les données Affiche les données sous forme de graphiques statistiques et de tableaux Selon le type de base de données accédé, plusieurs configurations sont possibles : multidimensionnelle, relationnelle ou hybride MOLAP (OLAP Multidimensionnel) Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube) Une base de données multidimensionnelle utilise une structure propriétaire au logiciel utilisé (≈ matrice) Le serveur MOLAP extrait les données de l’hypercube et les présente directement au module client MOLAP (OLAP Multidimensionnel) Base de données multidimensionnelle (hypercube) Serveur MOLAP Client OLAP ROLAP (OLAP Relationnel) Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées sous forme de tables dans une base de données relationnelle La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, …) Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client ROLAP (OLAP Relationnel) Base de données relationnelle (étoile ou flocon) Serveur ROLAP Vue multidimensionnelle Client OLAP HOLAP (OLAP Hybride) Architecture qui consiste en un croisement des architectures MOLAP et ROLAP Les données détaillées de base de l’entrepôt sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle dans le cas des données de la BD relationnelle HOLAP (OLAP Hybride) BD relationnelle MOLAP HOLAP MOLAP vs ROLAP vs HOLAP Critère de comparaison ROLAP Stockage des données de base (détaillées) BD relationnelle BD multidimensionnelle BD relationnelle Stockage des agrégations BD multidimensionnelle BD multidimensionnelle Performance des requêtes (habituellement) Le moins performant Le plus performant Performance moyenne Structure multidimensionnelle Pour une configuration ROLAP ou HOLAP, il est nécessaire de simuler une structure multidimensionnelle dans un SGBD relationnel à l’aide de modèles particuliers qui permettent de mieux répondre aux besoins multidimensionnels : – Modèle en étoile (Star Schema) – Modèle en flocon (Snowflake Schema) – Modèle mixte (Mixed Schema) – Modèle en constellation (Fact Constellation Schema) Modèle en étoile Le schéma en étoile tire son nom de sa configuration: Objet central, nommé table des faits Connecté à un certain nombre d’objets de manière radiale, les tables de dimension La table des faits, comme son nom l’indique, contient les faits Les tables de dimensions contiennent les attributs définissant chacun des membres des dimensions. Elles sont dénormalisées. Modèle en étoile Un niveau= 1 couple (id +nom) 3 niveau= 3 couples (id +nom) Un niveau= 1 identifiant Modèle en étoile DIMENSION 1 DIMENSION 5 DIMENSION 3 DIMENSION 2 DIMENSION 4 FAITS Mesures DIMENSION N Modèle en flocon Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées (la table des faits reste inchangée) Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s) Modèle en flocon Modèle en flocon Modèle mixte Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de modèles précédents – Seules quelques dimensions seront normalisées, souvent il s’agit des plus grandes tables et celles contenant le plus de redondance Modèle mixte Modèle en constellation Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension Modèle en constellation Modèle en constellation Opérations OLAP Les outils OLAP utilisent des opérateurs particuliers afin de « naviguer » dans les cubes multidimensionnels : – Pivoter (pivot, swap) : Permet d’interchanger deux dimensions – Forer (drilldown) : Permet de descendre dans la hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par mois au lieu de par année. – Remonter (drillup, rollup) : Permet de remonter dans la hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par année au lieu de par mois. – Forer latéralement (drillacross) : – Permet de passer d’une mesure à l’autre. Ex. visualiser le coût des travaux au lieu du nombre d’accidents – Permet de passer d’un membre de dimension à un autre. Ex. visualiser les données de Montréal au lieu de celles de Québec OLTP vs OLAP OLTP (On-line transaction processing) OLAP (On-line analytical processing) ♦ Priorité à la sécurité et l’intégrité des données. ♦ Optimisation du rapport “espace de stockage vs. quantité de données” (non-redondance des données). ♦ BD mise à jour fréquemment (transactions). ♦ Priorité à l’analyse et l’exploration des données ♦ Optimisation du temps de réponse aux requêtes (redondance encouragée s’il y a gain de performance) ♦ Gestion de données pré-agrégées, en mode lecture (mise à jour contrôlée) OLTP vs OLAP OLTP (On-line transaction processing) OLAP (On-line analytical processing) ♦ Outil de requête tributaire de la structure de données (un usager doit connaître la structure de la base de données pour l’interroger efficacement). ♦ Requêtes “non-agrégatives” i.e. visitent peu d’enregistrements, mais mettent à contribution les techniques d’indexation pour retourner un nombre relativement restreint d’enregistrements répondant à certains critères. ♦ Absence d’outil de requête i.e. l’usager interagit directement avec les données ♦ Requêtes principalement du type “agrégatif” i.e. calculs de totaux, variance, maxima et minima, etc… SOLAP SOLAP Environ 80% des données ont une composante spatiale qui est souvent inexploitée Besoin de nouveaux outils d’analyse spatio- temporelle pour exploiter cette composante 123, rue St-Jean Québec G1K 7P4 Route 138 Amérique du Nord Sainte-Foy SOLAP SIG ? : Il est bien connu que les SIG seuls ne présentent pas l’efficacité requise par les applications analytiques (langages d’interrogation, interfaces complexes, temps de traitement longs) OLAP uploads/Management/ olap-et-solap-complet-avec-explication-ppt-univ-laval.pdf
Documents similaires










-
59
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 15, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.9823MB