OLAP - Bernard ESPINASSE 1 Entrepôts de données et analyse en ligne OLAP (On-Li

OLAP - Bernard ESPINASSE 1 Entrepôts de données et analyse en ligne OLAP (On-Line Analytical Processing) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Mars 2021 • Introduction et problématique de l’OLAP • Opérations élémentaires OLAP OLAP - Bernard ESPINASSE 2 1. Introduction et problématique de l’OLAP § Entrepôt et OLAP § OLAP versus OLTP § Exemple d’analyses d’un entrepôt § Problématique de l’OLAP 2. Opérations élémentaires OLAP § Catégories d’opérations OLAP § Opérations de restructuration : rotate, switch, split, nest, push, pull § Opérations de granularité : roll-up, drill-down § Opérations ensemblistes : slide, dice, jointure(drill-across), data cube § Modèles et langages pour l’OLAP OLAP - Bernard ESPINASSE 3 Ouvrages : § Benitez-Guerrero E., C. Collet, M. Adiba, « Entrepôts de données : Synthèse et analyse », Rapport de recherche IMAG N°IMAG-RR - 99-1017-I, 1999. § Franco J-M., « Le Data Warehouse (Le Data Mining) ». Ed. Eyrolles, Paris, 1997. ISBN 2-212-08956-2 § Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, 1999, ISBN 2-212-09069-2. § Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann Publishers, 2004. § Kimball R., M. Ross, « Entrepôts de données : guide pratique de modélisation dimensionnelle », 2°édition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1. § … Cours : § Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2 § Cours de P. Marcel, Univ. de Tours § Cours de G. Gardarin, Univ. de Versailles § Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble § … OLAP - Bernard ESPINASSE 4 1 1 1 – – – I I In n nt t tr r ro o od d du u uc c ct t ti i io o on n n e e et t t p p pr r ro o ob b bl l lé é ém m ma a at t ti i iq q qu u ue e e d d de e e l l l’ ’ ’O O OL L LA A AP P P § Entrepôt et OLAP § OLAP versus OLTP § Exemple d’analyses d’un entrepôt § Problématique de l’OPAL OLAP - Bernard ESPINASSE 5 § un entrepôt de données (ED) contient des données nombreuses, homogènes, exploitables, multidimensionnelles, consolidées § comment exploiter ces données à des fins d’analyse ? § traditionnellement : les requêtes OLTP sont exécutées sur les données sources § l’ED est mis à jour chaque nuit § les requêtes OLAP sont exécutées sur les données de l’ED § analyser les données d’un ED c’est : § résumer § consolider § observer § appliquer des formules statistiques § synthétiser des données selon plusieurs dimensions § … OLAP - Bernard ESPINASSE 6 OLTP (On Line Transaction Processing) : § Les applications OLTP sont des applications opérationnelles (de production), constituées de traitements factuels concernant les produits, les ressources ou les clients de l’entreprise § Les requêtes OLTP sont exécutées sur les données sources OLAP (On Line Analytical Processing) : § Les applications OLAP sont des applications d’aide à la décision § Elles sont constituées de traitements ensemblistes réduisant une population à une valeur ou un comportement. § Les requêtes OLAP sont exécutées sur l’ED Le terme OLAP désigne : § L’ensemble des moyens et techniques à mettre en œuvre pour réaliser des systèmes d’aide à la décision efficaces § Des traitements semi-automatiques visant à interroger, visualiser et synthétiser les données, traitements définis et mis en œuvre par les décideurs § On-Line :signifie que le processus se fait en ligne, l'utilisateur doit avoir la réponse de façon quasi-instantanée OLAP - Bernard ESPINASSE 7 Caractéristiques OLTP OLAP Conception Orientation Transaction Analyse Conception Entité-Relation Etoile/flocon Données Granularité Détail Résumées, agrégées Nature Relationnelle Multidimentionnelle Actualisation Actualisées, mises à jour Historisées, recalculées Taille 100 Mo/Go 100 Go/To Traitements Unité de travail Transaction simple Requête complexe Accés Lecture/écriture Lecture Nb de tuples accédés Dizaines Millions Métrique Débit de transactions Temps de réponse Utilisateurs Utilisateur Agent opérationnel Analyste/décideur Nombre d’utilisateurs Milliers Centaines OLAP - Bernard ESPINASSE 8 Soit l’entrepôt en schéma étoile suivant : § ventes(codeProduit, date, vendeur, montant) (table faits) § produits(codeProduit, modèle, couleur) (table dimension) § vendeurs(nom, ville, département, état, pays) (table dimension) § temps(jour, semaine, mois, trimestre, année) (table dimension) OLAP - Bernard ESPINASSE 9 Hiérarchies des dimensions : • Dimension « temps» : § H1 : jour -> mois -> année ; § H2 : jour -> mois -> trimestre -> année ; § H3 : jour -> semaine -> année ; • Dimension « géographie » : § H1 : vendeur -> ville -> département -> pays § H2 : vendeur -> ville -> état -> pays • Dimension « produit » : aucune hiérarchie spécifique Selon une notation plus explicite : Nom Jours Montant VENTES fact dimensions measures TEMPS PRODUITS VENDEURS Modèle codeProduit Couleur Ville Etat Pays Mois Trimestre Année Semaine Département OLAP - Bernard ESPINASSE 10 Analyse des ventes de divers produits Exemple de questions associées : § Quels sont les produits dont les ventes ont chuté l’an dernier? § Quelles sont les quinze meilleures ventes par magasin et par semaine durant le premier trimestre de l’année 2001? § Quelle est la tendance des chiffres d’affaire (CA) par magasin depuis 3 ans? § Quelles prévisions peut-on faire sur les ventes d’une catégorie de produits dans les 6 mois à venir ? OLAP - Bernard ESPINASSE 11 ð Analyse des ventes de divers produits : SELECT modele, SUM(montant) FROM ventes, produits WHERE ventes.codeProduit = produits.codeProduit GROUP BY modele ; OLAP - Bernard ESPINASSE 12 ð Les ventes de vis sont plus faibles que prévu... quelles couleurs sont-elles responsables ? SELECT couleur, SUM(montant) FROM ventes, produits WHERE ventes.codeProduit = produits.codeProduit AND modele = “vis” GROUP BY couleur ; OLAP - Bernard ESPINASSE 13 ð Les ventes de vis sont plus faibles que prévu... quelles années sont-elles responsables ? SELECT couleur, annees, SUM(montant) FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND modele = “vis” GROUP BY couleur, annees ; OLAP - Bernard ESPINASSE 14 ð Les ventes de vis sont plus faibles que prévu... Quels trimestres sont-ils responsables ? SELECT couleur, trimestre, SUM(montant) FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND modele = “vis” GROUP BY couleur, trimestre ; OLAP - Bernard ESPINASSE 15 ð Les ventes de vis sont plus faibles que prévu... Quels vendeurs sont-ils responsables ? SELECT vendeur, somme FROM( SELECT trimestre, vendeur, SUM(montant) as somme FROM ventes, produits, temps, vendeur WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND ventes.vendeur = vendeurs.nom AND modele = “vis” GROUP BY trimestre, vendeur) WHERE trimestre = “jui-sep”; OLAP - Bernard ESPINASSE 16 ð Quels sont les résultats cumulés des vendeurs par mois ? SELECT vendeur, mois, CSUM(resultat,vendeur,mois) as cumul FROM ( SELECT vendeur, mois, Sum(montant) as resultat FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND modele = “vis” AND couleur = “rose” GROUP BY mois, vendeurs) ORDER BY mois ; ð Quelle est l’évolution de la moyenne des ventes pour une fenêtre de 2 jours ? SELECT date, montant, MAVG(montant,2,date) as moy FROM ventes, temps WHERE ventes.date = temps.jour AND annee = 2001 ORDER BY date ; OLAP - Bernard ESPINASSE 17 § Supporter des opérations “tableur” sur des BD de plusieurs Go (Chaudhuri et Dayal 97) § Besoins spécifiques : § langages de manipulation § organisation des données § fonctions d’agrégation § … § Organisation des données proche des abstractions de l’analyste : § selon plusieurs dimensions § selon différents niveaux de détail § en ensemble § donnée = point dans l’espace associé à des valeurs OLAP - Bernard ESPINASSE 18 De la table … … au cube Table Ventes : VENTES pièces Régions Années quantités écrous est 1999 50 clous est 1997 100 vis ouest 1998 50 … … … … écrous est total 220 … … … … écrous total total 390 … … … … total total total 1200 (pièce, région, année) ® quantité Cube Ventes : 30 60 50 40 50 10 60 10 40 20 60 30 20 50 70 100 50 70 régions est ouest sud nord vis clous écrous 1999 1998 1997 années pièces 60 40 40 OLAP - Bernard ESPINASSE 19 OLAP - Bernard ESPINASSE 20 Terme Valeur Cube Ventes Cellule ecrous, est, 1997, 100 Référence ecrous, est, 1997 mesure 100 Membre/paramètre est dimension lieu niveau région 30 60 50 40 50 10 60 10 40 20 60 30 20 50 70 100 50 70 régions est ouest sud nord vis clous écrous 1999 1998 1997 années pièces 60 40 40 OLAP - Bernard ESPINASSE 21 2 2 2 – – – O O Op p pé é ér r ra a at t ti i io o on n ns s s é é él l lé é ém m me e en n nt t ta a ai i ir r re e es s s O O OL L LA A AP P P § uploads/Marketing/3-olap-4p.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Sep 01, 2021
  • Catégorie Marketing
  • Langue French
  • Taille du fichier 3.0946MB