Bases de Données Avancées DataWareHouse et NoSQL Introduction Thierry Hamon Bur

Bases de Données Avancées DataWareHouse et NoSQL Introduction Thierry Hamon Bureau H202 Institut Galil￿e - Universit￿Paris 13 & LIMSI-CNRS hamon@limsi.fr https://perso.limsi.fr/hamon/Teaching/P13/BDA-INFO2-2018-2019/ INFO2 – BDA 1/69 Sources des transparents F. Boufares, LIPN, Université Paris Nord P. Marcel, LI, Université de Tours Bernard Espinasse, Ecole Polytechnique Universitaire de Marseille Melanie Herschel, Université Paris Sud 2/69 Introduction Quelle quantité d’information ? sous quelle forme ? Il y a plus de 15 ans ! en 2000 : entre 1 et 2 ExaOctets par année (1 Eo = 220 To) 90% électronique taux de croissance annuel de 50 % en 2003 : 5 Eo en 2002, 92% électronique Lyman&Varian, 2003 (http://groups.ischool.berkeley.edu/archive/ how-much-info-2003/execsum.htm) Comment accèder à ces données, tirer partie de ces données ? →Les bases de données ne suffisent plus 3/69 BD →ED Des bases de données aux Entrepôts de données 4/69 BD →ED Introduction Avant les entrepôts de données/Data Warehouses La majeure partie des applications Bases de Données reposent aujourd’hui sur trois couches : La couche la plus externe est celle de qui permet de présenter les données aux utilisateurs. Elle est appelée Graphical User Interfaces GUI. La couche application intermédiaire inclut le programme de l’application Elle ne stocke pas les données. La couche la plus interne gère le stockage des données. Elle est appelée la couche Base de Données. 5/69 BD →ED Introduction BD1 Graphical User Interfaces GUI GUI Couche Présentation BD2 Ressources externes (file system, ftp, www, ...) Decision support System OLTP Application OLTP Application Couche Application Couche Base de Données Insert, Update, Delete Read, Select 6/69 BD →ED Introduction Les applications interrogent les données avec, par exemple, le langage SQL (Select) et les mettent à jour par l’intermédiaire des opérations Insert, Update et Delete qui constituent des transactions. Celles-ci doivent avoir certaines propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité) Ce type d’application est appelé On-Line Transaction Processing OLTP. 7/69 BD →ED Introduction Données volumineuses & Besoins nouveaux Vers les entrepôts de données →Systèmes d’Information Décisionnel Systèmes d’Aide à la Décision (DSS) : Rapports, Etats, Tableaux de Bord, Graphiques, Synthèses, Groupement, Agrégat, Résumé ... (Reporting Tools, Management Information System, Executive Information System, Decision Support System DSS) 8/69 BD →ED Introduction Vers les entrepôts de données Remarques Contrairement aux applications OLTP, qui consultent et mettent à jour les données des BD opérationnelles, les DSS lisent les données seulement pour avoir de nouvelles informations à partir des données sources Bénéfice de cette approche : seules les BD opérationnelles ont à être créées et maintenues Un ensemble de méta-données est utilisés pour les 2 systèmes. Les DSS ne nécessitent que des travaux supplémentaires mineurs. 9/69 BD →ED Introduction Vers les entrepôts de données Remarques Cependant, il y a plusieurs désavantages : (quand le DSS et les application OLTP se partagent les mêmes BD) Un DSS ne peut utiliser que les données actuellement stockées dans les BD les analyses historiques sont donc souvent impossibles à cause des opérations de mises à jour qui changent les données historiques L’utilisation des BD en mode multi-utilisateurs ce qui implique des opérations de verrouillage des données (Locking operations) et donc des problèmes de performance car les requêtes analytiques demandent l’accès à de très grands nombre de tuples. 10/69 BD →ED Introduction La solution est de séparer la BD orientée Transaction de la BD orientée Aide à la Décision d’où la naissance du concept Entrepôt de Données = Data Warehouse. Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) 11/69 BD →ED Introduction Définition rapide d’un Data Warehouse Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles, historisées, organisées pour le support d’un processus d’aide à la décision Un système de DWH peut être formellement défini comme un triplet <BD cible, méta-données, un ensemble d'opérations> L’ensemble des opérations associées peut être présenté en 4 catégories (ETL, Agrégation et Groupement) 12/69 BD →ED Architecture des DWHs OLAP BD opérationnelles Sources externes Méta−données Entrepot de données Intégrer Maintenir Extraire Nettoyer Transformer Charger (Load) Rafraichir Utiliser 13/69 BD →ED Introduction Le DWH intègre des données à partir de sources multiples et hétérogènes afin de répondre aux requêtes du système d’aide à la décision. Ce type d’application est appelé On-Line Analytical Processing OLAP OLAP permet la transformation des données en informations stratégiques 14/69 BD →ED Nouveaux concepts/nouvelle perspective Entrepôt de données récolte, stockage et gestion efficace des gros volumes de données OLAP requêtes interactives complexes sur ces volumes Data mining (fouille de données) extraction automatique de propriétés cachées données →information →connaissances 15/69 BD →ED Analyse OLAP (On-Line Analytical processing) Techniques OLAP : apparition en recherche dans les années 70 mais développement dans les années 90 dans l’industrie Réalisation de synthèses, d’analyses et de la consolidation dynamique de données multidimensionnelles Manière la plus naturelle d’exploiter un ED étant donné son organisation multidimensionnelle 16/69 BD vs. DWH Introduction : Comparaison Pourquoi pas des SGBDs pour les entrepôts de données ? les 2 systèmes sont performants SGBD : calibré pour l’OLTP ; méthodes d’accès index, contrôle de concurrence, reprise Entrepôt : calibré pour l’OLAP ; requêtes OLAP complexes, vue dimensionnelle, consolidation Fonctions et données différentes Données manquantes : l’aide à la décision (AD) a besoin des données historiques qui ne se trouvent pas dans les BD opérationnelles Consolidation : l’AD a besoin de données consolidées (agrégats) alors qu’elles sont brutes dans les BD opérationnelles 17/69 BD vs. DWH Introduction : Comparaison SGBD hétérogènes vs. Entrepôts de données Traditionnellement, l’intégration de BD hétérogènes se fait par le biais de Wrappers/médiateurs au dessus des BD hétérogènes Approches orientées requêtes Quand une requête est posée sur un site client, un métadictionnaire est utilisé pour la traduire en plusieurs requêtes appropriées à chacune des BD. Le résultat est l’intégration de réponses partielles L’exécution des requêtes demande donc beaucoup de ressources Entrepôts de données : approche orientée mise à jour les informations sont intégrées et stockées pour une interrogation directe Plus efficace en coût d’exécution des requêtes 18/69 BD vs. DWH Introduction : Comparaison BD opérationnelle vs. Entrepôts de données OLTP (On-Line Transaction Processing) Exécution en temps réel des transactions, pour l’enregistrement des opérations quotidiennes : inventaires, commandes, paye, comptabilité Par opposition au traitement en batch OLAP (On-Line Analytical Processing) Traitement efficace des requêtes d’analyse pour la prise de décision qui sont par défaut assez complexes (bien qu’a priori, elles peuvent être réalisées par les SGBD classiques) 19/69 BD vs. DWH Introduction : Comparaison BD opérationnelle vs. Data Warehouse : OLTP vs. OLAP Données : courantes, détaillées vs. historiques, consolidées Conception : modèle ER + application vs. modèle en étoile + sujet Vues : courantes, locales vs. évolutive, intégrée Mode d’accès : mise à jour vs. lecture seule mais requêtes complexes 20/69 BD vs. DWH Architecture du DWH Architecture Multi-tiers MVS (TSO, DB2 ...) DataWareHouse UNIX (Oracle, ...) Windows (SQL Server, Excel, ...) Dictionnaire de Méta−données Applications en production Oracle 9i (Olap) Oracle Express Data select (requetes) Business Objects (rapports, analyses) SAS (Datamining) Data Marts OLAP SERVER Outils Front−End Controle et chargement des données OLAP T(ransform) L(oad) E(xtract)             21/69 BD vs. DWH Conception logique des DWHs Données multidimentionnelles Montant des ventes comme une fonction des paramètres produits, mois, région Dimensions : Produit, Lieu, Temps Catégorie Chemins de consolidation hiérarchiques Produit Mois Région Industrie Produit Pays Ville Magasin Année Jour Semaine Mois Trimestre Région 22/69 Applications Domaines d’application Ceux de l’informatique décisionnelle (Business Intelligence) pour aider atteindre les objectifs stratégiques d’une entreprise et faciliter son pilotage avoir une connaissance plus approfondie de l’entreprise anticiper les besoins clients prendre en compte les nouveaux canaux de distribution (vente en ligne, etc.) 23/69 Applications Domaines d’application Informatique décisionnelle Entrepôt de données Outils de veille stratégique et de recueil d’information (intelligence économique) Aide aux décideurs pour prendre les bonnes décisions sur la base des données disponibles Exemples : Quels sont les 5 produits les plus vendus pour chaque sous-catégorie de produits qui représente plus de 20% des ventes dans sa catégorie de produits ? Quelle est la priorité d’expédition et quel est le revenu brut potentiel des commandes de livres qui ont les 10 plus grandes recettes brutes parmi les commandes qui n’avaient pas encore été expédiées ? 24/69 Applications Applications Commerce, finance, transport, télécommunications, santé, services, ... gestion de la relation client gestion des commandes, des stocks prévisions de ventes définition de profil utilisateur analyse de transactions bancaires détection de fraudes ... 25/69 Applications Principales applications autour d’un ED Réalisation de rapports divers (Reporting) Réalisation de tableaux de bords (Dashboards) Fouille de données (Data Mining) Visualisations autour d’un ED (visualizations) ... 26/69 Applications Exemple d’application Domaine bancaire Un des premiers utilisateurs des ED Regroupement des informations relatives à un client pour une demande de crédit Lors de la commercialisation d’un nouveau produit : Mailing ciblés rapidement élaborés à partir de toutes les informations disponibles sur un client Recherche de fraudes sur les cartes de crédit : Mémorisation des mouvements et contrôles a posteriori, pour détecter les comportements suspects Échanges d’actions et de conseils de courtages Déterminer des tendances de marchés uploads/Litterature/coursbda4-dwh 1 .pdf

  • 36
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager