1 Entrepôts de données et OLAP Anne Doucet anne.doucet@lip6.fr 2 Entrepôt de do
1 Entrepôts de données et OLAP Anne Doucet anne.doucet@lip6.fr 2 Entrepôt de données (Datawarehouse) Collection d’informations provenant de sources diverses (bases de données existantes), destinées à servir de support en vue de l'aide à la décision (Decision Support System, OLAP, Datamining). Cette BD pour l’aide à la décision est séparée des bases de données opérationnelles. Les données sont extraites, regroupées (agrégées), corrélées avec d'autres informations, transformées, filtrées, de façon à obtenir un système informationnel à partir de systèmes opérationnels. L’entrepôt de données est un système transversal, qui complète les systèmes opérationnels. Marché mondial en pleine expansion (source IDC, 1996, en milliard de US$): 1993 : 0.8 1994 : 1.1 1996 : 2.0 1998: 3.7 2000: 5.6 3 Motivations • Réconciliation sémantique – Dispersion des sources de données au sein d’une entreprise – Différents codage pour les mêmes données – L’entrepôt rassemble toutes les informations au sein d’un unique schéma – Conserve l’historique des données • Performance – Les données d’aide à la décision nécessitent une autre organisation des données – Les requêtes complexes de l’OLAP dégradent les performances des requêtes OLTP. • Disponibilité – La séparation augmente la disponibilité – Une bonne façon d’interroger des sources de données dispersées • Qualité des données 4 Bases de données/Entrepôts (1) Les SGBD sont des systèmes conçus pour l'OLTP (On-Line Transaction Processing). Permet d'insérer, modifier, interroger des informations rapidement, efficacement, en sécurité. Deux objectifs principaux : - ajouter, retrouver et supprimer des enregistrements repérés par une clef "rechercher une aiguille dans une botte de foin" - ces opérations doivent pouvoir être effectuées très rapidement, et par de nombreux utilisateurs simultanément. Les systèmes OLTP sont mal adaptés à l'analyse de données. 5 Bases de données/Entrepôts (2) Les entrepôts sont des systèmes conçus pour l’aide à la prise de décision. Les objectifs principaux sont regrouper, organiser, coordonner des informations provenant de sources diverses, les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier, retrouver et analyser l’information facilement et rapidement. Questions typiques : Quels sont les produits qui se vendent le mieux dans chaque région, et quel est l’impact des données démographiques sur ces résultats de vente ? 6 Bases de Données/Entrepôts (3) BD- OLTP Entrepôts Objectif collecte de données consultation et analyse opérations au jour le jour Utilisateurs un département (Employé) transversal (Gestionnaire) Types de données données de gestion données d’analyse (données courantes) (données historiques) Informations détaillées détaillées + agrégées Opérations requêtes simples, pré-déterminées requêtes complexes, ad-hoc sélections et mises à jour sélections nombreuses transactions peu de transactions transactions courtes transactions longues temps réel batch recherche d'enregistrements détaillés agrégations et group by n-uplets accédés dizaines millions 7 Bases de données/Entrepôts(4) Un entrepôt recouvre un horizon bien plus long dans le temps que les systèmes de production. Il inclut de nombreuses bases de données «travaillées» de façon à définir les données uniformément. Il est optimisé pour répondre à des questions complexes pour décideurs et analystes. 8 Bases de données/Entrepôts(5) Les entrepôts sont physiquement séparés des systèmes de production, pour des raisons de Performance : les données des systèmes de production ne sont pas organisées pour pouvoir répondre efficacement aux requêtes des systèmes d’aide à la décision. Même les requêtes simples peuvent dégrader sérieusement les performances. Accès aux données: un entrepôtdoit pouvoir accéder aux données uniformément, quelle que soit la provenance des données. Formats des données: les données des entrepôts sont transformées, et doivent être disponibles sous un format simple et unique. Qualité des données: les données d’un entrepôt sont propres et validées. La qualité des données est vue au sens large du décisionnel, et ne peut être réalisée qu’après comparaison avec d’autres éléments. 9 Caractéristiques Dans un entrepôt, les données sont • orientées par sujets : Les données organisées par sujet (clients, vendeurs, production,etc.) contiennent seulement l'information utile à la prise de décision. Les systèmes opérationnels sont plutôt orientés autour des traitements et des fonctions. • intégrées : Les données, provenant de différentes sources (systèmes légués) sont souvent structurées et codées de façons différentes. L'intégration permet d'avoir une représentation uniforme, cohérente et transparente. Lorsque les données sont agrégées, il faut s’assurer que l’intégration est correcte. • historiques : Un entrepôt contient des données "anciennes", datant de plusieurs années, utilisées pour des comparaisons, des prévisions, etc. • non volatiles : Une fois chargées dans l’entrepôt, les données ne sont plus modifiables. Elles sont uniquement accessibles en lecture (pour l'instant...). 10 Fonctions des entrepôts • Récupérer les données existantes des différentes sources • Référencer les données de manière uniforme • Stocker les données (notamment historisées) • Mettre à disposition les données pour : •interrogation •visualisation •analyse 11 Structure des données Un entrepôt de données contient 5 types de données : fortement résumées faiblement résumées données courantes données anciennes M E T A D O N N E E S 12 Structure des données Données de détail courantes: reflètent les faits les plus récents (les plus intéressants). sont généralement stockées sur le disque ==> accès rapide. peuvent devenir volumineuses (si on a un bas niveau de granularité). peuvent être une copie (réplique) des données de la transaction de chargement. Données de détail anciennes : même niveau de détail que le précédent stockées sur mémoire de masse ==> accès moins rapide peu souvent interrogées 13 Structure de données Données faiblement résumées : structurées autour du plus faible niveau de détail des données courantes. généralement stockées sur le disque. doivent permettre de répondre rapidement aux questions standards des systèmes d’aide à la décision. choix des attributs à résumer ? fréquence des mises à jour ? Données fortement résumées : doivent être compactes et facilement accessibles. 14 Métadonnées • Les métadonnées jouent un rôle central dans l'alimentation de l’entrepôt. • Ce sont les "données sur les données". • Elles sont utilisées lors de l'extraction, l'agrégation, la transformation, le filtrage et le transfert des données. •Le méta-modèle constitue le référentiel unique: • utilisateurs, profils et droits • applications • modèles de données, structure des données • règles d'agrégation et de calcul 15 Architecture datawarehouse datamart datamart datamart olap données de production (y.c. Systèmes légués) données externes (connaissances, règles) META-MODELES 16 Architecture datamart datamart DWH Analyse Requêteur tableau de bord Dictionnaires META MODELES extraire intégrer agréger calculer 17 Architecture à 3 niveaux • Serveur de la BD de l’entrepôt – Presque toujours relationnel • Data marts /serveur OLAP – Relationnel (ROLAP) – Multidimensionnel (MOLAP) • Clients – Outils d’interrogation et de rapports – Outils d’analyse et d’aide à la décision 18 Conception • Deux approches: – Global as View : intégrer des schémas existants en un schéma global • Préintégration : quels schémas intégrer, dans quel ordre, quel modèle choisir, … • Comparaison de schémas : déterminer les corrélations, les conflits, etc. • Résolution de conflits de schémas hétérogènes • Fusion et restructuration – Local as View : processus inverse, les schémas sources sont exprimés comme des vues sur un schéma central. 19 Pré-intégration Hétérogénéité des modèles de données : trouver un modèle commun, et traduire les schémas dans ce modèle. - l’orienté objet, modèle le plus riche sémantiquement, rend l’intégration complexe à cause des différents choix de modélisation des concepteurs. - des modèles très simples, avec un minimum de sémantique (pas d’alternative de modélisation), qui facilitent l’intégration. Hétérogénéité des puissances d’expression : certains modèles, pauvres sémantiquement, conduisent à des ambiguïtés sur l’interprétation du schéma (ex: fichiers, modèle relationnel). On peut utiliser la rétro-ingéniérie, qui permet de distinguer dans une relation les objets, les attributs, les associations, les liens de généralisation /spécialisation. En général, les BD à intégrer sont hétérogènes. Pour l’intégration, trois problèmes se posent: 20 Pré-intégration Hétérogénéité des modélisations: le processus de modélisation n’est pas déterministe. On peut réduire les différences en imposant des règles de modélisation, et des règles de normalisation. Pour les modèles objet, on a des règles de normalisation syntaxique. (ex : un type avec attribut optionnel doit être remplacé par une structure supertype/sous-type, le sous-type contenant cet attribut). Les règles de normalisation sémantique visent à enrichir la sémantique du schéma (ex: s’il existe une dépendance entre deux attributs A et B de même type, et si A n’est pas une clé, remplacer ces attributs par un tuple composé de A et B). Manque de maturité. 21 Identification des correspondances Identifier les éléments communs des bases existantes : considérer ce qui est représenté, plutôt que comment c’est représenté. Pour définir une assertion de correspondance inter-schéma (définition intentionnelle d’une correspondance), il faut - établir les éléments en correspondance - voir comment leurs extensions potentielles sont liées (équivalence, inclusion, disjonction, intersection des ensembles) - déterminer comment identifier les instances en correspondance - savoir comment les représentations sont liées. Il faut s’assurer ensuite que l’ensemble d’assertions est cohérent et minimum. 22 Intégration Classification : les populations du monde réel représentées par les deux types sont différentes. Structure : les concepts utilisés pour décrire les types sont différents. Description : les types ont des ensembles différents de propriétés. Hétérogénéité : les modèles de données utilisés sont différents. Données : des instances en correspondance ont des valeurs différentes pour des uploads/Management/ dw-olap.pdf
Documents similaires
-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 11, 2022
- Catégorie Management
- Langue French
- Taille du fichier 1.1566MB