17/03/2017 1 T 1 O. Boussaid, 2017 - Les Entrepôts de données avancés Partie 2
17/03/2017 1 T 1 O. Boussaid, 2017 - Les Entrepôts de données avancés Partie 2 Pr Omar Boussaïd 2016-2017 T 2 O. Boussaid, 2017 - LE PROCESSUS D'ENTREPOSAGE DES DONNÉES (DATA WAREHOUSING) a) Les différentes phases ØModélisation ØETL ØAnalyse en ligne ØAdministration b) Modélisation 1) Concepts de bases : Faits ; Dimensions et différents types 2) Modèles multidimensionnels : étoile ; flocons de neige ; constellation 3) Les hiérarchies 4) Estimer le volume d’un ED 5) Modèles logiques : ROLAP ; MOLAP ; HOLAP 6) Administration : rôles et responsabilités c) Le processus d’ETL 1) Sélection et extraction de données 2) T ransformation de données 3) Alimentation d'un ED 4) Administration d'un ED 17/03/2017 2 T 3 O. Boussaid, 2017 - Phase ETL E T L Bases de production Phase Structuration Entrepôt de données Méta données Data Marts OLAP Phase OLAP OLAP Reporting Data Mining Analyses statistiques Administrateur Le Processus d’entreposage des données T 4 O. Boussaid, 2017 - Il s'agit de définir la finalité de l'ED : ♠Cibler l'activité de l'entreprise à piloter ;; ♠Déterminer et recenser les données à entreposer ;; ♠Définir les aspects techniques de la réalisation ;; ♠Modèle de données ;; ♠Définir des démarches d'alimentation ;; ♠Arrêter des stratégies d'administration ;; ♠Définir des espaces d'analyse ;; ♠Choisir un mode de restitution… vPhase STRUCTURATION Le Processus d’entreposage des données 17/03/2017 3 T 5 O. Boussaid, 2017 - Travail technique. ♠Extraction des données des différentes sources de production (sources de données internes ou externes) ♠Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées ♠Techniques d'alimentation: ûChargement des données dans l'ED ;; ûFréquences de rafraîchissement : ü par des applications sur les sources de données et l'ED ;; ü par des serveurs de réplication du SGBD ou par des outils spécialisés. vPhase ETL Le Processus d’entreposage des données T 6 O. Boussaid, 2017 - ♠ C'est le but du processus d'entreposage des données ♠ Elle conditionne le choix de l'architecture de l'ED et de sa construction ♠ Elle doit permettre toutes les analyses nécessaires pour la construction des indicateurs recherchés vPhase OLAP Le Processus d’entreposage des données 17/03/2017 4 T 7 O. Boussaid, 2017 - C’est une phase transversale. Elle est constituée de plusieurs tâches pour assurer : ♠la qualité et la pérennité des données aux différents applicatifs ;; ♠la maintenance ;; ♠la gestion de configuration ;; ♠les mises à jour ;; ♠l'organisation, l'optimisation du SID ;; ♠la mise en sécurité du SID. vPhase ADMINISTRATION Le Processus d’entreposage des données T 8 O. Boussaid, 2017 - Qu'est ce qu'un Entrepôt de Données ? D'après BILL Inmon : “Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.” Thématiques : thèmes par activités majeures ;; Intégrées : divers sources de données ;; Non volatiles : ne pas supprimer les données du DW ;; Historisées : trace des données, suivre l'évolutiondes indicateurs. ☝Pb de volumétrie, de stockage, d'accès. Le Processus d’entreposage des données 17/03/2017 5 T 9 O. Boussaid, 2017 - vArchitecture des Entrepôts de données End User Presentation T ools Sources Data Systems Data staging Area (OperationalData Store) O.D.S. Data et Metadata Storage Area DWH DM1 DM2 DM3 DSc1 DSc2 DSc3 DSc4 DScn T 10 O. Boussaid, 2017 - End User Presentation T ools Sources Data Systems Data staging Area (OperationalData Store) O.D.S. Bases multidimensionnelles DWH DM1 DM2 DM3 DSc1 DSc2 DSc3 DSc4 DScn Cubes OLAP vArchitecture des Entrepôts de données 17/03/2017 6 T 11 O. Boussaid, 2017 - Business Intelligence LIKE Business Analytics Exploitation des données directement (Business Analytics) ou indirectement (Business Intelligence) Socle Big data : intégration en temps réel des flux de données structurées et non structurées, NoSQL et relationnelles Données sources (internes, externes, structurées, non structurées) T 12 O. Boussaid, 2017 - des 17/03/2017 7 T 13 O. Boussaid, 2017 - vIl existe 3 formes de modèles multidimensionnels : 1. Le modèle en étoile (Star schema) 2. Le modèle en flocon de neige (Snowflaked schema) 3. Le modèle en constellation (Factflaked schema) La modélisation des entrepôts de données T 14 O. Boussaid, 2017 - vLe modèle en étoile Modélisation des entrepôts de données 14 17/03/2017 8 T 15 O. Boussaid, 2017 - vLe modèle en étoile La modélisation des entrepôts de données 15 T 16 O. Boussaid, 2017 - vLe modèle en étoile 16 La modélisation des entrepôts de données 17/03/2017 9 T 17 O. Boussaid, 2017 - ÄUne ''table'' de faits : identifiants des tables de dimensions et une ou plusieurs mesures ÄPlusieurs tables de dimension : descripteurs des dimensions ÄUne granularité définie par les identifiants dans la table des faits. vLe modèle en étoile La modélisation des entrepôts de données Avantages : ♦Facilité de navigation ♦Performances : nombre limité de jointures ; gestion des données creuses. ♦Gestion des agrégats ♦Fiabilité des résultats Inconvénients : ♦T outes les dimensions ne concernent pas les mesures ♦Redondances dans les dimensions ♦Alimentation complexe. T 18 O. Boussaid, 2017 - Propriétés des mesures Additivité : somme sur toutes les dimensions qQuantités vendues, chiffre d’affaire qPeut être le résultat d’un calcul (Bénéfice = montant vente – coût) Semi-‐additivité : somme sur certaines dimensions qSolde d’un compte bancaire qPas de sens d’additionner les dates (représente des instantanés d’un niveau) Non additif : fait non additionnable quelque soit la dimension qPrix unitaire : l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens vLe modèle en étoile La modélisation des entrepôts de données 17/03/2017 10 T 19 O. Boussaid, 2017 - ØDans la grande distribution : Quelques ''tables'' de faits : détaillées et volumineuses ''T ables'' de dimensions : Classiques : Produit, T emps, Etablissement (structure géographique, fonctionnelle)... Stratégiques : Client, Promotions,… Remarque : Obtenir le plus d'enregistrements possibles. ØDans le secteur des banques : ''T ables'' des faits : nombreuses, dédiées à chaque produit, peu détaillées et peu volumineuses. ''T ables'' de dimensions : Classiques : Produit, T emps, Etablissement (structure géographique, fonctionnelle)... Stratégiques : Client,... Remarque : Obtenir le plus de données (champs) possibles. vDes exemples La modélisation des entrepôts de données T 20 O. Boussaid, 2017 - 20 vLes Faits La définition Un fait est la plus petite information analysable. C'est une information qui contient les données observables (les faits) que l'on possède sur un sujet et que l'on veut étudier, selon divers axes d'analyse (les dimensions). Les « faits » dans un entrepôt de données, sont normalement numériques, puisque d'ordre quantitatif. Il peut s'agir du montant en argent des ventes, du nombre d'unités vendues d'un produit, etc. Modélisation des entrepôts de données 17/03/2017 11 T 21 O. Boussaid, 2017 - Structure de base d'une ''table'' de faits vLes Faits Modélisation des entrepôts de données Clef étrangères Clef de dimensions dégénérées Mesures T 22 O. Boussaid, 2017 - 22 Définition ØUne dimension est une ''table'' qui représente un axe d'analyse selon lequel on veut étudier des données observables (les faits) qui, soumises à une analyse multidimensionnelle, donnent aux utilisateurs des renseignements nécessaires à la prise de décision. ØOn appelle donc ''dimension'' un axe d'analyse. Il peut s'agir des Clients ou des Produits d'une Entreprise, d'une Période de temps comme un exercice financier, des activités menées au sein d'une société, etc. vLes Dimensions Modélisation des entrepôts de données 17/03/2017 12 T 23 O. Boussaid, 2017 - Structure de base d'une dimension vLes Dimensions Modélisation des entrepôts de données Clef de substitution (Surrogate key) Clef d’affaire (business key or natural key) Attributs de dimension Clef spéciales (Gestion de l’historique de la dimension) T 24 O. Boussaid, 2017 - 24 Exemple qSurrogate key (ou clé de substitution) PRODUIT Code_Produit Désignation Description Prix unitaire …. Dim. PRODUIT Id Produit Nom Produit Description Produit Sous-‐catégorie Famille Produit Description Catégorie Prix unitaire Clef naturelle (clé artificielle) Surrogate Clef (clé de substitution ) - T able d'une BD de production - T able d'une BD multidimensionnelle vLes Dimensions Modélisation des entrepôts de données 17/03/2017 13 T 25 O. Boussaid, 2017 - 25 Date effective : Date à la quelle l'enregistrement à été créé, de préférence dans le système d'enregistrements (System of records). Date retrait : Date à laquelle l'enregistrement a été retiré du système d'enregistrements. Indicateur effectif : En général est 'O' si l'en registrement est toujours actif (Date retrait est nulle), 'N' sinon. Dim. PRODUIT Id Produit Nom Produit Description Produit Sous-‐catégorie Famille Produit Description Catégorie Prix unitaire date effective Date retrait Indicateur effectif Surrogate Clef (clé de substitution ) Attributs (descripteurs ) Clés spéciales vLes Dimensions Modélisation des entrepôts de données qClef spéciales T 26 O. Boussaid, 2017 - 26 Dimension dégénérée (Degenerate dimension) La dimension dégénérée est une clé de dimension dans la ''table'' de faits qui est en général sans attribut. Exemple : N° de bon de Cde, N° d'interruption de service ... Vu qu'il s'agit d'une seule clé de dimension, nous évitons alors de créer une ''table'' de dimension, ce qui fait que cette ''table'' de dimension a dégénéré dans la ''table'' des faits : c'est pour cette raison que cette clé est appelée «dimension dégénérée» vDifférents types de uploads/Industriel/ 2-cours-dwha-part-2.pdf
Documents similaires










-
26
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 03, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 8.5353MB