17/03/2017 1 T 1 O. Boussaid, 2017 -­ Les Entrepôts de données avancés Partie 2

17/03/2017 1 T 1 O. Boussaid, 2017 -­ Les Entrepôts de données avancés Partie 2 Pr Omar Boussaïd 2016-2017 T 2 O. Boussaid, 2017 -­ LE PROCESSUS D'ENTREPOSAGE DES DONNÉES (DATA WAREHOUSING) a) Les différentes phases ØModélisation ØETL ØAnalyse en ligne ØAdministration b) Modélisation 1) Concepts de bases : Faits ; Dimensions et différents types 2) Modèles multidimensionnels : étoile ; flocons de neige ; constellation 3) Les hiérarchies 4) Estimer le volume d’un ED 5) Modèles logiques : ROLAP ; MOLAP ; HOLAP 6) Administration : rôles et responsabilités c) Le processus d’ETL 1) Sélection et extraction de données 2) T ransformation de données 3) Alimentation d'un ED 4) Administration d'un ED 17/03/2017 2 T 3 O. Boussaid, 2017 -­ Phase ETL E T L Bases de production Phase Structuration Entrepôt de données Méta données Data Marts OLAP Phase OLAP OLAP Reporting Data Mining Analyses statistiques Administrateur Le Processus d’entreposage des données T 4 O. Boussaid, 2017 -­ Il s'agit de définir la finalité de l'ED : ♠Cibler l'activité de l'entreprise à piloter ;; ♠Déterminer et recenser les données à entreposer ;; ♠Définir les aspects techniques de la réalisation ;; ♠Modèle de données ;; ♠Définir des démarches d'alimentation ;; ♠Arrêter des stratégies d'administration ;; ♠Définir des espaces d'analyse ;; ♠Choisir un mode de restitution… vPhase STRUCTURATION Le Processus d’entreposage des données 17/03/2017 3 T 5 O. Boussaid, 2017 -­ Travail technique. ♠Extraction des données des différentes sources de production (sources de données internes ou externes) ♠Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées ♠Techniques d'alimentation: ûChargement des données dans l'ED ;; ûFréquences de rafraîchissement : ü par des applications sur les sources de données et l'ED ;; ü par des serveurs de réplication du SGBD ou par des outils spécialisés. vPhase ETL Le Processus d’entreposage des données T 6 O. Boussaid, 2017 -­ ♠ C'est le but du processus d'entreposage des données ♠ Elle conditionne le choix de l'architecture de l'ED et de sa construction ♠ Elle doit permettre toutes les analyses nécessaires pour la construction des indicateurs recherchés vPhase OLAP Le Processus d’entreposage des données 17/03/2017 4 T 7 O. Boussaid, 2017 -­ C’est une phase transversale. Elle est constituée de plusieurs tâches pour assurer : ♠la qualité et la pérennité des données aux différents applicatifs ;; ♠la maintenance ;; ♠la gestion de configuration ;; ♠les mises à jour ;; ♠l'organisation, l'optimisation du SID ;; ♠la mise en sécurité du SID. vPhase ADMINISTRATION Le Processus d’entreposage des données T 8 O. Boussaid, 2017 -­ Qu'est ce qu'un Entrepôt de Données ? D'après BILL Inmon : “Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.” Thématiques : thèmes par activités majeures ;; Intégrées : divers sources de données ;; Non volatiles : ne pas supprimer les données du DW ;; Historisées : trace des données, suivre l'évolutiondes indicateurs. ☝Pb de volumétrie, de stockage, d'accès. Le Processus d’entreposage des données 17/03/2017 5 T 9 O. Boussaid, 2017 -­ vArchitecture des Entrepôts de données End User Presentation T ools Sources Data Systems Data staging Area (OperationalData Store) O.D.S. Data et Metadata Storage Area DWH DM1 DM2 DM3 DSc1 DSc2 DSc3 DSc4 DScn T 10 O. Boussaid, 2017 -­ End User Presentation T ools Sources Data Systems Data staging Area (OperationalData Store) O.D.S. Bases multidimensionnelles DWH DM1 DM2 DM3 DSc1 DSc2 DSc3 DSc4 DScn Cubes OLAP vArchitecture des Entrepôts de données 17/03/2017 6 T 11 O. Boussaid, 2017 -­ Business Intelligence LIKE Business Analytics Exploitation des données directement (Business Analytics) ou indirectement (Business Intelligence) Socle Big data : intégration en temps réel des flux de données structurées et non structurées, NoSQL et relationnelles Données sources (internes, externes, structurées, non structurées) T 12 O. Boussaid, 2017 -­ des 17/03/2017 7 T 13 O. Boussaid, 2017 -­ vIl existe 3 formes de modèles multidimensionnels : 1. Le modèle en étoile (Star schema) 2. Le modèle en flocon de neige (Snowflaked schema) 3. Le modèle en constellation (Factflaked schema) La modélisation des entrepôts de données T 14 O. Boussaid, 2017 -­ vLe modèle en étoile Modélisation des entrepôts de données 14 17/03/2017 8 T 15 O. Boussaid, 2017 -­ vLe modèle en étoile La modélisation des entrepôts de données 15 T 16 O. Boussaid, 2017 -­ vLe modèle en étoile 16 La modélisation des entrepôts de données 17/03/2017 9 T 17 O. Boussaid, 2017 -­ ÄUne ''table'' de faits : identifiants des tables de dimensions et une ou plusieurs mesures ÄPlusieurs tables de dimension : descripteurs des dimensions ÄUne granularité définie par les identifiants dans la table des faits. vLe modèle en étoile La modélisation des entrepôts de données Avantages : ♦Facilité de navigation ♦Performances : nombre limité de jointures ; gestion des données creuses. ♦Gestion des agrégats ♦Fiabilité des résultats Inconvénients : ♦T outes les dimensions ne concernent pas les mesures ♦Redondances dans les dimensions ♦Alimentation complexe. T 18 O. Boussaid, 2017 -­ Propriétés des mesures Additivité : somme sur toutes les dimensions qQuantités vendues, chiffre d’affaire qPeut être le résultat d’un calcul (Bénéfice = montant vente – coût) Semi-­‐additivité : somme sur certaines dimensions qSolde d’un compte bancaire qPas de sens d’additionner les dates (représente des instantanés d’un niveau) Non additif : fait non additionnable quelque soit la dimension qPrix unitaire : l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens vLe modèle en étoile La modélisation des entrepôts de données 17/03/2017 10 T 19 O. Boussaid, 2017 -­ ØDans la grande distribution : Quelques ''tables'' de faits : détaillées et volumineuses ''T ables'' de dimensions : Classiques : Produit, T emps, Etablissement (structure géographique, fonctionnelle)... Stratégiques : Client, Promotions,… Remarque : Obtenir le plus d'enregistrements possibles. ØDans le secteur des banques : ''T ables'' des faits : nombreuses, dédiées à chaque produit, peu détaillées et peu volumineuses. ''T ables'' de dimensions : Classiques : Produit, T emps, Etablissement (structure géographique, fonctionnelle)... Stratégiques : Client,... Remarque : Obtenir le plus de données (champs) possibles. vDes exemples La modélisation des entrepôts de données T 20 O. Boussaid, 2017 -­ 20 vLes Faits La définition Un fait est la plus petite information analysable. C'est une information qui contient les données observables (les faits) que l'on possède sur un sujet et que l'on veut étudier, selon divers axes d'analyse (les dimensions). Les « faits » dans un entrepôt de données, sont normalement numériques, puisque d'ordre quantitatif. Il peut s'agir du montant en argent des ventes, du nombre d'unités vendues d'un produit, etc. Modélisation des entrepôts de données 17/03/2017 11 T 21 O. Boussaid, 2017 -­ Structure de base d'une ''table'' de faits vLes Faits Modélisation des entrepôts de données Clef étrangères Clef de dimensions dégénérées Mesures T 22 O. Boussaid, 2017 -­ 22 Définition ØUne dimension est une ''table'' qui représente un axe d'analyse selon lequel on veut étudier des données observables (les faits) qui, soumises à une analyse multidimensionnelle, donnent aux utilisateurs des renseignements nécessaires à la prise de décision. ØOn appelle donc ''dimension'' un axe d'analyse. Il peut s'agir des Clients ou des Produits d'une Entreprise, d'une Période de temps comme un exercice financier, des activités menées au sein d'une société, etc. vLes Dimensions Modélisation des entrepôts de données 17/03/2017 12 T 23 O. Boussaid, 2017 -­ Structure de base d'une dimension vLes Dimensions Modélisation des entrepôts de données Clef de substitution (Surrogate key) Clef d’affaire (business key or natural key) Attributs de dimension Clef spéciales (Gestion de l’historique de la dimension) T 24 O. Boussaid, 2017 -­ 24 Exemple qSurrogate key (ou clé de substitution) PRODUIT Code_Produit Désignation Description Prix unitaire …. Dim. PRODUIT Id Produit Nom Produit Description Produit Sous-­‐catégorie Famille Produit Description Catégorie Prix unitaire Clef naturelle (clé artificielle) Surrogate Clef (clé de substitution ) -­ T able d'une BD de production -­ T able d'une BD multidimensionnelle vLes Dimensions Modélisation des entrepôts de données 17/03/2017 13 T 25 O. Boussaid, 2017 -­ 25 Date effective : Date à la quelle l'enregistrement à été créé, de préférence dans le système d'enregistrements (System of records). Date retrait : Date à laquelle l'enregistrement a été retiré du système d'enregistrements. Indicateur effectif : En général est 'O' si l'en registrement est toujours actif (Date retrait est nulle), 'N' sinon. Dim. PRODUIT Id Produit Nom Produit Description Produit Sous-­‐catégorie Famille Produit Description Catégorie Prix unitaire date effective Date retrait Indicateur effectif Surrogate Clef (clé de substitution ) Attributs (descripteurs ) Clés spéciales vLes Dimensions Modélisation des entrepôts de données qClef spéciales T 26 O. Boussaid, 2017 -­ 26 Dimension dégénérée (Degenerate dimension) La dimension dégénérée est une clé de dimension dans la ''table'' de faits qui est en général sans attribut. Exemple : N° de bon de Cde, N° d'interruption de service ... Vu qu'il s'agit d'une seule clé de dimension, nous évitons alors de créer une ''table'' de dimension, ce qui fait que cette ''table'' de dimension a dégénéré dans la ''table'' des faits : c'est pour cette raison que cette clé est appelée «dimension dégénérée» vDifférents types de uploads/Industriel/ 2-cours-dwha-part-2.pdf

  • 26
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager