Chapitre 2 Architectures des Entrepôts de Données Samir BOUCETTA Second Semeste
Chapitre 2 Architectures des Entrepôts de Données Samir BOUCETTA Second Semester 2021/2022 Les Entrepôts de Données I. S. S. A. T. - Mateur Chapitre 2 – Architectures des Entrepôts de Données 2 SOMMAIRE 1. Propriétés Architecturales Essentielles des DW 2. Les Datamarts 3. Classifications architecturales 4. Architectures multi-niveaux 5. Classification architecturale supplémentaire 6. Staging des données et ETL Chapter 2 Architectures des Entrepôts de Données Chapitre 2 – Architectures des Entrepôts de Données 3 1-/ Propriétés Architecturales Essentielles des DW Les propriétés architecturales suivantes sont essentielles pour la conception d’un entrepôt de données: - Séparation : Les traitements transactionnels et l’analytiques doivent être séparés tant que possible. - Evolutivité : Les architectures matérielles et logicielles doivent être facilement mises à niveau pour répondre aux besoins croissants des utilisateurs. - Extensibilité : Les architectures doivent être capables d’intégrer/héberger de nouvelles applications et technologies sans avoir à reconcevoir tout le système. Chapitre 2 – Architectures des Entrepôts de Données 4 1-/ Propriétés Architecturales Essentielles des DW (Suite) - Sécurité : Le contrôle d’ accès à l’entrepôt de données est primordial à cause de l’importance stratégique des données qui y sont stockées. - Administrabilité : La gestion de l’entrepôt de données ne doit pas être excessivement difficile. Chapitre 2 – Architectures des Entrepôts de Données 5 2-/ Les Datamarts Le datamart est un ensemble de données ciblées, organisées, regroupées et agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné. Il est donc destiné à être interrogé sur un panel de données restreint à son domaine fonctionnel, selon des paramètres qui auront été définis à l’avance lors de sa conception. De façon plus technique, le DataMart peut être considéré de deux manières différentes, attribuées aux deux principaux théoriciens de l’informatique décisionnelle, Bill Inmon et Ralph Kimball. cf. https://fr.wikipedia.org/wiki/Datamart Chapitre 2 – Architectures des Entrepôts de Données 6 2-/ Les Datamarts Définition d'Inmon : Le DataMart est issu d’un flux de données provenant du DataWarehouse. Contrairement à ce dernier, qui présente le détail des données pour toute l’entreprise, le datamart a pour vocation de présenter les données de manière spécialisée, agrégée et regroupée fonctionnellement. Définition de Kimball : Le DataMart est un sous- ensemble du Data Warehouse. Il est constitué de tables au niveau détail et à des niveaux plus agrégés, permettant de restituer tout le spectre d’une activité métier. L’ensemble des DataMarts de l’entreprise constitue le Data Warehouse. Chapitre 2 – Architectures des Entrepôts de Données 7 2-/ Les Datamarts Le datamart constitue un sous-ensemble ou un extrait de l’entrepôt de données (DW). Chapitre 2 – Architectures des Entrepôts de Données 8 3-/ Classifications architecturales Deux types de classifications: 1ère Classification: Basée sur le nombre de niveaux de l’architecture (1, 2 ou 3): Architecture à un seul niveau (Single-layer architecture) Architecture à deux niveaux (Two-layers architecture) Architecture à trois niveaux (Three-layers architecture) 2ème Classification: Basée sur la façon avec laquelle les niveaux sont utilisés pour créer des vues de l’entrepôt orientées-entreprise ou orientées- département. Chapitre 2 – Architectures des Entrepôts de Données 9 4/ Architectures multi-niveaux 4-1/ Architecture à un seul niveau N’est pas souvent utilisé en pratique. Objectif = minimiser le volume de données stockées. Le seul niveau physique disponible est le niveau "Données opérationnelles" Le DW est virtuel Golfarelli & Rizzi Chapitre 2 – Architectures des Entrepôts de Données 10 4/ Architectures multi-niveaux 4-1/ Architecture à un seul niveau Middleware (intergiciel) = niveau de traitement intermédiaire. Les requêtes d’analyse sont transmises aux "Données opérationnelles" après leur interprétation par le middleware. Points faibles: Non respect de la propriété essentielle de Séparation entre le traitement transactionnel et le traitement analytique. Dégradation du traitement transactionnel. Ne peut pas enregistrer des données autres que l’existant. Chapitre 2 – Architectures des Entrepôts de Données 11 4-2/Architecture à deux niveaux Bien qu'appelée architecture à deux niveaux pour mettre en évidence une séparation entre les sources physiquement disponibles et les entrepôts de données, elle se compose en fait de quatre étapes de flux de données. Golfarelli & Rizzi Chapitre 2 – Architectures des Entrepôts de Données 12 Niveau "Données Source": Un entrepôt de données utilise des sources de données hétérogènes: - Base de données relationnelle, - Bases de données anciennes, - Bases de données en dehors de la compagnie/organisation. Niveau "Formatage des données": Les données stockées dans les sources doivent être extraites, nettoyées pour supprimer les incohérences et combler les lacunes, et intégrées pour fusionner des sources hétérogènes dans un schéma commun. Les outils ETL (Extract, Transform, Load) peuvent être utilisées pour extraire, transformer, nettoyer, valider, filtrer et charger des données hétérogènes. 4/ Architectures multi-niveaux 4-2/ Architecture à deux niveaux Chapitre 2 – Architectures des Entrepôts de Données 13 Niveau "Entrepôt de données" (DW): - Les informations sont stockées dans un référentiel unique logiquement centralisé : l’entrepôt de données. - Le DW peut être directement accessible, mais il peut être utilisé pour créer des Datamarts qui reproduisent partiellement le contenu du DW de manière spécifique à un département ou un secteur de l’entreprise/organisation. - Les référentiels de métadonnées stockent des informations sur les sources de données, les procédures d'accès, le formatage des données, les utilisateurs, les schémas des Datamarts, etc. Niveau "Analyse": Les données intégrées sont utilisées de manière efficace et flexible pour générer des rapports, analyser dynamiquement les informations et simuler des scénarios commerciaux hypothétiques. 4/ Architectures multi-niveaux 4-2/ Architecture à deux niveaux Chapitre 2 – Architectures des Entrepôts de Données 14 Avantages de l’architecture à deux niveaux: - Le DW, contenant des données de bonne qualité, est accessible même lorsque les sources de données sont inaccessibles pour différentes raisons. - Les requêtes d’analyse du DW n’affectent pas le traitement des transactions opérationnelles. - Les DW sont logiquement structurés selon le modèle multidimensionnel, tandis que les sources opérationnelles sont généralement basées sur des modèles relationnels ou semi-structurés. - Les DW peuvent utiliser des solutions de conception spécifiques visant à optimiser les performances des applications d'analyse et de génération de rapports. - Une incompatibilité en termes de temps et de granularité peut se produire entre les systèmes OLTP et OLAP, mais sans importance. 4/ Architectures multi-niveaux 4-2/ Architecture à deux niveaux Chapitre 2 – Architectures des Entrepôts de Données 15 4-3/Architecture à trois niveaux Le 3ème niveau est: Données réconciliées Ce niveau matérialise les données opérationnelles obtenues après nettoyage et intégration des données sources. Conséquences: Ces données sont intégrées, consistantes, correctes, courantes (à jour) et détaillées. Golfarelli & Rizzi Chapitre 2 – Architectures des Entrepôts de Données 16 4-3/Architecture à trois niveaux Le DW est peuplé à partir des données réconciliées et non pas les données sources originales. L’avantage est la création d’un modèle de données commun à toute l’entreprise. Dans certains cas, ce modèle peut être utilisé pour effectuer des tâches opérationnelles, tel que la génération de rapports journaliers, difficilement réalisables dans le système d’origine. N.B. Certaines autres architectures peuvent être envisagées comme solutions hybrides des architectures précédentes. Chapitre 2 – Architectures des Entrepôts de Données 17 5-/ Classification architecturale supplémentaire 5-1/ Architecture de Datamarts indépendants Peut être adoptées - en absence de stratégie de centralisation commune au niveau de toute l’entreprise. - Lorsque les départements sont faiblement couplés. Golfarelli & Rizzi Chapitre 2 – Architectures des Entrepôts de Données 18 5-/ Classification architecturale supplémentaire 5-2/ Architecture fédérée Adoptée: - dans un contexte dynamique où des DWs existent préalablement. - pour implémenter des DWs inter-entreprises. Golfarelli & Rizzi Chapitre 2 – Architectures des Entrepôts de Données 19 2-/ Staging des données et ETL Godin & Desrosiers Chapitre 2 – Architectures des Entrepôts de Données 20 2-/ Staging des données et ETL Godin & Desrosiers Chapitre 2 – Architectures des Entrepôts de Données 21 2-/ Staging des données et ETL Godin & Desrosiers Chapitre 2 – Architectures des Entrepôts de Données 22 2-/ Staging des données et ETL Transformation Chapitre 2 – Architectures des Entrepôts de Données 23 2-/ Staging des données et ETL Nettoyage des données Le nettoyage des données est important car il permet d’améliorer la qualité des données. Les anomalies et inconsistances fréquentes qui font que certaines données peuvent être "Sales" sont: - Enfreindre les contraintes d’intégrité: Par exemple, une clé étrangère inexistante, non respect d’une contrainte CHECK, UNIQUE... - Duplication de données: Par exemple, les données d’un patient peuvent avoir été enregistrées plusieurs fois. - Valeurs erronées ou inconsistantes: Par exemple, l’adresse et le code postal correspondant. Date = "13/30/2021". - Valeurs manquantes: Par exemple, spécialité d’un employé. - Utilisation inattendue d’un champs: Par exemple, stockage du No de tel d’un employé dans le champs NSS. Chapitre 2 – Architectures des Entrepôts de Données 24 2-/ Staging des données et ETL Godin & Desrosiers Chapitre 2 – Architectures des Entrepôts de Données 25 2-/ Staging des données et ETL Exemple de nettoyage et de transformation des données CLIENT Chapitre 2 – Architectures des Entrepôts de Données 26 2-/ Staging des données et ETL Godin & Desrosiers Chargement des données Procéder au chargement dans une période où l’entrepôt de données n’est pas utilisé. Considérer la bande passante nécessaire pour effectuer le uploads/Ingenierie_Lourd/ chapt2-architectures-des-entrepots-de-donnees.pdf
Documents similaires










-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 03, 2021
- Catégorie Heavy Engineering/...
- Langue French
- Taille du fichier 1.4246MB