Création d’un data warehouse Alijo Myriem Datawarehouse • Un data warehouse (DW
Création d’un data warehouse Alijo Myriem Datawarehouse • Un data warehouse (DWH) est par définition un système de base de données distinct d’un système de traitement de données opérationnelles, dans lequel les données provenant de diverses sources, parfois même très hétérogènes, sont combinées, compressées et archivées à long terme. Datawarehouse • Les données opérationnelles deviennent donc des données décisionnelles : • Données opérationnelles : ce sont des informations orientées transactions générées dans les entreprises par l’activité quotidienne et produites notamment par les systèmes d’administration et de facturation. Les sources classiques de données sont les systèmes de traitement de données opérationnelles comme par exemple les programmes de comptabilité, les progiciels de gestion intégré (PGI ou ERP pour Entreprise Resource Planning) ou les systèmes d’information et de commande. • Données décisionnelles : lorsque les données opérationnelles sont rassemblées en un seul endroit, stockées sur le long terme et préparées pour l’analyse, on parle alors de données décisionnelles. Datawarehouse • Un DWH apporte aux analystes un aperçu complet des ensembles de données hétérogènes et permet l’agrégation des statistiques opérationnelles dans le cadre du traitement analytique en ligne (en anglais Online Analytical Processing, OLAP). • En tant que point central de collecte de toutes les données d’entreprise pertinentes, l’entrepôt de données est utilisé pour la gestion des connaissances en interne. Les utilisateurs n’ont généralement accès qu’en lecture seule. • Un DWH sert de base de données pour les méthodes d’exploration de données (data mining) et reste le support à toutes les études relatives à la gestion de la performance et à l’orientation stratégique de l’entreprise. Structure d’un DWH : architecture d’un data warehouse • Le processus de gestion et d’analyse d’un DWH est appelé data warehousing(ou entreposage de données) et comporte les phases suivantes : 1. Acquisition et intégration des données 2. Stockage des données 3. Evaluation et analyse des données l’architecture de référence d’un DWH. Les phase du datawarehouse • Les phases du data warehousing se reflètent dans la structure type, l’architecture dite de référence des systèmes d’entreposage des données. • Bien que l’architecture du système varie selon le produit et l’éditeur, sa structure technique repose sur un schéma modulaire qui peut être divisée en trois niveaux : • Collecte des données (data collection) • Dépôt et archivage des données (data repository) • Fourniture et transmission des données (data provision) Niveau de collecte des données (data collection) • Avant que les données puissent être chargées vers le DWH, les informations souvent très hétérogènes doivent d’abord être unifiées pour une présentation uniforme. • Un entrepôt de données s’alimente de manière autonome à partir des sources de données internes d’une entreprise ainsi que des sources de données externes pertinentes : • Données internes : système d’exploitation : progiciel de gestion intégré (PGI ou ERP), systèmes de gestion de la relation client (CRM) ; bases de données opérationnelles ; système de gestion de contenu (CMS) ; bases de données orientées texte, fichiers plats (par exemple Excel, CSV, fichiers textes), emails, etc. • Données externes : applications et systèmes de fournisseurs de services externes, sites Web, médias sociaux, services de Cloud, etc. Niveau de collecte des données (data collection) • Les systèmes au niveau de l’enregistrement des données fournissent des interfaces pour les systèmes d’exploitation des entreprises et sont utilisés dans la première phase du data warehousing. • L’acquisition et l’intégration des données sont deux fonctions centrales de ces composants DWH. Niveau de collecte des données (data collection) • Les techniques de collecte suivantes sont utilisées pour l’extraction et l’acquisition des données : • Trigger ou déclencheur : si les systèmes opérationnels d’une entreprise prennent en charge les déclencheurs de base de données, ils peuvent alors être utilisés pour automatiser l’extraction des données. Les déclencheurs vous permettent de définir des opérations qui sont exécutées automatiquement lorsque certains événements se produisent. En règle générale, les événements déclencheurs se rapportent à des changements dans la base de données du système source, qui conduisent à une extraction des données modifiées dans le DWH. Niveau de collecte des données (data collection) • Fichiers journaux : si le système d’exploitation ne prend pas en charge le trigger ou déclencheur, le niveau d’acquisition des données d’un DWH peut contenir des programmes capables d’évaluer les fichiers journaux (ou fichiers log) des systèmes sources et d’extraire les opérations enregistrées dans ces derniers. Niveau de collecte des données (data collection) • Programme de monitoring : si pour l’extraction il n’est pas possible de recourir au déclencheur ou aux fichiers journaux, les programmes de monitoring sont alors généralement utilisés. Ces derniers extraient les changements dans l’ensemble de données d’un système d’exploitation à l’aide d’algorithmes qui créent des instantanés des données à surveiller (snapshots) à intervalles réguliers et les synchronisent avec les précédents. Niveau de collecte des données (data collection) • En matière d’intégration de données, la plupart des DWH offrent des fonctionnalités OLAP qui permettent de présenter les fichiers dans des structures multidimensionnelles. Le traitement analytique en ligne (OLAP) est une méthode d’analyse utilisée pour comprimer les données et fichiers d’entreprises pertinents pour la gestion. • Le fonctionnement est basé sur le processus ETL : Niveau de collecte des données (data collection) • E = Extraction : l’extraction des données consiste à extraire des informations pertinentes de diverses sources de données. Ceci peut être mis en œuvre comme une stratégie Push and Pull. Si les données sont extraites dans le cadre d’une stratégie Push, les sources de données sont encouragées à générer des extraits à intervalles réguliers et à les transmettre au DWH. • Dans le cas d’une stratégie Pull, c’est le DWH qui initie, de sa propre initiative, l’extraction des données. • T = Transformation : les données extraites sont ajustées lors d’une transformation et traduites da manière uniforme dans le format de la base de données cible. • L = Loading (chargement) : la phase de chargement implique la sauvegarde des données transformées dans les bases de données cibles respectives du DWH. Niveau de collecte des données (data collection) • Le niveau d’acquisition et de traitement de données d’un DWH peut contenir une zone dite de Staging Area (aussi appelée zone de préparation). • Il s’agit d’une zone temporaire de la base de données dans laquelle les données à charger sont prétraitées. • Un tel processus de traitement peut être particulièrement nécessaire dans les processus ETL complexes. Niveau de collecte des données (data collection) • Comme un data warehouse rassemble des données provenant de sources très diverses, l’intégration des données est basée sur différents outils qui permettent la transformation et l’ajustement des données extraites. Ils peuvent être classés dans les catégories suivantes : • Outils de migration de données : les programmes de migration de données vous permettent de définir des règles de transformation simples pour convertir des données sources hétérogènes en un format cible uniforme. • Outils de nettoyage des données : pour le nettoyage des données, des programmes basés sur la logique floue (fuzzy logic) ainsi que les réseaux neuronaux artificiels sont utilisés. L’objectif est d’améliorer la qualité des données en éliminant les erreurs, les lacunes et les répétitions dans les ensembles de données grâce à l’implémentation de règles prédéfinies, d’algorithmes et de tables de correspondance (LUT). C’est ce que l’on nomme aussi le management de la qualité (Quality Management). • Outils d’audit des données : les outils de vérification des données sont utilisés dans l’intégration des données pour déterminer les règles et les relations entre les données. En outre, les programmes de ce type vous permettent aussi d’identifier les données qui enfreignent les règles définies ce qui signifie qu’il s’agit probablement d’erreurs. Niveau de collecte des données (data collection) • L’intégration des données est suivie par le transfert des données extraites dans la base de données centrale, le « core data warehouse ». Cette étape est supportée par des programmes qui offrent les fonctions suivantes : • Vérification des conditions d‘intégrité • Tri des données • Calcul des agrégations • Détermination des structures d’accès • Partitionnement des données pour un accès efficace Niveau de dépôt et d’archivage des données (data repository) • Le niveau d’archivage des données est un élément central de l’entrepôt des données. • Il s’agit de ce que l’on nomme le « Core Data Warehouse ». Les données extraites sont généralement stockées dans le DWH sous forme de matrices multidimensionnelles, ce que l’on appelle des schémas en étoile ou en flocon, pour des analyses futures dans le cadre d’un archivage à long terme. • Toutefois, cela fait rarement référence à l’ensemble du stock de données d’un DWH. • Pour permettre une analyse efficace, il est donc d’usage de créer des segments de données de l’ensemble du répertoire, connus sous le nom de datamart (aussi nommé magasin de données). Niveau de dépôt et d’archivage des données (data repository) • Un datamart est une copie d’une partie d’une base de données, qui est généralement implémentée de façon non persistante comme stockage temporaire, intermédiaire. • Dans certains cas toutefois, des datamarts dits indépendants sont aussi utilisés, ce qui permet de disposer en uploads/Management/creation-d-x27-un-data-warehouse.pdf
Documents similaires










-
28
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 04, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.8711MB