Cours Les entrepôts de données Data Warehouses Prof. CHRAYAH Mohamed Les entrep

Cours Les entrepôts de données Data Warehouses Prof. CHRAYAH Mohamed Les entreprises passent à l’ ère de l’information. Défi : Transformer leur système d’information qui avait une vocation de production à un SI décisionnel Dont la vocation de pilotage devient majeure. Definition d’un Data warehouse (DW) La Data warehouse (entrepôt de données) est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d ’un processus d ’aide à la décision (Inmon, 94). 1-Données orientées sujet • Données structurées par thèmes (sujets majeurs de l’entreprise) et non suivant les processus fonctionnels. • Le sujet est transversal aux structures fonctionnelles et organisationnelles de l’entreprise. On peut accéder aux données utiles sur un sujet. • L’intégration des différents sujets se fait dans une structure unique. Definition d’un Data warehouse (DW) 1-Données orientées sujet • Il n ’y a pas de duplication des informations communes à plusieurs sujets. • La base de données est construite selon les thèmes qui touchent aux métiers de l’entreprise (clients, produits, risques, rentabilité, …). • Les données de base sont toutefois issues des Systèmes d’Information Opérationnels (SIO). Definition d’un Data warehouse (DW) 2 Données intégrées • Les données, issues de différentes applications de production, peuvent exister sous toutes formes différentes. • Il faut les intégrer afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs. • Elle doivent posséder un codage et une description unique. Definition d’un Data warehouse (DW) 3 Données non-volatiles • Une information est considérée volatile quand les données sont régulièrement mises à jour comme dans les Systèmes d’Information Opérationnels. • Dans un SIO, les requêtes portent sur les données actuelles. Il est difficile de retrouver un ancien résultat. • Dans un DW, il est nécessaire de conserver l’historique de la donnée. Ainsi, une même requête effectuée à deux mois d’intervalle en spécifiant la date de référence de la donnée, donnera le même résultat Definition d’un Data warehouse (DW) 4 Données historisées • Dans un SIO, les transactions se font en temps réel, et les données sont mises à jour constamment. L ’historique des valeurs de ces données n ’est généralement pas conservé car il est inutile. • Dans un DW, la donnée n’est jamais mise à jour. • Les données du DW s ’ajoutent aux données déjà engrangées.=> ajout de couches de données successives, à la manière des strates géologiques Definition d’un Data warehouse (DW) 4 Données historisées • Le DW stocke donc l’historique des valeurs que la donnée aura prises au cours du temps. • Un référentiel de temps est alors associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps. • Les utilisateurs possèdent un accès aux données courantes ainsi qu’à des données historisées. Definition d’un Data warehouse (DW) 5 Support d ’un processus d ’aide à la décision Un DW est un système d ’information dédié aux applications décisionnelles dont les principales contraintes sont : • des requêtes complexes à plusieurs niveaux d ’agrégation • la nécessité de disposer d ’informations synthétiques (« reporting » de gestion, analyse des ventes, gestion de la masse salariale, etc) • le stockage des données sous une forme multi- dimensionnelle • des mises à jour périodiques Definition d’un Data warehouse (DW) Objectifs d’un Data warehouse • permet le développement d ’applications décisionnelles et de pilotage de l ’entreprise et de ses processus • joue un rôle de référentiel pour l ’entreprise puisqu ’il permet de fédérer des données souvent éparpillées dans différentes bases de données • offre une vision globale et orientée métier de toutes les données que manipule l ’entreprise • permet de faire face aux changements du marché et de l ’entreprise • offre une information compréhensible, utile , rapide et à jour Architecture d’un Data warehouse Data Warehouse Extraire Transformer Charger Mettre à jour OLAP Analyse Requêtes Rapports Data mining Monitor & Integrator Meta- données Sources Outils Front-End Data Marts BD opérationnelles autres sources Stockage OLAP Server 1 Les Bases de Données  Bases de données internes: •Bases de production de l’entreprise •Bases créées par les utilisateurs  Bases de données externes à l’entreprise qui nécessitent leur identification, leur rapatriement et leur intégration. •Données achetées à des fournisseurs de données •Données récupérées sur Internet Architecture d’un Data warehouse 2 Opérations sur les données EXTRACTION • Extraire les données de leur environnement d’origine (bases de données relationnelles, fichiers plats, …). • Utiliser une technique appropriée pour n ’extraire que les données nécessaires : données créées ou modifiées depuis la dernière opération d’extraction. Architecture d’un Data warehouse 2 Opérations sur les données TRANSFORMATION • Une même donnée peut avoir une structure ou une valeur différente en fonction de la base (production, externe, utilisateurs) dont elle provient. • On peut être confronté à des redondances (un même client peut apparaître avec différents attributs et propriétés selon la source consultée). • Il faut supprimer certaines données aberrantes qui risqueraient de fausser les analyses. • Il faut donc épurer et transformer les données. Architecture d’un Data warehouse 2 Opérations sur les données CHARGEMENT/RAFRAICHISSEMENT • Effectuer sur les données des opérations de calcul et d’agrégation. • Remplacer certaines bases si aucune solution d’extraction satisfaisante n’est possible. • Mettre en place des procédures de chargement et de restauration (en cas de problème). • T ypiquement, la fréquence du chargement est quotidienne et il est effectué en tout début de matinée. • Si la disponibilité du système ne peut être interrompue, envisager la mise en place de systèmes redondants. Architecture d’un Data warehouse 2 Opérations sur les données LES OUTILS • On peut automatiser tout ou partie des opérations décrites. • Des outils sont disponibles : Extract d’ETI, SIS de MICROSOFT, SAS/Warehouse Administrator de SAS… • Le développement d’outils spécifiques est envisageable mais risque d ’alourdir les tâches. Architecture d’un Data warehouse 3 Dictionnaire de Données • Le dictionnaire de données regroupe les méta-données. • Une méta-donnée représente une donnée sur les données. Il s’agit de l’ensemble des informations qui permettent de qualifier une donnée, notamment par sa sémantique, sa règle de calcul, sa provenance, sa qualité, etc… • les méta-données permettent de préciser de quelle table provient la donnée, à quelles dates et heures elle en a été extraite, l’état de la base à cet instant, etc... Architecture d’un Data warehouse 3 Dictionnaire de Données • Une méta-donnée permet de « remonter la chaîne » et de reconstituer l’ensemble d’événements et données qui ont servi à obtenir l’information associée. • Le dictionnaire de données contient toutes les informations permettant d’exploiter les données. • C’est un référentiel destiné aux utilisateurs et à l’administrateur du DW. • A ce jour, il n’existe pas de normes en ce qui concerne la structure et la gestion des dictionnaires de données. Chaque outil propose sa solution et son approche. Architecture d’un Data warehouse 4 LES DATA MARTS • Un data mart (magasin de données) est un DW focalisé sur un sujet particulier, souvent au niveau départemental ou métier. • C ’est donc un mini DW lié à un métier particulier de l ’entreprise (finance, commercial, …). • Un DW est souvent volumineux (plusieurs centaines de Go voire quelques T o ) avec des performances inappropriées (temps de réponse trop longs). Un Data mart, quant à lui, comporte moins de 50 Go, ce qui permet des performances acceptables. • La création d’un data mart peut être un moyen de débuter un projet de DW (projet pilote). Architecture d’un Data warehouse DIMENSION On entend par dimensions les axes avec lesquels on veut faire l'analyse. Il peut y avoir une dimension client, une dimension produit, une dimension géographie (pour faire des analyses par secteur géographique). Une dimension est tout ce qu'on utilisera pour faire nos analyses. Modélisation d’un Data warehouse FAIT Les faits sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent des informations opérationnelles et qui relatent la vie de l'entreprise. On aura des tables de faits pour les ventes (chiffre d'affaire net, quantités et montants commandés, quantités facturées, quantités retournées, volumes des ventes, etc.) par exemple ou sur les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du stock, taux de roulement d'une zone, etc…. Un fait est tout ce qu'on voudra analyser. Modélisation d’un Data warehouse Le modèle en étoile Modélisation d’un Data warehouse N° Cde Date Cde Command e N° Client Nom Client Adresse Client Ville Client Code produit Nom Produit Description Produit Catégorie Description catégorie Prix unitaire Produit Code vendeur Nom Vendeur Ville Vendeur Quota Vendeur N° Cde Code vendeur N° Client Clef date Code produit Nom Ville Quantité Prix total TABLE DE FAITS Date Clef date Date Mois Année Nom Ville Région Pays Ville Le modèle en étoile Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions. Avantages : ♦ Facilité de navigation ♦ Performances : nombre de jointures limité . ♦ Gestion des agrégats ♦ Fiabilité des résultats Inconvénients : ♦ T uploads/Management/les-entrepots-de-donnees.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Aoû 20, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 5.1857MB