1 Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Docum
1 Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative Commons by-nc-nd (http://creativecommons.org/licenses/by-nc-nd/2.0/fr/) 2 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 3 Le contexte Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles Qui sont mes meilleurs clients? A combien s’élèvent mes ventes journalières? Quels français consomment beaucoup de poisson? Pourquoi et comment le chiffre d’affaire a baissé? 4 Les données utilisables par les décideurs Données opérationnelles (de production) Bases de données (Oracle, SQL Server) Fichiers, … Paye, gestion des RH, gestion des commandes… Caractéristiques de ces données: Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel Volatiles: pas d’historisation systématique 5 Problématique Comment répondre aux demandes des décideurs? En donnant un accès rapide et simple à l’information stratégique En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un data warehouse 6 Le processus de prise de décision Temps de prise d’une décision Définir le problème Rassembler les données Analyser les données Établir des solutions Décider Champs d’application des systèmes décisionnels 7 Le processus de prise de décision Bases de production Data warehouse Base multi - dimensionnelle Prédiction / simulation Prise de décision 8 Domaines d’utilisation des DW Banque Risques d’un prêt, prime plus précise Santé Épidémiologie Risque alimentaire Commerce Ciblage de clientèle Déterminer des promotions Logistique Adéquation demande/production Assurance Risque lié à un contrat d’assurance (voiture) … 9 Quelques métiers du décisionnel Strategic Performance Management Déterminer et contrôler les indicateurs clé de la performance de l’entreprise Finance Intelligence Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques Human Capital Management (gestion de la relation avec les employés) Aligner les stratégies RH, les processus et les technologies. Customer Relationship Management (gestion de la relation client) Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing client Supplier Relationship Management (gestion de la relation fournisseur) Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat. 10 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 11 Définition d’un DW W. H. Inmon (1996): « Le data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision » Principe: mettre en place une base de données utilisée à des fins d’analyse 12 Les 4 caractéristiques des data warehouse 1. Données orientées sujet: Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données Ass. Vie Ass. Auto Ass. Santé Client Police 13 Les 4 caractéristiques des data warehouse 2. Données intégrées: Normalisation des données Définition d’un référentiel unique h,f 1,0 homme, femme h,f GBP CHF USD EUR 14 Les 4 caractéristiques des data warehouse 3. Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production Ajout Modification Suppression Accès Chargement Bases de production Entrepôts de données 15 Les 4 caractéristiques des data warehouse 4. Données datées Les données persistent dans le temps Mise en place d’un référentiel temps Nom Ville Dupont Paris Durand Lyon Nom Ville Dupont Marseille Durand Lyon Image de la base en Mai 2005 Image de la base en Juillet 2006 Code Année Mois 1 2005 Mai Base de production Entrepôt de données Calendrier Code Année Mois 1 Dupont Paris 1 Durand Lyon Répertoire Répertoire Répertoire Code Année Mois 1 2005 Mai 2 2006 Juillet Code Année Mois 1 Dupont Paris 1 Durand Lyon 2 Dupont Marseille 16 SGBD et DW Service commercial Service Financier Service livraison BD prod BD prod BD prod Clientèle Data Warehouse Clientèle H I S T O R I Q U E OLTP: On-Line Transactional Processing OLAP: On-Line Analitical Processing 17 OLTP VS DW OLTP DW Orienté transaction Orienté analyse Orienté application Orienté sujet Données courantes Données historisées Données détaillées Données agrégées Données évolutives Données statiques Utilisateurs nombreux, administrateurs/opérationnels Utilisateurs peu nombreux, manager Temps d’exécution: court Temps d’exécution: long 18 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 19 Datamart Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers Datamarts du service Marketing Datamart du service Ressources Humaines DW de l’entreprise 20 Intérêt des datamart Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier Moins de données que DW Plus facile à comprendre, à manipuler Amélioration des temps de réponse Utilisateurs plus ciblés: DM plus facile à définir 21 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 22 Architecture générale Data warehouse Requêtes Rapports Visualisation Data Mining … Sources de données Transformations: Nettoyage Standardisation … Zone de préparation Zone de présentation Datamart C H A R G E M E N T Zone de stockage E X T R A C T I O N 23 Les flux de données Flux entrant Extraction: multi-source, hétérogène Transformation: filtrer, trier, homogénéiser, nettoyer Chargement: insertion des données dans l’entrepôt Flux sortant: Mise à disposition des données pour les utilisateurs finaux 24 Les différentes zones de l’architecture Zone de préparation (Staging area) Zone temporaire de stockage des données extraites Réalisation des transformations avant l’insertion dans le DW: Nettoyage Normalisation… Données souvent détruites après chargement dans le DW Zone de stockage (DW, DM) On y transfère les données nettoyées Stockage permanent des données Zone de présentation Donne accès aux données contenues dans le DW Peut contenir des outils d’analyse programmés: Rapports Requêtes… 25 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 26 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation des transactions Réduction de l’espace de stockage Inconvénients pour un utilisateur final: Schéma très/trop complet: Contient des tables/champs inutiles pour l’analyse Pas d’interface graphique capable de rendre utilisable le modèle E/A Inadapté pour l’analyse 27 Exemple Mode d’expédition Transporteur Produit Groupe de produits Famille de produits Division de ventes Région de ventes Magasin Commande client Type de contrat Contrat Client Employé Fonction Stock Fournisseurs 28 Modélisation des DW Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon 29 Table de faits Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions) Table de faits des ventes Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes Clés étrangères vers les dimensions Faits 30 Table de faits (suite) Fait: Ce que l’on souhaite mesurer Quantités vendues, montant des ventes… Contient les clés étrangères des axes d’analyse (dimension) Date, produit, magasin Trois types de faits: Additif Semi additif Non additif 31 Typologie des faits Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre d’affaire Peut être le résultat d’un calcul: Bénéfice = montant vente - coût Semi additif: additionnable suivant certaines dimensions Solde d’un compte bancaire: Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveau Σ sur les comptes: on connaît ce que nous possédons en banque Non additif: fait non additionnable quelque soit la dimension Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens 32 Granularité de la table de faits Répondre à la question : Que représente un enregistrement de la table de faits? La granularité définit le niveau de détails de la table de faits: Exemple: une ligne de commande par produit, par client et par jour Précision des analyses Taille de l’entrepôt - + Finesse 33 Table de dimension Axe d’analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids Clé de substitution Attributs de la dimension 34 Table de dimension (suite) Dimension = axe d’analyse Client, produit, période de temps… Contient souvent un grand nombre de colonnes L’ensemble des informations descriptives des faits Contient en général beaucoup moins d’enregistrements qu’une table de faits 35 La dimension Temps Commune à l’ensemble du DW Reliée à toute table de faits Dimension Temps Clé temps (CP) Jour Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année 36 Granularité d’une dimension Une dimension contient des membres organisés en hiérarchie : Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier uploads/Management/cours-dw-pdf 1 .pdf
Documents similaires
-
15
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 22, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.8750MB