1 Chapitre 2 1 Système de gestion (opérationnel) Système de décision (analyse)
1 Chapitre 2 1 Système de gestion (opérationnel) Système de décision (analyse) Objectifs dédié au métier et à la production ex: facturation, stock, personnel dédié au management de l'entreprise (pilotage et prise de décision) Pérennité données volatiles ex: le prix d'un produit évolue dans le temps données historisées ex: garder la trace des évolutions des prix, introduction d'une information daté Optimisation pour les opérations associées ex: passage en caisse (lecture de code barre) pour l'analyse et la récapitulation ex: quels les produits achetés Ensembles Granularité de données Totale et atomique, on accède directement aux informations atomiques agrégats, niveau de synthèse selon les besoins de l'analyse Système de gestion vs. Système de décision. 2 Incompatibilités des deux activités ◦Les deux activités (gestion et décision) ne peuvent co-exister sur des données dans le même système d’information: leurs objectifs de performance sont exactement opposés: Les requêtes complexes et lourdes dégradent les performances des systèmes transactionnels, Les données temporelles sont réparties entre données actuelles et données archivées, rendant la vue historique des données très difficile ou impossible, ◦Le support efficace d’une activité de décision nécessite la constitution d’un système d’information propre: Le Datawarehouse 3 2 Data Warehouse est une base de données centralisée d’une entreprise. Spécialement conçu pour recueillir, stocker et intégrer des données provenant de multiples sources de données. Afin de les rendre disponibles pour l’analyse, le reporting et la prise de décision. Les données sont recueillies à partir d'une variété de sources pertinentes pour l'entreprise telles que : • Les données des clients, • Les données des entreprises concurrentes et • Les données transactionnelles. 6 Les deux définitions les plus importantes et complètes d'un entrepôt de données ont été proposées par Bill Inmon et Ralph Kimball, co- fondateurs de Datawarehouse. Selon Bill Inmon « Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. » 3 Selon Ralph Kimball: “a data warehouse is a copy of transaction data specifically structured for query and analysis”. Principe ◦Base de Données utilisée à des fins d’analyse. ◦Caractéristiques : orientation sujets («analyse») données intégrées Données historisées données non volatiles données datées 7 Organisées autour de sujets majeurs comme : ◦Consommateur, Produit, Ventes, … Vue synthétique des données selon les sujets intéressant les décideurs, Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières, 8 Construit en intégrant des sources de données multiples et hétérogènes ◦BD relationnelles, fichiers, enregistrements de transactions Intégration des données ◦La conversion de données ◦Nettoyage et unification ◦Consistence dans les noms des champs, ◦le codage des données issues de plusieurs sources 9 4 L’échelle de temps dans le DW est beaucoup plus longue que dans les BD opérationnelles : ◦BD opérationnelle : valeur courante des données ◦DW : information dans une perspective historique (ex: les 5 dernières années) Chaque structure dans le DW contient un élément décrivant le temps. 10 Stockage indépendant des BD opérationnelles ◦Pas de suppression Pas de mises à jour des données dans le DW ◦2 actions sur le DW Alimentation du DW à partir des données des BD opérationnelles. Accès (lecture) de ces données. 11 12 La duplication délibérée de certaines données afin d'accélérer l'extraction des données : Lorsque les requêtes les plus importantes portent sur des données réparties sur plusieurs tables. Lorsque des calculs doivent être effectués sur une ou plusieurs colonnes avant que la requête ne renvoie une réponse. Si les tables doivent être consultées de différentes façon par différents utilisateurs lors d'une même période. Si certaines tables sont très fréquemment utilisées. 5 Objectif: Retrouver une information historique et transversale à l’entreprise. Données réparties. Vue au-jour-le–jour. Comment: Fédérer/Regrouper l'ensemble des données de l'entreprise. Recoupements d’informations. Vue sur l’évolution des informations. 13 Du transactionnel au décisionnel Données de production : • Réparties • SGBD et supports physiques hétérogènes • Qualité inégale des données (données détaillées) • Représentations hétérogènes •Le contenu est fait de données actuelles, pas d’archives Données de décisions : • Centralisées • Un seul support • Fiables • Interprétables Séparation physique !!! 14 Production System CRM System Financial System Bases opérationnelles : • Orientées services : Ventes, comptabilité, Marketing .. • Volatile • OLTP files Data Warehouse (entrepôt de données) : • Orientées sujets (analyse). • Historisées • Non-volatiles Product Data Mart Seles Data Mart Data Mart : • snapshot de DW • Bases Multidimentionnel • Historisées • Non-volatiles O L A P OLAP: • Accès rapide aux Data, KPI, Dashboards, Scorecards • Analyse multi-D • Prédiction, simulation • Reporting (Crystal, MS Reporting) Extract ETL Load Data Mining: • Prédiction/prospection. • Extraction de connaissances (SAS Mining, SQL server Mining) Flux Décisionnel 15 6 Données multidimensionnelles ◦Notion de dimension : C’est une catégorie linguistique selon laquelle les données sont organisées: Nom d’un attribut Valeur d’un attribut Représentation 16 Tableau croisé Tableau simple Représentation 17 Hyper cube Graphique 3D OLTP OLAP Utilisateurs employé décideur Fonction Operations journalières Aide à la décision Conception de la BD orientée application (transaction) Orientée sujet Données courante, à mettre à jour , detaillée, relationelle, isolée historique, résumée, multidimensionnelle integrée, consolidée Usage Répété ad-hoc Accès Lecture écriture Index sur clé primaire Lecture seule Différentes analyses Unité de travail transaction simple Requête complexe #Enr. Utilsés dizaines millions #Users milliers centaines Taille de la BD 100MB-GB 100GB-TB 18 7 ETL (datapumping): ◦Système (middleware) d’alimentation permettant de paramétrer des règles de gestion de l’entreprise. Synchronisation massive ◦connecteur (Oracle/SAP) Outils ETL ◦Talend Open studio ◦Oracle Warehouse Builder (OWB) ◦Oracle Data Integrator (ODI) ◦SAS ETL ◦Business Objects Data Integrator Vise à assurer la cohérence entre les données et à ne stocker dans l’entrepôt de données que des informations préalablement mises en relation les unes avec les autres (mapping). 19 ETL = Extract + Transform + Load Extraction ◦1er étape du processus ETL : Récupération des données depuis les sources de données. Transformation ◦ filtrer ◦ trier ◦ homogénéiser ◦ nettoyer ◦ ... Chargement ◦(Loading) 20 Extraction depuis : ◦les bases de production sources ◦les journaux Différentes techniques ◦Push = Le système opérationnel qui au fil des transactions alimente le DW, ◦Pull =Le système décisionnel cherche périodiquement les données dans les bases de production, ◦Hybride = Push and Pull, Périodique et répétée ◦Respecter la période « extract window » Difficultés ◦Couteuse en ressources ◦Perturbation des applications OLTP ◦Adaptation de Bases sources (dater les enregistrements) ◦Dater ou marquer les données envoyées 21 8 Accès unifiés aux données ◦Unification des modèles Traduction de fichiers, BD réseaux, annuaires en tables Evolution vers XML (modèle d'échange) plus riche ◦Unification des accès SQL complet Mapping plus ou moins sophistiqué ◦Unification des noms Appeler pareil les mêmes choses et différemment les choses différentes Application des "business rules" ◦Jointure, projection, agrégation (SUM, AVG) Nettoyage des données ◦Elimination des doubles ◦Nettoyer ( Valeurs manquantes, aberrantes...) 22 Difficultés ◦Existence de plusieurs sources non conformité des représentations découpages géographiques différents codage des couleurs identification des produits différents difficulté de comparaison des sources de données Mise en conformité nécessaire ! 23 24 9 C’est l’opération qui consiste à charger les données nettoyées et préparées dans le DW. C’est une opération qui peut être longue : ◦Mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation ◦Définir la politique de rafraîchissement. C’est une phase plutôt mécanique et la moins complexe Pas de mise à jour ◦Insertion de nouvelles données ◦Archivage de données anciennes De gros volumes ◦Périodicité parfois longue ◦Chargement en blocs ◦Mise à jour des index et résumés Difficulté ◦Cohabitation avec l'OLAP ? 25 26 La modélisation dimensionnelle est une technique de conception de bases de données où les données sont représentées dans deux types de tables: table de faits et table de dimension. Mesure : une mesure est une quantité présente dans la table de faits qui permet de mesurer les faits. Par exemple, nombre de ventes ou total des ventes sont des exemples de mesures. Afin de comprendre le niveau conceptuel de la modélisation d'un datawarehouse, on va définir deux concepts : Fait et dimension Concept de fait : Un fait représente un sujet d'analyse. Il est constitué de plusieurs mesures relatives au sujet traité. Ces mesures sont numériques et généralement valorisées de façon continue. Cette table ne contient que des clés étrangères venant des tables de dimensions. 27 10 Concept de dimension : La dimensions est le critère suivant lequel on souhaite évaluer, quantifier, qualifier le fait. les tables de dimensions sont des tables servant d'axes d'analyse. On peut par exemple analyser les ventes (table de faits) suivant l'axe des temps (table de dimensions) pour indiquer par exemple pendant quel trimestre de l'année les ventes ont explosé. 28 Souvent représentés par une structure à plusieurs dimensions Une dimension est un attribut ou un ensemble d’attributs: ◦Temps ◦Géographie ◦Produits ◦Clients Les cellules contiennent des données agrégées appelées Faits ou Indicateurs: ◦Nombre d’unités vendues ◦Chiffre d’Affaire ◦Coût Représentations: ◦Relations, ◦Cube de données, ◦hyper cube de données 29 30 Vue multidimensionnelle 11 Plusieurs niveaux d’agrégation ◦Les données peuvent uploads/Management/bi-chap02.pdf
Documents similaires










-
44
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Apv 16, 2021
- Catégorie Management
- Langue French
- Taille du fichier 1.6777MB