INTRODUCTION L'entreposage des données (DWH) est crucial dans un environnement

INTRODUCTION L'entreposage des données (DWH) est crucial dans un environnement commercial où des informations précises, sûres et à jour sont nécessaires pour les opérations d’une organisation. La mise en œuvre d'un processus ETL complet aide à extraire les données de sources hétérogènes vers l'entrepôt de données de manière pratique, en mettant l'accent sur les phases de cartographie et de modélisation du processus ETL. Les fonctionnalités ETL faciliteront la mise à disposition de données cohérentes pour la génération de rapports afin de prendre les meilleures décisions. Objectif de l’étude L’objectif de ce projet est de tester L’ETL Informatica Powercenter avec un SGBD Oracle 11g. Dans cette étude, nous allons implémenter un prototype d’une chaîne décisionnelle avec un Data Warehouse. L’objectif est la mise à disposition aux décideurs des données cohérentes et structurées afin de pouvoir générer des rapports qui permettrons une meilleure prise de décision. CHAPITRE I : L’INFORMATIQUE DECISIONNELLE Définition L’informatique décisionnelle ou le Business Intelligence (BI) combine l'analyse d'entreprise, l'exploration de données, la visualisation de données, les outils et l'infrastructure de données, ainsi que les meilleures pratiques pour aider les organisations à prendre davantage de décisions basées sur les données. Bien plus qu'une "chose" spécifique, la business intelligence est plutôt un terme générique qui couvre les processus et les méthodes de collecte, de stockage et d'analyse des données provenant des opérations ou des activités de l'entreprise afin d'optimiser les performances. Tous ces éléments sont réunis pour créer une vue d'ensemble d'une entreprise et aider les gens à prendre des décisions plus judicieuses et exploitables. Au cours des dernières années, la veille stratégique a évolué pour inclure davantage de processus et d'activités visant à améliorer les performances. Processus et activités Data mining : Utilisation de bases de données, de statistiques et de l'apprentissage automatique pour découvrir des tendances dans de grands ensembles de données. Établissement de rapports : Partager l'analyse des données avec les parties prenantes afin qu'elles puissent tirer des conclusions et prendre des décisions. Mesures de la performance et analyse comparative : Comparer les données de performance actuelles aux données historiques pour suivre les performances par rapport aux objectifs, généralement à l'aide de tableaux de bord personnalisés. Analyse descriptive : Utilisation d'une analyse préliminaire des données pour déterminer ce qui s'est passé. Interrogation : Poser des questions spécifiques sur les données et extraire les réponses des ensembles de données. Analyse statistique : Prendre les résultats de l'analyse descriptive et explorer davantage les données à l'aide de statistiques, par exemple pour savoir comment et pourquoi cette tendance s'est produite. Visualisation des données : Transformation de l'analyse des données en représentations visuelles telles que des diagrammes, des graphiques et des histogrammes afin de faciliter l'utilisation des données. Analyse visuelle : Exploration des données par le biais de récits visuels pour communiquer des idées à la volée et rester dans le flux de l'analyse. Préparation des données : Compiler plusieurs sources de données, identifier les dimensions et les mesures, les préparer pour l'analyse des données. L’importance de L’informatique décisionnelle Le Business Intelligence peut aider les entreprises à prendre de meilleures décisions en montrant les données actuelles et historiques dans leur contexte commercial. Les analystes peuvent tirer parti de la BI pour fournir des repères sur les performances et les concurrents afin de rendre l'organisation plus fluide et plus efficace. Les analystes peuvent également repérer plus facilement les tendances du marché pour augmenter les ventes ou les revenus. Utilisées efficacement, les bonnes données peuvent être utiles dans tous les domaines, de la conformité aux efforts de recrutement. Voici quelques façons dont la veille stratégique peut aider les entreprises à prendre des décisions plus intelligentes, fondées sur des données :  Identifier les moyens d'augmenter les profits  Analyser le comportement des clients  Comparer les données avec celles des concurrents  Suivre les performances  Optimiser les opérations  Prédire le succès  Repérer les tendances du marché  Découvrir des questions ou des problèmes Le système Data Warehouse: architecture, Composants et concepts Caractéristiques Orienté sujet Un entrepôt de données est orienté vers un sujet car il offre des informations concernant un thème au lieu des opérations courantes des entreprises. Ces sujets peuvent être les ventes, le marketing, les distributions, etc. L’ entrepôt de données fournit également une vue simple et concise autour d'un sujet spécifique en excluant les données qui ne sont pas utiles pour soutenir le processus de décision. Intégré Dans un entrepôt de données, l'intégration signifie l'établissement d'une unité de mesure commune pour toutes les données similaires provenant de bases de données dissemblables. Les données doivent également être stockées dans l'entrepôt de données d'une manière commune et universellement acceptable. Cette intégration contribue à une analyse efficace des données. Il faut assurer la cohérence des conventions de nommage, des mesures d'attributs, de la structure de codage, etc. Variable dans le temps Dans un Data Warehouse, les données sont historisées. Un entrepôt de données contient des données passées qui peuvent être interrogées et analysées sur une période donnée. Cela contraste avec une base de données transactionnelle qui peut ne contenir que des données actuelles (c'est-à-dire que les anciennes données ont été déplacées ou supprimées). Par exemple, une entreprise peut utiliser un entrepôt de données pour consulter toutes les adresses passées de ses clients. Elle souhaite peut-être trouver tous les clients qui ont vécu dans une zone particulière. Une base de données transactionnelle peut ne pas contenir toutes les adresses passées, mais seulement l'adresse actuelle. Non-volatile Cela signifie que les données d'un entrepôt de données ne doivent pas changer. Une fois qu'elles ont été ajoutées à l'entrepôt, elles doivent rester tel quelle. Les données sont en lecture seule et sont rafraîchies périodiquement. Cela permet également d'analyser les données historiques et de comprendre ce qui s'est passé et quand. Il ne nécessite pas de processus de transaction, de récupération et de mécanismes de contrôle de la concurrence. Les activités comme la suppression, la mise à jour et l'insertion qui sont effectuées dans un environnement d'application opérationnelle sont omises dans l'environnement de l'entrepôt de données. Les deux seuls types d'opérations effectuées dans l'entrepôt de données sont les suivants : le chargement des données, l'accès aux données. Architecture du Datawarehouse Il existe 3 approches pour construire les couches d'un entrepôt de données : Un seul niveau, deux niveaux et trois niveaux. Architecture à un seul niveau : L'objectif d'une couche unique est de minimiser la quantité de données stockées. Ce but est de supprimer la redondance des données. Cette architecture n'est pas fréquemment utilisée dans la pratique. Architecture à deux niveaux : L'architecture à deux couches est l'une des couches de l'entrepôt de données qui sépare les sources physiquement disponibles et l'entrepôt de données. Cette architecture n'est pas extensible et ne supporte pas non plus un grand nombre d'utilisateurs finaux. Elle présente également des problèmes de connectivité en raison des limitations du réseau. Architecture d'entrepôt de données à trois niveaux : Il s'agit de l'architecture DW la plus courante. Elle se compose d'un niveau supérieur, d'un niveau intermédiaire et d'un niveau inférieur. Composants du Datawarehouse Nous allons apprendre les composants de l'entrepôt de données et l'architecture de l'entrepôt de données avec le diagramme ci-dessous : Figure: Architecture Data Warehouse Base de données d’un data Warehouse La base de données centrale est le fondement de l'environnement d'entreposage de données. Souvent, elle fait partie de la famille de la technologie SGBDR. Cependant, ce type de mise en œuvre est limité par le fait que le système SGBDR traditionnel est optimisé pour le traitement des bases de données transactionnelles et non pour l'entreposage de données. Par exemple, les requêtes ad-hoc, les jointures multi-tables, les agrégats sont gourmands en ressources et ralentissent les performances. Par conséquent, d'autres approches des bases de données sont utilisées, comme indiqué ci-dessous.  Dans un entrepôt de données, les bases de données relationnelles sont déployées en parallèle pour permettre l'évolutivité. Les bases de données relationnelles parallèles permettent également la mémoire partagée ou le modèle de rien partagé sur diverses configurations multiprocesseurs ou processeurs massivement parallèles.  De nouvelles structures d'index sont utilisées pour contourner le balayage des tables relationnelles et améliorer la vitesse.  Utilisation de bases de données multidimensionnelles (MDDB) pour surmonter les limitations imposées par les modèles d'entrepôts de données relationnels. Exemple : Essbase d'Oracle. Outils d'acquisition, de nettoyage et de transformation (ETL) Les outils d'acquisition, de transformation et de chargement des données sont utilisés pour effectuer toutes les conversions, les compressions et tous les changements nécessaires pour transformer les données en un format unifié dans l'entrepôt de données. Également connus sous l’acronyme ETL (extraction, transformation et chargement). Leurs fonctionnalités comprennent :  Anonymiser les données conformément à la règlementation.  Éliminer les données non désirées dans les bases de données opérationnelles pour les charger dans l'entrepôt de données.  Rechercher et remplacer les noms et définitions communs pour les données arrivant de différentes sources.  Calculer des résumés et des données dérivées  En cas de données manquantes, les remplir avec des valeurs par défaut.  Déduplication de données répétées arrivant uploads/Management/ projet-dwh-recuperation-automatique 1 .pdf

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 02, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 2.4198MB