Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Le Data Warehouse et les Systèmes Multidimensionnels ELABORER PAR : Mr. ER-RIFA

Le Data Warehouse et les Systèmes Multidimensionnels ELABORER PAR : Mr. ER-RIFAI Youssef Mr. YAMANE Achraf Mr. EL ASRI Salim ENCADRE PAR : Mr. Boulfdlour Le Data Warehouse et les Systèmes Multidimensionnels Sommaire : INRODUCTION I-Définition et construction II-Objectifs d’un Datawarehouse III-Principe de fonctionnement IV-Architecture d’un Data warehouse 1- Les Bases de Données 2- Opérations sur les données 3- Les Data-Marts 4- Les bases multidimensionnelles et les outils OLAP V- Autour de l'entrepôt de données VI-Comparatif entre les bases de données de l'entreprise VII-Etudes de cas 1-Cas d’une compagnie d’assurance 2-Cas d’une banque INTRODUCTION De nos jours, l’évolution des technologies, la mondialisation des marchés et le raccourcissement du cycle de vie des produits rendent la concurrence toujours plus rude. Il devient très difficile pour une entreprise de conserver sa part de marché en se basant uniquement sur les prix et les produits. La communication bidirectionnelle ainsi que la circulation de l’information sont des données primordiales pour élaborer une stratégie CRM. Il est effectivement indispensable pour l’entreprise de comprendre ce que veut le client, ce dernier étant placé au centre des préoccupations. Les connaissances que l’entreprise se doit d’avoir du marché sur lequel elle se trouvent ainsi que l’acquisition des informations récoltées sur le client à chaque contact avec celui-ci, vont permettre à l’entreprise, pour autant qu’elles soient utilisées à bon escient, d’optimiser la satisfaction de sa clientèle. Comme nous le verrons plus tard dans le travail, la technologie revêt un rôle essentiel dans le CRM. Elle va permettre d’extraire des connaissances à partir de données stockées et gérées dans un entrepôt de données, puis analysées grâce aux outils OLAP et au data mining. I-Définition et construction (data werhouse) ou Entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but est de fournir un ensemble de données servant de référence unique, utilisée pour la prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting. D'un point de vue technique, il sert surtout à 'délester' les bases de données opérationnelles des requêtes pouvant nuire à leurs performances. D'un point de vue architectural, il existe deux manières de l'appréhender :  L'architecture de haut en bas : selon Bill Inmon, l'entrepôt de données est une base de données au niveau détail, consistant en un référentiel global et centralisé de l'entreprise. En cela, il se distingue du Datamart, qui regroupe, agrège et cible fonctionnellement les données.  L'architecture de bas en haut : selon Ralph Kimball, l'entrepôt de données est constitué peu à peu par les Datamarts de l'entreprise, regroupant ainsi différents niveaux d'agrégation et d'historisation de données au sein d'une même base. La définition la plus communément admise est un mélange de ces deux points de vue. Le terme Data warehouse englobe le contenant et le contenu : il désigne d'une part la base détaillée qui est la source de données à l'origine des Datamarts, et d'autre part l'ensemble constitué par cette base détaillée et ses Datamarts. De la même manière, les méthodes de conception actuelles prennent en compte ces deux approches, privilégiant certains aspects selon les risques et les opportunités inhérents à chaque entreprise. II-Objectifs d’un Datawarehouse • permet le développement d’applications décisionnelles et de pilotage de l’entreprise et de ses processus • joue un rôle de référentiel pour l’entreprise puis qu’il permet de fédérer des données souvent éparpillées dans différentes bases de données • offre une vision globale et orientée métiers de toutes les données que manipule l’entreprise • permet de faire face aux changements du marché et de l’entreprise • offre une information compréhensible, utile et rapide III-Principe de fonctionnement Intégration Dans les faits, les données alimentant l'Entrepôt de données sont hétérogènes, issues de différentes applications de production, voire de fichiers dits "plats" (fichiers Excel, fichiers texte, XML...). Il s’agit alors de les intégrer, de les homogénéiser et de leur donner un sens unique compréhensible par tous les utilisateurs. La transversalité recherchée sera d’autant plus efficace que le système d’information sera réellement intégré dans sa globalité. Cette intégration nécessite notamment :  une forte activité de normalisation et de rationalisation, orientée vers la qualité ;  une bonne gestion des référentiels, incluant une vérification constante de leur intégrité ;  une parfaite maîtrise de la sémantique et des règles de gestion des métadonnées manipulées. La problématique de l'intégration repose sur la standardisation de données internes à l'entreprise, mais aussi des données externes (provenant par exemple de clients ou de fournisseurs). Ce n’est qu’au prix d’une intégration poussée que l’on peut offrir une vision homogène et véritablement transverse de l’entreprise. Ceci suppose que le système d’information de l’entreprise en amont soit bien structuré, bien maîtrisé, et bénéficie déjà d’un niveau d’intégration suffisant. Si tel n'est pas le cas, la mauvaise qualité des données peut empêcher la mise en œuvre de l'entrepôt de données. Historisation L'historisation d'un Datawarehouse repose sur le principe de conservation des données (ou de non-volatilité des données). Afin de conserver la traçabilité des informations et des décisions prises, les données une fois entrées dans l'Entrepôt sont stables, en lecture seule, non modifiables par les utilisateurs. Une même requête lancée plusieurs fois à différents moments doit ainsi restituer les mêmes résultats. Dès qu’une donnée est qualifiée pour être introduite dans l'Entrepôt de données, elle ne peut donc plus être altérée, modifiée ou supprimée (jusqu'à un certain délai de purge). Elle devient, de fait, partie intégrante de l’historique de l’entreprise. Le principe de non-volatilité tranche avec la logique des systèmes de production, qui bien souvent remettent à jour les données par « annule et remplace » à chaque nouvelle transaction. Chaque donnée collectée se voit affecter une date ou un numéro de version pour éviter de recouvrir une information déjà présente dans la base de données, et permettre de suivre son évolution au cours du temps. Il y a de cette manière conservation de l'historique. D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des indicateurs et de réaliser des analyses comparatives (par exemple, les ventes d'une année sur l'autre). De ce fait, dans un entrepôt de données, un référentiel de temps unique est nécessaire. Organisation fonctionnelle L'Entrepôt de données intègre au sein d'une même base les informations provenant de multiples applications opérationnelles. On passe ainsi d’une vision verticale de l’entreprise, dictée par des contraintes techniques, à une vision transversale, dictée par le besoin métier, qui permet de croiser fonctionnellement les informations. L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles (services) de l’entreprise. On dit que l'Entrepôt de données est orienté « métier », en réponse aux différents métiers de l’entreprise dont il prépare l’analyse. D'un point de vue conceptuel, les données d'un Data warehouse sont interprétables sous forme d' indicateurs répartis selon des axes (ou dimensions) : par exemple, le nombre de clients (indicateur) réparti par jour de vente, magasin ou segment de clientèle (axes). T echniquement, la modélisation de l'Entrepôt de données peut matérialiser cette organisation sous forme de tables de fait ou et de tables de référentiel. L'Entrepôt de données a une structure de données qui peut en général être représentée par un modèle de données normalisé 3FN ((en)3NF) pour les données de détail et/ou en étoile ou en flocon pour les données agrégées et ce dans un SGBD relationnel (notamment lorsqu'il s'agit de données élémentaires ou unitaires non agrégées). La traduction technique de ce modèle se fait souvent au sein d'un cube OLAP. L'Entrepôt de données est conçu pour contenir les données en adéquation avec les besoins de l’organisation, et répondre de manière centralisée à tous les utilisateurs. Il n’existe donc pas de règle unique en matière de stockage ou de modélisation. Ainsi, ces données peuvent donc être conservées :  de préférence, sous forme élémentaire et détaillée (exemple : pour une banque, chaque opération sur chaque compte de chaque client) si la volumétrie le permet. Lesdonnées élémentaires présentent des avantages évidents (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriorisur le « passé ») mais représentent un plus grand volume et nécessitent donc des matériels plus performants.  éventuellement, sous forme agrégée selon les axes ou dimensions d'analyse prévus (mais ces agrégations sont plutôt réalisées dans les datamarts que dans les entrepôts de données proprement dits). Les données agrégées présentent d'autres avantages (facilité d'analyse, rapidité d'accès, moindre volume). Par contre, il est impossible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés : on prend le risque de figer les données selon une certaine vue avec les axes d'agrégation retenus, et de ne plus pouvoir revenir sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera plus possible de faire une analyse par journée). IV-Architecture d’un Data warehouse 1- Les Bases de Données uploads/Management/data-warehouse.pdf