1 Informatique Décisionnelle et data mining INFORMATIQUE DECISIONNELLE Faculté
1 Informatique Décisionnelle et data mining INFORMATIQUE DECISIONNELLE Faculté des Sciences et Techniques de Tanger Département Génie Informatique Cycle Ingénieur Logiciel et Système Informatique 2 Informatique Désisionnelle DataWareHouse et Analyse OLAP 2 3 Contextes économique et informationnel actuel Contexte économique Mondialisation de l'économie, Concurrence accrue, Besoin dʼinformations pour prises de décisions de plus en plus rapides Contexte informationnel Décentralisation des données, données volumineuses (méga-data) et difficulté d'accès à l'information Traitement et analyse de l’information: enjeu stratégique dʼentreprise, une source de performance et de compétitivité Contexte informatique Puissance de calcul croissante Capacité de stockage croissante Bases de données de plus en plus importantes SGBD de plus en plus performants (parallélisme, …) Ouverture sur le Web, … 4 Les systèmes de ID/BI sont utilisés par les décideurs pour obtenir une connaissance approfondie de l'entreprise et de définir et de soutenir leurs stratégies d'affaires, par exemple : – améliorer la performance de lʼentreprise, – acquérir un avantage concurrentiel, – Identifier des secteurs d’activité critiques – répondre plus rapidement aux changements, – augmenter la rentabilité (coûts, bénéfices), – d’une façon générale la création de valeur ajoutée de l'entreprise Informatique Décisionnelle/Business Intelligence 3 5 BI/ID Collecter les données internes et externes et les transformer en informations, analysées pour prendre de meilleures décisions et améliorer la performance de l’entreprise. Le Business Intelligence restitue une vision cohérente du fonctionnement de l’organisation : Assurer la cohérence entre les objectifs stratégiques (décisions) et les actions du management opérationnel Fournir une vision prospective : mesurer la performance de la stratégie choisie et agir en conséquence Modéliser le business 6 Les étapes historiques importantes 1958 : Utilisation pour la première fois du terme « Business Intelligence » par Hans Peter Luhn un Informaticien d’IBM. 1992 : Bill Inmon, publie «Building the Data Warehouse» . 1st Edition. Wiley and Sons. 2000 : Ralph Kimball, publie «A Dimensional Modeling Manifesto». 4 7 DSS pour Decision Support System L’informatique décisionnelle est un des domaines techniques de la Business Intelligence. Re fédérer les données pour que l’utilisateur puisse récupérer celles qui l’intéresse dans son langage métier. L’informatique décisionnelle 8 • Banque: comportement (Chèques, cartes de crédit, attribution et remboursement de crédit), profils • Entreprises de fabrication: gestion des commandes, • Assurance: analyse des demandes, détection de la fraude • Télécommunication: analyse des appels, désabonnement • Service public: analyse de l'utilisation • Santé: analyse et évaluation des services • ... Applications 5 9 Clients bancaires avec un prêt x: "mauvais" clients ayant des paiements périodiques à la banque après la date d'échéance o: «bons» clients respectant la date d'échéance du paiement périodique Exemple 10 OLTP (Online Transactional Processing) OLAP (Online Analytical Processing) Nécessaire au fonctionnement de l ’organisme (entreprise par ex) Utilisée pour analyser le fonctionnement de l ’organisme (entreprise par ex) Normalisé Souvent agrégées En règle générale non Historisées Le temps est fondamental Maintenant Passé SID Vs SIO : Données 6 11 • OLTP : – Les ventes par catégorie et par mois : • OLAP : – Les ventes par catégorie, par magasin , par vendeur et par mois Mois /Catégorie Nettoyage Alimentation Vêtement Papeterie Janvier 200.000 150.000 180.000 50.000 Février 180.000 140.000 250.000 55.000 Mars 220.000 155.000 100.000 48.000 … SID Vs SIO : Données Entrepôt de Entrepôt de Données Données Système d ystème d' 'Info. de nfo. de Production roduction Orientation Orientation : Gestion Gestion Système d ystème d' 'Info. nfo. Décisionnel écisionnel Orientation Orientation : Pilotage Pilotage BD Magasins BD Clients BD Produits BD Compta BD DRH BD Marketing BD Fournisseurs Flux de données externes 7 13 14 Données Information Connaissance 8 15 Alimentation du DataWareHouse (ETL), DataWareHouse, DataMart Restitution des données : Pilotage ou Requêtage, Analyse des Données:Statistiques, Datamining Résultats: Reporting, Interface Utilisateur, dashboards, visualization d’information, portail Applications: management de la performance, CRM, Portfolio management, etc Composantes d’un SID 16 DW H DM DM ORACL E Outil d’alimentation Entrepôts de données Bases dédiées Sources de Données Requêteur Pilotage Extract Transform Load Phase d’Alimentation Bases de données Excel SYBASE Cube DataWareHouse DataMart Cubes Phase de Modélisation Phase d’Analyse Requêteur Pilotage Data Mining Phase de Restitution Architecture d'un système décisionnel DWH DM DM ORACL E Sources de Données Requêteur Pilotage 9 17 Gestion de projet décisionnel 18 Phase de Modélisation 10 19 DataWareHouse L’entrepôt de données est un système transversal, qui complète les systèmes opérationnels. Contient de grandes quantités de données – provenant de diverses sources, – sauvées sous un schéma de données unique, et – résidant à un endroit unique Construit par: – Nettoyage, transformation, intégration, chargement et rafraîchissement périodiques des données 20 Un DataWareHouse est un entrepôt de données : Organisées suivant des thèmes précis (clients, activités, …) associés aux différentes structures fonctionnelle de l’entreprise. Non volatiles (non modifiables), essentiellement utilisées en interrogation (consultation Integrées : les données résultent de lʼintégration de données provenant de différentes sources pouvant être hétérogènes Historisées Organisés suivant une chronologie historique Un DataMart : magazin de données: Versions simplifiées, car plus ciblées, des entrepôts des données DataWareHouse - DataMart 11 21 Processus en 3 phases : 1 - Construction de la BD décisionnelle Modélisation conceptuelle des données multiformes et multi-sources Conception de lʼentrepôt de données Alimentation de lʼentrepôt (extraire, nettoyer, transformer, charger) Stockage physique des données 2 - Sélection des données à analyser Besoins dʼanalyse de lʼutilisateur Datamarts (Magasins de données) Cubes multidimensionnels Tableaux ou tables bidimensionnels 3 - Analyse des données Stastiques et reporting, OLAP, Data Mining Processus général de construction et exploitation dʼun ED 22 Le modèle multidimensionnel Le modèle multidimensionnel est la combinaison de tables de dimensions et de faits. Le fait est le sujet de l’analyse. Il est formé de mesures, généralement numériques, renseignées de manière continue. Ces mesures permettent de résumer un grand nombre d’enregistrements des données sources en quelques-uns. Une mesure est une quantité intéressante que lʼon souhaite observer, par exemple: montant des ventes, quantité de produit vendus,… Le fait est analysé selon des perspectives, nommées dimensions. Chacune contient une structure hiérarchique (niveaux). Une hiérarchie est composée de niveaux ("levels") correspondant à un des attributs de la base de données la dimension « temps », par exemple, pourrait être divisée en années, trimestres, mois, semaines, jours… la dimension Store" est composée des niveaux "Country", "State", "City", "Store_Name" 12 23 Un schéma = modèle logique définissant une BD multidimensionnelle ainsi que les structures associées : cubes, dimensions, hiérarchies, niveaux et membres (valeurs) Il donne aussi la source des données représentées dans le modèle logique Il est en général en étoile, se traduit par un ensemble de tables relationnelles Composants majeurs dʼun schéma : cube = collection de dimensions et de mesures dans un domaine particulier. dimension = attribut, ou ensemble d'attributs, à travers lesquels sont observées les mesures mesure = quantité intéressante, quʼon souhaite observer (Ex : montant des ventes, …) Schéma dʼune BD multidimensionnelle 24 Implantation classique: Modèle en étoile Le schéma en étoile contient 2 types de tables: Tables de faits: • Contiennent des colonnes des faits à analyser (mesures); • Contiennent des clés étrangères vers les tables de dimension. Tables de dimension: • Décrivent les attributs des dimensions de l'analyse; • Décrivent les niveaux de granularité de ces dimensions. Granularité / Finesse des Faits - Niveau de détail de représentation 13 25 •Au centre la table des faits •Les dimensions comme autant de branches à l'étoile. •Les branches de l'étoile sont des relations de 1 à plusieurs •La table des faits est énorme contrairement aux tables des dimensions Modèle en étoile 26 Modèle en étoile 14 27 Modèle en flocon Raffinement du schéma étoile avec des tables normalisées par dimensions 28 Modèle en flocon 15 29 Modèle en constellation 30 Exemple: Prix Festivals de Cinéma Schéma en étoile 16 31 •Awards Exemple: Prix Festivals de Cinéma Table de dimension 32 •Award categories Exemple: Prix Festivals de Cinéma Table de dimension 17 33 Exemple: Prix Festivals de Cinéma Table de dimension •Year 34 Exemple: Prix Festivals de Cinéma Table de dimension •Movie 18 35 Exemple: Prix Festivals de Cinéma Table de dimension •Winners(names) 36 Exemple: Prix Festivals de Cinéma Table de Fait •AwardCollectionFact 19 37 En informatique, et plus particulièrement dans le domaine des bases de données, le traitement analytique en ligne (online analytical processing, OLAP) est un type d’application informatique orientée vers l’analyse sur-le-champ d’informations selon plusieurs axes, dans le but d’obtenir des rapports de synthèse OLAP & BD multi-dimensionnelles 38 •Les bases de données opérationnelles relationnelles ne sont pas adaptées à l'OLAP car les tables représentent une vue aplatie de structures naturellement multi- dimensionnelles. •Non seulement perte de performances mais aussi nécessité pour les utilisateurs de savoir comment trouver les liens entre les tables pour recréer la vue multi- dimensionnelle. •Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP, i.e. permettant de •visualiser les données dans plusieurs dimensions naturelles, •de pouvoir définir et ajouter des dimensions facilement •de manipuler les données ainsi représentées facilement et efficacement. Bases de données multi-dimensionnelles ("Cube") OLAP & BD multi-dimensionnelles 20 39 BD multidimensionnelle = hyper-cube Base de données multi-dimensionnelle = "super-tableur" M OD uploads/Management/ info-decisionnelle-fst-tanger.pdf
Documents similaires










-
41
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 15, 2021
- Catégorie Management
- Langue French
- Taille du fichier 3.6928MB