Master M2 (Option F3I) Master M2 (Option F3I) Les entrepôts de données Les entr
Master M2 (Option F3I) Master M2 (Option F3I) Les entrepôts de données Les entrepôts de données Data Mining et Apprentissage Automatique Cours de Master F3I 2008-2009 Plan Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration 29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 2 I f ti d P d ti Informatique de Production Données opérationnelles (de prod ction) Données opérationnelles (de production) activité constante composée de modifications et d'interrogations fréquentes des bases de données par de b tili t j t d difi nombreux utilisateurs : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client, etc. i é i é é é i l'intégrité des données est nécessaire pour ce genre d'applications (il faut par exemple, interdire la modification simultanée d'une même donnée par deux tili t diffé t ) utilisateurs différents). La cohérence assurée par les systèmes de production est toute relative. Elle se contrôle au niveau de la transaction élé t i i i l b l t d ti ité d élémentaire mais pas au niveau global et des activités de l'organisation. 29/11/2009 3 Master F3I (Data Mining et Apprentissage Automatique) I f ti d P d ti Informatique de Production Données opérationnelles (de prod ction) Données opérationnelles (de production) Basée sur Les systèmes transactionnels temps réel, OLTP (On-line Transaction Processing) garantissent l'intégrité des d é données. Les utilisateurs accèdent aux données de la base par de très courtes transactions atomiques et isolées. La priorité est donnée en premier lieu à l'enregistrement rapide, sûr et efficace des données. L'un des formalismes les plus utilisés pour la représentation L un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d'information est le modèle EntiteAssociation 29/11/2009 4 Master F3I (Data Mining et Apprentissage Automatique) S tè Dé i i l Systèmes Décisionnels Définition : Informatiq e décisionnelle (M t d tè Définition : Informatique décisionnelle (Management du système d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) : les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles d'une entreprise en vue matérielles ou immatérielles, d une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée d ensemble de l activité traitée.. 29/11/2009 5 Master F3I (Data Mining et Apprentissage Automatique) C té i ti d S tè Dé i i l Caractéristiques des Systèmes Décisionnels Possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tablea de bord et d'a tres impré isibles tableaux de bord et d'autres imprévisibles. permettre à l'utilisateur d'effectuer les requêtes qu'il souhaite, par lui-même, sans l'intervention de programmeur. Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser des statistique (moyenne, écrat- ) type, ….) 29/11/2009 6 Master F3I (Data Mining et Apprentissage Automatique) C té i ti d S tè Dé i i l Caractéristiques des Systèmes Décisionnels La str ct re logiq e doit être pré e po r rendre a ssi La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, il est nécessaire d'introduire de la redondance dans les informations Stockées en mémorisant des calculs informations Stockées en mémorisant des calculs intermédiaires. On rompt donc avec le principe de non redondance des bases de production. la cohérence requise doit être interprétable par la cohérence requise doit être interprétable par l'utilisateur. Les systèmes d'informatique décisionnelle doivent donc l tôt hé l b l d d é P assurer plutôt une cohérence globale des données. Pour ce faire, leur alimentation doit être une opération réfléchie et planifiée dans le temps. 29/11/2009 7 Master F3I (Data Mining et Apprentissage Automatique) C té i ti d S tè Dé i i l Caractéristiques des Systèmes Décisionnels Les transferts de données d s stème opérationnel Vers le Les transferts de données du système opérationnel Vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l'activité de l'entreprise. Chaque transfert sera contrôlé avant d'être diffusé Chaque transfert sera contrôlé avant d être diffusé. Aucune information n'y est jamais modifiée. On mémorise toutes les données sur une période déterminée, les données ne seront jamais remises à jour car toutes les données ne seront jamais remises à jour car toutes les vérifications utiles à la cohérence globale sont procédées lors de l'alimentation. L' tili ti é d à h t é i di L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter. 29/11/2009 8 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. To t s stème d'information décisionnel (SID) telle q e le Tout système d'information décisionnel (SID) telle que le sont les datawarehouses assurent quatre fonctions fondamentales, à savoir la ll t collecte, l'intégration, la diffusion et la présentation des données. À ces quatre fonctions s'ajoute une fonction de contrôle du SID lui-même l'administration contrôle du SID lui-même, l administration. 29/11/2009 9 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. L ll t La collecte La collecte des données (parfois appelée data pumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID. Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique (données complexes) cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe, car un excédent de un système décisionnel complexe, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l'absence de données. 29/11/2009 10 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. Elle s'app ie notamment s r des o tils d'ETL (e tract Elle s'appuie notamment sur des outils d'ETL (extract- transform-load pour extraction-transformation- chargement). La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment à i i d'une source à une autre impose le choix d'une représentation unique pour les futures analyses. 29/11/2009 11 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. L’i té ti L’intégration L’intégration des données, c'est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; elle consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l' t ôt d d é Élé t t l d di itif il l'entrepôt de données. Élément central du dispositif, il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène, li é t fi bl tibl d l di ité normalisée et fiable, susceptible de masquer la diversité de l'origine des données. 29/11/2009 12 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. L diff i La diffusion La diffusion, ou la distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs. c'est-à-dire elle met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou éti d h h t l' è di t à au métier de chacun, sachant que l'accès direct à l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste. 29/11/2009 Ecole Doctorale (Data Mining et ...) 13 F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. L é t ti La présentation Cette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle tili t t l t h i d i ti ibl utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications bil t ) mobiles, etc.). 29/11/2009 14 Master F3I (Data Mining et Apprentissage Automatique) F ti ti ll d l’I f ti Dé i Fonctions essentielles de l’Informatique Décis. L’ d i i t ti L’administration L’administration, qui gère le dictionnaire de données et uploads/Industriel/ cours-1-data-warehouse.pdf
Documents similaires










-
36
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jul 30, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 2.4536MB