Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Module MABD Master Informatique Spécialité IAD Cours 10 – Intégration de donnée

Module MABD Master Informatique Spécialité IAD Cours 10 – Intégration de données Contenu • Problématique • Architectures • Entrepôts de données • Médiateurs Problématique Globalisation des données et des ressources Intégration de données Infrastructures de médiation Accès transparent aux données : illusion d’un système unique et homogène  dictionnaire de données réparti, requêtes et transactions réparties, échange de Données, coopération, cohérence, sécurité, … Contexte • Sources d’informations nombreuses et très diversifiées (SGBD R, SGBDO, XML, fichiers texte, pages Web, etc.) • Différents modes de consultation – Langages et modes de requêtes différents (SQL, moteurs de recherche, programme d’applications…) – Différentes façons de répondre (différentes présentations du résultat) : pages Web, tableurs, relations… • Différents interactions avec la source – Protocoles de communication (JDBC, ODBC, IIOP) – Différentes interfaces Exemple SGBD relationnel Application SGBD objet SGBD Semi-Structuré Agence de voyage Chaine hotelière Site horaire des vols Informations Pays Météo Fichiers texte Fichiers texte Fichiers texte SQL XQuery OQL API Moteur de recherches instances tuples objets xml html Intégration de données Fournir un accès (requêtes, éventuellement mises à jour) uniforme (les sources sont transparentes à l’utilisateur) à des sources (pas seulement des BD) multiples (même 2 est un problème) autonomes (sans affecter le comportement des sources) hétérogènes (différents modèles de données, schémas) structurées ( ou au moins semi-structurées) Caractéristiques des sources • Distribution • Hétérogénéité • Autonomie • Interopérabilité Distribution Hétérogénéité Autonomie Interopérabilité Distribution • Les données sont stockées sur des supports répartis géographiquement. • Offre disponibilité et amélioration des temps d’accès. • Pbs: – Localiser la (ou les) source(s) contenant les données pertinentes. – Tenir compte de la puissance des sources et de leur charge – Les sources peuvent être temporairement indisponibles Hétérogénéité • L’hétérogénéité concerne les données, les modèles et les langages. • Système homogène : • même logiciel gérant les données sur tous les sites • même modèle de données • Système hétérogène : • n’adhère pas à toutes les caractéristiques d’un système homogène • langages de programmation et d’interrogation différents, modèles différents, SGBD différents Hétérogénéité des données • Sémantique – Signification, interprétation ou utilisation différente de la même donnée – Plusieurs types de relations sémantiques : identité, équivalence, compatibilité, incompatibilité. • Structurelle – Représentation différente des mêmes concepts dans des bases différentes – Conflits de noms, types de données, attributs, unités Autonomie • Conception : sources locales avec des • modèles de données propres, • langage d’interrogation • Interprétation sémantique des données, contraintes, fonctions … • Communication : les sources de données locales décident quand et comment répondre aux questions d’autres sources • Exécution : pas d’information provenant des sources locales sur • l’ordre d’exécution des transactions locales ou des opérations externes • pas de distinction entre les opérations locales et globales • Association : • connexion et déconnexion des sources • partage de données et des fonctions Interopérabilité • Systèmes interopérables : • échange de messages et de requêtes • partagent les fonctions • Communiquent même avec des composants internes incompatibles • Propriétés fondamentales à tout système interopérable : – Distribution – Hétérogénéité – Autonomie Processus d’Intégration Processus semi automatisable permettant d’intégrer des données structurellement et sémantiquement hétérogènes. Problème ancien (voir état de l’art dans A.P.Sheth and J.A Larson. Federated database systems for managing distributed, heterogeneous, and autonomous databases. ACM Computing Surveys, 22(1):183-236, Mars 90). Pbs : hétérogénéité des modèles de données, des puissances d’expression, des modélisations. Un système d’intégration comprend 4 tâches principales : - intégration de schéma - fusion de données - traduction de requêtes - réécriture de requêtes SGDB universel Entrepôt de données Systèmes fortement intégrés Recherche D’information Systèmes Faiblement intégrés Systèmes de requêtes Pour sources hétérogènes Intégration virtuelle Intégration matérialisée Localisation de données Bases de données fédérées Moteurs de recherche Les données sont transférées Les données restent sur le site où elles se trouvent Données natives structurées Données structurées Natives et dérivées Données natives Non structurées Données structurées Données natives Structurées Semi-structurées Non structurées Architectures d’intégration • Intégration matérialisée – Les données provenant des sources à intégrer sont stockées sur un support spécifique (entrepôt de données). – L’interrogation s’effectue comme sur une BD classique (relationnelle). • Intégration virtuelle – Les données restent dans les sources – Les requêtes sont faites sur un schéma global, puis décomposées en sous-requêtes sur les sources. Les différents résultats des sources sont de la requête sont combinés pour former le résultat final. Architecture d’entrepôt de données Intégrateur Entrepôt (BD relationnelle) requête réponse Schéma local Schéma local Schéma local Extraction et nettoyage de données utilisateur Source 1 Source 2 Source 3 Architecture de médiateur Schéma global Schéma local Source 1 Schéma local Source 2 Schéma local Source 3 Médiateur requête réponse utilisateur adaptateur adaptateur adaptateur Entrepôts de données Motivations • Réconciliation sémantique – Dispersion des sources de données au sein d’une entreprise – Différents codage pour les mêmes données – L’entrepôt rassemble toutes les informations au sein d’un unique schéma – Conserve l’historique des données • Performance – Les données d’aide à la décision nécessitent une autre organisation des données – Les requêtes complexes de l’OLAP dégradent les performances des requêtes OLTP. • Disponibilité – La séparation augmente la disponibilité – Une bonne façon d’interroger des sources de données dispersées • Qualité des données Systèmes légués • gros système, critique, sur environnement ancien. Souvent peu documenté. Interactions entre les différents modules peu claires. Très cher à maintenir. • Il faut l'intégrer (migration) au système actuel (Entrepôt) = architecture cible. • Contraintes : migration sur place, garder opérationnel, corriger et améliorer pour anticiper, le moins de changements possibles (diminuer le risque), flexible sur les évolutions futures, utiliser les technologies modernes. • Approche classique : tout réécrire dans l'architecture cible – promesses à tenir dans des conditions changeantes – problème de transfert de très gros fichiers (plusieurs jours) dans système critique – gros projet, retard mal vus, risque d'abandon • Approche incrémentale : – isoler des sous-systèmes a migrer – établir des passerelles pour que les modules déjà migrés puissent communiquer avec les modules encore dans le système légué (traducteur de requêtes et de données). – coordonner les mises à jour pour garder la cohérence. Caractéristiques Dans un entrepôt, les données sont • orientées par sujets : Les données organisées par sujet (clients, vendeurs, production,etc.) contiennent seulement l'information utile à la prise de décision. Les systèmes opérationnels sont plutôt orientés autour des traitements et des fonctions. • intégrées : Les données, provenant de différentes sources (systèmes légués) sont souvent structurées et codées de façons différentes. L'intégration permet d'avoir une représentation uniforme, cohérente et transparente. Lorsque les données sont agrégées, il faut s’assurer que l’intégration est correcte. • historiques : Un entrepôt contient des données "anciennes", datant de plusieurs années, utilisées pour des comparaisons, des prévisions, etc. • non volatiles : Une fois chargées dans l’entrepôt, les données ne sont plus modifiables. Elles sont uniquement accessibles en lecture. Fonctions des entrepôts • Récupérer les données existantes des différentes sources • Référencer les données de manière uniforme • Stocker les données (notamment historisées) • Mettre à disposition les données pour : •interrogation •visualisation •analyse Bases de Données/Entrepôts de données BD- OLTP Entrepôts Objectif collecte de données consultation et analyse opérations au jour le jour Utilisateurs un département (Employé) transversal (Gestionnaire) Types de données données de gestion données d’analyse (données courantes) (données historiques) Informations détaillées détaillées + agrégées Opérations requêtes simples, pré-déterminées requêtes complexes, ad-hoc sélections et mises à jour sélections nombreuses transactions peu de transactions transactions courtes transactions longues temps réel batch recherche d'enregistrements détaillés agrégations et group by n-uplets accédés dizaines millions Structure des données Un entrepôt de données contient 5 types de données : fortement résumées faiblement résumées données courantes données anciennes M E T A D O N N E E S Architecture entrepôt datamart datamart datamart olap données de production (y.c. Systèmes légués) données externes (connaissances, règles) META-MODELES Architecture à 3 niveaux • Serveur de la BD de l’entrepôt – Presque toujours relationnel • Data marts /serveur OLAP – Relationel (ROLAP) – Multidimensionel (MOLAP) • Clients – Outils d’interrogation et de rapports – Outils d’analyse et d’aide à la décision Construction d’un entrepôt de données 1. Acquisition: Extraction : collection de données utiles Préparation : transformation des caractéristiques des données du système opérationnel dans le modèle de l’entrepôt Chargement : nettoyage (élimination des dupliqués, incomplétudes, règles d’intégrité, etc.) et chargement dans l’entrepôt (trier, résumer, calculs, index). 2. Stockage : Les données sont chargées dans une base de données pouvant traiter des applications décisionnelles. 3. Restitution des données : Il existe plusieurs outils de restitution (tableaux de bord, requêteurs SQL, analyse multidimensionnelle, data mining ...) Trois phases principales Outils d’extraction de données • Les requêteurs génèrent des requêtes SQL ad hoc • Les tableaux de bord prédéfinis, consultables à l’écran, génèrent des états • Les outils de data mining permettent d’extraire des informations implicites de la base. Ils utilisent des techniques de classification, de segmentation, d’apprentissage symbolique et numérique, des statistiques, des réseaux neuronaux. • Les analyseurs permettent de gérer les données multidimensionnelles (Outils OLAP) (histogrammes, camemberts, ...) Médiateurs Médiateurs uploads/Finance/integration.pdf