REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUP

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOHAMED BOUDIAF - M’SILA FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE DEPARTEMENT D’INFORMATIQUE MEMOIRE de fin d’étude Présenté pour l’obtention du diplôme de MASTER Domaine : Mathématiques et Informatique Filière : Informatique Spécialité : Systèmes d’Informations et Génie Logiciel (SIGL) Par: Hamma Manel SUJET DATA MINING DES BASES DE DONNEES DISTRIBUEES Soutenu publiquement le : / /2019 devant le jury composé de : Dr.Ouldmohamedi Najib Université de M’sila Président Dr. Meheni Tahar Université de M’sila Encadreur Dr.Barkat Abdelbasset Université de M’sila Examinateur Promotion : 2018 /2019 Résumé : Le Data Mining est une technologie dont le but est la valorisation de l'information et l'extraction de connaissances d’un grand nombre de données, et dans la majorité des cas ces données ne résident pas dans un emplacement centralisé, ce qui complique l’application des techniques de Data Mining sur des données distribuées. L’objectif de notre projet est de présenter les différentes approches utilisées pour extraire la connaissance à partir des données distribuées. Nous utilisons l’arbre de décision comme technique de Data Mining et nous essayons d’implémenter l’approche par agrégation et d’effectuer des comparaisons d’un ensemble d’agrégats. Mots clé : Data Mining, base de données distribuées, agrégation. Abstract Data Mining is a technology whose purpose the exploitation of information and the extraction of knowledge from a large number of data, and in most cases this data does not reside in a centralized location, which makes it difficult to application of Data Mining techniques on distributed data. The objective of our project is to present the different approaches used to extract knowledge from distributed data. We use the decision tree as a Data Mining technique and we try to implement the aggregation approach and make comparisons of a set of aggregates. Key word: Data Mining, distributed data bases, aggregation. استتتتت الاي اات تتتتت هتتتتتي هد تتتتتت هتتتتتعلو استتتتت اج ااعرفة تتتتت استتتتت الاي ااعرللتتتتتت تتتتتتك يتتتتتتعب ات تتتتتتل تتتتتتك اات تتتتتت ل لتتتتتتي رعتتتتتت اا تتتتتت ة تتتتتتع هتتتتتت اات تتتتتت لتتتتتتي ة تتتتتت ااصتتتتتترق قت تتتتتتخ هد تتتتتت استتتتتت الاي اات تتتتتت يفتتتتتت اات تتتتتت ااعةزيتتتتتتتف ااوتتتتتتتعه تتتتتتك اتتتتتتتل يد هتتتتتتتة هتتتتتتع ا ستتتتتتت ا ق ااعا ف تتتتتتت ااع تتتتتتت اع ت ستتتتتتت الاي ااعرللتتتتتتتت تتتتتتتك اات تتتتتتت ااعةزيتتتتتتتتف تتتتتتتك تتتتتتت اع تتتتتتت ل ااهتتتتتتتلا ا ستتتتتتتفة ستتتتتتت الاي اات د وج اا ع إ لاء ه اع عةيت ك ااع ف ااكفع االئ ت: اس الاي اات ل يع اات ااعةزيت لاا ع ف Tables des matières Sommaire Pages Introduction Général …………………………….……………………………… Chapitre 1 : Base de données distribuées 1-introduction. …………………………………………….………………………. 2-Définition ……………………………………………..………………………… 4- Avantages ………………………………………………………………………. 5- Les Objectifs des systèmes répartis……………………………………………… 6-SGBD réparti…………………………………………………………...………… 6.1 Définition d’un système de base de données ……………………………… 6.2 Rôle d’un SGBD ………………………………………………………….. 7- Conception d'une base de données répartie………………………………..……. 7.1.1-Conception ascendante……………………………………………… 7.1.2-Conception descendante ……………………………………………. 8- La fragmentation ……………………………………………………………….. 8.1 Définition …………………………………………………………………. 8.2 Objectif de la fragmentation ………………………………………………. 8.3 Les problèmes de la fragmentation ……………………………………….. 8.4 Types de fragmentation …………………………………………………… 8.4.1- La fragmentation horizontale ……………………………………… 8.4.2-La fragmentation verticale …………………………………………. 8.5-Les règles de la fragmentation …………………………………………….. 01 02 02 02 02 03 03 03 04 05 05 05 06 06 06 06 07 07 07 07 08 9- Allocation ……………………………………………………………………….. 10- Réplication……………………………………………………………………… 11- Conclusion …………………………………………………………………….. Chapitre 2 : Approche de Data Mining Distribuées 1-introduction ……………………………………………………………………… 2-Historique ………………………………………………………………………... 3-Définitions ………………………………………………………………………. 4- processus d’extraction de connaissances à partir des données …………………. 4.1- Nettoyage et intégration des données……………………………………... 4.2- Prétraitement des données………………………………………………… 4.3- fouille des données ……………………………………………………….. 4.4- évaluation et présentation ………………………………………………… 5- Tâches du Data Mining …………………………………………………………. 6- Les méthodes de data mining ……………………………………………............ 6.1- Segmentation ……………………………………………………………... 6.2- Règles d’association ……………………………………………………… 6.3- Les plus proches voisins ………………………………………………….. 6.4- Les réseaux de neurones ………………………………………………….. 6.5- Les arbres de décision ……………………………………………………. 7- Intérêt du data mining distribué ………………………………………………… 8- Domaine d’application du DATA mining ………………………………………. 9- Approche de Data Mining Distribuées ………………………………………….. 9.1-Intégration des liens utiles dans les arbres de décision pour la classification des bases de données distribuées ………………………………. 9.2- Approche de la statistique suffisante …………………………………….. 09 09 09 10 10 10 11 11 12 12 12 13 14 14 14 15 15 15 17 18 19 19 19 9.3- Approche de propositionalisation ………………………………………… 10-Conclusion ……………………………………………………………………… Chapitre 3 : Utilisation De L’agrégation Pour La Classification Des Données Distribuées 1 introduction ………………………………………………………………………. 2- Propositionalisation ……………………..………………………………………. 3- Summarisation …………………………………………………………………... 4- Agrégation des attributs ………………………………………………………… 5- description générale de la base de données utilisées ……………………………. 5.1-Context ………………………………………………………………….. 5.2-Titre de fichier …………………………………………………………… 5.3-Source de la base de données ……………………………………………. 5.4- Description de la base de données ………………………………………. 6- Utilisation de la base de données ……………………………………………….. 7-Scénarios d’agrégation …………………………………………………………... 8- Outils de développement………………………………………………………… 9-Résultat et évaluation…………………………………………………………….. 10-Conclusion …………………………………………………………………...…. Conclusion générale ………………………………………………………………. Bibliographie ……………………………………………………………………… 21 21 22 22 23 23 25 25 25 25 26 26 27 28 29 31 32 33 Liste des figures Figures Pages Chapitre I FIG. 1.1 Conception ascendante …………………………………………………. FIG.1.3 Exemple de fragmentation horizontale…………………………………… FIG.1.4 Exemple de fragmentation horizontale…………………………………… Chapitre II FIG 2.1 : processus d’extraction de données……………………………………… FIG 2.2 : Arbre de décision……………………………………………………….. FIG 2.3 :déterminer des statistiques suffisantes, rassembler les statistiques 05 06 07 08 11 16 20 Liste Des Tables Tables Pages Chapitre III Tab 3.1 : Exemple d’agrégation par valeur fréquente Tab 3.2 : Exemple d’agrégation par Max et min Tab 3.3 : Matrice de confusion …………………………………………………. Tab 3.4: comparaison entre les résultats obtenu après fusion et les résultats obtenus après agrégation (Max et Min) …………………………………………. Tab 3.5: comparaison entre les résultats obtenu après fusion et les résultats obtenus après agrégation (Valeur fréquente)…………………………… 27 27 29 30 30 INTRODUCTION GENERALE Introduction générale 1 Avec la progression technologique des outils de collecte et de stockage des données, la plupart des gros systèmes sont submergés par un flot de données continu qui est quotidiennement stocké dans les bases de données. Et avec les révolutions technologiques intervenues dans le domaine des réseaux de communications qui ont permis à l’approche base de données distribuée de devenir une solution alternative à la centralisation . Ces méga bases qui ne cessent de s’accumuler et de s’accroître d’une façon exponentielle au fil du temps sont devenues une mine d’information qui alimente le Data Mining qui ce charge d’extraction d’informations intéressantes, non triviales, implicites, préalablement inconnues et potentiellement utiles on utilisant des techniques spéciales. L'application classique des algorithmes de Data Mining dans ces environnements distribués sont inadéquats pour leurs traitements devenus de plus en plus complexes. Pour palier à ce problème, on a eu recours aux approches d’extraction de données distribuées. L’objectif de notre projet est de présenter les différentes approches utilisées pour extraire la connaissance à partir des données distribuées. Ensuite, nous essayons d’implémenter l’approche par agrégation et d’effectuer des comparaisons d’un ensemble d’agrégats. Le mémoire est composé des chapitres suivants :  Le chapitre 1 présente les bases de données distribuées.  Le chapitre 3 présente l’approche d’agrégation utilisé ainsi que quelques résultats obtenus en utilisant les arbres de décision comme algorithmes de classification.  Enfin une conclusion du projet est présentée. CHAPITRE I BASE DE DONNEES DITRIBUEES Chapitre I Base de données distribuée 2 1-Introduction Depuis ces dernières années, les techniques informatiques évoluent vers le traitement de grande masse d'informations de nature diverse, intégrées dans un environnement géographiquement réparti ou ils doivent cohabiter du matériel généralement hétérogène.Dans ce contexte, et vue la souplesse des SGBDs d'une part et les performances des réseaux d'autre part, les bases de données réparties sont une solution importante pour parvenir à maîtriser la distribution des données. 2-Définition Une base de données répartie est une collection de bases de données localisées sur différents sites, généralement distants, mises en relations les unes avec les autres à travers un réseau d'ordinateurs, perçues pour l'utilisateur comme une base de données unique. Elle permet de rassembler des données plus ou moins hétérogènes, disséminées dans un réseau sous forme d'une base de données globale, homogène et intégrée.[12] 3-Le besoin de la distribution - La décentralisation de l’information (cas des multinationales), - Augmentation du volume de l’information (14 fois de 1990 à 2000), - Augmentation du volume des transactions (10 fois dans les 5 prochainesannées).[9] 4-Avantages : -Plus de fiabilité: les bases de données réparties ont souvent des données répliquées. La panne d’un site n’est pas très importante pour l’utilisateur, qui s’adressera à un autre site.[1] -Meilleure performance : réduire le trafic sur le réseau est une possibilité d’accroître les performances. Le but de la répartition des données est de les rapprocher de l’endroit où elles sont accédées. Répartir une base de données sur plusieurs sites permet de répartir la charge sur les processeurs et sur les entrées/sorties.[5] Chapitre I Base de données distribuée 3 5-Les Objectifs des systèmes distribués : Les principaux objectifs sont : - Transparence pour l’utilisateur. - Autonomie de chaque site - Absence de site privilégié - Continuité de service - Transparence vis à vis de la localisation des données - Transparence vis à vis de la fragmentation - Transparence vis à vis de la réplication - Traitement des requêtes distribuées - Indépendance vis à vis du uploads/Science et Technologie/ hamma-manel.pdf

  • 40
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager