République Algérienne Démocratique et Populaire Ministère de l’Enseignement Sup

République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université de Larbi Tébessi –Tébessa- Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département : Mathématique et Informatique MEMOIRE DE MASTER Domaine: Math et Informatique Filière: Informatique Option: Système Information Thème: Présenté par: LAIFA Hassiba TABIOU Imane Devant le jury: M.Derdour M.C.B Université de Tébessa Président L.BRADJI M.C.A Université de Tébessa Encadreur S.Khediri M.A.A Université de Tébessa Examinateur Date de soutenance: 29/05/2016 Note : Mention : Modélisation du processus ETL au niveau conceptuel, logique et physique Promotion : 2015 – 2016 DEDICACE Je dédie ce présent travail à, Ma mère, qui depuis ma naissance, n’a cessé de me bercer avec des bons conseils et sans doute celle qui me réconforte et m’encourage dans les moments les plus difficiles de ma scolarité. Mon père, celui qui ne se lassait jamais pour aménager tous ses efforts pour que je sois quelqu’un dans la vie. fasse, je ne pourrais jamais vous récompenser pour les grands Quoi que je Aucune dédicace sacrifices que vous avez faits et continuez de faire pour moi. ne saurait exprimer mes grandes admirations, mes considérations et mes sincères affections pour vous. Mes frères, Messaoud et sa femme Nadia, Sofiane, Abderahim et Riadh. Mes sœurs, Aouatef et son mari Sedik, Souhaila et son mari Mohamed et Hadjer. Les poussins de la famille, Louai, Alaa, Israa ,Tasnim rt Mohamed Wassim. Mes oncles, tantes paternelle et maternelle, tous cousins et cousines. Mes proches Mes amies Mes professeurs. Ma binôme, TABIOU Iman Mes camarades de la promotion. Tous ceux qui de près ou de loin m’ont aidé à réaliser ce mémoire. LAIFA Hassiba DEDICACE TABIOU Imane A tous ceux qui me sont chers … i Remerciment Ce rapport est le résultat d'une période d'immersion dans le milieu professionnel. En préambule, je souhaite adresser mes remerciements aux personnes que j'ai côtoyées durant cette période et qui ont ainsi contribué à l'élaboration de ce projet. Tout d'abord de grands remerciements à Monsieur L.BRADJI , notre encadreur pour sa disponibilité, ses conseils et ses remarques avisées et l'encadrement apporté durant ce travail ; Je remercie Y .BOUAALLEG, pour son aide et leur accompagnement malgré leur emploi de temps chargé. Tous ceux que nous avons omis de citer ici, et qui de près ou de loin ont contribué au bon déroulement de ma formation. ii Résumé La notion de big data est un concept s’étant popularisé en 2012 pour traduire le fait que les entreprises sont confrontées à des volumes de données (data) à traiter de plus en plus considérables et présentant un fort enjeu commercial et marketing1,de nouvelles techniques ont été proposées pour améliorer le stockage et le traitement de ces données massives, comme le projet Hadoop, Ces données ne peuvent être traiter avec gestion de base de données classique c’est pour ça que sont nées les bases de données NoSQL (Not Only SQL) Le Data Warehouse, ou entrepôt de données, est une base de données dédiée au stockage de l'ensemble des données issues depuis les bases de production. Il est alimenté en données grâce notamment aux outils d »extraction, transformation et chargement connu sous le terme processus ETL ( Extract Transform Load ). Nous avons travaillé sur la conception d’une architecture modélise le processus ETL basé MapReduce, ainsi, nous avons présenté une implémentation du notre architecture. Mots clé : big data , hadoop , nosql , entrepot de données , ETL , MapReduce 1 Bertrand Bathelot ,2016 iii Abstract The concept of big dated is a concept being popularized to translate the fact in 2012 that the companies are confronted with volumes of data (dated) to treat increasingly considerable and presenting a strong commercial challenge and marketing, novel methods were proposed to improve storage and the treatment of these massive data, like the Hadoop project, These data cannot be to treat with data base management classic it is for that were born the databases NoSQL (Not Only SQL) Data warehouse, is a database dedicated to the storage of the whole of the data resulting since the bases from production. It is fed in data grace in particular to the tools D “extraction, transformation and loading known under the term process ETL ( Extract Transform Load ) We worked on the design of an architecture models process ELT based MapReduce, thus, we presented an implementation of our architecture. Keywords: Big Data,hadoop,nosql, ETL, Extraction, Transformation, Loading, datawarehouse, mapreduce ملخص كلمةBig data هو مفهوم شا ع سنة2102 ليعكس حقيقة أن الشركات تواجه كم هائل من البيانات على نحو متزايد وقد اقترحت تقنيات جديدة لتحسين تخزين ومعالجة هذه البيانات الضخمة مثل مشروع Hadoop ال يمكن أن تعامل هذه البيانات مع إدارة قواعد البيانات التقليدية لهذا خلقت قواعد البيانات)NoSQL ل يس فقط (SQL مستودع البيانات، هو قاعدة بيانات مخصصة لتخزين كل البيانات القادمة من قواعد االنتاج. هو مدعوم بفضل البيانات إلى أدوات معروفة باسم ETL "استخراج، تحويل وتحميل " المدى(استخراج، تحويل، وتحيل) لقد عملنا على تصميم نموذج لهذه العملية عملية ETL أساسMapReduce . TABLE DES MATIERES i Table de matières Introduction générale Introduction générale ............................................................................................... 1 Chapitre 1 : Big Data 1. Définition Du Big Data ......................................................................................... 2 2. Caractéristique Du Big Data ................................................................................. 3 2.1. Volume .............................................................................................................. 3 2.2. Vélocité ........................................................................................................ 4 2.3. Variété .......................................................................................................... 4 2.4. Véracité ........................................................................................................ 4 3. Technologie Big Data ........................................................................................... 4 3.1. Mapreduce ................................................................................................... 4 3.1.1. Définition ............................................................................................. 4 3.2. Apache Hadoop ................................................................................................. 6 3.2.1 Définition ............................................................................................... 7 3.3. Hadoop Distributed File System (Hdfs) ....................................................... 7 3.3.1. Namenode ............................................................................................. 8 3.3.2. Secondary Namenode ............................................................................ 9 3.3.3. Datanode ............................................................................................... 9 3.4. Architecture ................................................................................................. 10 3.4.1. Définition .............................................................................................. 10 3.4.2. Exécution D'une Tâche .......................................................................... 11 4. Les Bases De Données Nosql ............................................................................... 11 4.1. Base De Données Orientée Clé- Valeur ....................................................... 11 4.2. Base De Données Orientée Document .......................................................... 12 4.3. Base De Données Orientée Colonne ............................................................. 12 4.4. Base De Données Orientée Graphe .............................................................. 13 Conclusion ............................................................................................................... 13 TABLE DES MATIERES ii Chapitre 2 : Entrepôt de données Introduction ............................................................................................................. 15 1. Différence Entre L'informatique De Production Et L'informatique De Décision .................................................................................................................... 15 1.1. L'informatique De Production ...................................................................... 16 1.2. L'informatique Décisionnelle ........................................................................ 17 1.2.1. Le Système Décisionnel Dans L’organisation ...................................... 17 1.2.2.Traitement Décisionnelle ....................................................................... 18 1.2.3. Base De Données Décisionnelle ............................................................ 18 2. Entrepôt De Données ............................................................................................ 19 2.1. Définition ...................................................................................................... 19 3. Conception D'un Entrepôt De Données ............................................................... 20 4. Modélisation D’un entrepôts De Données............................................................. 21 4.1. Niveau Conceptuel ........................................................................................ 21 4.1.1. Le Schéma En Etoile ................................................................................... 22 4.1.2. Le Schéma En Flocon ............................................................................ 22 4.1.3. Le Schéma En Constellation ................................................................. 23 4.2. Niveau Logique .............................................................................................. 24 4.3. Niveau Physique ........................................................................................... 25 6. Restitution Et Analyse OLAP................................................................................ 25 Conclusion ................................................................................................................ 26 TABLE DES MATIERES iii Chapitre 3 : Processus ETL Introduction ............................................................................................................. 27 1. Processus ETL ...................................................................................................... 27 1.1. La Phase D'extraction .................................................................................... 27 1.2. La Phase De Transformation ....................................................................... 28 1.3. La Phase De Chargement .............................................................................. 28 2. Modélisation De Processus ETL .......................................................................... 29 2.1. Modélisation Conceptuelle ....................................................................... 30 2.2. Modélisation Logique ................................................................................... 31 2.3. Modélisation Physique .................................................................................. 31 3. Travaux Antérieurs .............................................................................................. 32 4. Etude Comparative .............................................................................................. 35 4.1. Critère De Comparaison .............................................................................. 35 5. Classification Des Travaux Sur Le Processus ETL .............................................. 38 5.1. Processus ETL Classique ............................................................................. 38 5.2. Processus ETL Base Sur Le Modèle Mapreduce .......................................... 39 5.3. Partitionnement des données ........................................................................ 40 Conclusion ............................................................................................................... 4 0 Chapitre 4 : Contribution Et Implémentation Introduction ............................................................................................................. 42 1. Présentation Des Environnements ........................................................................ 42 TABLE DES MATIERES iv 1.1. Cloudera Cdh ........................................................................................... 42 1.2. Machine Virtuelle ..................................................................................... 42 1.3. Hive ......................................................................................................... 43 2. Les Sources De Données ...................................................................................... 43 2.1. Fichier Csv .............................................................................................. 43 2.1.1. Définition .................................................................................... 43 3. Contribution .......................................................................................................... 43 3.1. L’Architecture .................................................................................................. 44 3.2. Implémentation .................................................................................................. 47 3.2.1. Importation Des Données ..................................................................... 47 3.2.2. Extraction ............................................................................................ 48 3.2.3. Transformation ..................................................................................... 49 3.2.4. Chargement ........................................................................................... 50 Conclusion ................................................................................................................ 53 Conclusion générale ................................................................................................. 54 Bibliographie ............................................................................................................ 55 TABLE DES FIGURES i TABLE DES FIGURES Chapitre 1. Big Data 6 Exemple d’un programme MapReduce (WordCount)……………….. Figure 1.1 9 Présentation du namenode, secodary namenode et data node……….. Figure 1.2 10 Architecture de Hadoop……………………………………………… Figure 1.3 12 Modèle de données clé-valeur……………………………………….. Figure 1.4 12 Modèle de données orienté documents………………………………. Figure 1.5 13 Modèle de données orienté colonnes………………………………… Figure 1.6 13 Modèle de données en graphes………………………………………. Figure 1.7 Chapitre 2. Entrepôt de données Figure 2.1 Positionnement d’un système décisionnel dans l’organisation……… 18 Figure 2.2: le système d’aide à la décision………………………………………. 19 Figure 2.3 Cycle de vie des entrepôts de données………………………………. 21 Figure 2.4 Exemple de modélisation en étoile………………………………….. 22 Figure 2.5 Exemple de modélisation en flocon…………………………………. 23 Figure 2.6 Exemple de modélisation en constellation…………………………... 24 Figure 2.7 Exemple d’un cube représentant les ventes de matériels informatiques………………………………………………………… 26 Chapitre 3. Processus ETL Figure 3.1: processus d’entreposage des données…………………………. 29 Figure 3.1 Processus ETL Classique……………………………………… 38 Figure 3.2 Processus ETL basé sur le modèle MR……………………….. 39 TABLE DES FIGURES ii Chapitre 4. Contribution Et Implémentation 45 architecture proposé modélise le processus ETL basé sur MAPREDUCE ……………………………………………………….. Figure 4.1 48 Création de la structure des données………………………………….. uploads/Geographie/ sesnv-160081.pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager