Chapitre 2 hadoop part1 ème année cycle d ? ingénieur Ingénierie Informatique et Technologies Emergentes ITE Gestion et Traitement BIG DATA Prof HANINE Mohamed Laboratoire Télécommunications Réseaux et Informatique TRI ENSA Eljadida Université Chouaib Dou
ème année cycle d ? ingénieur Ingénierie Informatique et Technologies Emergentes ITE Gestion et Traitement BIG DATA Prof HANINE Mohamed Laboratoire Télécommunications Réseaux et Informatique TRI ENSA Eljadida Université Chouaib Doukkali Maroc Email m hanine ensaj gmail com Année universitaire CPlanning de Semestre ? Séance Introduction au BIG DATA ? Séance Hadoop TP Installation Manipulation HDFS ? Séance Hadoop TP Solution Cloudera MapReduce en Java ? Séance Hadoop TP Solution HortonWorks MapReduce en Python ? Séance Rappel sur NoSQL MapReduce avec MongoDB et ou Scala TP ? Séance Contrôle mi-semestre Théorique et Pratique ? Séance HBase TP ? Séance PIG TP ? Séance HIVE TP ? Séance Exposés Mini Projet Examen Final Année universitaire CChapitre Présentation du Framework Apache Hadoop Objectifs ? Présentation de l ? architecture Hadoop ? Découvrir les concepts et les enjeux liés à Hadoop ? Comprendre le fonctionnement du Framework et de ses principaux composants ? Installer le Framework et le gérer Année universitaire CPlan du chapitre ?? Hadoop ? Dé ?nition et Historique ? Modes de fonctionnement et de l ? utilisation ? Composants fondamentaux ? Principes de fonctionnement de Hadoop Distributed File System HDFS ? Principes de fonctionnement de MapReduce ? Versions de Hadoop Année universitaire CRappel ? C ? est quoi ? Cluster ? Traitement par lot batch processing ? Traitement distribué calcul distribué Parrallel Processing ? Traitement de ux Stream processing ? Traitement hybride hybride processing ? Scalabilité Architecture Scalable ? ? Année universitaire CHadoop Dé ?nition ? Hadoop est une plateforme framework open source conçue pour réaliser d'une façon distribuée des traitements sur des volumes de données massives de l'ordre de plusieurs pétaoctets Ainsi il est destiné à faciliter la création d'applications distribuées Il s'inscrit donc typiquement sur le terrain du Big Data ? Hadoop est géré sous l ? égide de la fondation Apache il est écrit en Java ? Modèle simple pour les développeurs il su ?t de développer des t? ches Map Reduce depuis des interfaces simples accessibles via des librairies dans des langages multiples Java Python C C Année universitaire CHadoop Dé ?nition Hadoop assure les critères des solutions Big Data ? Performance support du traitement d'énormes data sets millions de ?chiers Go à To de données totales en exploitant le parallélisme ? Economie contrôle des coûts en utilisant de matériels de calcul de type standard ? Evolutivité scalabilité un plus grand cluster devrait donner une meilleure performance ? Tolérance aux pannes la défaillance d'un n ?ud ne provoque pas l'échec de calcul ? Parallélisme de données le même calcul e ?ectué sur toutes les données Année universitaire CUn peu d'histoire ? Dec ?? Google publie ses papiers GFS MR ? Juil ?? Nutch utilise une implémentation de MapReduce ? Jan ?? Doug Cutting rejoint Yahoo ? Fév ?? Hadoop devient un nouveau sous-projet de Lucene Moteur de recherche ? Avr ?? Yahoo exploite un cluster Hadoop de n ?uds ? Jan ?? Hadoop devient un Apache Top Level Project ? Fev ?? Yahoo utilise Hadoop pour
Documents similaires










-
33
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Dec 25, 2022
- Catégorie Heavy Engineering/...
- Langue French
- Taille du fichier 53.7kB