Rapport data processing in distributed systems

Tanger Med Port Authority Traitement de données dans des systèmes distribués Rapport de stage de ?n d ? année Encadré par M EDDOUJAJI ELKHATTABI Kaoutar Ecole Nationale des Sciences Appliquées de Tanger CTable des matières I- Introduction Préambule Présentation de l ? entreprise II- Traitement de données dans les systèmes distribués Systèmes distribués Bases de données distribuées III-Benchmarking Apache Spark vs Hadoop Hadoop MapReduce HDFS YARN Spark Spark vs Hadoop Problème des petits ?chiers dans Hadoop Spark IV-Big Data et IoT IoT IoT et RoRo Navires Rouliers Hadoop et IoT V- Mise en place d ? un cluster multi-n ?uds de Hadoop VI- WordCount programme dans Hadoop VII-Conclusion VIII-Bibliographie CI- Introduction Dans le cadre de sa formation l ? Ecole Nationale des Sciences Appliquées de Tanger exige un stage de ?n d ? année à travers lequel les étudiants ingénieurs peuvent concrétiser leurs connaissances acquises durant l ? année et ainsi découvrir les di ?érents métiers et faire le pas dans le monde de l ? entreprise Le stage e ?ectué est un projet de recherche au sein de l ? autorité portuaire de Tanger Med qui concerne le traitement des Big Data dans des systèmes distribués Ce rapport décriera les di ?érentes phases du projet à savoir la recherche l ? installation et le test Cependant il couvrira les concepts abordés les di ?érents outils existants et en ?n les atouts du projet Préambule Le Big Data représente un ensemble de données volumineux qui ne peuvent pas être traités avec des outils de gestion de bases de données classiques Ceux sont des données qui ne peuvent pas être contenues par lignes et colonnes dans un ?chier Excel Elles ne peuvent pas être analysées avec des méthodes analytiques traditionnelles Le Big Data répond aux problématiques posées par l ? augmentation du volume d ? informations de ces dernières années ? Volume Quantité d ? informations à collecter et traiter ? Vélocité Supporter une grande fréquence de collecte d ? information ? Variété et la compatibilité avec plusieurs sources d ? informations structurées non structurées photos vidéos ? Le volume de données étant en constante évolution il nous faut stocker lire et traiter une large quantité de données en temps réel Nous avons donc besoin d'un moyen de paralléliser le traitement de ces données lecture écriture tout en garantissant sa disponibilité en cas de panne matérielle Le Framework Hadoop est un des outils Big Data Open Source qui permet de répondre à cette problématique Il permet en e ?et un traitement massif de données en parallèle en proposant un nouveau système de stockage distribué inspiré du système GFS de Google tout en garantissant la haute disponibilité des données Hadoop est utilisé par la plupart des grandes entreprises IT devant au quotidien traiter une large quantité d ? informations Yahoo Facebook Twitter Amazon Net ix ? CPrésentation de l ? entreprise TMSA L ? Agence Spéciale Tanger Méditerranée est chargée de l ? aménagement du développement et de la gestion du complexe

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager