Tanger Med Port Authority Traitement de données dans des systèmes distribués Ra
Tanger Med Port Authority Traitement de données dans des systèmes distribués Rapport de stage de fin d’année 2018/2019 Encadré par : M.EDDOUJAJI ELKHATTABI Kaoutar Ecole Nationale des Sciences Appliquées de Tanger 1 Table des matières: I- Introduction .................................................................................. 2 Préambule : ....................................................................................................................... 2 Présentation de l’entreprise : ............................................................................................ 3 II- Traitement de données dans les systèmes distribués : ......... 5 Systèmes distribués : ........................................................................................................ 5 Bases de données distribuées : .......................................................................................... 6 III-Benchmarking (Apache Spark vs Hadoop): ............................ 6 Hadoop : ............................................................................................................................ 6 MapReduce : ..................................................................................................................... 8 HDFS : .............................................................................................................................. 9 YARN : .............................................................................................................................10 Spark : .............................................................................................................................10 Spark vs Hadoop: ............................................................................................................11 Problème des petits fichiers dans Hadoop/Spark ...........................................................11 IV- Big Data et IoT : .......................................................................... 12 IoT : ..................................................................................................................................12 IoT et RoRo : (Navires Rouliers) ......................................................................................13 Hadoop et IoT : ................................................................................................................13 V- Mise en place d’un cluster multi-nœuds de Hadoop : ......... 14 VI- WordCount : programme dans Hadoop : ................................ 18 VII-Conclusion : ................................................................................ 25 VIII-Bibliographie : .......................................................................... 26 2 I- Introduction : Dans le cadre de sa formation, l’Ecole Nationale des Sciences Appliquées de Tanger, exige un stage de fin d’année à travers lequel les étudiants ingénieurs peuvent concrétiser leurs connaissances acquises durant l’année et ainsi découvrir les différents métiers et faire le pas dans le monde de l’entreprise. Le stage effectué est un projet de recherche, au sein de l’autorité portuaire de Tanger Med, qui concerne le traitement des Big Data dans des systèmes distribués. Ce rapport décriera les différentes phases du projet, à savoir : la recherche, l’installation et le test. Cependant, il couvrira les concepts abordés, les différents outils existants et enfin les atouts du projet. Préambule : Le Big Data représente un ensemble de données volumineux qui ne peuvent pas être traités avec des outils de gestion de bases de données classiques. Ceux sont des données qui ne peuvent pas être contenues par lignes et colonnes dans un fichier Excel. Elles ne peuvent pas être analysées avec des méthodes analytiques traditionnelles. Le Big Data répond aux 3 problématiques posées par l’augmentation du volume d’informations de ces dernières années : • Volume : Quantité d’informations à collecter et traiter. • Vélocité : Supporter une grande fréquence de collecte d’information. • Variété : et la compatibilité avec plusieurs sources d’informations (structurées, non structurées, photos, vidéos…) Le volume de données étant en constante évolution, il nous faut stocker, lire et traiter une large quantité de données en temps réel. Nous avons donc besoin d'un moyen de paralléliser le traitement de ces données (lecture, écriture) tout en garantissant sa disponibilité en cas de panne matérielle. Le Framework Hadoop est un des outils Big Data Open Source qui permet de répondre à cette problématique. Il permet en effet un traitement massif de données en parallèle en proposant un nouveau système de stockage distribué, inspiré du système GFS de Google tout en garantissant la haute disponibilité des données. Hadoop est utilisé par la plupart des grandes entreprises IT devant au quotidien traiter une large quantité d’informations : Yahoo, Facebook, Twitter, Amazon, Netflix… 3 Présentation de l’entreprise : TMSA : L’Agence Spéciale Tanger Méditerranée est chargée de l’aménagement, du développement et de la gestion du complexe portuaire Tanger Med et de la plateforme industrielle qui lui est adossée. TMSA est l’interlocuteur unique représentant l’Etat pour l’ensemble des partenaires du projet Tanger Med. Le rôle et les missions de l’agence se déclinent à travers trois volets : Autorité portuaire, TMSA, à travers sa filiale dédiée Tanger Med Port Authority (TMPA), assure entre autres la construction et la maintenance de l’infrastructure portuaire, le développement des activités et des capacités du complexe portuaire, la promotion du port Tanger Med dans son ensemble… Depuis le lancement du port et au fil de son élargissement progressif, TMSA veille à ériger une plateforme portuaire d’excellence connectée aux flux mondiaux. Le développement simultané et coordonné de la Grande Plateforme Industrielle, lancée par le Roi Mohammed VI en 2009 et portée par Tanger Med Zones, consolide davantage la proposition de valeur du complexe intégré. Dans le cadre d’une convention signée entre l’Etat et TMSA, une assiette foncière de plus de 3000 ha a été mobilisée dans un rayon de 80 km du complexe portuaire Tanger Med afin de développer des parcs industriels modernes. La mise en place de cette Grande Plateforme Industrielle vient ainsi confirmer la vocation première de Tanger Med consistant au développement de l’industrie et de l’emploi dans l’arrière-pays du port. De par sa taille, la Grande Plateforme Industrielle s’inscrit ainsi dans une vision de développement à long terme. Elle vise à garantir de manière durable aux industriels désireux d’investir dans la région des espaces fonciers suffisants et aménagés selon les meilleurs standards et benchmarks internationaux. La Grande Plateforme Industrielle inclut : • Tanger Free Zone (TFZ) • Tanger Automotive City (TAC) • TétouanShore • TétouanPark • Renault Tanger TMPA : une société anonyme à conseil d’administration, dotée d’un capital de 1,250 milliards de dirhams. Ayant pour missions la gestion et le développement des infrastructures, la coordination et l’animation de la communauté portuaire et 4 garantit la fiabilité et la performance des services assurés aux clients de la plateforme portuaire. Le complexe portuaire Tanger Med se compose de : • Le port Tanger Med 1, qui comprend deux terminaux à conteneurs, un terminal ferroviaire, un terminal hydrocarbures, un terminal marchandises diverses, et un terminal véhicules ; • Le port Tanger Med 2, qui comprend deux terminaux à conteneurs. •Le port Tanger Med Passagers, qui comprend les zones d’accès et d’inspections frontalières, les quais d’embarquements passagers et TIR, les zones de régulations, et la gare maritime ; • La zone franche logistique ; • Le centre d’affaires Tanger Med ; Plus qu’un port, le complexe Tanger Med est une plateforme logistique intégrée, connectée à un réseau de transport multimodal (liaisons ferroviaires, autoroutes et voie express) pour le transport des marchandises et des personnes vers toutes les régions économiques du Royaume. L’exploitation des terminaux comme de l’ensemble des activités portuaires est assurée dans le cadre de contrats de concession, par des opérateurs de renommée mondiale. Le port Tanger Med compte ainsi dans ses rangs les plus grands armements mondiaux (Maersk, CMA- CGM, MSC…) ainsi que des leaders portuaires tels que APM TERMINALS et EUROGATE. 5 Organigramme de gouvernance: II- Traitement de données dans les systèmes distribués : Systèmes distribués : Un système distribué est un ensemble d’entités autonomes de calcul (ordinateurs, processeurs, …) interconnectées et qui peuvent communiquer. Où les utilisateurs ont l’impression d’utiliser un seul système. Exemples de systèmes distribués : Serveur de fichier, Web, Calculs distribués… Principe : Un ou plusieurs serveurs distribuent des calculs aux machines clientes. Un client exécute son calcul puis renvoie le résultat au serveur. Avantages : - Assurer la transparence (vis-à-vis la localisation des données, et pour masquer la répartition). - La localisation des ressources n’est pas perceptible pour l’utilisateur, les différences matérielles et logicielles sont invisibles. - Migration des ressources peu importe la localisation physique. 6 - Réplication des données non visible - Pas d’interruption en cas de pannes - Sécurité (intégrité, confidentialité, disponibilité) - Utilisation optimisée et partage des ressources distantes. - Utilisation optimisée des ressources disponibles. - Robustesse du système (duplication avec sauvegarde) Inconvénients : - Si le serveur se plante, le système ne fonctionne plus. - Problème au niveau du réseau -> système peut ne pas marcher. Bases de données distribuées : Une base de données distribuée hétérogène, est une base de données dont les nœuds sont commandés par plusieurs ordinateurs centraux et plusieurs SGBD. Cette méthode d’organisation permet d’atteindre des niveaux de performances élevés. On distingue 3 méthodes de répartition des données : - Partition. - Réplication. - Hybride. Avantages : - Offrent un accès et un traitement rapides de l’information. Vu que l’information est stockée dans plusieurs nœuds, elle est répartie dans le nœud le plus proche de l’utilisateur. - Maintenance plus aisée du système, pannes facilement localisées. - Panne d’un nœud ne paralyse pas tout le système. Inconvénients : - Vulnérabilité du système contre des intrusions accroit avec la multiplicité des nœuds. - Coût élevé de l’architecture. III- Benchmarking (Apache Spark vs Hadoop): Certes, Spark et Hadoop sont tous deux des Framework Big Data. Cependant, Hadoop est une infrastructure de données distribuées collectées à travers plusieurs nœuds, capable de suivre et indexer les données big data stockées. En contrepartie, même si Spark travaille également avec des données distribuées, mais nécessite un système de stockage distribué. Hadoop : Hadoop est un Framework logiciel open source permettant de stocker des données, et de lancer des applications sur des grappes de machines standards. Cette solution offre un espace de stockage massif pour tous les types de données, 7 une immense puissance de traitement et la possibilité de prendre en charge une quantité de tâches virtuellement illimitée. Plutôt que de devoir déplacer les données vers un réseau pour procéder au traitement, le Framework MapReduce permet de déplacer directement le logiciel de traitement vers les données. Les composants d’Hadoop 2.x : Avantages : - Stockage et traitement de grandes quantités uploads/Industriel/ rapport-data-processing-in-distributed-systems.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/SwZObFTh34KVumPIRDEHsGHx0pAQhgQ2eJTJoGcjt50L9q1EGrGpUdjrvOCXXEU5U4tGLQ0zLAUgLq37z94S10QE.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/lwcxyZpBF9pOC7nTn4MtunIpjzfUmhFEYtvpaCDlQ4sSMEG3vvFu1ONdLq48npxUPYI5FDCbIsZoXBEb3YuD8gjl.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/39UfQYVqRES2svoYOfoEkQOIHbEhjr1Zf3ku4kFoPEZ855nteRFEnGgCxM5X4pckPCaPylZn6c7t2glJ93gwHguH.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/NGkJybIRAYxfTkj0ugWbBk7TY6DoMB9PmM8DmP6h2KJOHhFYAkLQI6LY67AzPDtBrOfc9vzAgfNsk6Nk4LbQOsiI.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/A3qTnYOto87Qxh5RqLXoKn3BDNJItf1HJfDV0gGPhZeNUZta6BWjRSRYhQ886vfwb90bwbKjtxKtwSbaa4quR3XF.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/y7e4fWsJMAvmjypqA8SOkJXaUlaj967S03zfssMW8qGNrWMNbELIoODKyTCHrUMx63i9ft2Siep0GFZ68wnTEaV9.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/DfgKTO0yzjlUzq2xwoJkDoIDgwQcjsAnBl3ovYCUr0r9LEQY1CY7ptTohxVmwkO2kVo3pCijTcXBGMLRoxwpOvac.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Cyg86QEBw56q4orsVnctUlNEcv23uHJt5pAk9AxhqvSw5Vec0NEdyFkb8lidyzMqJzUtuhQrGJAyhq0CjF5oYAxp.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ziPQF7f9G64QSZgUpH5pkHCKKh97h4LWzWd5uISEiMbueueupvrLdLXppDvitMC0kJfVl6Q6nodI5S437Y8bPSY8.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/MqGVj39X2iNMlVVkp2hsKMkRFuBp4BugodNF85lMjKog6G9T6p0KPI9Zb4nvFwlbDS6dJGtt6jzp1LkLekukhhVs.png)
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 14, 2021
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 0.5912MB