Chapitre4 archi spark 4 Cloud Avancé Chapitre Architecture Spark Mr DIATTARA Ibrahima CSommaire Introduction Historique Objectif Mapreduce Hadoop vs Spark Fonctionnalités Déploiement Architecture Manipulation data CIntroduction Spark est un Framework pour
Cloud Avancé Chapitre Architecture Spark Mr DIATTARA Ibrahima CSommaire Introduction Historique Objectif Mapreduce Hadoop vs Spark Fonctionnalités Déploiement Architecture Manipulation data CIntroduction Spark est un Framework pour les calculs distribués répartis ou partagés on repartie le traitement sur plusieurs microprocesseur de di ?érentes machines Spark est en développé en scala CHistorique En Spark fut conçu par Zaharia lors de son doctorat au sein de l'université de Californie et en transmis à la fondation Apache En Spark a gagné le Daytona GraySort dont l'objectif était de trier To de données le plus rapidement possible Ce record était préalablement détenu par Hadoop Pour ce faire Spark a utilisé machines obtenant un temps d'exécution ?nal de minutes alors que Hadoop avait utilisé machines pour un temps d'exécution ?nal de minutes La puissance de Spark fut démontrée en étant fois plus rapide et en utilisant approximativement fois moins de machines CObjectifs Spark a été créer pour améliorer MapReduce qui est un sous projet de Hadoop Mapreduce les données sont écrites sur le disque après chaque opérations Spark exécute la totalité des opérations en mémoire RAM Il ne s'appuie sur des disques seulement lorsque sa mémoire n'est plus su ?sante De ce fait là o? MapReduce travaille par étape Spark travaille sur la totalité des données en même temps Spark est capable de travailler avec une partie des données en mémoire et une autre sur disque CSpark vs Mapreduce Hadoop ? Sous Hadoop MapReduce les données sont lues et écrites sur disque à chaque fois entre deux opérations ? Ces lectures et écritures dans HDFS successives rallongent signi ?cativement les temps de latence CSpark vs hadoop ? Avec Spark le stockage ? en mémoire e ?ectué entre plusieurs opérations est beaucoup plus rapide ? Un autre point qui donne à Spark des performances supérieures à celle de MapReduce les évaluations paresseuses ??lazy evaluation ? ? Dans le cas o? le cluster ne possède pas de mémoire su ?sante les données sont écrites lues sur disque de la même façon que Hadoop MapReduce CFonctionnalités API Le Framework Spark possède plusieurs fonctionnalités ? Le Spark Core c ? est le système central de Spark C ? est une brique dédiée au traitement distribué des données comme Hadoop MapReduce ? Les modules avancés Ils sont développés au-dessus de Spark Core et permettent de faire des traitements complexes Streaming machine learning SQL ? CAction vs transformation Lazy Evaluation L'évaluation paresseuse est une stratégie d'évaluation qui maintient l'évaluation d'une expression jusqu'à ce que sa valeur soit nécessaire Cela évite l'évaluation répétée ce qui permet une optimisation des étapes du traitement Les transformations Ce sont des fonctions qui retournent une nouvelle SD structure de données Rien n ? est évalué lorsque l ? on fait appel à une fonction de transformation cette fonction prend juste une nouvelle et retourne un nouveau SD Les fonctions de transformation sont par exemple map ?lter atMap groupByKey reduceByKey aggregateByKey Exp df ?lter age Nous avons deux type de transformation Narrow opération qui nécessitent un shu
Documents similaires










-
31
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Mar 20, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 50.2kB