Lecon5 spark COURS Préparation à la certi ?cation Big Data Chapitre Spark CSpark Qu ? est que Spark ? Apache Spark is a powerful open source processing engine for Hadoop data built around speed ease of use and sophisticated analytics It was originally dev

COURS Préparation à la certi ?cation Big Data Chapitre Spark CSpark Qu ? est que Spark ? Apache Spark is a powerful open source processing engine for Hadoop data built around speed ease of use and sophisticated analytics It was originally developed in in UC Berkeley ? s AMPLab and open sourced in ? Ce n ? est pas une version modi ?ée de Hadoop ? C ? est un moteur MapReduce plus évolué plus rapide o Utilisation de la mémoire pour optimiser les traitements o Des API ? s pour faciliter et optimiser les étapes d ? analyses o Permettre le traitement temps réel des données ? Compatible avec le système de stockage de Hadoop HDFS Hive SequenceFiles Ahlem Ben Younes CSpark Spark plus rapide ? RDD ? s Resilient Distributed DataSet Une collection d ? objets distribués mise en cache en mémoire au travers du cluster Une API pour manipuler ces objets Operators Système de fail over automatique Ahlem Ben Younes CSpark Spark facile à utiliser ? Une liste d ? Operators pour faciliter la manipulation des données au travers des RDD ? S - Map ?lter groupBy sort join leftOuterJoin ritghtOuterJoin reduce count reduceByKey groupByKey ?rst union cross sample cogroup take partionBy pipe save ? Compatible avec les langages de programmation fonctionnel Scala Python R et Java Ahlem Ben Younes CSpark Spark un framework analytique ? Shark Moteur de requête SQL basé sur le coeur de Spark in memory il permet d ? exécuter des requêtes hive sans modi ?cation x plus rapidement ? MLLib Library d ? algorithmes d ? analyses de données data mining scalable et optimisé limite des interactions RDD ? s k-means ALS L ?? L ? Spark Streaming A opposer aux traitements batch mise à jour d ? un état dynamiquement piloté par des évènements sur les données event processing Filtre de Spam analyse de click reporting temps réel Ahlem Ben Younes ? ? ? CSpark Premier exemple Spark Soit un ?chier de données de type CSV provenant de http opendata paris fr décrivant des arbres Chaque ligne décrit un arbre position GPS arrondissement genre espèce famille année de plantation hauteur circonférence etc Le séparateur est ' ' La première ligne contient les titres Question On souhaite a ?cher l ? année de plantation champ n de l ? arbre le plus grand champ n Avec des commandes Unix ce traitement s ? écrirait Programme pySpark arbres py lancer le programme spark-submit arbres py Ahlem Ben Younes CSpark Lancement Spark o ?re plusieurs manières de lancer le programme dont ? Lancement sur un cluster de Spark Workers spark-submit --master spark hostname -f arbres py L ? option --master de cette commande indique à Spark qu ? on doit faire appel au cluster de machines sur lesquelles tournent des Spark Workers Ce sont des processus clients chargés de faire les calculs distribués pour Spark ? Spark permet aussi de lancer l ? exécution sur YARN spark-submit --master yarn-cluster arbres py Ce sont les

  • 50
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Jan 01, 2022
  • Catégorie Health / Santé
  • Langue French
  • Taille du fichier 43.7kB