Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Spark Big Data Lot ? NAJDI Année Universitaire Finance et Ingénierie Décisionnelle ENSA Agadir CSpark CHadoop MapReduce ? les ensembles de données sont lus à partir du disque ? Après chaque opération map ou reduce le résultat est écrit à nouveau sur disqu

Big Data Lot ? NAJDI Année Universitaire Finance et Ingénierie Décisionnelle ENSA Agadir CSpark CHadoop MapReduce ? les ensembles de données sont lus à partir du disque ? Après chaque opération map ou reduce le résultat est écrit à nouveau sur disque ? L'écriture sur disque fournit la tolérance aux pannes par contre les I O sur disque sont couteux latence importante ? Di ?cile à composer et à imbriquer de multiples opérations CPourquoi Spark ? Hadoop MapReduce a permis de simpli ?er considérablement l'analyse des données sur les gros clusters ? Spark représente une alternative à Hadoop MapReduce pour le calcul distribué qui vise à résoudre les problèmes relatifs à la performance ? les exigences ne cessent de cro? tre ? Analyses et algorithmes avancés à passages multiples comme le cas du machine learning et du traitement des graphes ? Support des requêtes ad-hoc interactives ? le traitement de ux de données en quasi temps réel stream processing CSpark Spark is a fast in-memory data processing engine suitable for use in a wide range of circumstances Apache Spark is a uni ?ed analytics engine for large-scale data processing Apache Spark CSpark ? Spark écrit les données en RAM et non pas sur disque ? Apache Spark exécute les applications de manière très rapide en mémoire par rapport à Hadoop ? Réduction du nombre de cycles de lecture écriture sur le disque et stockage des données intermédiaires en mémoire amélioration de la latence et du taux de transfert Apache Spark CSpark ? Spark SQL Requêtes sur les données structurées relationnelles ? Spark Streaming le traitement de ux de données en quasi temps réel à l ? aide des micro-batches ? MLib pour le Machine Learning ? GraphX pour représenter sous la forme de graphes des données reliées comme les connexions des utilisateurs de réseaux sociaux Apache Spark CCluster Spark Spark Documentation apache org CCluster Spark ? Driver program Le processus qui exécute la méthode main le point de départ du programme ? Spark Driver permet de créer un object SparkContext ? La création du SparkContext constitue la première étape à faire car elle permet à une application Spark d'établir une connexion avec l'environnement d ? exécution de Spark et d ? accéder au cluster Spark ressources de traitement à l'aide du cluster manager ? SparkContext représente le noyau d'une application Spark ? SparkContext agit en tant que ma? tre de l'application Spark ? SparkConf permet de spéci ?er les paramètres de con ?guration avant la création du SparkContext master URL application name etc CCluster Spark ? A l'aide du cluster manager une application Spark est lancée sur un ensemble de machines ? Spark peut fonctionner en se connectant à des cluster managers de types di ?érents ? Standalone Cluster Manager cluster managers autonome intégré par défaut dans Spark ? Autres cluster managers comme Hadoop Yarn Apache Mesos etc CCluster Spark ? Une application Spark est une combinaison de Driver et de ses propres executors ? Worker node Tout n ?ud