Apache spark Apache Spark Question Qu'est-ce que Spark Apache Spark est un framework open source principalement utilisé pour l'analyse Big Data l'apprentissage automatique et le traitement en temps réel Le framework fournit essentiellement une interface e

Apache Spark Question Qu'est-ce que Spark Apache Spark est un framework open source principalement utilisé pour l'analyse Big Data l'apprentissage automatique et le traitement en temps réel Le framework fournit essentiellement une interface entièrement fonctionnelle pour les programmeurs et les développeurs Cette interface facilite grandement la programmation en grappes complexes et les t? ches d ? apprentissage automatique Apache Spark est une plateforme de traitement sur cluster générique Assure un traitement parallèle et distribué sur des données massives Réaliser des traitements par lot batch Processing ou à la volée Stream Processing Intégrer tous les outils et technologies Big Data O ?re le traitement itératif interactif et à la volée O ?re des APIs de haut niveau en Java Scala Python et R Question Pourquoi utiliser Spark ?? fois plus rapide que Hadoop ?? Utilise moins de ressources que Hadoop ?? Fonctionne en mémoire ?? Possibilité d ? utiliser Spark avec hadoop ?? Résilient aux pannes Question Composants de Spark Apache Spark utilise une architecture en couches comportant plusieurs composants dont l'objectif est de permettre de réaliser des traitements performants tout en promettant un développement et une intégration facilitées Il est né à la base pour pallier les problèmes posés par Hadoop Map Reduce mais est devenu une entité à lui seul o ?rant bien plus que le traitement par lot classique C Spark Core est le point central de Spark qui fournit une plateforme d'exécution pour toutes les applications Spark De plus il supporte un large éventail d'applications Spark SQL se situe au-dessus de Spark pour permettre aux utilisateurs d'utiliser des requêtes SQL Les données structurées et semi-structurées peuvent ainsi être traitées gr? ce à Spark SQL avec une performance améliorée Spark Streaming permet de créer des applications d'analyse de données interactives Les ux de données sont transformés en micro-lots et traités pardessus Spark Core Spark Mllib la bibliothèque de machine learning MLlib fournit des algorithmes de haute qualité pour l'apprentissage automatique Ce sont des librairies riches très utiles pour les data scientistes autorisant de plus des traitements en mémoire améliorant la performance de ces algorithmes sur des données massives Spark Graphx est le moteur d'exécution permettant un traitement scalable utilisant les graphes se basant sur Spark Core Question Architecture de Spark CLes applications Spark s'exécutent comme un ensemble indépendant de processus sur un cluster coordonnés par un objet SparkContext dans le programme principal appelé driver program Pour s'exécuter sur un cluster SparkContext peut se connecter à plusieurs types de gestionnaires de clusters Cluster Managers ? Sur le gestionnaire autonome de Spark qui est inclus dans Spark et qui présente le moyen le plus rapide et simple de mettre en place un cluster ? Sur Apache Mesos un gestionnaire de cluster général qui peut aussi tourner sur Hadoop Map Reduce ? Sur Hadoop YARN le gestionnaire de ressources de Hadoop ? Sur Kubernetes un système open-source pour l'automatisation du déploiement et la gestion des applications Ces gestionnaires permettent d'allouer les ressources nécessaires pour l'exécution de plusieurs applications Spark Une fois

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Jan 28, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 65.8kB