Mbds big data hadoop cours 1

Hadoop Big Data Benjamin Renaut renaut benjamin tokidev fr MBDS - C Introduction Programme ?? Planning ?? Objectifs ?? TP Évaluations CIntroduction - Benjamin Renaut Tokidev SAS Bureau d'étude - Développement - Consulting http www tokidev fr CAvant de commencer - Posez des questions Si un point n'est pas clair n'hésitez pas à poser des questions à tout moment Point de contact ben tokidev fr Vous pouvez m'envoyer toute question par e-mail concernant le cours les TDs ou le partiel Google est votre ami Si vous rencontrez un problème prenez le ré exe d'e ?ectuer une recherche ?? dans une majorité de cas quelqu'un d'autre aura eu le même problème que vous - Cours en ligne http cours tokidev fr bigdata Disponible à cette adresse la machine virtuelle utilisée pour les TPs les slides des cours CObjectifs - Découvrir la méthodologie map reduce Apprendre à installer et utiliser Hadoop Apprendre à rédiger et exécuter des programmes pour Hadoop Découvrir diverses solutions complémentaires liées à Hadoop et aux problématiques Big Data ? en général Pig MongoDB etc Apprendre à utiliser Apache Spark ? Apprentissage basé sur la pratique C Le calcul distribué Historique Hadoop CLe calcul distribué - Désigne l'exécution d'un traitement informatique sur une multitude de machines di ?érentes un cluster de machines de manière transparente Problématiques Accès et partage des ressources pour toutes les machines Extensibilité on doit pouvoir ajouter de nouvelles machines pour le calcul si nécessaire Hétérogénéité les machines doivent pouvoir avoir di ?érentes architectures l'implémentation di ?érents langages Tolérance aux pannes une machine en panne faisant partie du cluster ne doit pas produire d'erreur pour le calcul dans son ensemble Transparence le cluster dans son ensemble doit être utilisable comme une seule et même machine traditionnelle ? CLe calcul distribué - Ces problématiques sont complexes et ont donné lieu à des années de recherche et d'expérimentation On distingue historiquement deux approches cas d'usage E ?ectuer des calculs intensifs localement recherche scienti ?que rendu D etc - on souhaite avoir un cluster de machines local pour accélérer le traitement Solution qui était jusqu'ici coûteuse et complexe à mettre en oeuvre Exploiter la démocratisation de l'informatique moderne et la bonne volonté des utilisateurs du réseau pour créer un cluster distribué via Internet à moindre coût Solution qui suppose qu'on trouve des volontaires susceptibles de partager leur puissance de calcul ? CExemple Blue Gene - Supercalculateur classique ? Connecte CPUs et tera-octets de RAM le tout sous un contrôle centralisé pour assurer l'exécution de t? ches distribuées L'architecture est ici spéci ?quement construite pour le calcul distribué à grande échelle Il s'agit d'un cluster local ? ne passant pas par Internet Premier supercalculateur à être commercialisé et produit par IBM en plusieurs exemplaires Utilisé pour des simulations médicales l'étude de signaux radio astronomiques etc CExemple GPUGRID net - Projet de l'université Pompeu Fabra Espagne permettant à des volontaires partout dans le monde de mettre à disposition le GPU de leur carte graphique pour le calcul distribué via NVIDIA CUDA

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Nov 24, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 173.8kB