Cours pig Traitement du Big data avancé Chapitre Introduction Issat Gafsa Dr Fatma Hrizi CObjectifs de ce cours ? Ce module a pour objectif de construire un programme à base de MapReduce et intégrer Hadoop HBase ? Ce cours permet aux étudiants de découvri

Traitement du Big data avancé Chapitre Introduction Issat Gafsa Dr Fatma Hrizi CObjectifs de ce cours ? Ce module a pour objectif de construire un programme à base de MapReduce et intégrer Hadoop HBase ? Ce cours permet aux étudiants de découvrir également la notion du stockage distribué et le traitement de gros volumes de données structurées et non structurées pour obtenir de meilleures connaissances métier en utilisant plusieurs outils Issat Gafsa Dr Fatma Hrizi CObjectifs de ce cours ? A l ? issue de ce cours l'étudiant ou l'étudiante sera en mesure de ? Appréhender le fonctionnement d ? Hadoop ? Identi ?er l ? écosystème quels outils pour quels usages ? Manipuler les principales commandes shell d ? interaction avec Hadoop ? Émettre des requêtes SQL avec Hive et HCatalog ? Créer des traitements de données avec Pig Issat Gafsa Dr Fatma Hrizi CPlan du Cours Chapitre Rappel HADOOP Chapitre Pig Hive Chapitre HBase et Cassandra Issat Gafsa Dr Fatma Hrizi CChapitre Rappel Hadoop Issat Gafsa Dr Fatma Hrizi CPlan du chapitre Historique HDFS et YARN MapReduce Approfondissement sur MapReduce Issat Gafsa Dr Fatma Hrizi CL ? écosystème Hadoop Historique ? En Google a publié un document sur leur framework de traitement interne MapReduce ? En Yahoo a publié une implémentation open source basée sur ce framework Hadoop ? Dans les années suivantes d'autres frameworks et outils open source ont été di ?usés à la communauté ? Ces frameworks ont fourni de nouvelles capacités manquantes dans Hadoop comme les requêtes ou scripts de haut niveau ? Aujourd'hui il y a plus de projets open source pour le big data et ce nombre continue de cro? tre Issat Gafsa Dr Fatma Hrizi CHadoop Diagramme de couches ? Les couches de bas niveau gèrent le stockage et la plani ?cation ? Les couches de haut niveau concernent les modèles de programmation et d ? interactivité avec l ? utilisateur Issat Gafsa Dr Fatma Hrizi CHDFS ? HDFS est un système de ?chiers distribué ? Les ?chiers et dossiers sont organisés en arbre ? Ces ?chiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d ? un ?chier L ? accès est transparent ? Les ?chiers sont copiés en plusieurs exemplaires pour la ?abilité et permettre des accès simultanés multiples ? HDFS permet de voir tous les dossiers et ?chiers de ces milliers de machines comme un seul arbre contenant des Po de données comme s ? ils étaient sur le disque dur local Issat Gafsa Dr Fatma Hrizi CHDFS ? Vu de l ? utilisateur HDFS ressemble à un système de ?chiers Unix il y a une racine des répertoires et des ?chiers Les ?chiers ont un propriétaire un groupe et des droits d ? accès ? Sous la racine il y a ? des répertoires pour les services Hadoop hbase tmp var ? un répertoire pour les ?chiers personnels des utilisateurs user attention ce n ? est ni home ni users

  • 26
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Jui 03, 2022
  • Catégorie Health / Santé
  • Langue French
  • Taille du fichier 94.7kB