Big data analytics sqoop cdh 4 7
Big Data Analytics Workshop Apache Sqoop ERP-BI DS I- Objectifs Ce workshop permet d ? exploiter les di ?érents outils de Big data Hive MySQL Sqoop HDFS Avro pour importer les données d ? une base de données relationnelle MySQL et d ? un ?chier log vers HDFS avec CDH Cloudera Distribution Including Apache Hadoop et les manipuler sous HIVE II- Introduction La ?gure ci-dessous décrit l ? extraction et le chargement des données dans HDFS Les données structurées sont importées depuis les sources transactionnelles et certaines tables dimensions peuvent être récupérées depuis le datawarehouse existant Les données non structurées sont aussi importées dans leur état brut Dans ce qui suit on va se focaliser sur l ? importation des données à partir de la base de données relationnelle MySQL vers HDFS et manipulation des données dans HIVE Esprit - CBig Data Analytics ERP-BI DS III- Contexte des scénarios Dans les scénarios de ce workshop on se focalise sur les données relatives à l ? entreprise DataCo Le schéma relationnel de la base de données correspondante est présenté à travers la ?gure ci-dessous Pour analyser ces données nous avons besoin de les migrer dans le système Hadoop Distributed File System HDFS Pour cette raison nous avons besoin de trouver un outil qui permet de transférer facilement des données structurées à partir d'un SGBDR à HDFS tout en préservant leur structure Cela nous permet d'interroger les données sur HDFS sans a ?ecter les données du SGBDR Cet outil est Apache Sqoop qui fait partie du CDH Il permet de charger automatiquement nos données relationnelles de MySQL en HDFS tout en préservant la structure Les données sur HDFS peuvent être stockées sous une forme binaire ou une forme textuelle nous visons exploiter le type de ?chier Avro qui représente un format de ?chier optimisé dans Hadoop Esprit - CBig Data Analytics ERP-BI DS IV- Installation MySQL pour CDH Pour pouvoir importer les données on commence par installer MySQL dans Cloudera Pour ce faire on doit exécuter les instructions suivantes sudo sed -i s mirrorlist https mirrorlist http etc yum repos d epel repo sudo yum install mysql-server sudo service mysqld start Une fois le service mysql démarré on se connecte à mysql et on importe la base de données à mysql -u root -p mysql create database retaildb mysql use retaildb mysql source retaildb sql mysql show tables partir du ?chier retaildb sql V- Scénario Importation de la base de données retaildb de MYSQL dans HIVE sans métadonnées Dans ce scénario on se propose d ? importer la totalité des la base de données retaildb dans HIVE Il faut suivre les étapes suivantes On crée la base de données hretaildb hive create database hretaildb Véri ?cation de la création du dossier correspondant sous HDFS hretaildb db Hadoop fs -ls user hive warehouse Pour importer la base de données retail db on exécute le script suivant dans un nouveau terminal sqoop import-all-tables --connect jdbc mysql localhost retail db -- username root --warehouse- dir
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/1170248163615hpm35ef6dsxu4qvkkzl6slhjp5snpjfbpvggytfmto32e8ub983ypmzquaxggy5zrbyyvpmlqsxstejj6kdxgtg8a9biuw4vha.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11702403622vfyru4sdrvbkw3zezlzeawgk1naagc3oxhwkuwitnqd0dtexh6i6pqc10rqs7bg9icqvd5ert2ngdkwmo6wld4thmrtiurqcgswo.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11702581415qle0c7luihnomhpwwnb6io7ofr4jbgzuuwbtcjvhnltceermbvydqzefa9dksuifnuyjdaauxi2azro5hmsp4bima8wojgb3om2s.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/68pvrGGTilNns7r0ilr42kP5umZOwZFhZ694yVBZcYxaCCdtBcCr5Pznbfn15TpPGbIk87JmCNhI9r5ADSZ83mIi.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/117023814217k1s26niodmoufloysd86o0lgtfewy3sjobsawk0kvgmgbcoebyf3yzmui8pexc4ct0atlflm5hemtmbtymcoy5pygg7vv3snxbs.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11702673742pti2q8ecgxokrhfebmlfstmyccqxpttfw3nmqvncrazd4gfyzk6bbn2cddbsafu76lum4nyyvypkdeyd9l5ggl9yreoomzpbeefs.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/HvI72AHrzoGFPZLaIE5UtzIiyY4eBPDlBGG14EQGTin8IzSX0x1BZ2see7IHvg6yDX3M08pQ4kGPLGPZ14k4wXC9.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11702585122m7be2mc2pz5lz3nozomc3xw7lblehdk5rydrh6qttxryqjvdgdsidhblz4votkvyrlj4moiuxo2bsetcpxskeinpptpyiebsfcul.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11702167725uwvexq3pvqrbamhjbi8kebfl5zkscszng5ii6q7kd66qf81udruyhfax1fcujvylpicfj8voziksho7oxmisnu5mktp6ck9u2v7d.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/rGpcAKYEPlkveZ1HKv3vUUNn37sajYwHvkaZaR4RXkjwyDPzXcrZlPlqvddyq7hrzbEZeOEVBHkFtCpkoD3Ghnp7.png)
-
24
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Fev 14, 2021
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 54.8kB