4DS RDD 1 Ines Slimene Big Data 2017/2018 Atelier 1 : Spark RDD Exercice 1 : 1.
4DS RDD 1 Ines Slimene Big Data 2017/2018 Atelier 1 : Spark RDD Exercice 1 : 1. Créer un RDD en chargeant le fichier error_log.txt 2. Filtrer les lignes qui contiennent le mot ‘ERROR’ 3. Afficher le nombre de ligne qui contiennent le mot ‘ERROR’ 4. Afficher les lignes qui contiennent le mot php en tant que tableau de chaine 5. Afficher le graphe RDD en utilisant la commande : nom_rdd.toDebugString() Exercice 2 : 1. Soit le fichier purchases.txt 2. Charger le fichier dans un RDD 3. Afficher le nombre de partition 4. Modifier le nombre de partition à 4. 5. Calculer le prix de vente total par magasin en utilisant les fonctions map et reduceByKey Exercice 3 : 1. Créer des RDD pour les deux fichiers README et CHANGES. 2. Créer un RDD qui contient le nombre d’occurrence de chaque mot dans chacun des fichiers (le résultat doit avoir la forme d’une paire (clé, valeur) 3. Afficher les résultats. 4. Combiner les deux résultats dans un seul RDD (utiliser la jointure) 5. Stocker le RDD trouvé en cache. 6. Afficher la valeur du RDD. 7. Combiner les valeurs trouvées (résultat souhaité : (mot,v) avec v=nbre occ readme+nbre occ changes) 8. Afficher le résultat final. uploads/s3/ atelier-1-rdd 1 .pdf
Documents similaires
-
16
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Apv 20, 2021
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 0.0804MB