www.octo.com - blog.octo.com HADOOP FEUILLE DE ROUTE OCTO > HA D O O P - F E U

www.octo.com - blog.octo.com HADOOP FEUILLE DE ROUTE OCTO > HA D O O P - F E U I L L E D E ROUTE Préface Quel effet cela fait-il de voir qu’Hadoop est en train de devenir la plateforme de référence pour le stockage et le calcul de données, dans les grandes entreprises ? Objectivement, c’est une très bonne chose. C’est une technologie qui est faite pour cela. Au plan émotionnel, c’est très satisfaisant, mais je dois admettre que j’ai eu beaucoup de chance. J’étais au bon endroit au bon moment, et c’est tombé sur moi. Si cela n’avait pas été moi, quelqu’un d’autre l’aurait fait depuis le temps. C’est drôle, car hier vous mentionniez les papiers que Google a publiés sur GFS et sur MapReduce, et vous sembliez surpris que personne d’autre ne les ait mis en œuvre. Comment l’expliquez-vous ? Les personnes concernées étaient-elles découragées par l’immensité de la tâche, ou bien… ? J’ai l’avantage d’avoir déjà contribué à des logiciels open source. J’ai travaillé sur des moteurs de recherche ; je pouvais apprécier l’apport des technologies, je comprenais le problème, et comment ces deux aspects se combinent. Je pense avoir été dans l’industrie logicielle suffisamment longtemps pour savoir ce que cela signifie de construire un projet utile et utilisable. À mon avis, personne d’autre n’avait alors assez de recul sur tous ces aspects. J’ai pu profiter de ces papiers et les mettre en œuvre, en open source, pour en faire profiter les autres. C’est comme ça que je vois les choses. Ce n’était pas planifié. Vous attendiez-vous à un tel impact ? Non, pas du tout. Une question un peu plus technique maintenant : vous parliez hier de tous ces outils qui se créent à partir d’Hadoop, apportant de nouvelles technologies et de nouveaux usages pour la donnée. Comment percevez-vous l’évolution d’Hadoop, en termes d’architecture, pour qu’il offre de plus en plus de capacités dans le futur ? Nous avons profité de l’intervention de Doug Cutting aux Cloudera Sessions Paris en octobre 2014 pour l’interviewer. Doug Cutting n’est rien de moins que le papa d’Hadoop, et le Chief Architect de Cloudera. Quel meilleur choix pour une préface qu’une transcription de cette interview ? Merci à Cloudera France de nous avoir permis cet échange.     02 OCTO > HA D O O P - F E U I L L E D E ROUTE C’est une architecture très générique. À plus d’un titre c’est, comme je le disais, un système d’exploitation. J’expliquais qu’un système d’exploitation propose du stockage, un ordonnanceur, des mécanismes de sécurité... Le premier défi, c’est de pouvoir supporter des applications très diverses. Je pense que l’architecture actuelle [d’Hadoop] n’est pas loin de permettre ce large spectre d’applications. Tout comme les systèmes d’exploitation qui n’ont pas vraiment changé depuis Windows ? Oui, pas dans leurs fondamentaux, depuis les années 60. Ces fonctionnalités de base constituent une plateforme sur laquelle vous pouvez développer plusieurs applications différentes, qui dans un certain sens partagent le matériel. En fait, c’est un “système d’exploitation Java” qui sait se faire discret et laisse les applications se partager le matériel. Qui fournit des abstractions, comme le rappelait Jim Baum. Exactement. Pour faire face à la complexité. C’est là, je crois, un rôle qu’Hadoop joue de plus en plus. Je suis conscient que cela demandera un changement radical d’architecture. Peut-être verra-t-on émerger des systèmes de fichiers alternatifs [à HDFS]… On verra. On voit arriver des outils, comme Kafka pour l’agrégation de logs sur plusieurs data centers, Storm pour le traitement de flux, et tant d’autres. Voyez-vous d’autres usages de la donnée qui n’ont pas encore vu le jour ? On peut déjà la rechercher, l’indexer, la diffuser et la traiter en temps réel… Nous pensons qu’il y a beaucoup d’opportunités pour des applications plus verticales, très spécifiques, au sein des différentes industries. Des outils capables de traiter des images, des données changeantes… Il reste beaucoup de domaines qui ne sont pas encore outillés. Sans parler des applications intégrées pour l’assurance, la banque, etc. Certaines entrevoient des modèles commerciaux, d’autres des modèles open source. Pour l’instant, ce que les gens voient ce sont surtout des outils de bas niveau que l’on peut combiner. Je pense que de plus en plus, des outils de haut niveau vont profiter d’implémentations open source, rendant universelle la plateforme sous-jacente. Le processus est déjà commencé.     03 Table des ma+ières QU’EST-CE QU’HADOOP ? [ 8 - 17 ] Les origines  Hadoop et Big Data, une question d’opportunités Les gènes d’Hadoop LE SOCLE TECHNIQUE D’HADOOP [ 18 - 35 ]  HDFS, un système de fichiers distribués  MapReduce, un algorithme distribué Dépasser HDFS et MapReduce L ’ÉCOSYSTÈME [ 36 - 53 ]  Open source, éditeurs et gouvernance  Hadoop dans les nuages : les acteurs du cloud L’écosystème logiciel HADOOP DANS LE SI [ 54 - 71 ]  Quelle organisation pour opérer des clusters Hadoop ?  Le processus d’adoption Choisir sa distribution L’infrastructure physique HADOOP AUJOURD’HUI ET DEMAIN [ 72 - 79 ]  Dès aujourd’hui  Demain matin  Dès demain et pour les mois à venir Dans un futur proche CONCLUSION [ 80 - 83 ] Qu’es+-ce qu’Had p ? Hadoop est né dans un contexte particulier, celui de l’émergence du Big Data. Porté par les Géants du Web, il se démarque radicalement des logiciels et des bases de données historiques du marché. OCTO > HA D O O P - F E U I L L E D E ROUTE Les origines Nous sommes en 2002. Deux ingénieurs, Doug Cutting et Mike Cafarella, décident de s’attaquer à un défi de taille : rendre Lucene, le célèbre moteur de recherche open source d’Apache, capable d’absorber le contenu des milliards de pages du web. C’est le projet Nutch1. Leur inspiration s’est portée tout naturellement vers un modèle évident : Google, dont les labs ont publié en 2003 un papier fondateur : The Google File System2. Sur cette base, ils ont construit NDFS, le Nutch Distributed File System. NDFS, comme son ancêtre GFS, est capable de stocker de grandes quantités de données sur un grand nombre de serveurs, de manière fiable. Le problème du stockage résolu, restait à transformer le système en un véritable moteur de recherche, et donc à lui ajouter un mécanisme d’indexation. La solution est venue peu de temps après, en 2004, avec ce qui allait devenir le deuxième papier fondateur d’Hadoop : MapReduce : Simplified Data Processing on Large Clusters3. Les auteurs y décrivent l’algorithme au cœur du moteur d’indexation web de Google, à savoir MapReduce. L’architecture sous-jacente de Nutch – NDFS et MapReduce – s’est avérée assez générique pour justifier la création d’une plateforme à part entière, dont Nutch ne serait qu’une application parmi d’autres. C’est ainsi qu’en 2006, le projet Apache Hadoop a vu le jour. Doug Cutting a entre-temps rejoint Yahoo!, qui est un très gros utilisateur et contributeur d’Hadoop, et fait tourner en production certains des plus gros clusters Hadoop mondiaux. Doug est aussi membre du comité de direction de la fondation Apache. Mais d’où vient le nom si curieux de ce logiciel ? Mais d’où vient le nom si curieux de ce logiciel ? De la mythologie ? De la science-fiction ? Non, d’un babillage d’enfant. Doug Cutting raconte que son fils avait une peluche en forme d’éléphant jaune, qu’il avait baptisée… Hadoop. L’enfant devenu grand doit sourire en voyant le nom et le logo d’Hadoop repris frénétiquement par toute la sphère Big Data, et en imaginant les DSI de la terre entière sucer leur pouce en faisant des rêves chatoyants peuplés de gentils éléphants jaunes. Les lecteurs chez qui Hadoop suscite des cauchemars pourraient bien retrouver le sommeil à la lecture de ce papier. Quant à ceux qui voient des éléphants roses, ils peuvent poser le livre et le reprendre un peu plus tard.  Nutch est toujours actif : http://nutch.apache.org/   http://static.googleusercontent.com/media/research.google.com/fr// archive/gfs-sosp2003.pdf (S.Ghemawat, H.Gobioff, S-T.Leung)   http://static.googleusercontent.com/media/research.google.com/fr// archive/mapreduce-osdi04.pdf (J.Dean, S.Ghemawat) 08 OCTO > HA D O O P - F E U I L L E D E ROUTE Hadoop : les grandes dates clefs Généalogie des versions d’Apache Hadoop 2011 2012 2013 2014 2015 09 OCTO > HA D O O P - F E U I L L E D E ROUTE Si son nom est celui d’une peluche (voir encadré précédent), Hadoop est pourtant loin d’être un jouet. Il motive une part significative des développements open source. En effet, plus de 10 % des projets mis en avant par la fondation Apache (les top-level projects) font partie de la galaxie Hadoop. La galaxie est en continuelle évolution, et nous sommes bien placés pour le savoir car nous suivons l’actualité de près ! La R&D open source d’Hadoop est portée par des sociétés comme Yahoo!, Facebook, eBay, Criteo, et une myriade d’éditeurs. Ils utilisent Hadoop au quotidien pour analyser toutes les empreintes de navigation que nous laissons sur leurs sites et ceux de uploads/Ingenierie_Lourd/ octo-livre-blanc-hadoop-2015.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager