Mini Projet Big Data Concepts et Cas d’utilisation Ahmed Limem Ghassen Lassoued
Mini Projet Big Data Concepts et Cas d’utilisation Ahmed Limem Ghassen Lassoued Mohamed Dallel IOT1 789 Sommaire 1. Introduction.......................................................................................................................................3 1.1. Origine du Big Data.....................................................................................................................3 1.2. Définitions...................................................................................................................................3 1.3. Contexte du Big Data..................................................................................................................4 2. Cas d’usage du Big Data.....................................................................................................................4 2.1. Transports...................................................................................................................................4 2.2. Santé...........................................................................................................................................5 2.3. Economie....................................................................................................................................6 2.4. Recherche...................................................................................................................................6 3. Techniques d’analyse de données.....................................................................................................6 4. Big Data et Cloud...............................................................................................................................7 5. Big Data et Recherche d’Information.................................................................................................8 6. Mise en oeuvre du Big Data...............................................................................................................9 6.1. Introduction................................................................................................................................9 6.2. Hadoop.......................................................................................................................................9 6.3. Distributions de Hadoop...........................................................................................................10 INTRODUCTION ORIGINE DU BIG DATA Le Big Data est un phénomène qui a vu le jour avec l’émergence de données volumineuses qu’on ne pouvait pas traiter avec des techniques traditionnelles. Les premiers projets de Big Data sont ceux des acteurs de la recherche d’information sur le web « moteurs de recherche » tel que Google et Yahoo. En effet, ces acteurs étaient confrontés aux problèmes de la scalabilité (passage à l'échelle) des systèmes et du temps de réponse aux requêtes utilisateurs. Très rapidement, d’autres sociétés ont suivis le même chemin comme Amazon et Facebook. Le Big Data est devenu une tendance incontournable pour beaucoup d’acteurs industriels du fait de l’apport qu’il offre en qualité de stockage, traitement et d’analyse de données. DÉFINITIONS Plusieurs définitions ont été données pour décrire le Big Data mais elles sont similaires et renferment les mêmes concepts. Nous citons les principales qui sont : - Gartner : Big Data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization . - Library of Congress : The definition of Big Data is very fluid, as it is a moving target - what can be easily manipulated with common tools - and specific to the organization: what can be managed and stewarded by any one institution in its infrastructure. One researcher or organization’s concept of a large data set is small to another . Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le Volume, la Variété et la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur. - Volume : désigne la masse de données collectées (giga-octets, téraoctets, …), - Variété : désigne l'origine variée des sources de données qui sont soit structurées ou non structurées (images, mails, tweets, données de géo-localisation,…), - Vélocité : désigne la vitesse à laquelle les données sont traitées simultanément. Ces caractéristiques sont aussi désignées par le concept de dimension. Certains experts considèrent qu’à partir du moment où l’on est en présence de l’une des variables, on se trouve dans un contexte Big Data1. CONTEXTE DU BIG DATA On peut parler de « Big Data » dés lors que2 : - Les volumes à traiter atteignent des tailles « plus grandes » que les problèmes courants : Peta (web), Terra, Exa, Zettaoctets, … - Le problème ne peut pas être traité par les outils existants : SGBD relationnels, moteurs de recherche, … 1 2 CAS D’USAGE DU BIG DATA Le Big Data couvre de nombreux domaines d’applications telles que l’industrie, la distribution, les banques, l’assurance, le transport, loisirs et le télécom. Des exemples sont cités ci-dessous: TRANSPORTS - Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..) afin de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à un autre, - Planification des voyages : mise à disposition du citoyen de données jusque là réservées aux administrations (gagner du temps / réduire le coût), - Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles Technologies de l'Information et de la Communication) destinées au domaine des transports. Parmi les thématiques d’actualité exposé durant le 20ème congrès mondial des Systèmes de Transport Intelligents3 nous citons comme exemple: les véhicules autonomes, les véhicules coopératifs et les systèmes de positionnement par satellite. Un exemple d’utilisation du Big Data pour la visualisation des données de transport en temps réel, y compris les autobus, les voitures, les trains, vélos et avions de la ville de Londres. SANTÉ - Exploitation des données à des fins d’études épidémiologiques, un cas d’utilisation est l’exemple du site « Openhelth.fr » qui affiche en temps réel des informations sur la santé des Français et des cartes en rapport (épidémies, allergies…), 3 - Exploitation des données stockées depuis des années, jamais exploitées, qui permettraient de comprendre des liens de cause à effet « legacy data », - Suivi des patients (dossier médical du patient). ECONOMIE - Connaissance des clients, actions personnalisées et ciblées, amélioration de la satisfaction, - Accélération des temps d’analyse des données clients pour l’identification des comportements atypiques, - Ciblage marketing (ex. micro segmentation). - Analyse prédictive de l’acte d’achat. RECHERCHE En TALN, deux approches coexistent : les technologies « speech-to-text » (transcription automatique de discours livrés sous forme orale) et les technologies de « machine translation » (traduction automatique de discours écrits). Dans le domaine de l’Image Processing (traitement automatique de l’image), deux secteurs émergent : l’indexation automatique de flux d’images et de fichiers vidéo, de la reconnaissance faciale et de la reconnaissance d’objets. TECHNIQUES D’ANALYSE DE DONNÉES Les méthodes d'analyse des données pour le Big Data sont de trois types principaux : - Les méthodes descriptives visent à mettre en évidence des informations présentes mais cachées par le volume des données Parmi les techniques et algorithmes utilisés dans l'analyse descriptive, on cite : o Analyse factorielle (ACP et ACM) o Méthode des centres mobiles o Classification hiérarchique o Classification neuronale o Recherche d'association - Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des informations présentes Cette technique fait appels à de l'intelligence artificielle, les principales méthodes sont : o Arbres de décision o Réseaux de neurones o Classification bayésienne o Support Vector Machine (SVM) o K-plus proches voisins (KNN) - Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus optimales à prendre pour arriver à la situation voulue. BIG DATA ET CLOUD Le Big Data et le Cloud Computing sont deux révolutions technologiques de cette décennie. Le Big Data propose des solutions de traitement des données massives alors que le Cloud offre des services de dématérialisation des ressources informatiques comme le SaaS (Software as a Service), PaaS (Platform as a Service), IaaS (Infrastructure as a Service) et dernièrement DaaS (Data as a Service). La relation entre Big Data et Cloud peut s’articuler sur l’utilisation conjointe de ces deux technologies. Est ce que c’est vraiment nécessaire d’avoir une infrastructure Cloud pour faire fonctionner une plateforme Big Data ? Si oui est ce que les solutions Big Data fonctionneront sur le Cloud ? On peut facilement faire du Big Data sans Cloud. Dans les travaux de Radu Tudoran il donne une réponse à notre question par : « Un aspect particulier complexe et difficile de la gestion des données pour les applications Big Data est la manipulation des données à travers de vastes zones et / ou à travers les data centers. Il présente aussi les principales raisons pour lesquelles les applications ont besoin de distribuer géographiquement le calcul sur le Cloud, qui sont les suivantes : - La taille des données peut être si grande que les données doivent être stockées sur plusieurs data centers. - Les sources de données peuvent être distribuées physiquement dans des lieux géographiques larges. - La nature de l'analyse, ce qui nécessite l'agrégation des flux de données à partir des instances d'applications distantes pour un nombre croissant de services. Services à grande échelle, comme les moteurs de recherche ou des outils de bureau en ligne fonctionnent sur des dizaines de data centers partout dans le monde. Le Big Data et le Cloud doivent être deux à deux complémentaires. Le Big Data doit être intégré dans les technologies du Cloud. C’est un objectif qui pose de nouveaux défis aux chercheurs. BIG DATA ET RECHERCHE D’INFORMATION Le Big Data pose des défis pour l'analyse de texte et le traitement du langage naturel en raison de ses caractéristiques de volume, la véracité, et la vitesse des données. Le volume en termes de nombre de documents défie les systèmes de stockage locaux et d'indexation traditionnels pour l’analyse et l’extraction de connaissances à grande échelle. Le calcul, le stockage et la représentation de données doivent fonctionner ensemble pour fournir un accès rapide, la recherche, l'extraction de la connaissance à partir de grandes collections de textes La recherche d’information fait partie des domaines d’application du Big Data, en l’occurrence l’analyse de données. Dans les travaux de Mavaluru décrit les fonctions clés d’une plateforme d’analyse de données en recherche d’information pour traiter les données : les critères d'évaluation de la plate-forme peuvent inclure la disponibilité, la continuité, la facilité d'utilisation, l'évolutivité, la vie privée et sécurité, et l'assurance de la qualité. La plate-forme la plus importante pour l’analyse de données en RI est la plate-forme de traitement de données open-source distribué Hadoop (plate-forme Apache), qui appartient à la classe des technologies NoSQL (Not only SQL : famille des bases de données non relationnelle). Les bases de données uploads/Management/ miniprojet-bigdata.pdf
Documents similaires










-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 03, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.4182MB