I EPIGRAPHE II DEDICACE III REMERCIEMENTS IV LISTE DES TABLEAUX Tableau 1: Créa
I EPIGRAPHE II DEDICACE III REMERCIEMENTS IV LISTE DES TABLEAUX Tableau 1: Création utilisateur Mongo DB...............................................................................35 Tableau 2: Connexion à Mongo DB.........................................................................................35 Tableau 3: Commande principales de mongofiles....................................................................36 V LISTE DES FIGURES Figure 1: Modèle NoSQL « clé-valeur »..................................................................................16 Figure 2: Modèle NoSQL « document »...................................................................................17 Figure 3: Modèle NoSQL « colonnes »....................................................................................18 Figure 4: Modèle NoSQL « graphe ».......................................................................................19 Figure 5: Visualisation des différents SGBD............................................................................20 Figure 1: Exemple Document dans une collection...................................................................29 Figure 2: Collection..................................................................................................................30 Figure 3: Schématisation d'un objet JSON...............................................................................32 Figure 4: Schématisation d'un tableau JSON............................................................................32 Figure 5: Schématisation des différents types de valeur contenue dans un document JSON...32 Figure 6: Indexe Mongo DB.....................................................................................................33 Figure 7: Vision des options disponibles de Compass..............................................................37 1 INTRODUCTION Le terme « NoSQL » a été inventé en 2009 lors d’un événement sur les bases de données distribuées. Le terme est vague, incorrect (certains moteurs NoSQL utilisent des variantes du langage SQL, par exemple Cassandra), mais présente l’avantage d’avoir un effet marketing et polémique certain. Dans ce projet, nous allons aborder les caractéristiques générales des moteurs NoSQL, historiquement, conceptuellement et techniquement, en regard des bases de données relationnelles, mais aussi indépendamment de cette référence. Les défenseurs du mouvement NoSQL le présentent comme une évolution bienvenue de l’antique modèle relationnel. Ses détracteurs le considèrent plutôt comme une régression. Le modèle relationnel est apparu dans les années 1970, devenant rapidement le modèle dominant, et jamais détrôné depuis, un peu comme les langages impératifs (comme C++ et Java) dans le domaine de la programmation. Dans ce chapitre, nous allons présenter un bref historique de l’évolution des bases de données informatiques, pour mieux comprendre d’où viennent les modèles en présence, pourquoi ils ont vu le jour et ont ensuite évolué. Les évolutions logicielles suivent assez naturellement les évolutions matérielles. Les premiers SGBD étaient construits autour de mainframes et dépendaient des capacités de stockage de l’époque. Le succès du modèle relationnel est dû non seulement aux qualités du modèle lui-même mais aussi aux optimisations de stockage que permet la réduction de la redondance des données. Avec la généralisation des interconnexions de réseaux, l’augmentation de la bande passante sur Internet et la diminution du coût de machines moyennement puissantes, de nouvelles possibilités ont vu le jour, dans le domaine de l’informatique distribuée et de la virtualisation, par exemple. Le passage au XXIe siècle a vu les volumes de données manipulées par certaines entreprises ou organismes, notamment ceux en rapport avec Internet, augmenter considérablement. Données scientifiques, réseaux sociaux, opérateurs téléphoniques, bases de données médicales, agences nationales de défense du territoire, indicateurs économiques et sociaux, etc., l’informatisation croissante des traitements en tout genre implique une multiplication exponentielle de ce volume de données qui se compte maintenant en pétaoctets (100 000 téraoctets). C’est ce que les Anglo- Saxons ont appelé le Big Data. La gestion et le traitement de ces volumes de données sont considérés comme un nouveau défi de 2 l’informatique, et les moteurs de bases de données relationnelles traditionnels, hautement transactionnels, semblent totalement dépassés. Dans l’actuel projet, nous allons essayer de brosser succinctement sur les bases données NoSQL qui est devenu un mouvement dans le monde des bases des données, et savoir de quoi s’agit-il réellement. Nous passerons en revue quelques bases des données NoSQL, le schéma utilisé, le langage et le mode de fonctionnement. De ce fait notre projet sera subdivisé en 3 chapitres comme suit : Chapitre 1 : Notions sur les Big data Chapitre 2 : Les bases des données Relationnelles et NoSQL Chapitre 3 : Solution Mongo DB 3 CHAPITRE I. NOTIONS SUR LE BIG DATA I.1. Définition Littéralement, Big Data signifie données massives ou méga données. C'est un ensemble d’entités de données hétérogènes en extensibilité permanente qui ne peuvent pas pris en charge par les systèmes de gestion de données classiques. Big Data est aussi une architecture distribuée et scalable pour le traitement et le stockage de grands volumes de données. En effet, on crée environ 2,5 milliards de Giga octets de données tous les jours, émanant des différents domaines créés par les divers outils numériques : vidéos publiés, messages envoyés, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces volumes massifs de données sont baptisés Big Data. Les géants du Web, au premier rang comme Yahoo, Facebook, Amazon et Google, ont été les tous premiers à déployer ce type de technologie pour permettre à tout le monde d’accéder en temps réel à leurs bases de données géantes. L'émergence du Big Data est considérée comme une nouvelle révolution industrielle semblable à la découverte de la vapeur, de l’électricité, du téléphone et de l’informatique. D'autres, qualifient ce phénomène comme étant le dernier épisode de la troisième révolution industrielle, dite celle de « l’information ». Cependant, aucune définition universelle ou précise ne peut qualifier le Big Data. Etant un concept polymorphe et complexe, son interprétation varie selon les communautés qui s’y intéressent en tant que fournisseur ou utilisateur de services. Le Big Data est aussi défini par rapport à la manière avec laquelle les grandes masses de données peuvent être traitées et exploitées de façon optimale. Une autre définition similaire dans ou les auteurs qualifient les Big Data comme n'importe quel type de source de données qui a au moins trois caractéristiques communes : Volumes de données extrêmement volumineux ; Vitesse de transmission extrêmement élevée ; Très grande Variété de données. 4 La vérité est que le Big Data a bien trois significations et que les éditeurs n’en abordent qu’une seule à la fois. Il est important de connaître leur positionnement pour comprendre le principe. Un quatrième V pour Valeur et un cinquième pour la Véracité sont apparu ultérieurement. I.2. Volume Le Big Data est associé à un volume de données vertigineux, se situant actuellement entre quelques dizaines de téraoctets (1 To=212 octets) et plusieurs pétaoctets (1 Po=215 octets) en un seul jeu de données. Le volume correspond à la masse d'informations produite chaque seconde. Les entreprises issues de tous les secteurs d’activité gérant des données massives, se voient assujetties à trouver des techniques nécessaires et moyens capables pour gérer les volumes de données collectés chaque jour et d’une importance vitale pour leur survie. I.3. Vélocité La vélocité ou la vitesse d'échanges décrit la fréquence à laquelle les informations sont générées, capturées, stockées et partagées. Elle est aussi le traitement des flux continus de données. Les entreprises doivent appréhender la vitesse non seulement en termes de création de données, mais aussi sur le plan de leur traitement, de leur analyse et de leur restitution à l'utilisateur en respectant les exigences des applications en temps réel. I.4. Variété De plus en plus, le taux des données structurées manipulées dans des tables de bases de données relationnelles est en décroissance par rapport à l'expansion des types de données non-structurées. Cela peut être des images, des vidéos, des messages, des voix, et bien d’autres encore. Aujourd'hui, on trouve plusieurs milliers de sources hétérogènes comme les capteurs d'informations aussi bien dans les trains, les automobiles, les avions ou les équipements électroménagers qui émettent une variété d'informations de tout genre. Les technologies Big Data, permettent de faire de la création, l'intégration, l'analyse, la reconnaissance, le classement des données de différents types comme des photos sur différents sites ou les messages échangés sur les réseaux sociaux, etc. Ce sont les différents éléments qui constituent la variété supportée par le Big Data. 5 I.5. Valeur La notion de Valeur correspond à l'intérêt qu'on puisse tirer de l'utilisation de cette technologie. Selon les experts du domaine, les entreprises qui ne s'intéressent pas sérieusement au contenu de leurs volumes de données hébergées risquent d'être pénalisées et dépassées. Big Data désigne à la fois les grands volumes de données et la difficulté à extraire de cette masse de données celles ayant suffisamment de valeur pour justifier leur analyse. Big Data offre un ensemble d'outils d'analyse de données qui peuvent servir à préserver un privilège concurrentiel. I.6. Véracité L'aptitude à juger la crédibilité et la fiabilité du nombre indéfini de données collectées qualifie la Véracité du Big Data. Il est difficile de justifier l'authenticité et l'exactitude des contenus des différents volumes et variétés de données manipulées comme dans les conversations dans les réseaux sociaux avec les abréviations, le langage familier, les coquilles, les hashtags. La vérité est que le Big Data, a bien trois significations et que les éditeurs n'en abordent qu'une à la fois. Il est important de connaître leur positionnement pour leur poser les bonnes questions. I.7. Architecture Big Data On distingue principalement les couches suivantes : Couche matériel (infrastructure Layer) : Peut employer des serveurs virtuels VMware, ou des serveurs physiques ; Couche stockage (Storage layer) : Les données seront stockées soit dans une base NoSQL, ou bien directement dans le système de fichier distribué ou les Datawarehouses; Couche management et traitement (traitement layer) : On trouve dans cette couche les outils de traitement et analyse des données comme MapReduce ou Pig ; Couche visualisation (visualisation layer) : pour la visualisation du uploads/s1/ final-dorcas 1 .pdf
Documents similaires
-
16
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 31, 2022
- Catégorie Administration
- Langue French
- Taille du fichier 0.6157MB