Les Bases de Données NoSQL et Calcul Distribué n.soussi@usms.ma ENSA Khouribga

Les Bases de Données NoSQL et Calcul Distribué n.soussi@usms.ma ENSA Khouribga Pr. SOUSSI Nassima Les Bases de Données NoSQL Sommaire 2 Les Bases de Données NoSQL et Calcul Distribué I. Introduction au Big Data (Définition, et Règles du Big Data) II. Limites des Systèmes de Stockage Classiques (Fichiers, BDR et les DW classique) III. Bases de données NoSQL 1. Définition, 2. Théorème CAP, 3. Caractéristiques, 4. Fondements des Systèmes NoSQL 5. Typologie de BD NoSQL 6. Cas d’utilisations Introduction au Big Data 3 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Nous parlons en Brontobytes. 4 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data 5 Les Bases de Données NoSQL et Calcul Distribué Nom Symbole Valeur (en octet) Kilo-octet ko 103 Méga-octet Mo 106 Giga-octet Go 109 Téra-octet To 1012 Péta-octet Po 1015 Exa-octet Eo 1018 Zetta-octet Zo 1021 Yotta-octet Yo 1024 Bronto-octet Bo 1027 Introduction sur le Big Data Big Data : Définition 6 Les Bases de Données NoSQL et Calcul Distribué ‒ Le mot Big Data est inventé par les Anglo-Saxon pour désigner l'explosion du volumes de données. ‒ Représente des collections de données très volumineuses caractérisées par: Une vitesse de croissement exponentielle, Une variété si grandes qu'ils dépassent l'intuition et les capacités humaines d'analyse et même celles des outils informatiques classiques de gestion de base de données ou de l'information. Introduction sur le Big Data Big Data : Définition 7 Les Bases de Données NoSQL et Calcul Distribué Statistiquement parlons: ‒ Si nous prenons toutes les données qui ont été créées dans le monde jusqu’au 2008, la même quantité de données est maintenant générée chaque minute. ‒ Plus de 90% des données dans le monde ont été créées au cours de ces dernières années : 80% des données est non structurées, 20% des données qui peuvent être traitées par des systèmes traditionnels. Introduction sur le Big Data Big Data : Définition 8 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 9 Les Bases de Données NoSQL et Calcul Distribué Pour caractériser le Big Data, on parle de la règle des 3V qui est devenue par extension, règle des 4V, puis règle des 5V. Introduction sur le Big Data Big Data : Caractéristiques (Règles) 1. Volume ‒ Fait référence aux énormes quantités de données à traiter qui ne cesse de s’accroître chaque seconde. ‒ Sur Facebook seulement, nous envoyons 10 millions de messages par jour, « Likons » 4,5 millions de fois et téléchargeons 350 millions de nouvelles photos chaque jour. => Nous ne parlons plus en Téraoctets mais en Zettabytes et Brontobytes. 10 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 2. Variété Fait référence à l’hétérogénité de format de données ( Géolocalisation, vidéos, échanges vocaux, posts sur les réseaux sociaux…) => Les technologies du Big Data permettent d’analyser les données non structurées qui représentent au moins 80 % des informations collectées. 11 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 3.Vitesse (Vélocité) Fait référence à la fréquence du traitement et de génération de données. Exemples: 1. les transactions bancaires frauduleuses détectées en quelques secondes, 2. le temps que prennent les logiciels pour analyser les réseaux sociaux et capter les comportements qui déclenchent l’achat, dans des millisecondes ! 12 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 4. Véracité ‒ Concerne l’authenticité de données (Fiabilité de données). ‒ Avec autant de formes de grosse donnée, la qualité et la précision sont moins vérifiables (Faux profils sur les réseaux sociaux, fautes d’orthographe, les abréviations, le langage familier, …). => Il est indispensable de multiplier les précautions et penser à vérifier systématiquement la validité des données d’entrée et de traiter notamment le cas d’obsolescence des données. 13 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 5. Valeur ‒ Concerne la création de valeur (objectif) ‒ Représente le point le plus important des 5 V . Les technologies de stockage et d’analyse des Big Data ont de sens si et seulement si elles apportent de la valeur ajoutée. => Exploiter les données, c’est avant tout répondre à des objectifs commerciaux ou Marketing. La définition des objectifs orientera l’utilisation des Big Data. 14 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) Le Big Data va au-delà des 5Vs qui ont été extensiers en 8Vs, puis en 10Vs : 15 Les Bases de Données NoSQL et Calcul Distribué Visualisation Variabilité Validité 8 Vs + 10 Vs 5 Vs = = + Vulnérabilité Volatilité Introduction sur le Big Data Big Data : Caractéristiques (Règles) 6. Visualisation: ‒ Pour tirer un résultat significatif lors du traitement des mégadonnées, il faut les visualisés avec des outils appropriés afin d’aider les data scientists ou les analystes à mieux les comprendre. Exemple d’outils de visualisation de Big Data: Tableau, Google Chart, D3.js (Data Driven Document), … 16 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 7. Variabilité: ‒ Elle fait référence au nombre d’incohérences dans les données. un scénario courant qui se produit lorsque les données proviennent de différentes sources. ‒ Même en cas de forte variabilité, les données ne sont pas forcément invalides ni non-utilisables. ‒ Ces incohérences doivent être détectées par des techniques de détection d’anomalies pour faciliter la création d’analyse significative. 17 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 8. Validité : ‒ La validité a quelques similitudes avec la véracité. Comme le sens du mot l'indique, la validité des mégadonnées signifie à quel point les données sont correctes et précises aux fins pour lesquelles elles sont utilisées. ‒ Il est intéressant de noter qu'une partie considérable des mégadonnées reste inutile, ce qui est considéré comme des «données obscures». La partie restante des données non structurées collectées est d'abord nettoyée pour analyse. 18 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 8. Validité : (suite) 60% du temps d’un scientifique est consacré au nettoyage de ses données avant de pouvoir effectuer une analyse. => Avant l’analyse des données massives, il faut passer par le nettoyage profont des données pour garantir une qualité des données cohérente avec des définitions communes. 19 Les Bases de Données NoSQL et Calcul Distribué Introduction sur le Big Data Big Data : Caractéristiques (Règles) 9. Vulnérabilité : Le Big Data apporte de nouveaux problèmes de sécurité. 20 Les Bases de Données NoSQL et Calcul Distribué 10. Volatilité : ‒ La volatilité des mégadonnées fait référence à la durée de validité des données et à la durée de leur stockage. Il faut déterminer à quel moment les données ne sont plus pertinentes pour l'analyse actuelle. Introduction sur le Big Data Big Data : Caractéristiques (Règles) 21 Les Bases de Données NoSQL et Calcul Distribué Les 10 Vs du Big Data Volume Variété Vitesse Véracité Valeur Variabilité Validité Volatilité Vulnérabilité Visualisation Introduction sur le Big Data 22 Les Bases de Données NoSQL et Calcul Distribué Devant ce contexte d’explosion de données semi et non structurées les systèmes de stockage classique présentent plusieurs limitations … Les Limites des Systèmes de Stockage Classique 23 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique ‒ Fichiers ‒ Base de Données Relationnelle ‒ Entrepôt de Données Classique 24 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique : Fichiers Mode d’accès le plus direct ‒ Données accessible depuis n’importe quel outil de lecture. Fichiers organisés en répertoires ‒ Arborescence permettant de structurer les fichiers. ‒ Sur poste de travail ou serveur distant. 25 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique : Fichiers ‒ Fichiers Plats : Première ligne (en-tête) Nombre de colonnes identique 26 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique : Fichiers ‒ Fichiers XML: Très utiliser pour l’échange de données. Structure arborescence: racine avec enfants. 27 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique : Fichiers ‒ Fichiers JSON: Similaire à XML avec une syntaxe plus légère. Plus facile à aborder en programmation. Fréquemment utilisé pour les service web et les BD NoSQL. 28 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes de Stockage Classique Les Systèmes de Stockage Classique : Fichiers ‒ Fichiers HTML: Langage des pages web. Interpréter par les navigateurs Intégrant des annexes (jpg, css, js, …) 29 Les Bases de Données NoSQL et Calcul Distribué Les Systèmes uploads/Litterature/les-bases-de-donnees-nosql-pr-soussi-nassima.pdf

  • 35
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager