14/10/2022 1 Chapitre I Introduction aux Big Data Plan I. INTRODUCTION II. BDD

14/10/2022 1 Chapitre I Introduction aux Big Data Plan I. INTRODUCTION II. BDD RELATIONNELLES III. LES BDD NOSQL IV. POURQUOI LES BDD NOSQL V. SQL VS NO SQL VI. TYPE DES BDD NOSQL VII. ACID & BASE VIII.THÉORÈME DE CAP 2 1 2 14/10/2022 2 Introduction Chaque jour, nous générons 2,5 trillions d’octets de données 90% des données dans le monde ont été créées au cours des deux dernières années 90% des données générées sont non structurées Source: ◦Capteurs utilisés pour collecter les informations climatiques ◦Messages sur les médias sociaux ◦Images numériques et vidéos publiées en ligne ◦Enregistrements transactionnels d’achat en ligne ◦Signaux GPS de téléphones mobiles ◦… Données appelées Big Data ou Données Massives 3 Big Data - Définition 1 “Le Big Data (ou mégadonnées) représente les collections de données caractérisées par un volume, une vélocité et une variété si grands que leur transformation en valeur utilisable requiert l’utilisation de technologies et de méthodes analytiques spécifiques." 4 3 4 14/10/2022 3 Big Data - Définition 2 Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes et changeants, et d’en extraire les informations pertinentes à un coût accessible. 5 Big Data - Pourquoi? ❑Augmentation exponentielle de la quantité de données non structurées ▪ Email, chat, blog, web, musique, photo, vidéo, etc. ❑Augmentation de la capacité de stockage et d’analyse ▪ L’utilisation de plusieurs machines en parallèle devient accessible ❑Les technologies existantes ne sont pas conçues pour intégrer ces données ▪ Bases de données relationnelles (tabulaires), mainframes, tableurs (Excel), etc. ❑De “nouvelles” technologies et techniques d’analyse sont nécessaires ▪ “Google File System” - Google 2003 ▪ “MapReduce: Simplified Data Processing on Large Clusters” - Google, 2004 ▪ Hadoop: circa 2006 ❑D’où le “Big Data”: pas strictement plus de data... 6 5 6 14/10/2022 4 Utilisations multiples Sources multiples: sites, bases de données, téléphones, serveurs: ◦Détecter les sentiments et réactions des clients ◦Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux , et à temps pour intervenir ◦Prédire des modèles météorologiques pour planifier l’usage optimal des Éoliennes ◦Prendre des décisions risquées basées sur des données transactionnelles en temps réel ◦Identifier les criminels et les menaces à partir de vidéos, sons et flux de Données ◦Étudier les réactions des étudiants pendant un cours, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années (domaine Big Data in Education) 7 Challenges ❑Réunir un grand volume de données variées pour trouver de nouvelles idées ❑Capturer des données créées rapidement ❑Sauvegarder toutes ces données ❑Traiter ces données et les utiliser ❑Analyser rapidement de larges quantités et contenus hétérogènes et changeants, et en extraire les informations pertinentes à un coût accessible 8 7 8 14/10/2022 5 BDD Relationnelles  Existent depuis plus de 48 ans  Utilisent l’Algèbre relationnelle  Forte consistance, concurrence, récupération  Populaire  Langage de requête standard (SQL)  Fonctionne très bien dans la plupart des cas 9 Exemple 10 9 10 14/10/2022 6 Exemple  MySQL  Oracle  SQL Server  PostgreSQL  IBM/DB2  H2  Apache Derby  …. 11 Avantages ❑Transactions ACID ❑Contexte mathématique (Algèbre relationnelle) ❑Langage de requête standard (SQL) ❑Garantie de la non duplication des données ❑Un écosystème massif d’outils, de bibliothèques et d’intégrations ❑Existe depuis plus de 48 ans 12 11 12 14/10/2022 7 Propriétés ACID Atomicité : L’ensemble des opérations d’une transaction est soit exécuté en bloc, soit annulé en bloc Cohérence : Les transactions respectent les contraintes d’intégrité de la base Isolation : Deux exécutions concurrentes de transactions résultent en un état équivalent à l’exécution sérielle des transactions Durabilité : Une fois une transaction confirmée, les données correspondantes restent durablement dans la base, même en cas de panne 13 Inconvénients ❑Schéma défini, attributs optionnels (NULL) ❑Les requêtes sont parfois très complexes (jointure) ❑Utilisation des jointures pour agréger des données liées ❑Mise à l'échelle horizontale difficile (horizontal scaling) ❑Les jointures son couteuses ❑Lenteur causée par les transactions ACID 14 13 14 14/10/2022 8 C’est quoi une BDD NoSQL ?  La théorie et les offres NoSQL modernes ont débuté au début des années 2000  L’usage moderne du terme NOSQL introduit en 2009  NoSQL = Not Only SQL (pas seulement SQL)  Une collection de produits très différents  Alternatives aux bases de données relationnelles quand elles sont un mauvais ajustement 15 NoSQL ❑Principalement utilisé sur des clusters de serveurs ❑Permet un modèle qui peut s’étendre plus facilement (scalability) ❑Assouplit les contraintes habituellement présentes sur les bases de données relationnelles ❑Permet de gérer rapidement des tonnes de données 16 15 16 14/10/2022 9 NoSQL Les entreprises du WEB 2.0 avaient besoin de solutions technologiques plus adaptées à leurs besoins Développement des systèmes NoSQL propriétaires Facebook Cassandra, Hbase Google BigTable LinkedIn Projet Voldemort Amazon DynamoDB, SimpleDB Twitter Cassandra 17 Pourquoi les BDD NoSQL ? C’est une approche qui propose de relâcher certaines contraintes lourdes du relationnel pour favoriser la distribution (structure de données, langage d'interrogation ou la cohérence). Face l’explosion des données, le relationnel peut difficilement lutter contre cette vague de données Big Data : Solution pour gérer une grande quantité d’informations : Big Data signifie que les données sont suffisamment volumineuses pour que vous deviez y réfléchir afin d’extraire l'information. Big Data lorsqu'il cesse de monter sur une seule machine Le Big Data, est une façon de penser fondamentalement différente sur les données et la manière dont elles sont utilisées. 18 17 18 14/10/2022 10 Caractéristiques des big data : du 3V au 5V ❑Généralement faite selon 3 « V » : Volume, Variété et Vélocité ❑Etendues en ajoutant 2 autres « V » complémentaires : Valeur et Véracité/Validité 19 Volume ❑Fait référence à la quantité d’informations, trop volumineuses pour être acquises, stockées, traitées, analysées et diffusées par des outils standards, ❑Peut s’interpreter comme le traitement d’objets informationnels de grande taille ou de grandes collections d’objets, ❑Le développement de l’IoT (Internet des objets) et la généralisation de la géolocalisation ou de l’analytique ont engendré une explosion du volume de données collectées, ❑On estime qu’en 2020, 43 trillions de gigabytes seront générés, soit 300 fois plus qu’en 2002. (1 trillion = 1018 = un milliard de milliards de bytes) 20 19 20 14/10/2022 11 Variété ❑Fait référence à l’hétérogénéité des formats, types, et qualité des informations, ❑Est lié au fait que ces données peuvent présenter des formes complexes du fait qu'elles trouvent leurs origines dans : ◦des capteurs divers et variés (température, vitesse du vent, hygrometrie, tours/mn, luminosit é...), ◦des messages échangés (e-mails, médias sociaux, échanges d'images, de vidéos, musique), ◦des textes, des publications en ligne (bibliothèques numeriques, sites web, blogs, ...), ◦enregistrements de transactions d'achats, des plans numérisés, des annuaires, des informations issues des téléphones mobiles, etc. →Usage de technologies nouvelles pour analyser et recouper les données non structurées (mails, photos, conversations…) représentant au moins 80 % des informations collectées. 21 Vélocité ❑Fait référence à l’aspect dynamique et/ou temporel des données, à leur délai d’actualisation et d’analyse ❑les données ne sont plus traitées et analysées en différé, mais en temps réel ou quasi réel ❑elles sont produites en flots continus, sur lesquels des décisions en temps réel peuvent être prises ❑ce sont les données notamment issues de capteurs, nécessitant un traitement rapide pour une réaction en temps réel ❑dans le cas de telles données de grande vélocité engendrant des volumes très importants, il n’est plus possible de les stocker en l’état, mais seulement de les analyser en flux (streaming) voir les résumer. 22 21 22 14/10/2022 12 Valeur ❑Associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment d’un point de vue économique. ❑L’analyse de ces megadonnées demande une certaine expertise tant liée à des méthodes et techniques en statistique, en analyse de données, que de domaine pour l’interprétation de ces analyses. ❑Les termes de « Data Scientist » et de « Data Science » sont liés à cette expertise recherchée et à cette nouvelle discipline émergente. 23 Véracité ou Validité ❑Fait référence à la qualité des données et/ou aux problèmes éthiques liés à leur utilisation, ❑fait référence aussi au niveau de confiance que l’on peut avoir dans les données. 24 23 24 14/10/2022 13 BASE Les propriétés ACID sont incompatibles avec le NoSQL →Propriétés BASE Basic Availability : le système garantit la disponibilité des données et il y aura une réponse à toute demande Soft-state : La base peut changer lors des mises à jour ou lors d'ajout/suppression de serveurs. La base NoSQL n'a pas à être cohérente à tout instant, elle est « souple » Eventual consistency : Au fur et à mesure que des données sont ajoutées au système, son état est progressivement répliqué sur tous les nœuds (consistance à terme). 25 Théorème de CAP Théorème formalisé en 2000 par Eric A. Brewer qui repose sur 3 propriétés des bases de données (relationnelles, NoSQL et autres) : Consistency (cohérence) : Une donnée n'a qu'un seul état visible quel que soit uploads/Management/ chap1-introbigdata 1 .pdf

  • 26
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 29, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.8697MB