Université Batna 2 Faculté de Mathématiques et Informatique Département de Math
Université Batna 2 Faculté de Mathématiques et Informatique Département de Mathématique Année universitaire 2019-2020 Cours Big data et deep learning Master 1 SAD Dr Saadna yassmina Chapitre 1: Big data Introduction En moins de dix ans, le volume total de données à analyser devrait être multiplié par plus de huit selon le cabinet d’analystes IDC, pour atteindre 163 Zettaoctets (163 milliards de Teraoctets). « Ce qui est étonnant, ce n’est pas que la production de données à stocker augmente, mais le rythme effréné de cette augmentation », explique Jeff Fochtman, responsable marketing chez Seagate. « Nous -mêmes sommes surpris. Et la vague de l’Internet des objets ne fait que commencer ». Il ne s’agit pas que des bracelets connectés. Voitures autonomes, implants médicaux, caméras connectées, compteurs électriques intelligents ou jouets connectés sont autant de machines qui génèrent de plus en plus de données. Corollaire de ce changement, la nature de données produites change. C’est d’ailleurs le principal enseignement de l’étude, au-delà de la rapide montée en puissance de la production. Alors qu’une majorité des besoins de stockage aujourd’hui concerne le divertissement (films, photos...), les données collectées à l’avenir seront de plus en plus critiques, au sens où elles sont le support d’activités humaines considérées comme vitales. Il peut s’agir des données de santé, mais aussi de celles qui serviront à diriger les voitures autonomes par exemple. L’industrie se frotte les mains. Certes, IDC explique qu’il est hors de question que le stockage suive le rythme de la production. Il faudrait si c’était le cas 16 milliards des plus gros disques durs d’entreprises de 12 Teraoctets pour conserver les 163 Zettaoctets que nous sommes censés produire dès 2025, soit deux fois plus de disques durs que l’industrie n’en a produit au cours des 20 dernières années. Le volume total de données pourrait atteindre 175 zettaoctets (175 milliards de teraoctets) en 2025, contre 33 zettaoctets en 2018. Ces données circulent entre cloud, terminaux/objets connectés (IoT) et périphérie du réseau (edge). Justement, près de 30% des données mondiales nécessiteront un traitement en temps réel, au plus près du lieu où elles sont générées, contre 15% en 2017. IDC prévoit ainsi que 49% des données mondiales stockées le seront dans le cloud public à horizon 2025. Un mouvement qui devrait s’exercer au détriment des datacenters traditionnels d’entreprise et du stockage dans les terminaux (endpoints). En revanche, le stockage à la périphérie du réseau (edge) va lui aussi progresser. Pour une analyse des données là où elles sont générées, plutôt que vers un datacenter tiers. Les notions de base de Big Data Chaque jour, nous générons des trillions d‘octets de données (Big Data). Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d’images numériques et de vidéos publiées en ligne, d’enregistrements transactionnels d’achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Les Big Data se caractérisent par leur volumétrie (données massives); ils sont connus aussi par leur variété en termes de formats et de nouvelles structures, ainsi, qu’une exi- gence en termes de rapidité dans le traitement. Mais jusqu’à maintenant d’après nos recherches, aucun logiciel est encore capable de gérer toutes ces données qui ont plu- sieurs types et formes et qui augmentent très rapidement. Alors les problématiques du Big Data font partie de notre quotidien, et il faudrait des solutions plus avancées pour gérer cette masse de données dans un petit temps. Le calcul distribué concerne le traitement de grandes quantités de données. Ce traitement ne peut être réalisé avec les paradigmes classiques de traitement de don- nées, il nécessite l‘utilisation de plateformes distribuées. Dans la littérature, il existe plusieurs solutions, pour l‘implémentation de ce paradigmes. Parmi ces solutions on trouve l‘exemple Google qui a développé un modèle de programmation très fiable pour le traitement de Big Data : c’est le modèle MapReduce. Ce modèle est implémenté sur plusieurs plateformes comme la plateforme Hadoop. Malgré tous ces avantages, Hadoop souffre de problèmes de la latence qui est la cause principale de développement d’une nouvelle alternative pour améliorer les performances du traitement, c’est la plateforme Spark qui est plus puissante, plus souple et rapide que Hadoop MapReduce. Définitions « Le Big Data désigne un très grand volume de données souvent hétérogènes qui ont plusieurs formes et formats (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.), et comprenant des formats hétérogènes : données structurées, non structurées et semi-structurées. Le Big Data a une nature complexe qui nécessite des technologies puissantes et des algorithmes avancés pour son traitement et stockage. Ainsi, il ne peut être traité en utilisant des outils tels que les SGBD traditionnels. La plupart des scientifiques et experts des données définissent le Big Data avec le concept des 3V comme suit» : Vélocité : Les données sont générées rapidement et doivent être traitées rapidement pour extraire des informations utiles et des informations pertinentes. Par exemple, Wallmart (une chaîne internationale de détaillants à prix réduits) génère plus de 2,5 petabyte(PB) de données toutes les heures à partir des transactions de ses clients. YouTube est un autre bon exemple qui illustre la vitesse rapide du Big Data. Variété : Les données volumineuses sont générées à partir de diverses sources distribuées dans plusieurs formats (vidéos, documents, commentaires, journaux, par exemple). Les grands ensembles de données comprennent des données structurées et non structurées, publiques ou privées, locales ou distantes, partagées ou confidentielles, complètes ou incomplètes, etc. Volume : il représente la quantité de données générées, stockées et exploitées. Le volume des données stockées aujourd’hui est en pleine explosion il est presque de 800.000 Péta-octets, Twitter générer plus de 7 téraoctets chaque jour de données, Facebook générer plus de 10 téraoctets et le volume de données dans 2020 peut atteindre 40 zêta-octets. Par la suite, les trois dimensions initiales sont élargies par deux autres dimensions des données Big Data (on parle aussi des « 5 V du Big Data») : Véracité : La véracité (ou validité) des données correspond à la fiabilité et l’exactitude des données, et la confiance que ces Big Data inspirent aux décideurs. Si les utilisateurs de ces données doutent de leur qualité ou de leur pertinence, il devient difficile d’y investir davantage. Valeur : Ce dernier V joue un rôle primordial dans les Big Data, la démarche Big Data n’a de sens que pour atteindre des objectifs stratégiques de création de va- leur pour les clients et pour les entreprises dans tous les domaines. Une des raisons de l’apparition du concept de Big Data est le besoin de réaliser le défi technique qui consiste à traiter de grands volumes d’information de plusieurs types (structurée, semi structuré et non structurée) générée à grande vitesse. Le Big Data s’appuie sur quatre sources de données: Les logs (journaux de connexion) issus du trafic sur le site officiel de l’entreprise : Ces sources de données, sont les chemins pris par les visiteurs pour parvenir sur le site : moteurs de recherche, annuaires, rebonds depuis d’autres sites, etc. Les entreprises d’aujourd’hui disposent d’une vitrine sur le Web au travers de son site officiel. Ce dernier génère du trafic qu’il est indispensable d’analyser, ainsi ces entreprises disposent des trackers sur les différentes pages afin de mesurer les chemins de navigation, ou encore les temps passés sur chaque page,.etc. Ci- tons parmi les solutions d’analyse les plus connues : Google Analytics, Adobe Omniture, Coremetics. Les issus des médias sociaux «insights» : Une approche complémentaire, consiste à recueillir les commentaires aux publications et à y appliquer des algorithmes d’analyse de sentiment. Citons quelques pistes pour suivre nos différents comptes : Hootsuite, Radian6 ou encore les API mises à disposition et interrogées avec le complément Power Query pour Excel, IRaMuTeQ pour l’analyse de données tex- tuelles. Les données comportementales (third party data) Ces données sont toutes des données sur les internautes récoltées via des formulaires ou des cookies. Au- delà des classiques informations d’identité (sexe, âge, CSP, etc), il est maintenant beaucoup plus efficace de mesurer les comportements (navigation, configuration matérielle, temps passé sur les pages, etc). Pour cela, il existe des acteurs spécialisés du Web qui nous aident à collecter de l’information sur nos clients ou prospects et à améliorer ainsi les campagnes de communication. Quelques acteurs du domaine de la third party data : Bluekai, Exelate, Weborama, Datalogix, etc. Les données ouvertes et réutilisables «L’open data» sont toutes les données ouvertes et réutilisables, L’open data permet de mettre en ligne les données ouvertes, de fiabiliser les données et de les rendre réutilisables et exploitables, où l’ouverture consiste à rendre une donnée publique : libre de droits, téléchargeable, réutilisable et gratuite. L’ouverture ne concerne pas les données à caractère privé, les informations sensibles et de sécurité, les documents protégés par des droits d’auteur, etc. Les données ouvertes et réutilisables ne sont pas encore légion même si une mission gouvernementale est très active sur le sujet manque de complétude, niveau uploads/Sante/cours-1-01-big-data.pdf
Documents similaires










-
37
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 07, 2022
- Catégorie Health / Santé
- Langue French
- Taille du fichier 1.2153MB