INF521 : SCIENCES DE DONNÉES RÉPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROON Peace
INF521 : SCIENCES DE DONNÉES RÉPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROON Peace – Work - Fatherland UNIVERSITÉ DE DSCHANG UNIVERSITY OF DSCHANG Scholae Thesaurus DschangensisIbiCordum BP 96, Dschang (Cameroun) – Tél. /Fax (237) 233 45 13 81 Website : http://www.univ-dschang.org E-mail : udsrectorat@univ-dschang.org FACULTE DES SCIENCES FACULTY OF SCIENCES Département de Mathématiques et Informatique Department of Mathematics and Computer Science BP 67, Dschang (Cameroun) Tél./Fax (237) … E-mail : faculte.sciences@univ-dschang.org Option : Réseaux et Services Distribués Niveau : Master II Supervisé par : Dr Benoît AZANGUEZET Chargé de cours, Université de Dschang ANNEE ACADEMIQUE : 2019/2020 Liste des participants Numéro Nom(s) et Prénom(s) Matricule 01 ATSAMO Joseph CM04-08SCI0825 02 DJONTU TAJOUO François Achille CM04-07SCI0631 03 DJUIDEU SIEWE Marilyn Cynthia CM-UDS-15SCI1009 04 FEUWO TACHULA Christian CM-UDS-13SCI0497 05 FOFOU FONZAM Gui Arnaud (Chef) CM-UDS-14SCI0219 06 FOZAO TANGMOH Cellestine CM-UDS-19SCI2985 07 NAMEKONG DAGHA Sinclair CM04-07SCI0665 08 NWENKITEH Aboubakar CM-UDS-18SCI3000 09 TCHATCHOUANG NGUEJOUONG Deschanel CM-UDS-14SCI0249 10 TALOM DEFO Serge Gabin CM-UDS-13SCI1401 11 TCHOUAMI Elisabeth Ludivine CM-UDS-17SCI2448 12 TSHIMPANGA Didi CM-UDS-19SCI3149 13 NZALI KOAGNE Yannick CM-UDS-14SCI2072 i Résumé Les Big-Data ou méga données désignent l'ensemble des données numériques produites par l'utilisation des nouvelles technologies. Cela regroupe les données d'entreprises (courriels, documents, bases de données, historiques de processeurs métiers...) aussi bien que des données issues de capteurs, des contenus publiés sur le web (images, vidéos, sons, textes), des transactions de commerce électronique, des échanges sur les réseaux sociaux, des données transmises par les objets connectés, des données géo localisées, etc. La virtualisation des données va permettre d’associer ces sources de données disparates pour former une couche de données “virtuelles” (couche d’abstraction) unique fournissant des services de données intégrés aux applications consommatrices en temps réel et minimal. La virtualisation des données va produire, en fonction de ce que l’utilisateur veut, un fichier de données sur lequel l’utilisateur pourrait faire de analyses pour connaître la consommation de ses données ou de pouvoir proposer des produits toujours plus adaptés à ses besoins, tels sont les objectifs ultimes de cette collecte de données. Mots clés : Big Data, Virtualisation, Analyse, ACP, AFC ii Abstract Big data or extremely large data set is a collection of all the digital data produced by the use of new technologies. This brings together enterprise data (such as emails, documents, databases, recapitulation of business operations ...) as well as data from sensors, content published on the web (images, videos, sounds, texts), e-commerce transactions, exchanges on social networks, data transmitted by connected objects, geo-localized data, etc. Data virtualization will allow these disparate data sources to be combined to form a single "virtual" data layer (abstraction layer) providing integrated data services to consuming applications in real and minimal time. Data virtualization will produce, depending on the user needs, a data file on which the user could make analyses to know the consumption of his data or to be able to propose products that will always be more suitable to his needs; these are the ultimate objectives of this data collection. Keys words: Big Data, Virtualization, Analysis, CPA, CFA iii Table des matières Résumé ............................................................................................................................................ i Abstract .......................................................................................................................................... ii Table des matières........................................................................................................................ iii Tables de figures ........................................................................................................................... v Tableau.......................................................................................................................................... vi Définition des Sigles .................................................................................................................... vii INTRODUCTION......................................................................................................................... 1 PARTIE I : BIG DATA ................................................................................................................ 2 1. Définition et genèse du Big Data ....................................................................................... 2 a) Qu’est-ce que le Big Data ?.............................................................................................. 2 b) Historique du Big Data ..................................................................................................... 4 2. Raisons de faire du Big Data ............................................................................................. 5 a) Valorisation des données .................................................................................................. 6 b) Provenance de données .................................................................................................... 7 c) Collecte de données .......................................................................................................... 7 3. Fonctions, but, importance et intérêt du Big Data .......................................................... 8 a) Fonctions .......................................................................................................................... 8 b) But .................................................................................................................................... 8 c) Importance ........................................................................................................................ 8 d) Intérêt ............................................................................................................................... 9 4. Enjeux et risques du Big Data .......................................................................................... 9 a) Enjeux............................................................................................................................... 9 b) Risques ............................................................................................................................. 9 c) Limites du Big Data ....................................................................................................... 10 5. Techniques d’analyses des données ................................................................................ 11 PARTIE II : VIRTUALISATION DES DONNÉES ............................................................... 12 1. Mise en contexte ............................................................................................................... 12 2. Généralité sur la virtualisation des données .................................................................. 13 3. Intérêt de la virtualisation ............................................................................................... 14 4. Les composantes d’une plate-forme de virtualisation .................................................. 16 iv PARTIE III : ANALYSE DE DONNÉES ................................................................................ 16 1. Déploiement de R ............................................................................................................. 19 2. Analyse en Composantes Principales ............................................................................. 21 a) Les données .................................................................................................................... 22 b) Domaines d’applications ................................................................................................ 22 c) Principes d’ACP ............................................................................................................. 23 3. Analyse Factorielle par Correspondance....................................................................... 28 a) Présentation .................................................................................................................... 28 b) Jeux de données .............................................................................................................. 29 c) Exemple de problèmes ................................................................................................... 29 d) Principe........................................................................................................................... 30 e) Interprétation des résultats ............................................................................................. 31 CONCLUSION ........................................................................................................................... 34 BIBLIOGRAPHIE ...................................................................................................................... 35 v Tables de figures Figure 1 : Fouille de données par des utilisateurs ......................................................................... 12 Figure 2 : Schéma de visualisation de l’utilisation des données après virtualisation ................... 14 Figure 3 : Interface graphique de R Commander.......................................................................... 20 Figure 4 : Interface Graphique de R Commander avec un jeu de données chargés ..................... 21 Figure 5 : Tableau de représentation des données pour l’ACP ..................................................... 22 Figure 6 : Tableau de représentation des données centré-réduite pour l’ACP ............................. 26 Figure 7 : Résumé de l’ACP ......................................................................................................... 27 Figure 8 : Résumé de l'AFC .......................................................................................................... 33 vi Tableau Tableau 1 : Comparaison entre les variables quantitatives et variables qualitatives .................... 17 Tableau 2 : Exemple classique d’ACP.......................................................................................... 23 Tableau 3 : Tableau de contingence.............................................................................................. 29 vii Définition des Sigles ACM Analyse en Composantes Multiples ACP Analyse en Composantes Principales ADN Acide Désoxyribonucléique AED Analyse Exploratoire des Données AFC Analyse Factorielle par Correspondance AFCM Analyse Factorielle par Correspondance Multiple BI Business Intelligence CAH Classification Ascendante Hiérarchique CSV Comma-Separated-Values ENITAB École Nationale des Ingénieurs de Travaux Agricoles de Bordeaux ETL Extract Transform Load IBM International Business Machine JDBC Java Database connectivity KNN K-Nearest Neighbors MOOC Massive Open Online Course ODBC Open Database Connectivity R Rattle-Gui REST Representational State Transfer SAP System Application and Product for data processing SOAP Simple Object Access Protocol SQL Structured Query Language SVM Support Vector Machine 1 INTRODUCTION L’évolution de monde technologique a conduit à l’utilisation de grande quantités de données faisant naître le concept de Big-Data utilisant le principe des 3V (Volume, Vitesse, Variété). Cependant, gérer ces grands volumes de données n’étant pas une mince affaire, la technologie de Data-Virtualization (virtualisation des données) vient donc dans le but de pouvoir contenir ces données dans une couche d’abstraction afin de minimiser le temps d’accès aux données ainsi que la fouille. En effet, la virtualisation des données permet de collecter des données provenant de plusieurs sources, pour les combiner dans le but de rendre l’accès aux données optimal ; ceci permettant de pouvoir donc regrouper et de traiter un ensemble de données conséquentes. La virtualisation doit permettre aux utilisateurs de consommer les ressources sans, pour autant, connaître la provenance de cette dernière, de plus, elle devrait pouvoir collecter des données provenant de sources diverses (des systèmes d’exploitations différents par exemple). Les informations obtenues après la virtualisation, peuvent être analysés, dans le but de savoir si des hypothèses de recherches sont vraies ou fausses, ou de comparer des groupes de variables en fonction de certains critères. Ici, nous énoncerons deux méthodes d’analyses descriptives à savoir l’ACP (Analyse en Composante Principale) et L’AFC (Analyse Factorielle des Correspondances), qui se diffèrent par le types de données utilisés, puisque l’ACP utilise des données quantitatives et l’AFC, des données qualitatives ou catégorielles. Notre objectif est celui d’analyser des données fournit par un fichier d’au moins 1Go, obtenu après virtualisation des données. Dans la suite de notre travail, nous allons tout d’abord expliquer les concepts phares à savoir le Big-data, la Virtualisation, en mettent en évidence la jonction entre ces deux concepts, ensuite nous allons continuer avec le principe des analyses descriptives (ACP, AFC) et enfin faire une analyse sur des données d’un fichier comme cas pratique. 2 PARTIE I : BIG DATA 1. Définition et genèse du Big Data a) Qu’est-ce que le Big Data ? Le terme Big data, traduit littéralement par « grosses données » ou « données massives », désigne l’explosion de la production des données à l’ère numérique.1 Le BIG DATA est le fait de stocker des informations sur la base d'un modèle [Clef; Valeur] mais sans structure de base de données forte.2 Le Big Data (ou méga données) représente les collections de données caractérisées par un volume, une vélocité et une variété si grands que leur transformation en valeur utilisable requiert l’utilisation de technologies et de méthodes analytiques spécifiques.3 Le Big Data est une expression anglaise utilisée pour désigner un volume important de données structurées ou non structurées.4 Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le Volume, la Variété et la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur.5 De toutes ces définitions, nous retenons que le Big Data correspond à toutes les étapes mises dans le processus d’extraction de données utiles à partir de données très volumineuses caractérisé par le modèle 3V : Volume : la quantité de données générées va continuer à augmenter de manière exponentielle à l’ère des médias sociaux uploads/Finance/ big-data-projet.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Fje5CASl9TPp1b8Xo9N3bUGVMCZXTvX5Zyz5Nk6RV57S1YCdj7fsjCN9d0OlnZjZU6Zuh9RtuVAVbRlJNKacD9rX.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/XRu8ycgoghaxz8jCuWbY0R9zVPVF7A8oAv7xwCysERaqoj0UubVYJCAZoPpOaYN5KyQxihjm5cKHjlg3HM2iqh9i.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ClyGNOKbJco03TMTKfFHwZnMhASSgXuNg0vvC415zTqv25y4hTZf9NoBlMWHrVWciutlje2PNUtqkhYtKdF4aW1U.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/fCxt4SyrQNmNsiQBz1HJBTz7sv9s7IKCptqro6IZDdmuaPGDyKT4qOOtHPjKHdse84QsVFR8ZY3shVCnIo4E0Cwm.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/CxiTXTPl78zHxdgEVV5NuLeQbZLJlvZynR8F3BXL9DnYGE183Uh3nz8wX3zdkdCOxSWwRf2rTnxBiFIHJevJU7ZC.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Yv1bmLXj7Iy4HlErZTf14rZQTYB36T3uM4DbrCazV1aQM5xaEwf2kidM7pjEkHY6c3rf4vxcrKApwbyjZIw7iblD.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/4hpKjOtJ6wMdsn1xe0BcCLSyAJT84MsrhNAINJt52gaSlb2KA4GRqPsr58h86EOLksLJhi1332J4UXG1ewFsEdjp.png)
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 25, 2021
- Catégorie Business / Finance
- Langue French
- Taille du fichier 1.2272MB