Cours de Big Data Exposés 1- Entrepôts de données 2- Méthode ACP 3- Méthode AFC

Cours de Big Data Exposés 1- Entrepôts de données 2- Méthode ACP 3- Méthode AFC 4- Bases de données NoSQL 5- MongoDB 6- Hadoop & MapReduce 7- Hadoop & Spark Références 1- Pr. A. Elouardighi, Cours & TD Datawarehouse, High-Tech 2- Pirmin Lemberger et autres, Big Data et Machine Learning – Manuel du datascientist 3- Arnaud Martin, L’analyse de données, Polycopié de cours ENSIETA _ Réf. : 1453, Septembre 2004 4- Lcsqa, Principe de l’analyse en composantes principales, INERIS DRC-03-45597-LRl-LMa – LCSQA-n°140_v1, disponible à l’adresse : https://lcsqa.org/system/files/Etude14.1_guide_Annexe2_ACP.pdf 5- Wikipédia, Analyse factorielle des correspondances, disponible à l’adresse : https://fr.wikipedia.org/wiki/Analyse_factorielle_des_correspondances Table des matières Chapitre 1 : Entrepôts de Données ......................................................................................................... 5 Notions et Architecture d’un DWH .................................................................................................... 5 Systèmes transactionnels vs Systèmes décisionnels ....................................................................... 5 Systèmes décisionnels .................................................................................................................... 5 Des données aux décisions .............................................................................................................. 6 Applications transactionnelles v.s Applications décisionnelles ................................................. 6 Incompatibilités des deux activités .............................................................................................. 6 Naissance du Datawarehouse .......................................................................................................... 7 Exemple: un DW dans les télécoms .................................................................................................... 9 Architecture centralisée................................................................................................................. 10 Architecture fédérée ...................................................................................................................... 10 OLAP et Analyse multidimensionnelles ........................................................................................... 10 OLAP ............................................................................................................................................ 10 Modèle conceptuel ........................................................................................................................ 11 Vue multidimensionnelle .................................................................................................................. 11 Agrégation des données .................................................................................................................... 11 Granularité des dimensions ............................................................................................................... 12 Opérations OLAP.............................................................................................................................. 12 Opérations sur la structure des cubes ............................................................................................ 12 Opérations sur le contenu des cubes ............................................................................................. 12 Opérations entre cubes .................................................................................................................. 13 Exemple d’outils OLAP .................................................................................................................... 14 Modélisation et Conception d’un DWH ........................................................................................... 14 Construction d’un Datawarehouse ................................................................................................ 14 Modélisation ................................................................................................................................. 15 Alimentation ................................................................................................................................. 16 Outils ETL .................................................................................................................................... 17 Chapitre 2 : Analyse de données .......................................................................................................... 18 Les données ...................................................................................................................................... 18 Objectifs ............................................................................................................................................ 19 Méthodes .......................................................................................................................................... 20 Analyse en Composantes Principales............................................................................................ 21 Analyse Factorielle de Correspondances ...................................................................................... 23 Les logiciels ....................................................................................................................................... 25 Domaine d’applications .................................................................................................................... 26 Chapitre 3 : Le big data dans les organisations ..................................................................................... 27 La recherche de l’innovation............................................................................................................. 27 L'entreprise dans un écosystème ................................................................................................. 27 Une volonté de maîtrise................................................................................................................ 28 Des besoins forts ........................................................................................................................... 28 L’avancé par le cloud ........................................................................................................................ 28 La création de la valeur ..................................................................................................................... 29 Les « 3V » du Big Data ....................................................................................................................... 29 Le volume ...................................................................................................................................... 30 La vélocité ..................................................................................................................................... 30 La variété ....................................................................................................................................... 30 Un champ immense d’application .................................................................................................... 31 Exemples de compétences à acquérir .............................................................................................. 32 Chapitre 4 : Les bases de données NoSQL ............................................................................................ 34 Bases de données relationnelles ...................................................................................................... 34 Le Mouvement NoSQL ...................................................................................................................... 37 Les contraintes des applications web à très grande échelle......................................................... 37 Le « théorème » CAP ..................................................................................................................... 38 Sacrifier la flexibilité pour la vélocité ............................................................................................ 39 Une définition pour une base de données NoSQL ? ..................................................................... 40 Les solutions NoSQL .......................................................................................................................... 41 Les entrepôts clé-valeur ................................................................................................................ 42 Les bases orientées documents .................................................................................................... 44 Les bases orientées colonnes ........................................................................................................ 46 Les bases de données orientées graphes ..................................................................................... 50 Résumé ............................................................................................................................................. 51 Chapitre 5 : L’algorithme MapReduce et le framwork Hadoop ............................................................ 53 Automatiser le calcul parallèle.......................................................................................................... 53 Le pattern MapReduce ..................................................................................................................... 54 Le Framework Hadoop ...................................................................................................................... 56 Planning des exécutions ................................................................................................................ 56 Tolérance aux pannes ................................................................................................................... 57 Découpage des données en lots ................................................................................................... 58 Monitoring des processus ............................................................................................................. 60 Au-delà de MapReduce ................................................................................................................. 60 Résumé ............................................................................................................................................. 61 Chapitre 1 : Entrepôts de Données Notions et Architecture d’un DWH Systèmes transactionnels vs Systèmes décisionnels Systèmes transactionnels Les outils traditionnels de gestion et d’exploitation des données sont du type transactionnel ou OLTP (On-Line Transaction Processing). L’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la sécurité et l’intégrité des données. Le système transactionnel est développé pour gérer les transactions quotidiennes. Ces bases de données supportent habituellement des applications particulières telles que les inventaires de magasins, les réservations d’hôtel, etc. Le contenu est fait de données actuelles, pas d’archives. Les données sont très détaillées (détails de chacune des transactions). La mise à jour s’effectue par de nouvelles transactions. Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres Opérations dans les systèmes transactionnels • Ajout • Effacement • Mise à jour des enregistrements • Requêtes simples • Interrogations et modifications fréquentes des données par de nombreux utilisateurs Systèmes décisionnels Le terme décisionnel « Business Intelligence » couvre l'ensemble des technologies permettant en bout de chaîne d'apporter une aide à la décision. Le système décisionnel est un Système d’Information (SI) capable d'agréger les données internes ou externes et de les transformer en information servant à une prise de décision rapide. Ce SI est capable de répondre à certains types de questions: - Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ? - Comment se comporte le produit X par rapport au produit Y? o Quel type de client peut acheter le produit X? - Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait redémarrer les ventes du produit X ? Ces exemples mettent en évidence les faits suivants: - Les questions doivent pouvoir être formulées dans le langage de l’utilisateur en fonction de son secteur d’activité: ◼ Service marketing, Service économique, service relation clients… o La prévision des interrogations est difficile car elles sont du ressort de l’utilisateur. - Les questions vont varier selon les réponses obtenues: ◼ Si le produit X s’est vendu moins bien que l’année précédente, il va être utile de comprendre les raisons: Détailler les ventes par région par type de magasin,… - Des questions ouvertes vont nécessiter la mise en place de méthodes d’extraction d’informations Des données aux décisions - Données : Points de ventes, géographiques, démographiques, - Informations : I vit dans R, I est âgé de A, … - Connaissances : o Dans X%, le produit Y est vendu en même temps que le produit Z, … - Décisions : Lancer la promotion de Y & Z dans R auprès des clients plus âgés que A, ... Applications transactionnelles v.s Applications décisionnelles Les applications transactionnelles sont constituées de traitements factuels de type OLTP (On Line Transaction Processing) Les applications d'aide à la décision sont constituées de traitements ensembliste de type OLAP: On Line Analytical Processing Incompatibilités des deux activités Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des données dans le même système d’information: leurs objectifs de performance sont exactement opposés: - Les requêtes complexes et lourdes dégradent les performances des systèmes transactionnels, - Les données temporelles sont réparties entre données actuelles et données archivées, rendant la vue historique des données très difficile ou impossible, Le support efficace d’une activité OLAP nécessite la constitution d’un système d’information propre: Le Datawarehouse Naissance du Datawarehouse Datawarehouse : Définition - « Collection de données orientées sujets, intégrées, non volatiles et historisées, organisées pour le support du processus d’aide à la décision » - Base de données dans laquelle sont déposées après nettoyage et homogénéisation les informations en provenance des différents systèmes de production de l’entreprise OLTP Caractéristiques des données d'un DW Orientées sujet : Organisées autour de sujets majeurs de l’entreprise - Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières - Vue synthétique des données selon les sujets intéressant les décideurs Intégrées : - Construit en intégrant des sources de données multiples et hétérogènes : BD relationnelles, fichiers, enregistrements de transactions - Les données doivent être mises en forme et unifiées afin d’avoir un état cohérent o Phase la plus complexe (60 à 90 % de la charge totale d’un projet DW) Historisées : Fournies par les sources opérationnelles, Matière première pour l'analyse, Stockage de l'historique des données, pas de mise à jour, Un référentiel temps doit être associé aux données Non volatiles : Conséquence de l’historisation - Une même requête effectuée à intervalle de temps, en précisant la date référence de l’information donnera le même résultat - Stockage indépendant des BD opérationnelles o Pas de mises à jour des données dans le DW Données multidimensionnelles - Notion de dimension : C’est une catégorie linguistique selon laquelle les données sont organisées: Nom d’un attribut, Valeur d’un attribut Représentation : Tableau simple Tableau croisé Graphique 3D Hyper cube: Notion de Datamart Définition: « C'est un sous-ensemble de données dérivées du DW ciblé sur un sujet unique». Caractéristiques: - Orienté vers un sujet unique. Ex: comportement de la clientèle - Données fortement agrégées : Le DW joue le rôle de source et d'historique pour le Datamart - Organisation multidimensionnelle (cubique) • Dont l'une des dimensions indique souvent le temps o Lien dynamique avec le DW • Association entre valeur agrégée et valeur détaillée - Interfaces simples et conviviales Les domaines d’application du décisionnel • La gestion de la relation client (CRM) est l’un des premiers champs d’application de la Business Intelligence. • Le contrôle de gestion pour l’analyse des coûts, l’analyse de la rentabilité, l’élaboration budgétaire, les indicateurs de performance… • La direction marketing pour le ciblage, le pilotage de gamme, les applications de géomarketing, de fidélisation clients… • La direction commerciale pour le pilotage des réseaux, les prévisions des ventes, l’optimisation des territoires… • Les ressources humaines pour la gestion des carrières, • La direction de la production pour l’analyse qualité, la prévision des stocks, la uploads/Management/cours-big-data 1 .pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 24, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.9613MB