HAL Id: tel-02057102 https://tel.archives-ouvertes.fr/tel-02057102 Submitted on

HAL Id: tel-02057102 https://tel.archives-ouvertes.fr/tel-02057102 Submitted on 5 Mar 2019 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Modélisation NoSQL des entrepôts de données multidimensionnelles massives Mohammed El Malki To cite this version: Mohammed El Malki. Modélisation NoSQL des entrepôts de données multidimensionnelles massives. Modélisation et simulation. Université Toulouse le Mirail - Toulouse II, 2016. Français. ￿NNT : 2016TOU20139￿. ￿tel-02057102￿ THÈSE En vue de l’obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE UNIVERSITE TOULOUSE – JEAN JAURES Présentée et soutenue le : 8 décembre 2016 par : MOHAMMED EL MALKI Modélisation NoSQL des entrepôts de données multidimensionnelles massives École doctorale : Mathématiques Informatique Télécommunications (MITT) Unité de Recherche : Institut de Recherche en Informatique de Toulouse (UMR 5505) JURY Omar BOUSSAID Professeur, Université Lyon 2 Rapporteur LADJEL BELLATRECHE Professeur, ENSMAA-Poitiers Examinateur MAX CHEVALIER Professeur, Université Toulouse UPS Co-directeur ANNE LAURENT Professeur, LIRM-Montpelier Examinatrice FRANCOIS PINET Directeur de recherches, IRESTEA-Clermont-Ferrand Rapporteur OLIVIER TESTE Professeur, Université Toulouse UT2 Directeur RONAN TOURNIER Maître de conférence, Université Toulouse 1 Capitole Encadrant GILLES ZURFLUH Professeur, Université Toulouse 1 Capitole Examinateur Résumé Les systèmes d’aide à la décision occupent une place prépondérante au sein des entreprises et des grandes organisations, pour permettre des analyses dédiées à la prise de décisions. Avec l’avènement du big data, le volume des données d’analyses atteint des tailles critiques, défiant les approches classiques d’entreposage de données, dont les solutions actuelles reposent principalement sur des bases de données R-OLAP. Avec l’apparition des grandes plateformes Web telles que Google, Facebook, Twitter, Amazon… des solutions pour gérer les mégadonnées (Big Data) ont été développées et appelées « Not Only SQL ». Ces nouvelles approches constituent une voie intéressante pour la construction des entrepôts de données multidimensionnelles capables de supporter des grandes masses de données. La remise en cause de l’approche R-OLAP nécessite de revisiter les principes de la modélisation des entrepôts de données multidimensionnelles. Dans ce manuscrit, nous avons proposé des processus d’implantation des entrepôts de données multidimensionnelles avec les modèles NoSQL. Nous avons défini quatre processus dans deux modèles NoSQL orienté colonnes (CFL, CNL, CHL, CSL) et orienté documents (DFL, DNL, DHL, DSL). Chacun de ces processus favorise un traitement en particulier. De plus, le contexte NoSQL rend également plus complexe le calcul efficace de pré-agrégats qui sont habituellement mis en place dans le contexte ROLAP (treillis). Nous avons élargis nos processus d’implantations pour prendre en compte la construction du treillis dans les deux modèles retenus. Comme il est difficile de choisir une seule implantation NoSQL supportant efficacement tous les traitements applicables, nous avons proposé deux processus de traductions, le premier concerne des processus intra-modèles, c’est-à-dire des règles de passage d’une implantation à une autre implantation du même modèle logique NoSQL, tandis que le second processus définit les règles de transformation d’une implantation d’un modèle logique vers une autre implantation d’un autre modèle logique. Pour valider notre approche, nous avons développé un banc d’essais décisionnel appelé SSB+ (dérivé du Star Schema Benchmark) supportant les deux modèles NoSQL orienté colonnes et orienté documents. Nous avons procédé à plusieurs tests pour valider nos approches et montrer que les systèmes NoSQL constituent une alternative crédible aux entrepôts ROLAP. De plus, nous avons introduit dans cette partie d’expérimentations, deux types de treillis exploitant la flexibilité des modèles NoSQL, le treillis imbriqué et le treillis détaillé. Ces treillis permettent une amélioration significative des temps de réponse aux requêtes décisionnelles. Abstarct Decision support systems occupy a large space in companies and large organizations in order to enable analyzes dedicated to decision making. With the advent of big data, the volume of analyzed data reaches critical sizes, challenging conventional approaches to data warehousing, for which current solutions are mainly based on R-OLAP databases. With the emergence of major Web platforms such as Google, Facebook, Twitter, Amazon...etc, many solutions to process big data are developed and called "Not Only SQL". These new approaches are an interesting attempt to build multidimensional data warehouse capable of handling large volumes of data. The questioning of the R-OLAP approach requires revisiting the principles of modeling multidimensional data warehouses. In this manuscript, we proposed implementation processes of multidimensional data warehouses with NoSQL models. We defined four processes in two models; an oriented NoSQL column model (CFL, CNL, CHL, CSL) and an oriented documents model (DFL, DNL, DHL, DSL). Each of these processes fosters a specific treatment. Moreover, the NoSQL context adds complexity to the computation of effective pre-aggregates that are typically set up within the ROLAP context (lattice). We have enlarged our implementations processes to take into account the construction of the lattice in both detained models. As it is difficult to choose a single NoSQL implementation that supports effectively all the applicable treatments, we proposed two translation processes. While the first one concerns intra-models processes, i.e., pass rules from an implementation to another of the same NoSQL logic model, the second process defines the transformation rules of a logic model implementation to another implementation on another logic model. To validate our approach, we have developed a decision-making benchmark called SSB+ (derived from the Star Schema Benchmark) supporting both NoSQL oriented columns and oriented documents models. We have conducted several experiments to validate our approach and show that NoSQL systems are an effective alternative to ROLAP storage. In addition, we have introduced in this part of experiments, two types of lattice exploiting the flexibility of NoSQL models, namely the nested lattice and the detailed lattice. These lattices allows significant improvements of response time for decision-support queries. Remerciements Merci à tous ceux qui m’auront accompagné jusqu’aux derniers mots de ce manuscrit J’aimerais commencer ces mots de remerciements par apporter une réponse à mon interrogation face à des propos souvent avancés par certains de mes collègues... ceux de dire que le directeur de thèse représentait un papa pour certains… il m’aura fallu attendre le début de ma thèse ou plutôt avoir Olivier comme directeur pour comprendre cela. De toute façon mieux vaut tard que jamais, n’est-ce-pas ? Cela m’amène à exprimer mes premiers remerciements aux personnes qui ont eu la plus grande influence durant ces trois années de thèse, qui sont mon directeur de thèse, Mr Olivier Teste, mon co-directeur Max Chevalier, mon encadrant Ronan Tournier et bien évidemment à Arlind Kopliku, qui s’il n’a été désigné officiellement comme encadrant, il aura été d’une influence aussi importante. Je remercier Olivier, pour la confiance qu’il m’a accordée en acceptant d’encadrer mes travaux de thèse, pour toutes les heures qu’il m’a consacrées. J’aimerai lui signifier à quel point j’ai apprécié son souci constant de nous assurer les meilleures conditions de travail. Je resterai fasciné par sa capacité à positiver, à encourager et à toujours trouver les bons termes pour nous inviter à persévérer, malgré le manque de résultats parfois. Je voudrais aussi dire à quel point j’ai été sensible à ses qualités humaines d’écoute et de compréhension qui font de lui, à mon sens, l’un des meilleurs directeurs. Parallèlement, Max et Ronan, m’ont consacré de multiples heures de discussions tout au long de cette thèse. Je les remercie également pour leur disponibilité, conseils et surtout pour leurs critiques constructives qui m’ont constamment permis de consolider mes idées et améliorer mes recherches. Sans leur contribution, ce travail n’aura trouvé l’écho que je souhaitais lui donner. Je les remercie pour la bonne ambiance qu’ils ont su m’assurer. Arlind, j’aimerais te dire merci pour ces nombreux moments agréables que nous avons partagés ensemble durant ces années de thèse. L’émotion me gagne au moment de t’adresser ces petits mots de remerciements, pas assez significatifs pour qualifier le rôle déterminant que tu auras joué. Je voudrais te dire merci puisque travailler avec toi m’aura tout simplement permis de grandir. Je remercie également mes responsables de Capgemini Cédric Cormont qui m’aura mis à disposition tout son savoir et son expérience dans le domaine du Big Data. Je le remercie de m’avoir toujours intégré dans les groupes de formations et les présentations qu’il estimait utiles pour l’avancement de mes travaux. Je remercie aussi Lydwine grosscolzy, responsable du pôle scientifique, pour tout le soutien qu’elle m’a apporté et son souci de me faciliter l’intégration au sein du pôle scientifique mais aussi la collaboration avec les architectes porteurs de projets Big Data. Je remercie José Vincent et Laurent Lapasset qui auront pris à cœur l’instruction et la gestion du dossier administratif ; mais aussi les responsables RH Bruno et Isabelle que j’apprécie et qui m’auront tout largement épargné tout ce qui aurait pu perturber la thèse. Je remercie tous les membres du jury d’avoir accepté de participer à l’évaluation de ce travail. Merci à Mr Omar Boussaid et Mr uploads/Litterature/ nosql.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager