LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures
LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven Janvier 2018 Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake en quelques mots c’est : 2 Espace de stockage de données Avec des capacités de traitement Virtuellement sans limite en s’appuyant sur une infrastructure big data (approche distribuée potentiellement dans le cloud) Permettant de stocker tout type de données à moindre coût Une opportunité technologique à mettre au service du business Et de les retraiter en un temps record au moment de leur exploitation Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Sommaire 3 1. Révéler le potentiel business de votre data grâce aux data-lakes 4 2. Intégrer le data-lake dans votre écosystème data 7 3. Mener un projet data-lake 13 Révéler le potentiel business de votre data grâce aux data-lakes 1. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake est le socle technique d’une démarche data-driven 5 • Alimenter des campagnes marketing data-driven • Retargeter ses prospects chauds • Choisir le lieu d’implantation d’un nouveau magasin • Mesurer la performance de ses campagnes marketing Marketing Business Intelligence • Créer une vision 360° de ses clients • Cruncher la donnée et l’analyser rapidement • Piloter la pression publicitaire Performance opérationnelle • Réduire ses coûts informatiques • Adapter le staffing en fonction de l’activité • Bénéficier d’une infrastructure à l’architecture scalable, évolutive, résiliente et pérenne • Désiloter la donnée au sein de l’organisation • Stocker d’importants volumes de données de toute nature Expérience utilisateur • Améliorer l’expérience client • Personnaliser son offre • Recommander ses produits en fonction de chaque profil client Use cases data-lakes Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le data-lake est un espace de stockage doté de capacités de traitement de données permettant un large champ d’analyse 6 Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage. Espace de stockage (système de fichiers distribués) Data Streaming Calcul Big Data, No SQL Machine Learning Datawarehouse Business Intelligence Préparation de données semi ou non structurées Prédiction, recommandations Ingestion et traitement de données en temps réel Data-lake 2. Intégrer le data-lake dans votre écosystème data Focus sur une vision marketing digital Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et les briques d’activation 8 Données comportementales (Web analytics, média, DMP) Cross-canal offline (magasin, service client) Données exogènes (2nd, 3rd party) Personnalisation on- site (web, mobiles ,tablettes) Ingérer toutes les données pour les désiloter Raffiner la donnée, lui donner de l’intelligence Rendre la donnée accessible pour l’exploiter Data-lake *Liste des sources non exhaustive Pilotage (Outil BI / Datavisualisation) Marketing direct (emailing, médias digitaux, SMS) Cross-canal offline (magasin, service client) Données clients (CRM, référentiel personnes, commandes) Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ? 9 Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la première brique à activer dans une infrastructure data. Datawarehouse Nature des données Modèle de données Finalités Ingestion rapide de nouvelles données de tous types (structurée, semi-structurée, non structurée) Stocke la donnée brute et le résultat des différentes étapes de retraitements. Il permet d’historiser l’information au niveau de granularité le plus faible Stocke uniquement les données déjà structurées et considérées comme « utiles » à l’entreprise Structure peu responsive : nécessite un travail de structuration de la donnée avant de l’ingérer Stocke des données déjà raffinées : des métriques et événements découlant des référentiels de l’entreprise Business Intelligence : data management, reporting, analyse exploratoire La donnée est accessible aux analystes via du SQL car elle est structurée en amont Stocke toutes les données, celles utiles aujourd’hui ou potentiellement dans le futur Big data, data science, temps réels On structure la donnée de manière agile en fonction des cas d’usage Data-lake Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse 10 La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux manières : 1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes sont connectés et échangent leurs données 2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée Apports du data-lake • Analyses plus avancées (plus grande puissance de calcul) • Meilleure contextualisation de la communication client (ajout de données comportementales) • Optimisation des budgets médias (temps réel) Outil BI / Datavisualisation Données Web Données clients et commandes Données exogènes (2nd, 3rd party) Architecture décisionnelle Datawarehouse (legacy) Médias Marketing relationnel Data-lake Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de risque initiale vis-à-vis de ces projets 11 Localisation des données et rôles « On Premise » Data – center privé Cloud Services « serverless » Facilité de déploiement Ressources nécessaires au fonctionnement de la plateforme Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Approche Software as a Service (Saas) Le prestataire héberge et administre techniquement la plateforme Vous gérez l’hébergement des données sur vos propres serveurs Vous administrez l’infrastructure (configuration des logiciels, dimensionnement) « On Premise » Cloud computing Approche Infrastructure as a Service (IaaS) Le prestataire héberge vos données Vous administrez l’infrastructure (configuration des logiciels, dimensionnement des serveurs) Vous gérez l’achat et l’installation des serveurs Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Le prestataire gère la configuration et le dimensionnement de l’infrastructure automatiquement en fonction de votre usage de ses services Investissement dans un data-center Compétences en gestion, en hébergement, en dev-ops (administration de la plateforme) Distribution payante d’un framework big data Facturation en fonction de la location des ressources machines Des compétences dev-ops pour administrer l’infrastructure Distribution payante d’un framework big data Facturation à l’usage du service (stockage et volume de données requêtées). Cela couvre la consommation des ressources machines et le coût du logiciel Exemples de technologies (non exhaustif) Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ? 12 S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait automatiquement au fur et à mesure de votre consommation. La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du Cloud proposent des solutions qui sont RGPD compliant. Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la valeur des premiers cas d’usage. Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les complexités propres à votre métier et à vos données Mener un projet data-lake 3. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le déploiement d’un data-lake se fait progressivement avec des cas d’usage 14 • Business Intelligence • Vision Client 360 • Market Automation • Analytics avancées • Segmentation • Scoring • Temps réel • Analyse d’images Data warehouse Data visualisation Machine Learning ETL Big Data Data Streaming Deep learning BigQuery Data Studio Dataflow Datalab Cloud ML Datastore Pub/Sub La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage. Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque montée en complexité. Complexité croissante Exemples d’outils du stack Google Cloud Platform 1 à 2 mois 2 à 4 mois 2 à 3 mois Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les cas d’usage se déploient rapidement via une méthodologie agile 15 Critères de sélection et d’évaluation : Identification de l’impact business Identification de la complexité technique : disponibilité et qualité de la donnée, complexité des traitements et modélisation à appliquer Sélection du cas d’usage Déploiement Collecte des données Évaluation du projet Industrialisation : Les projets peuvent commencer petit, voire même par un mode POC dégradé L’industrialisation se pense dès le début et reste en fil rouge tout au long des projets uploads/Ingenierie_Lourd/ livre-blanc-data-lakes-converteo-2018.pdf
Documents similaires










-
49
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 15, 2022
- Catégorie Heavy Engineering/...
- Langue French
- Taille du fichier 0.7341MB