1 Big Data et Data marketing : opportunités et limites Si la problématique de g

1 Big Data et Data marketing : opportunités et limites Si la problématique de gestion des données n’est pas récente, le déluge de données produites par le monde digital (e-commerce, requêtes Internet, réseaux sociaux, capteurs, smartphones et de plus en plus d'objets connectés) conduit les entreprises -ou du moins certaines d’entre elles- à une utilisation radicalement différente des données. Poussée par les besoins de stockage et de traitement, l’évolution technologique ces dernières années est telle qu’elle ouvre des possibilités inenvisageables jusque-là : la gestion du « Big Data ». Si pour certaines entreprises il n’y a pas de réelle rupture dans la façon de gérer les données mais simplement une meilleure performance (plus de données gérées à moindre coût), d’autres ont réellement défini une stratégie centrée sur les données, qu’elles proviennent de l’interne ou soient obtenues en externe auprès de fournisseurs de données. Le marketing et la relation client font partie des fonctions de l’entreprise fortement impactées qu’il s’agisse d’affiner la connaissance client, développer du chiffre d’affaires par un meilleur ciblage, diminuer l’attrition ou créer de nouvelles offres. La mise en place de tels projets doit cependant surmonter un certain nombre de freins et comporte des contraintes et des limites tant juridiques, qu’en termes d’acceptation client, d’organisation ou de ressources humaines. Mots clefs : Big Data, Data Marketing, Data driven, Données massives, Données personnelles, Data scientist, Digital, GAFA, Données non structurées, Objets connectés, Text-mining, Reciblage, Personnalisation, VRM I. Big Data et concepts associés 1. La notion de Big Data Le terme de Big Data est apparu pour la première fois en 2000 lors d’un congrès d’économétrie puis repris en 2008 et 2010 en couverture des revues Nature et Sciences, et s’est imposé dans les entreprises suite à un rapport de MC Kinsey en 2011. La traduction française recommandée par la DGLFLF1 est « mégadonnées » mais on trouve parfois l’expression données massives. D’après Pierre Delort2, il n’existe pas de définition sérieuse de la notion. Celle-ci étant utilisée parfois de manière abusive. Trois termes lui sont cependant toujours associés : Volume, Vélocité, Variété symbolisés par les 3 V. Ces termes ont été employés par le groupe Gartner3 en 2001 qui constatait une production exponentielle de données, de formats de plus en plus divers et nécessitant une amélioration des systèmes de gestion. Le volume de données créées quotidiennement ces dernières années est impressionnant. On parle aujourd’hui couramment de pétaoctets4 (milliard de méga d’octets). Entre 2010 et 2012 le volume de données récoltées aurait été équivalent aux données générées depuis le début de l’humanité. Selon une étude du cabinet IDC, le volume de données va être multiplié par 50 entre 2005 et 20205. Cette explosion de données est liée au développement du digital facilitant la création, le stockage et la transmission des données. Celles-ci proviennent du développement de l’Internet, des pratiques de communication permanente des internautes et des mobinautes sous forme de production de contenu mais également de réactions, commentaires à ces contenus. 150 milliards de mails et 500 1 La délégation générale à la langue française et aux langues de France élabore la politique linguistique du Gouvernement. 2 Pierre Delort. Le Big Data PUF Avril 2015. 3 Leader américain du conseil et de la recherche en technologies avancées. 4 Les unités sont les suivantes : octet, kilo, méga, giga, tera, péta, exa, zetta. 5 « The digital universe in 2020 » IDC 2012 cité in La révolution Big Data J C Cointot et Y Eychenne. 2 millions de tweets sont émis chaque jour, 2 millions de requêtes formulées chaque minute6. Mais plus encore ce sont les données de mobilité (géolocalisation) et dans le futur des données de l’Internet des objets (IoT) c’est -à-dire des objets du quotidien reliés à Internet grâce aux technologies des puces RFID7 ou autres technologies sans fil qui constitueront des flux massifs de données. La possibilité de les maîtriser ouvre de nombreuses perspectives aux entreprises en termes de nouveaux services à offrir aux consommateurs ou clients professionnels. La variété : les données créées sont de formats de plus en plus variés. Il s’agit de plus en plus de données non structurées, textes bruts issus d’un échange d’e-mail ou de conversations sur les réseaux sociaux, images, vidéos, enregistrements vocaux, traces de connexion à des sites web (logs), signaux transmis par les objets connectés grâce aux multiples capteurs dont ils disposent. Ces formats variés rendent les traitements plus complexes. La vélocité : parallèlement à cette complexification, les besoins des entreprises évoluent vers une prise de décision de plus en plus rapide, voire en temps réel, de l’ordre de la fraction de seconde. Les données doivent donc être collectées et traitées de plus en plus rapidement. 2. Technologies Big Data Ce sont Google et Yahoo qui sont à l’origine des progrès spectaculaires réalisés en traitement de données. Le fonctionnement du moteur de recherche de Google basé sur des calculs de « Pagerank » (algorithme8 de classement de la popularité des pages web) et le stockage d’informations diverses sur ces pages a amené très rapidement Google à innover en infrastructures logicielles du fait du volume de données accumulées. Google a développé les composants essentiels du stockage et traitement des données massives (Map Reduce, Google Big Table, Google Big Files). Par ailleurs, dès 2001, Google était disponible en 26 langues s’appuyant pour se faire sur des technologies de traduction automatique, puis ont été ajoutés des modèles de reconnaissance vocale créés à partir de millions d’échantillons de voix et d’intonation. Doug Cutting employé par Yahoo ! a créé la première version de Hadoop, technologie Open Source, permettant d’effectuer des requêtes dans des puits de données distribués c’est-à-dire dont les informations sont situées sur des serveurs distants les uns des autres. Les traitements des données sont fragmentés sur différents serveurs afin d’optimiser le temps de traitement. Les requêtes peuvent être de nature très diverses, les algorithmes très complexes, les données très nombreuses, non structurées et les ressources de calcul mobilisées en divers lieux, là où se trouvent les données. La technologie permet de coordonner les traitements et de gérer les incohérences et les redondances. Dès lors, selon Gilles Babinet9, « on obtient un système dont l’efficacité est sans commune mesure avec ce qu’il était possible de faire auparavant dans des environnements de données traditionnels ». La principale différence entre les données traditionnelles et les données massives ne porte donc pas sur le volume même si celui-ci a explosé mais sur le type de données et la façon dont elles sont stockées. Traditionnellement les données d’entreprise étaient stockées dans des entrepôts de données internes au sein de bases de données relationnelles. Dans une base de données relationnelle, les données sont rangées de manière structurée : 1 ligne = 1 enregistrement ; 1 colonne = 1 attribut ; chaque cellule au croisement d’une ligne et d’une colonne a un format défini par avance. Le langage 6 Enjeux les Echos Big Data grande chance 1er mai 2015. 7 Composants électroniques qui envoient des informations par onde radio. 8 Un algorithme est une suite finie et non ambiguë d’opérations ou d’instructions permettant de résoudre un problème. Wikipedia.org 9 Gilles Babinet. Big Data penser l’homme et le monde autrement. Le passeur 2015. 3 SQL10 permet de formuler des requêtes. Cela suppose d’avoir défini par avance les types d’informations qui doivent être stockées et établi un modèle permettant de relier ses informations entre elles. A contrario, lorsque l’on parle de Big Data il s’agit de données de types divers dont une partie au moins est constituée de données non structurées. Il peut s’agir par exemple du contenu des mails adressés par les clients au service réclamation, de conversations téléphoniques enregistrées, de conversations sur les forums, de traces laissées par les connections aux sites Internet etc. Ces données sont stockées telles quelles, sans construction d’un modèle préalable de rangement, dans un « lac » de données. On parle de données NoSQL11 car le langage SQL ne permet pas de les traiter. Des outils permettent d’indexer et de catégoriser les informations non ou peu structurées en temps réel ; des algorithmes de traitement spécifiques permettent de trouver des liens entre les données et de découvrir des modèles. Le stockage des données Big Data se fait généralement non plus dans un entrepôt de données au sein de l’entreprise mais dans le Cloud au sein de Data Centers. Différents types d’acteurs interviennent : ceux qui développent et intègrent les bases de données, ceux qui les hébergent et les maintiennent, ceux qui apportent la puissance de calcul et ceux qui les utilisent. Des architectures plus agiles et plus puissantes permettent d’optimiser les ressources, de limiter les investissements et la maintenance et faire évoluer les infrastructures progressivement. L’entreprise utilisatrice des données peut choisir d’externaliser tout ou partie des opérations. Les technologies Hadoop et NoSQL sont précurseurs dans le domaine du Big Data mais leur conception dans un environnement Open Source a favorisé le développement de multiples technologies similaires ou complémentaires en matière de stockage ou d’analyse des données non structurées. Aux trois V, Volume, Variété, Vélocité, les uploads/Management/big-data-et-data-marketing.pdf

  • 34
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 13, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.9832MB