Big data Introduction : La numérisation croissante de nos activités, la capacit

Big data Introduction : La numérisation croissante de nos activités, la capacité sans cesse accrue à stocker des données numériques, l’accumulation d’informations en tous genres qui en découle, génère un nouveau secteur d’activité qui a pour objet l’analyse de ces grandes quantités de données. Sont alors apparues de nouvelles approches, de nouvelles méthodes, de nouveaux savoirs et in fine sans doute, de nouvelles manières de penser et de travailler. Ainsi, cette très grande quantité de données –ou big data– et son traitement –ou data mining– sous-tendent de profonds bouleversements, qui touchent à l’économie, au marketing, mais aussi à la recherche et aux savoirs. Les enjeux économiques, scientifiques et éthiques de ces données sont considérables. Le fait qu’on se situe dans un secteur en évolution constante, où les changements sont fréquents et rapides, ne rend pas l’analyse aisée… Cependant, un arrêt sur image, imparfait, nécessairement incomplet et pour partie périssable, s’avère sans doute nécessaire afin de mieux comprendre ce que sont le big data et le data mining. Pour tenter d’y voir un peu plus clair, ce dossier thématique se propose de donner un éclairage à ce phénomène. L’origine du Big data : En 1965, le gouvernement américain créait le 1er data center pour stocker ses plus de 742 millions de déclarations de revenus et 175 millions d’empreintes digitales. Le projet a été très vite assimilé à “Big Brother” et représenta le début des stockages de données numériques. En 1989, le scientifique anglais Tom Berners-Lee inventa le futur World Wide Web, voulant faciliter le partage d’informations via un système hypertexte. Il ne se rendait pas compte à ce moment là de l’impact que cette invention allait avoir. Au début des années 1990, face à l’évolution du nombre de mobiles connectés à Internet, les données évoluèrent d’une manière incroyable. En 2005, Roger Moulagas de O’Reilly Media formula le terme de “Big Data”, un an après que la société inventa le “Web 2.0”1. Il utilisera ce terme pour faire référence à un nombre de données tellement grand qu’il était impossible de gérer et de traiter avec les outils de Business Intelligence actuels. Dans la même année, Apache créa Hadoop, un framework open-source permettant de faciliter la création d’applications distribuées et échelonnables. Son objectif était d’indexer l’ensemble du “World Wide Web”. Big Data, c’est quoi ? Le Big Data selon des chercheurs et des professionnels : Tout le monde est assez d’accord pour dire qu’il n’existe pas de définition officielle et unanimement acceptée par les experts dans le domaine du Big Data (Mayer-Schönberger, & Cukier, 2013.les experts ne connaissent qu’une minime partie de ce qu’est vraiment le Big Data. Ils en sont donc encore au stade d’essayer de comprendre et de définir ce phénomène qui dépasse même les plus grands acteurs de la technologie. *En 2011, le McKinsey Global Institute propose la définition suivante : « Le Big Data se réfère à un ensemble de données dont la taille va au-delà de la capacité des logiciels de bases de données classiques à capturer, stocker, gérer et analyser ». *Selon les chercheurs de McKinsey, cette définition est intentionnellement subjective, dans le sens où tout est relatif. Ils définissent donc le Big Data comme ce qui sera toujours au-delà de la puissance de nos technologies. *La même année, Gantz et Reinsel de l’International Data Corporation (IDC) proposent ladéfinition suivante : « Les technologies Big Data décrivent une nouvelle génération de technologies et d’architectures, conçues pour extraire économiquement de la valeur à partir de très grands volumes d’une large variété de données, en permettant une capture, une découverte et/ou une analyse à très grande vitesse » . *En 2013, le terme « Big Data » entre officiellement dans l’Oxford English Dictionary. Il est défini comme « des données d’une très grande taille, dans la mesure où leur manipulation et leur gestion entraînent d’importants challenges logistiques » *Une autre source dont on ne peut se passer lorsqu’on parle de Big Data est l’ouvrage de Mayer-Schönberger et Cukier, dans lequel les auteurs exposent le problème de la manière suivante : « Le Big Data se réfère aux choses que nous pouvons faire à une large échelle et qui ne peuvent pas être faites à une échelle moindre, pour extraire de nouvelles connaissances ou créer de nouvelles formes de valeur, de façon à transformer les marchés, les organisations, les relations entre les citoyens et les gouvernements, et encore d’autres ». Les auteurs ajoutent que, selon eux, le Big Data est amené à modifier notre manière de vivre et d’interagir avec le monde. *Gartner, un des géants du conseil et de la recherche dans le domaine des techniques avancées, définit le Big Data comme « des actifs d’information de grand volume, de haute vitesse et de grande variété qui requièrent des outils innovants et rentables de traitement de données et qui permettent une amélioration des connaissances, de la prise de décision et de l’automatisation des processus » (Gartner, 2016.). Nous remarquons une grande ressemblance entre cette définition de Gartner et celle donnée plus haut de Gantz et Reinsel de IDC : la présence des termes « volume », « variété » et « vitesse ». Nous verrons par la suite pourquoi ces termes sont si importants lorsqu’on parle de Big Data. Les « V » du Big Data A côté des définitions précédente, la plupart des auteurs et acteurs du domaine de la technologie préfèrent définir le Big Data en exposant ses différentes caractéristiques. Ceux qui ont déjà entendu parler du Big Data ont plus que probablement entendu parler des fameux « V ». A vrai dire, tout le monde est assez d’accord pour dire que le Big Data se caractérise par des termes qui commencent par la lettre « V ». Cependant, tous ne sont pas d’accord sur le nombre de « V » qu’il faut considérer, si ce n’est qu’il y en au moins trois. Volume peut s’exprimer en chiffres : aujourd’hui on parle de stocker et traiter des exaoctets (1018) voir zettaoctets (1021) alors qu’il y a à peine 10 ans on parlait de mégaoctets (106), stockés sur des disquettes. L’information est cependant peu intelligible si elle n’est pas mise en relief : il est estimé que 90 % des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années. Le plus impressionnant réside dans le fait que la création de données est exponentielle. Le graphique ci-dessous donne quelques exemples de données générées, leurs volumes, et leur impact. Volume : il décrit notre situation de plus en plus nomade et notre utilisation grandissante des nouvelles technologies (Smartphones, réseaux sociaux, etc.) qui nous incite davantage à laisser derrière nous des données numériques autant professionnelles que personnelles. De plus en plus de données sont générées dans le monde. On parlait il n’y a pas si longtemps de gigaoctets (109), aujourd’hui nous parlons plutôt de téraoctets (1012), de pétaoctets (1015), d’exaoctets (1018) et même de zettaoctets (1021) (2,72 zettaoctets produits en 2012). On estime qu’en 2020 cette masse va grandement évoluer et atteindre à plus de 40 zettaoctets. Vitesse ou Vélocité : ces données générées évoluent à une vitesse considérable. Elles circulent de plus en plus rapidement, provenant de sources indépendantes mais connectées entre elles, dans des réseaux qui agissent de moins en moins en silos. Elles évoluent si rapidement qu’elles nécessiteraient un traitement vif, presque en temps réel, pour pouvoir exploiter les informations et prendre des décisions en conséquence. Variété : les sources de ces données sont diverses. Elles ne proviennent pas seulement de sources internes mais également de l’environnement qui l’entoure et notamment de la montée croissante des objets connectés : du smartphone à la tablette, de la montre à la voiture connectée, en passant par la Smart TV. Ces objets peuvent tracer ses utilisateurs, leur envoyer des informations précises et personnalisées, même quand ceux-ci ne sont pas en fonction. Ces données sont émises par autant de langages, codes et formats différents : il y a les données structurées (fichiers .csv, géolocalisation, HTML5…), semi-structurées (documents EDI, flux RSS, fichiers XML…) et non-structurées (contenus dynamiques, emails, photos, SMS, médias sociaux, blogs, reconnaissance vocale…). Le principe de sources multiples est un principe capital dans le process “Big Data”. Il est impensable de bâtir un projet décisionnel en se basant sur une source unique de données et prétendre que celle-ci détient la vérité. Nous devons matcher plusieurs données provenant de différentes sources pour pouvoir en déduire quoi que ce soit. Ces technologies étaient censées répondre à l’explosion des données dans le paysage numérique (le “data déluge”). Puis ces qualifications ont évolué et aux 3 “V” du Big Data s’ajoute le 4ème “V”, la Valeur que représentent les données, autant pour l’entreprise que pour l’utilisateur. Les entreprises sont conscientes de la valeur que peuvent représenter ces données et n’hésitent pas à créer une relation “donnant-donnant” avec ses utilisateurs. Elles leur propose des remises, des services supplémentaires, personnalisés, des cadeaux, sans contrepartie financière directe, en échange de la transmission de leurs données, leur avis, centresd’intérêts... A la valeur s’ajoute uploads/Management/ big-data-synthese.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Mai 01, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.2784MB