L’exploration du Big Data par sa visualisation – Application au projet GEoTweet
L’exploration du Big Data par sa visualisation – Application au projet GEoTweet Travail de Bachelor réalisé en vue de l’obtention du Bachelor HES par : Philippe JEANNERET Conseiller au travail de Bachelor : Rolf HAURI, Chargé d’enseignement HES Genève, 22 juin 2015 Haute École de Gestion de Genève (HEG-GE) Filière Informatique de Gestion L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe i Déclaration Ce travail de Bachelor est réalisé dans le cadre de l’examen final de la Haute école de gestion de Genève, en vue de l’obtention du titre de Bachelor of Science en Informatique de gestion. L’étudiant a envoyé ce document par email à l'adresse remise par son conseiller au travail de Bachelor pour analyse par le logiciel de détection de plagiat URKUND, selon la procédure détaillée à l’URL suivante : http://www.urkund.fr/student_gorsahar.asp. L’étudiant accepte, le cas échéant, la clause de confidentialité. L'utilisation des conclusions et recommandations formulées dans le travail de Bachelor, sans préjuger de leur valeur, n'engage ni la responsabilité de l'auteur, ni celle du conseiller au travail de Bachelor, du juré et de la HEG. « J’atteste avoir réalisé seul le présent travail, sans avoir utilisé des sources autres que celles citées dans la bibliographie. » Fait à Genève, le 21 juin 2015 Philippe Jeanneret L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe ii Remerciements Je tiens à remercier Mr. Arnaud Gaudinat, Mme Fanny Béguelin, Mme Romaine et Kaufmann pour leur chaleureux accueil au sein de l’équipe GEoTweet. Ils ont su me faire sentir comme un membre à part entière de l’équipe dès mon arrivée. Mes remerciements vont également à Mr Rolf Hauri, qui a accepté de suivre ce travail de Bachelor ainsi que me prodiguer des conseils ou pistes par rapport aux difficultés rencontrées. Je suis reconnaissant du temps que m’a consacré Mr. Jean-Philippe Trabichet, responsable de la filière Informatique de Gestion à la Haute Ecole de Gestion de Genève, ainsi que ses assistants du LTI pour leurs précieux avis sur les interfaces à appliquer au projet GEoTweet. Je remercie également Aloys Luber, étudiant en marketing digital à l’université CREA de Genève, et Michael Chrusciel, étudiant en sociologie, géographie et management à l’université de Neuchâtel. Leurs précieux avis ont permis d’élargir les pistes disponibles lorsque les choses semblaient confuses. Finalement un grand merci à Michel Jeanneret pour ses nombreuses relectures et corrections sémantiques. L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe iii Résumé Une multitude de données sont créées grâce à différents outils. Cela va du message écrit sur un réseau social au dernier achat réalisé à l’épicerie de quartier. Toute action laisse une trace digitale. Des données peuvent également être créées passivement comme la récolte d’informations provenant d’un capteur GPS dans véhicule. Tout ceci génère une énorme quantité de données. On estime qu’en 2015, 90% des données mondiales ont été créées au cours des deux dernières années. Cette manne d’informations s’appelle le Big Data. Ces données permettent d’isoler des tendances comme les produits qui se vendent le mieux par période dans un supermarché ou les destinations qui attirent le plus de touristes en fonction de l’année. Pour répondre à ces questions, il est impensable devoir parcourir chaque enregistrement un à un. Il faut pouvoir trouver les visualiser pour, qu’en un coup d’œil, on puisse donner à sens à nos informations. Ce travail a pour but de proposer des visualisations en fonction du type de données auquel nous sommes confrontés ou bien de ce que nous souhaitons afficher. Dans un second temps, nous nous pencherons plus en détail sur le projet « GEoTweet » qui a pour but d’utiliser l’énorme quantité données mises à disposition par Twitter. Il s’agit ici d’appliquer des méthodes de visualisations pour afficher des comportements d’utilisateur ou l’évolution de termes, comme les hashtags, grâce au Big Data généré par Twitter. L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe iv Table des matières Déclaration......................................................................................................... i Remerciements ................................................................................................ ii Résumé ............................................................................................................ iii Liste des figures .............................................................................................. vi 1. Qu’est-ce que le Big Data ......................................................................... 1 1.1 Qui utilise le Big Data .................................................................................. 1 1.1.1 Histoire 1970 ........................................................................................... 1 1.1.2 Histoire 1980 ........................................................................................... 1 1.1.3 Histoire 1990 ........................................................................................... 2 1.1.4 Histoire 2015 ........................................................................................... 2 1.1.5 Impact sociologique ................................................................................ 3 1.1.6 Les 4 V .................................................................................................... 4 1.1.7 Définition ................................................................................................. 5 2. Quelles sont les catégories existantes .................................................... 6 2.1 Catégorisation générale .............................................................................. 6 2.1.1 Structurée et semi-structurée .................................................................. 6 2.1.2 Non-structurée ........................................................................................ 8 2.2 Catégorisation IBM ...................................................................................... 9 3. Quelles sont les familles d’interfaces existantes pour visualiser les Big Data .......................................................................................................... 11 3.1 Affichage classique ....................................................................................11 3.2 Affichage moderne ......................................................................................14 3.2.1 Carte ......................................................................................................15 3.2.2 Texte ......................................................................................................16 3.2.3 Données ................................................................................................17 3.2.3.1 Comparaison ............................................................................................... 18 3.2.3.1.1 Entre les instances ............................................................................... 18 3.2.3.1.2 En fonction du temps ............................................................................ 19 3.2.3.2 Distribution ................................................................................................... 19 3.2.3.2.1 Une variable .......................................................................................... 20 3.2.3.2.2 Deux variables ...................................................................................... 21 3.2.3.3 Relation ....................................................................................................... 21 3.2.3.3.1 Deux variables ...................................................................................... 21 3.2.3.3.2 Trois variables ...................................................................................... 22 3.2.3.4 Composition ................................................................................................. 22 3.2.3.4.1 Statique dans le temps ......................................................................... 22 3.2.3.4.2 Evoluant dans le temps ........................................................................ 23 3.2.3.5 Connexion ................................................................................................... 24 3.2.3.6 Cartographique de fond ............................................................................... 26 3.2.3.7 Animation ..................................................................................................... 27 3.2.3.8 Infographie ................................................................................................... 28 3.2.4 Choisir le bon graphique ........................................................................29 L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe v 3.2.5 Bonnes pratiques ...................................................................................30 3.2.6 Erreurs à ne pas commettre ...................................................................30 3.2.6.1 Comment fausser un graphique .................................................................. 31 4. Quelles sont les technologies ................................................................ 33 5. Cas d’étude GEoTweet ............................................................................ 35 5.1 Besoins ........................................................................................................35 5.2 GEoTweet et le Big Data .............................................................................36 5.2.1 4 V .........................................................................................................36 5.2.2 Catégorisation IBM .................................................................................37 5.3 Interfaces pertinentes .................................................................................38 5.3.1 Répartition des langues à Genève .........................................................38 5.3.1.1 Thermique ................................................................................................... 38 5.3.1.1.1 Carte ..................................................................................................... 38 5.3.1.1.2 Classement ........................................................................................... 39 5.3.1.1.3 Chronologie .......................................................................................... 39 5.3.1.1.4 Rejouer ................................................................................................. 39 5.3.1.2 Quartiers ...................................................................................................... 40 5.3.1.2.1 Carte ..................................................................................................... 40 5.3.1.2.2 Classement ........................................................................................... 40 5.3.1.2.3 Chronologie .......................................................................................... 40 5.3.1.2.4 Derniers tweets ..................................................................................... 40 5.3.1.2.5 Ecrire un tweet ...................................................................................... 40 5.3.2 Rayonnement de Genève dans le monde ..............................................40 5.4 Proposition de vues – prototypes ..............................................................41 5.4.1 Répartition des langues à Genève .........................................................41 5.4.2 Rayonnement de Genève dans le monde ..............................................43 5.5 Choix technologiques .................................................................................44 5.6 Validation par l’équipe GEoTweet et analyse des résultats obtenus ......44 6. Conclusion ............................................................................................... 46 Bibliographie .................................................................................................. 48 L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe vi Liste des figures Figure 1 : Google Trend sur le terme « Big Data » ....................................................... 3 Figure 2 : Classification du Big Data selon IBM ...........................................................10 Figure 3 : Feuille de calcul représentant des statistiques de ventes ............................12 Figure 4 : Diagramme circulaire sur les proportions d’achats de chaque client ............13 Figure 5 : Graphe à barres des ventes ........................................................................14 Figure 6 : Carte avec de simples points géographiques ..............................................15 Figure 7 : NYC Crime Map ..........................................................................................15 Figure 8 : Nuage de mot du discours prononcé par Obama lors de sa victoire aux élections de 2008 ........................................................................................................17 Figure 9 : Graphique en colonne .................................................................................18 Figure 10 : Graphique à lignes ....................................................................................19 Figure 11 : Histogramme .............................................................................................20 Figure 12 : Nuage de points ........................................................................................21 Figure 13 : Nuage de points ........................................................................................22 Figure 14 : Diagramme de zones empilées .................................................................23 Figure 15 : Regroupement en cercles .........................................................................24 Figure 16 : Diagramme d’accords ................................................................................25 Figure 17 : Cartographie de fond .................................................................................26 Figure 18 : Animation des vents ..................................................................................27 Figure 19 : Infographie de la politique américaine .......................................................28 Figure 20 : Quel graphique choisir ...............................................................................29 Figure 21 : Pertes d’emplois selon Palosi ....................................................................31 Figure 22 : Pertes d’emplois selon Cage .....................................................................31 Figure 23 : Graphique manipulé présent sur le site du parti Républicain .....................32 Figure 24 : Diagramme de Sankey ..............................................................................34 Figure 25 : Carte thermique de la répartition des langues ...........................................41 Figure 26 : Carte de la répartition des langues par quartiers .......................................42 Figure 27 : Carte du rayonnement de Genève dans le monde ....................................43 L’exploration du Big Data par sa visualisation – Application au projet GEoTweet JEANNERET, Philippe 1 1. Qu’est-ce que le Big Data 1.1 Qui utilise le Big Data 1.1.1 Histoire 1970 Dans les années 1970, les principaux fabricants de produits de grande consommation, comme P&G, Unilever et Kraft ainsi que les grandes surfaces, construisaient leurs stratégies marketing en fonction d’audits bimensuels fournis par la compagnie Nielsen. Cette dernière expédiait des employés dans plusieurs boutiques réparties dans douze villes des Etats-Unis uniquement. Ils avaient pour tâche de réaliser un audit en relevant la quantité de produits sur les étalages, leurs prix, la taille de l’espace qui leur était alloué et les rabais qui y étaient liés. Ces données étaient ensuite transmises aux fabricants et aux détaillants. Un fournisseur pouvait ainsi voir là où se situaient ses produits par rapport à ses concurrents et décider des mesures marketing à mettre en œuvre telles que l’ajustement du prix, des dépenses promotionnelles ou la création d’un nouveau produit. 1.1.2 Histoire 1980 A la fin des années 1980, la société IRI répandit les scanners de codes-barres afin de bouleverser le uploads/Management/ travail-bachelor-philippe-jeanneret.pdf
Documents similaires
-
20
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 08, 2021
- Catégorie Management
- Langue French
- Taille du fichier 2.3990MB