VOYAGE AU CŒUR DU BIG DATA CONTEXTE − TECHNOLOGIES − DOMAINES D’APPLICATION − P

VOYAGE AU CŒUR DU BIG DATA CONTEXTE − TECHNOLOGIES − DOMAINES D’APPLICATION − PERSPECTIVES JUIN 2017 #64 Big Data : de quoi parle-t-on ? C’est dans les années 1990 que le terme Big Data prend sa signification actuelle : un défi technologique à relever pour analyser de grands ensembles de données, d’abord scientifiques, mais de plus en plus souvent collectés au quotidien par divers moyens techniques. Big Data désigne à la fois la production de données massives et le développement de technologies capables de les traiter afin d’en extraire des corrélations ou du sens. Définition en sept étapes… SOMMAIRE LE BIG DATA DANS CE NUMÉRO DÉFINITION INTRODUCTION / DÉFINITION DU BIG DATA 2 SOMMAIRE 3 LE POINT DE VUE DE THIERRY BRETON, PDG D’ATOS 4 LA PLACE DE LA FRANCE ET LA STRATÉGIE DU CEA 5 LES TECHNOLOGIES DU BIG DATA DE LA PRODUCTION À L’EXPLOITATION DES DONNÉES 7 Les algorithmes prédictifs 8 L’apprentissage automatique 10 Les systèmes distribués 12 L’exploitation des données issues des codes de simulation 14 LA VISUALISATION DES DONNÉES 17 L’interface homme/données 17 La plateforme Mandelbrot 18 LA PROTECTION DES DONNÉES 19 LES DOMAINES D’APPLICATION LES DONNÉES DE LA SCIENCE 22 Une approche théorique de la donnée 22 Physique des particules 24 Climatologie 27 Astrophysique 30 LA SANTÉ 33 L’ÉNERGIE 39 LES DONNÉES DE L’INDUSTRIE 42 LES DONNÉES DE LA VIE QUOTIDIENNE 43 PERSPECTIVES L’IMPACT DU BIG DATA SUR LA PRATIQUE SCIENTIFIQUE 45 L’IMPACT SOCIÉTAL DES DONNÉES 47 7 45 21 VOYAGE AU CŒUR DU BIG DATA • PAR ALEXEI GRINBAUM (Direction de la recherche fondamentale) VOLUME Qui dit données massives dit volumes allant du kilooctet au petaoctet , dépassant toute capacité de traitement rapide par le cerveau humain. VÉLOCITÉ Fréquence à laquelle les données sont générées, trai- tées et mises en réseau. Cette fréquence étant de plus en plus élevée, il est très souvent nécessaire d’em- ployer les ressources du calcul haute performance (extreme computing). Climatologues [voir page 27], astrophysiciens [voir page 32] comme spécialistes en génomique [voir page 33] en sont de fervents utilisateurs. VARIÉTÉ Les données peuvent être textuelles, visuelles ou sonores, scientifiques ou provenant de la vie courante, structurées ou non. D’où la nécessité de les analyser automatiquement par des algorithmes pour en extraire des corrélations et des connaissances (data mining) et, quelquefois, de les représenter sous forme visuelle (data visualisation). CORRÉLATION L’analyse de données permet de dégager des corréla- tions souvent insoupçonnées et instructives (data ana- lytics). Cependant, l’existence de corrélations ne signi- fie pas la réalité des liens de cause à effet entre leurs référents. Et une corrélation n’équivaut pas une signi- fication ou une connaissance. La tension fondamentale entre une science fondée sur la causalité et une analyse qui s’appuie sur les corrélations est au centre des débats épistémologiques actuels [voir page 4]. BIAIS Certaines données peuvent contenir des biais ou être discriminatoires. Leur traitement automatique trans- mettra ces biais aux conclusions qui en seront tirées. L’éthique du Big Data cherche à en éviter les consé- quences néfastes en préconisant des procédures de contrôle et vérification des données. Rapport Stratégie France IA : www.enseignementsup- recherche.gouv.fr/cid114739/rapport-strategie- france-i.a.-pour-le-developpement-des-technolo- gies-d-intelligence-artificielle.html TRAÇABILITÉ Il doit être possible de suivre les actions d’un système qui apprend en analysant les données (machine lear- ning) par la mise à disposition d’un journal suffisam- ment détaillé. C’est même essentiel pour déterminer les responsabilités et fonder, le cas échéant, un re- cours juridique. Initiative IEEE : www.standards.ieee.org/develop/ indconn/ec/autonomous_systems.html EXPLICABILITÉ Dans certains cas, le machine learning inventera et utilisera des repères ou des concepts qui lui sont propres, et dont l’humain ne comprendrait pas néces- sairement la signification. Le compromis entre la per- formance de l’apprentissage et l’explicabilité doit être apprécié en fonction de l’usage. Travaux de la Cerna : www.cerna-ethics-allistene.org OCTET Unité de mesure de la quantité de données pouvant être produites ou stockées. Un kilooctet (Ko) correspond à mille octets (quelques Ko, c’est le poids d’un simple fichier texte), un mégaoctet (Mo) à un million d’octets (un CD-Rom fait 650 Mo), un gigaoctet (Go) à un milliard d’octets (la taille d’une clef USB varie usuellement de 1 à 8 Go, certaines allant jusqu’à 128 voire 256 Go) et un teraoctet (To) à mille milliards d’octets, soit la capacité de stockage d’un disque dur performant. ALGORITHME Description, traduisible sous forme d’un programme dans un langage informatique, d’une suite finie d’étapes à exécuter pour obtenir, à partir de données en entrée, des données en sortie en vue d’un objectif prédéterminé. CALCUL HAUTE PERFORMANCE Représenter virtuellement des objets, des phénomènes ou des systèmes particulièrement complexes nécessite d’utiliser des calculateurs extrêmement puissants (les supercalculateurs). Aujourd’hui, les plus performants sont capables de réaliser plusieurs millions de milliards d’opérations à la seconde (petaflop/s). D’où le terme de calcul haute performance (ou HPC pour High Performance Computing) qui désigne également, par extension, la science développée autour de ces équipements (matériels, logiciels etc.). Alexei Grinbaum est physicien et philosophe. Il travaille au Laboratoire de recherche sur les sciences de la matière (Institut de recherches sur les lois fondamentales de l’Univers du CEA). Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche 2 - Voyage au cœur du Big Data Voyage au cœur du Big Data - 3 « Nous anticipons, avec le CEA, l’ère à venir : celle de l’ordinateur quantique, sur laquelle nos équipes travaillent déjà en étroite relation avec les siennes, ainsi que la cryptographie “ quantum-safe ”. » Construire ensemble une confiance numérique durable POINT DE VUE CONTEXTE L’ augmentation exponentielle des données est, en particulier, portée par les objets in- telligents, qui seront plus de 50 milliards dans le monde en 2020. À cette échéance, ce sont 40 000 milliards de milliards de données qui se- ront générées… Davantage que d’étoiles dans l’Univers ! Ces données, il nous faudra les collecter puis savoir les compter, les identifier et les isoler, mais aussi les mettre en relation les unes avec les autres à tout moment, et donner des ordres aux différents objets. C’est le premier défi à relever. Pour y parvenir, il faut des machines d’une puissance exceptionnelle, les supercalculateurs, et des logiciels de nouvelle génération, qui fonctionnent différemment de l’informatique que nous mettons en œuvre depuis 30 ans et dont le « batch » est la base. Finie l’époque où les informaticiens avaient le temps de sauvegarder les données, de les restaurer ou de relancer un traitement en cas de panne. Désormais les systèmes sont temps réel ou presque et apprennent de façon au- tonome. Le second défi sera de sécuriser ces données, qu’il s’agisse de données personnelles ou industrielles, de celles des Etats, des collectivités locales ou des institu- tions publiques. Des cadres juridiques sont progressi- vement renforcés dans ce but. Face à ce double défi, une seule réponse possible : construire, ensemble, une confiance numérique durable. Confiance, d’abord, dans notre capacité technologique à traiter et exploiter des millions puis des milliards de milliards de données par seconde, ce que fait déjà le supercalculateur Bull Sequana. Confiance, ensuite, que les citoyens peuvent accorder à la gestion des données personnelles, y compris celles générées par l’Internet des objets, la cybersécurité étant au cœur de nos enga- gements et de notre excellence opérationnelle. Plus largement, nous anticipons, avec le CEA, l’ère à venir : celle de l’ordinateur quantique, sur laquelle nos équipes travaillent déjà en étroite relation avec les siennes, ain- si que la cryptographie « quantum-safe ». D’ici à 2030, de nouvelles inventions écloront dans tous les secteurs, créant des emplois et une croissance durable, loin de la stagnation séculaire redoutée par certains. Le XXIè siècle sera ainsi pleinement le siècle de la valorisation des données en temps réel et de la construction de la confiance numérique, qui sont l’avers et le revers d’une même médaille. Le CEA prend toute sa place dans les initiatives mises en œuvre aux niveaux national et européen pour dynamiser la recherche et l’innovation dans le domaine du Big Data. R echerche, industrie, économie et société sont en profonde mutation face à l’accroissement exponentiel de la quantité de données produites par les entreprises, les particuliers et les scientifiques. La maîtrise et l’exploitation de ces données représentent des enjeux majeurs. Quelques exemples : l’émergence de nouveaux paradigmes de découverte scientifique par analyse et exploitation intensive des données, sans nécessité a priori d’un modèle décrivant le réel ; la décision des grands industriels d’inscrire la maîtrise des données au cœur de leur transformation numérique ; l’évolution des services aux usagers, des méthodes éducatives, des métiers... Le tout sur fond de protection des données privées et d’ouverture des données publiques. Après l’explosion des activités économiques et sociales sur le web, le développement de l’Internet des objets (IoT) est annoncé comme le prochain horizon de notre monde ultra-connecté, pour lequel les données sont l’objet de toutes les attentions. La puissance de calcul s’invite dans le cycle de production/traitement des données, carburant de l’innovation et de la croissance. La prise de conscience est mondiale. Les États-Unis sont en tête, avec des initiatives fédérales uploads/Science et Technologie/ bigdata.pdf

  • 22
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager