▶Dossier sp´ ecial DE STATISTICIEN ` A DATA SCIENTIST D ´ EVELOPPEMENTS P ´ EDA
▶Dossier sp´ ecial DE STATISTICIEN ` A DATA SCIENTIST D ´ EVELOPPEMENTS P ´ EDAGOGIQUES ` A l’INSA DE TOULOUSE Philippe Besse1 et B´ eatrice Laurent2 TITLE From Statistician to Data Scientist Pedagogical Developments at INSA Toulouse R ´ ESUM ´ E Selon un rapport r´ ecent de la commission europ´ eenne, le monde g´ en` ere chaque minute 1,7 millions de milliards d’octets de donn´ ees, soit l’´ equivalent de 360 000 DVD, et les en- treprises qui bˆ atissent leurs processus d´ ecisionnels en exploitant ces donn´ ees accroissent leur productivit´ e. Le traitement et la valorisation de donn´ ees massives a des cons´ equences en mati` ere d’emploi pour les diplˆ om´ es des fili` eres statistiques. Quelles comp´ etences nou- velles les ´ etudiants form´ es en statistique doivent-ils acqu´ erir pour devenir des scientifiques des donn´ ees ? Comment faire ´ evoluer les formations pour permettre aux futurs diplˆ om´ es de s’adapter aux ´ evolutions rapides dans ce domaine, sans pour autant n´ egliger les m´ etiers tra- ditionnels et le socle fondamental et p´ erenne de la formation ? Apr` es nous ˆ etre interrog´ es sur la notion de donn´ ees massives et l’´ emergence d’une ”nouvelle” science — la science des donn´ ees — nous pr´ esenterons les ´ evolutions en cours dans la formation d’ing´ enieurs en G´ enie Math´ ematique et Mod´ elisation ` a l’INSA de Toulouse. Mots-cl´ es : science des donn´ ees, statistique, donn´ ees massives, enseignement. ABSTRACT According to a recent report from the European Commission, the world generates every mi- nute 1.7 million of billions of data bytes, the equivalent of 360,000 DVDs, and companies that build their decision-making processes by exploiting these data increase their producti- vity. The treatment and valorization of massive data have consequences on the employment of graduate students in statistics. Which additional skills do students trained in statistics need to acquire to become data scientists ? How to evolve training so that future graduates can adapt to rapid changes in this area, without neglecting traditional jobs and the fundamental and lasting foundation for the training ? After considering the notion of big data and questioning the emergence of a ”new” science — Data Science — we present the current developments in the training of engineers in Mathematical and Modeling at INSA Toulouse. Keywords: data Science, statistics, big data, teaching. 1Universit´ e de Toulouse, INSA ; Institut de Math´ ematiques de Toulouse, UMR CNRS 5219 ; philippe.besse@math.univ-toulouse.fr 2Universit´ e de Toulouse, INSA ; Institut de Math´ ematiques de Toulouse, UMR CNRS 5219 ; b´ eatrice.laurent@math.univ-toulouse.fr Statistique et Enseignement, 7(1), 75–93, http://www.statistique-et-enseignement.fr © Soci´ et´ e Franc ¸aise de Statistique (SFdS), Juin/June 2016 76 ▶Dossier sp´ ecial De Statisticien ` a Data Scientist 1 Introduction Le d´ eluge ou le tsunami massif des donn´ ees et ses cons´ equences en mati` ere d’emploi des ´ etudiants form´ es ` a la Statistique, bouscule le paysage acad´ emique. Beaucoup de Masters ont ´ et´ e cr´ e´ es ces deux derni` eres ann´ ees avec un intitul´ e Science des Donn´ ees. L’INSA de Toulouse, qui int` egre une sp´ ecialit´ e d’ing´ enieurs G´ enie Math´ ematique et Mod´ elisation (GMM) incluant une orientation Mod` eles et M´ ethodes Statistiques (MMS) n’´ echappe pas ` a ce mouvement de fond. L’objectif de cet article est de d´ ecrire la strat´ egie adopt´ ee et les d´ eveloppements p´ edagogiques mis en place pour accompagner cette ´ evolution ` a tr` es court terme puis ` a moyen terme avec le renouvellement ` a venir de l’accr´ editation de la sp´ ecialit´ e GMM par la Commission du Titre d’Ing´ enieur courant 2016 pour la rentr´ ee 2017. Le d´ epartement de Math´ ematiques de l’INSAT forme des statisticiens qui int` egrent avec succ` es le monde professionnel ; comment former maintenant des scientifiques des donn´ ees ? Plus pr´ ecis´ ement, nous formons depuis la promotion 2007 des ´ etudiants aux m´ ethodes r´ ecentes de mod´ elisation et apprentissage statistiques ; depuis la promotion 2013, ceux-ci sont embauch´ es comme data scientist. Nous formions donc ` a des m´ etiers3 avant que ceux-ci n’existent. Plus s´ erieusement, comment mieux former les ´ etudiants ` a la r´ ealit´ e actuelle de ces emplois ? Ces changements touchent bien sˆ ur les contenus des programmes mais impactent ´ egalement nos pratiques p´ edagogiques. La premi` ere section de cet article d´ ecrit quelques enjeux en lien avec le traitement des donn´ ees massives, la deuxi` eme s’interroge sur l’´ emergence d’une ”nou- velle science”. La troisi` eme section r´ esume succinctement l’environnement disciplinaire des ´ etudiants de GMM MMS et les nouveaux objectifs vis´ es. La quatri` eme section d´ ecrit les adapta- tions de programme, principalement ` a court terme, leurs objectifs p´ edagogiques et les nouvelles ressources associ´ ees qui sont disponibles sur le site wikistat.fr. 2 Quelques enjeux des donn´ ees massives 2.1 Disparit´ e Malgr´ e une apparente unit´ e, la Science des donn´ ees recouvre des r´ ealit´ es tr` es diff´ erentes en fonction de leurs origines et modes de production. La partie la plus visible concerne les prin- cipaux acteurs d’internet (GAFA ou Google, Apple, Facebook, Amazon) : ce sont les pre- miers producteurs, analyseurs de donn´ ees massives et sans doute les financeurs majeurs de la recherche dans ce domaine, devant les financements publics. Le contexte est compl` etement diff´ erent lorsqu’il s’agit de donn´ ees publiques ou open data, de donn´ ees scientifiques comme par exemple en Astronomie, Biologie, ou encore de donn´ ees industrielles. Les probl` emes de confidentialit´ e, de s´ ecurit´ e, d’archivage, de besoins de calcul, d’algorithmes... se posent de fac ¸on radicalement diff´ erentes. Certes, beaucoup des m´ ethodes math´ ematiques et statistiques utilis´ ees sont transf´ erables d’un domaine ` a l’autre, mais le contexte technologique de mise en œuvre change consid´ erablement les choix en pr´ esence, notamment dans la fac ¸on d’architecturer, parall´ eliser les stockages et calculs, donc les choix de m´ ethodes et d’algorithmes et finalement les comp´ etences requises. 3 ` A l’insu de notre plein gr´ e. Statistique et Enseignement, 7(1), 75–93, http://www.statistique-et-enseignement.fr © Soci´ et´ e Franc ¸aise de Statistique (SFdS), Juin/June 2016 ▶Dossier sp´ ecial 77 P. Besse et B. Laurent 2.2 R´ eellement massives ? La vogue de l’appellation big data a eu des cons´ equences imm´ ediates sur la communication. Tout probl` eme maintenant classique de fouille de donn´ ees (data mining), par exemple en mar- keting quantitatif ou gestion de la relation client, est devenu de la Science des donn´ ees alors que celles-ci sont loin d’ˆ etre massives. Pour ajuster le discours, les donn´ ees deviennent smart ou encore l’aspect ”big” de la communication concerne les r´ esultats commerciaux attendus ou promis par l’exploitation des donn´ ees, plus que leur volume. Seuils technologiques D’autres domaines produisent effectivement des donn´ ees massives confront´ ees ` a deux seuils technologiques li´ es au volume. Le premier concerne la m´ emoire interne (RAM) de l’ordina- teur. La majorit´ e des logiciels scientifiques (R, Matlab, Scikit-learn de Python...) n´ ecessitent le chargement en m´ emoire de l’ensemble des donn´ ees pour leur traitement. Quels choix op´ erer en cas d’impossibilit´ e : changer d’ordinateur (ce peut ˆ etre la meilleure solution), ´ echantillonner, r´ epartir les donn´ ees et les calculs sur un r´ eseau ou cluster d’ordinateurs ? Ce dernier choix re- joint le deuxi` eme seuil technologique lorsque leur volume d´ epasse la capacit´ e de stockage d’un seul ordinateur (disons actuellement quelques tera-octets) ou encore si le temps de r´ eponse n´ ecessite un traitement parall´ elis´ e des donn´ ees. En cons´ equence, la probl´ ematique ”donn´ ees massives” et ses implications m´ ethodologiques, algorithmiques, ´ emergent r´ eellement ` a partir du moment o` u les donn´ ees sont distribu´ ees sur plusieurs ordinateurs. Dans le cas contraire, les m´ ethodes statistiques et algorithmes usuels d’apprentissage restent op´ erants. Bien entendu les questions de v´ elocit´ e de l’acquisition, associ´ ees ` a des prises de d´ ecision en ligne ou en temps r´ eel, la complexit´ e ou la vari´ et´ e (images graphes, signaux) des donn´ ees, soul` event d’autres questions plus fondamentales de repr´ esentation (objet math´ ematique) ind´ ependamment du volume consid´ er´ e. Ces questions apparues bien avant la ”naissance” de la science des donn´ ees concernent alors plus des sujets de recherche (th` ese) qu’une formation de niveau Master. Pr´ eparation des donn´ ees Plus pr´ ecis´ ement et encore plus concr` etement en amont, la phase de traitement la plus impor- tante, en terme d’implication humaine et de trafic de donn´ ees, est souvent celle d’extraction, de pr´ eparation. Cette ´ etape, dite aussi de data munging ou wrangling —v´ erification, imputation, transformation, s´ election des variables (features)— est unidimensionnelle (au plus bidimen- sionnelle), facilement distribuable uploads/Science et Technologie/ 544-texte-de-l-x27-article-2104-1-10-20160624 1 .pdf
Documents similaires










-
22
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 02, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.5920MB