Introduction data science Data science Master 2 ISIDIS S´ ebastien Verel verel@
Introduction data science Data science Master 2 ISIDIS S´ ebastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Universit´ e du Littoral Cˆ ote d’Opale Laboratoire LISIC Equipe OSMOSE Data science Data scientist Big data Processus en data science Information But, ´ evaluation, objectifs, support de cours, bibliographie : cf. siteweb Data science Data scientist Big data Processus en data science Bibliographie Le cours et les supports reposent principalement sur ces sources bibliographiques : Data Science : fondamentaux et ´ etudes de cas Machine Learning avec Python et R Eric Biernat, Michel Lutz, 2015. Data science Data scientist Big data Processus en data science Bibliographie Big Data et Machine Learning Manuel du data scientist Pirmin Lemberger, Marc Batty, 2015. Data science Data scientist Big data Processus en data science Bibliographie Que les auteurs en soient remerci´ es chaleureusement ! Data science Data scientist Big data Processus en data science Contenu G´ en´ eral A Machine learning : Bases du data scientist regression lin´ eaire, logistique, bayesien naif, etc. Les outils avanc´ es random forest, gradient boosting, SVM, etc. Concepts g´ en´ eraux grandes dimensions, ´ evaluation de mod` eles, etc. B Hadoop avec Map-reduce : Syst` eme HDFS Map-reduce : exemples de bases Map-reduce : exemples avanc´ es Framework pig C NoSQL pour le big data : Pr´ esentation, diff´ erence SQP/noSQL Quelques impl´ ementations : Hbase, Sqoop, Hive, etc. Machine learning en big data (mahout, Mllib) Data science Data scientist Big data Processus en data science R´ esoudre des probl` emes ah ! r´ esoudre des probl` emes... Panne d’une voiture Connaitre l’opinion sur un sujet dans les r´ eseaux sociaux Pr´ evoir la consommation ´ electrique Data science Data scientist Big data Processus en data science Une d´ efinition Data science ”D´ emarche empirique qui se base sur des donn´ ees pour apporter une r´ eponse ` a des probl` emes” Data science : fondamentaux et ´ etudes de cas, E. Biernat, M. Lutz, Eyrolles, 2015. Data science Data scientist Big data Processus en data science Le m´ etier de Data scientist Data scientist Apparu en 2008, DJ. Patil et JeffHammerbacher de Facebook et LinkedIn, ce sont appel´ es ”data scientist” G´ en´ eralis´ e ` a partir de 2012 : ”Data scientist : The sexiest Job of the 21th Century”, T.H. Davenport, DJ. Patil, Harvard Buissiness Review, oct. 2012. Rˆ ole du data scientist gagne en importance dans les entreprises : Augmentation (explosion !) du volume des donn´ ees non structur´ ees (big data) Dans les 10 prochaines ann´ ees, profil data scientist sera tr` es recherch´ e Data science Data scientist Big data Processus en data science Les comp´ etences On peut aussi aller lire un post de Alex Woodie : http://www.datanami.com/2015/01/07/ 9-must-skills-land-top-big-data-jobs-2015/ Data science Data scientist Big data Processus en data science Les jobs Exercices Sur google trends : observer l’usage de ”data scientist” Rechercher des offres d’empli profils ”big data”, ”business intelligence”... Consulter le r´ ef´ erentiel m´ etier de l’apec ”data scientist” Data science Data scientist Big data Processus en data science Big data Un d´ eluge de donn´ ees Source des donn´ ees : Activit´ e humaine emails, photos, vid´ eo, logs, likes, etc. Activit´ e des machines capteurs en tout genre, compteurs en tout genre (´ electrique, etc.), v´ ehicules, ´ electro-m´ enager Open data des institutions, des entreprises horaires, statistiques sur les r´ egions, g´ eolocalisation, etc. open API de twitter, google, etc. http://www.programmableweb.com/ Le web ! Data science Data scientist Big data Processus en data science Big data Un d´ eluge de donn´ ees Source des donn´ ees : Activit´ e humaine emails, photos, vid´ eo, logs, likes, etc. Activit´ e des machines capteurs en tout genre, compteurs en tout genre (´ electrique, etc.), v´ ehicules, ´ electro-m´ enager Open data des institutions, des entreprises horaires, statistiques sur les r´ egions, g´ eolocalisation, etc. open API de twitter, google, etc. http://www.programmableweb.com/ Le web ! Avertissement, data science ne se r´ eduit pas au big data Data science Data scientist Big data Processus en data science Causes ´ economiques Les coˆ uts baisses exponentiellement Capacit´ e de stockage Capacit´ e de calcul Bande passante ⇒Emergence de data centers : Google, Amazon, LinkedIn, Yahoo !, OVH, etc. Data science Data scientist Big data Processus en data science How big ? Internet : > 10 Po Data center : > 100 To Disque dur : ≈10 To RAM : < 100 Go Fronti` ere big data : lorsque les donn´ ees ne peuvent ˆ etre trait´ ees en temps ”raisonnable” ou ”utile” Calculer le temps n´ ecessaire pour lire un disque dur de 1 To ` a 100Mo/s ? Data science Data scientist Big data Processus en data science How big ? Internet : > 10 Po Data center : > 100 To Disque dur : ≈10 To RAM : < 100 Go Fronti` ere big data : lorsque les donn´ ees ne peuvent ˆ etre trait´ ees en temps ”raisonnable” ou ”utile” Calculer le temps n´ ecessaire pour lire un disque dur de 1 To ` a 100Mo/s ? Attention : donn´ ees ̸= information Data science Data scientist Big data Processus en data science Les fameux 3V (Gartner) Sch´ ema d’apr` es ”Big data et Machine Learning”, Dunod, 2015. Data science Data scientist Big data Processus en data science Champs d’application Nombreux champs d’applications actuels et futurs Tous les domaines de la science : climat, physique, ´ epid´ emiologie, m´ edical, etc. En politique Campagne Obama, etc. Secteur priv´ e : Relation clients, marketing cibl´ e, fr´ equentation, etc. Secteur public : am´ elioration des services, adaptation aux besoins, etc. Beaucoup de perspectives en vue ! Nouveaux besoins, nouveaux outils... Data science Data scientist Big data Processus en data science Quelques remarques ´ ethiques Attention aux droits sur les donn´ ees : ` a qui appartient les donn´ ees, leur exploitations, etc. Toutes les donn´ ees ont un coˆ ut Une donn´ ee peut ˆ etre juste mais l’analyse fausse Une analyse de donn´ ees n’est jamais neutre au sens objective ! Une donn´ ee n’est jamais neutre : Une donn´ ee est r´ ecolt´ ee et exploit´ ee dans un but pr´ ecis Data science Data scientist Big data Processus en data science D´ emarche en data science D´ emarche globale 1 Imaginer un produit, ou une question 2 Collecter les donn´ ees 3 Pr´ eparer les donn´ ees 4 Concevoir un mod` ele pr´ edictif 5 Visualiser les r´ esultats 6 Optimiser le mod` ele (calibration) 7 D´ eploiement, industrialisation Le gros volume de donn´ ees n’est pas une contrainte mais une opportunit´ e ! Data science Data scientist Big data Processus en data science Contenu G´ en´ eral A Machine learning : Bases du data scientist regression lin´ eaire, logistique, bayesien naif, etc. Les outils avanc´ es random forest, gradient boosting, SVM, etc. Concepts g´ en´ eraux grandes dimensions, ´ evaluation de mod` eles, etc. B Hadoop avec Map-reduce : Syst` eme HDFS Map-reduce : exemples de bases Map-reduce : exemples avanc´ es Framework pig C NoSQL pour le big data : Pr´ esentation, diff´ erence SQP/noSQL Quelques impl´ ementations : Hbase, Sqoop, Hive, etc. Machine learning en big data (mahout, Mllib) uploads/Science et Technologie/ datascience-introduction.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/zNkhQk1ffDSSWsbdTcO2V4QZt1D30Dy17ZfLh16oks6wg59ABL2YA9SrxzHjXOSOIWKgbG1rEH34nQwQcuJEcQ72.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/bZ3FkACVqz1A7exLFQJlWRTrIoIuRgKkpgPAVbFDinqQx4HApe6xFAOAXjagOQNZLHzS16gjgSdXNSjT7QG08dW8.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/4K6QQRmEJNF70vv38frMQ5ZxfZUMkCtNCatkCI2VgDAVG4unTdVt55MSP6GSX8aGnW36JsCAGy7G8Dncz5Im1LVS.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/HqkqHhc38Kpe2qRPAP4Jr0bMlfdFuy9QiuLw7yQaAf7vRLCzl5dqxhOYxVP5czjZkLlurZ8fbeZhhLuJPVmO3Goj.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/F1iWywTZxDFRL6i8jQNHRuA64zq7kAteV26pmkcCBGlcVdEa0rbwLY3SSEJZC4W28B5vG7ad1mI6g0vNLNLFEnpn.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/UmCVmn1o7EqWhJrgU45fnZUPst0Aw6645rowJ6J8VwgAi6qtYvtx01kp0a2xD67ZaszDBswLLXGwpfSpWrMrSA8y.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/pMZ7GO1vi3gsj59wcZihEZZBzsqTuT6zN3ZGHRlqtoqybBJ1k9C1xTAwCO7B0V8noh52dL5Y69bAENNmAODaaljO.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/3qhk85gaQ0ay1qbe5uTD0Iu3AnOfRSL32EbYtXhM0TahIRG0ROM8CUqfUdjjltTAbfFz3pAlc5PWQS7JW5pfpt15.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/IkW4obMs2Wb2RnJlQPaGGRV1JXDqxxTXFdeV4eXG88uHdQzPp3vFCUnmsZBAT7eJMgmOls8iOABVpoyvmSqRHlYA.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ZdkQYextOdIIgtg5OkJPnIpFZjGCdEe6pcbE9F7cSaGXNhyAcvbVIPwT1vDgcsdD8xaE6UC6CCxd1x8cYqgLjhes.png)
-
28
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jul 07, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.4759MB