1) Retour sur le cours 2 (Why) 2) Big Data / IA / Data mining /… BI : Quoi (Wha
1) Retour sur le cours 2 (Why) 2) Big Data / IA / Data mining /… BI : Quoi (What) https:/ /le-datascientist.fr/le-vocabulaire-de-la-data-science-les-mots-a-connaitre Le data workflow 3) Profils des postes (Who, How et Where) exemples d’entreprises/projets avec du Big Data 4) Quelques offres d’emploi récentes relier les concepts à ceux vus en classe identifier lequels des 7 éléments du data workflow se retrouvent dans l’offre d’emploi. 5) Varia: Le TP Au fait, la variété des données OK, mais le volume et la vitesse, qu’ont-ils entraîné ? Retour sur le cours 2 : les points importants : ACID/BASE : local-transaction NoSQL : BDOG, BDOC, ECV, BDOD CAP : global Scale-up/Scale out https://i0.wp.com/blog.zenika.com/wp- content/uploads/2019/06/QQOQCP- 1024x729-1.jpg?ssl=1 QQOQCCP WWWWWH https:/ /medium.com/faun/scalability-248019b918ed Volume Vitesse Variété Systèmes distribués Données structurées Données semi structurées Données non structurées Systèmes en mode « service » SGBDR NOSQL Framework Hadoop CAP ou pas CAP ACID BASE Blockchain et théorème CAP : AP https:/ /paulkernfeld.com/2016/01/15/bitcoin-cap-theorem.html NoSQL https:/ /www.freecodecamp.org/news/nosql-databases-5f6639ed9574/ Cohérence (ACID) et intégrité référentielle / intégrité https:/ /www.sqa.org.uk/e-learning/MDBS01CD/page_37.htm ACID et NoSQL : référence plus technique mais intéressant sur les tendances NoSQL https:/ /blog.yugabyte.com/nosql-databases-becoming-transactional-mongodb-dynamodb-faunadb-cosmosdb/ BigData – Data Science – Machine Learning – IA - … BI voir la suite https:/ /medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca Data mining : c’est un processus de mise en application d’algorithmes spécifiques afin d’extraire des patterns/motifs/modèles/tendances dans les données. Pattern : structurer le non structuré Big Data : comment répondre aux 3 V et en extraire de la valeur IA : Artificial intelligence (AI) vise à créer des machines intelligentes qui travaillent et réagissent comme des êtres humains. Machine Learning : se concentre sur la question de construire des programmes informatiques qui s’améliorent d’eux-mêmes de par leur expérience/leur apprentissage Deep learning. est le processus qui consiste à appliquer les technologies/algorithmes du deep learning (apprentissage profond – supervisé – par couches de neurones) afin de résoudre des problèmes. Data science – Science des données : un mélange interdisciplinaire de développement d’algorithmes, de technologies et d’inférences sur les données afin de résoudre des problèmes complexes. https:/ /medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca https:/ /medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca outils processus Les 4 aires de compétences techniques du data scientist https:/ /www.slideshare. net/DeZyre/how-big- data-is-transforming-bi https:/ /tdwi.org/articles/2017/12/05/bi-all-understanding-differences-data-science-and-bi.aspx Cours Amor Amami / ML BI-Databases versus Data Science BI-Databases versus Data Science https:/ /blog.revolutiona nalytics.com/2013/05/ statistics-vs-data- science-vs-bi.html https:/ /www.linkedin.com/pulse/data-science-business-intelligence-whats-difference-david-rostcheck/ BI-Databases versus Data Science https:/ /infocus.delltechnologies.com/william_schmarzo/dynamic-duo-analytic-power-business-intelligence-analyst- plus-data-scientist/ https:/ /data-flair.training/blogs/business-intelligence-vs-data-science/ Apprentissage machine Entrepôt de données Données non structurées Hadoop Analyse de texte Exploration des données Tableau de bord des résultats financiers Enrichissement de données NoSQL Que s’est-il passé Que se serait-il passé si ? Single version of truth ACID CAP Forecast Méthodes statistiques Modélisation des données Modèle d’apprentissage Intelligence artificielle BI Science de données 1) Imaginer un produit / une solution 2) Collecter les données 3) Préparer les données 4) Concevoir un modèle 5) Visualiser les résultats 6) Optimiser le modèle 7) Déployer et industrialiser Comprendre le besoin d’affaires Travailler avec les données Communiquer les résultats https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework- 473960b2da90 CRISP-DM : Cross Industry Standard Process for Data Mining https:/ /data-flair.training/blogs/wp- content/uploads/sites/2/2019/04/data-science-steps.jpg https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/ 15% du temps ML : 5% du temps Travailler avec les données : 60 % du temps Comprendre le besoin d’affaires : 20% du temps Datalab Une organisation qui a un chiffre d’affaires de $50M, mais qui a un taux de désintérêt de 10% perd 5M$/année. Si la science de données me permet de prédire ceux qui vont quitter, et de mettre en place des stratégies de rétention ciblées, qui seraient efficaces à 20%, cela permettrait de sauver $1M/année. Nous voulons mettre en place une solution en 7 phases. Nous allons voir les deux premières. La première étant de comprendre le besoin d’affaires/imaginer une solution. - Besoin d’affaires : diminuer le churn de 20% - Solution : concevoir un modèle qui permettra de prédire quels clients se désintéressent de nos produits La deuxième étant la collecte de données : quelles seront les données que vous allez collecter ? - Que remarquez vous : il faut une bonne connaissance du métier pour effectuer les bons choix : comment mesurer “objectivement” le désintérêt ? Dans le volume des données Dans la nature, des données (variété) Dans la vitesse, le traitement des données Dans le cas du désintérêt du client (churn), quels seraient les données de type Big Data qui pourraient être utiles ? Soyez créatifs ! Why Pression 3V Besoins d’affaires Quand FAUT-il utiliser le Big Data Where Quels projets, entreprises… Who Métiers du Big Data When How Big Data NoSQL HDFS MapReduce IA ML What https:/ /www.geek ering.com/?p=10 30 Communication/Visualisation Statistiques/Mathématiques Programmation et base de données Business https://www.semanticscholar.org/paper/Data-Scientist%3A-The-Engineer-of-the-Future-Aalst/4470e53d2d28f93382de82f8f4365f7514b9f4cf/figure/7 https:/ /www.slideshare.net/productschool/exploring-what-a- typical-data-science-project-looks-like https:/ /www.kdnuggets.com/2020/0 3/nine-lessons-first-year-data- scientist.html https:/ /data-flair.training/blogs/big-data-vs-data-science/ https:/ /data-flair.training/blogs/big-data-vs-data-science/ •The roles of Data Scientist and Big Data specialist also differ. •A Data Scientist is required to analyze, draw insights from the data, visualize the data and communicate the results through robust storytelling. •A Big Data Specialist, on the other hand, develops, maintains and administers Big Data clusters that hold the voluminous amount of data. •Recently, the line between Big Data and Data Science has been becoming lesser. This is because recent Big Data platforms like Spark and Flink have data analytical engine as part of their framework. Even the older platform like Hadoop has released Mahout, which is the data analytical engine comprising of machine learning algorithms. This makes the Big Data platform comprehensive and inclusive of all the data science tools. https:/ /www.whizlabs.com/blog/data-science-vs-big-data-vs-data-analytics/ https:/ /searchdatamanagement. techtarget.com/feature/Data- management-roles-Data- architect-vs-data-engineer- others https:/ /data-flair.training/blogs/data-scientist-vs- data-engineer-vs-data-analyst/ Développe les solutions Big data établies par l’architecte à l’aide des outils mis en place par l’admin. Extrait, transforme, manipule, maintient et teste les données. Programmation informatique (ex.: Java, Python, R, Scala, SQL, etc.) •Data warehousing et NoSQL •Grandes capacités analytiques (comparables aux data scientists) •Grande connaissance des systèmes distribués Obtient et organise le Big Data. Aide ses partenaires d’affaires à interpréter et à comprendre les données. •Mathématiques, statistiques et programmation informatique •Logiciels BI (Tableau, MicroStrategy, SAP, PowerBI, etc.) •Aptitudes analytiques •Capacité de communication (data story telling) Expert en analyse de données ayant de très grandes aptitudes techniques en modélisation de données pour solutionner les problèmes le plus complexes d’une organisation à l’aide des données et ayant aussi la curiosité nécessaire pour explorer les problèmes sur lesquels l’organisation devrait se pencher. •Mathématiques, statistiques et de niveau académique (M.Sc. Ou PhD) •Connaissances en programmation informatique de niveau «hacker» •Créativité analytique accrue •Capacité de communication (data story telling) https:/ /www.kdnuggets.com/2017/02/analytics-grease- monkeys.html uploads/Finance/ bd2-cours3-vfinale.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/yVJyzr5VOewHsZw4fiUN9YRTmOmIQlhaDP6FHMZV1ozZahA35dC6NW4bXKgAXn8L1YgSbOBSGmC7Bo2eg7Xwhzy3.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/G8kiTNJ500kesJYmbNcyMFlIUIbJaK4kiWMVnLqhZjS42VnEkMI2swmdI0aXd3l9ngTbExWiHOepz9tKvVJCOfPD.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/0LP74fUBDy01D6UOVSiS2Kwa9QI41yVNXyv8jPxv7WbaVXvbzOGK5rXtz3JnnpDKIfnVpSHDiaUMDa4q6kcgAS89.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/23eSmJptuX0GiF85O5iMxiHfFS6s8Ist7IsGeZTn8z5iKZ7wxhl3Ray4bGxa4dwfpGZf2j2YBIo9Chg5mngYyFaZ.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/osx41Z4NV5tG0OQBQkNqZWhIdBTQKn226ZxSvWxnoeJ1vGTD2O2gS6ir7LuEQh0KHztUUa41puBHYXoapjYmJcIF.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/y0Uz7RmhPWbBMoiDauPO0bkFNDnjwebu3PtpJOxSf33TKisKiUmI5j0oOwEvyk6wks1Xnhaw6W8i2HtgYybRNTCU.png)
-
22
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 26, 2022
- Catégorie Business / Finance
- Langue French
- Taille du fichier 7.1190MB