Data Science for business and finance Présenté par : Pr. Achraf BERRAJAA Outlin
Data Science for business and finance Présenté par : Pr. Achraf BERRAJAA Outline Scikit learn & Machine Learning Applications réelles de Kaggle et Github Machine learning Projet Introduction 1 Introduction Machine learning Scikit learn & Machine Learning Applications réelles de Kaggle et Github Projet Problem statement 3 • Intelligence artificielle • Big Data • Data Science • Machine Learning application • Kaggle • Outils nécessaires pour l'apprentissage automatique Introduction Scikit learn & Machine Learning Projet • Machine learning Regression • Classification and Logistic Regression • Unsupervised ML Machine learning • Decision Tree • Random forest • K Nearest Neighbours • Naives Bayes …. Applications réelles de Kaggle et Github • Sklearn Library • Tensorflow et Keras 4 Introduction Introduction 5 Sciences de données L’industrie La classification des images, l’analyse vidéo, la reconnaissance des formes, traitement automatique des langues. Biens de consommation Sélections des produits, classification des clients ... La médecine Les algorithmes de traitements d’image médicale requièrent de grandes capacités de calcul. Les télécommunications La transmission en parallèle, les réseaux de communication… Les calculs financiers Le calcul des prix et des risques associés aux options les plus complexes. La logistique La planification de la production, transport, acheminement automatique … Introduction 6 Qu'est-ce que l'apprentissage automatique ? L'apprentissage automatique (en anglais : machine learning), apprentissage artificiel est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'apprendre à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune (Wikipédia). Qu'est-ce que Intelligence artificielle ? L'intelligence artificielle (IA) est l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence humaine. Comme la capacité d’apprendre des décision non explicitement programmés. Introduction 7 C′est très basique pour un humain de reconnaître que c′est un chat en revanche si je vous demande pourquoi c′est un chat ?? Les explication selon les gens peut être différents, alors comment on peut rentrer cette définition là et cette compréhension que ça c′est un chat à un système par des simple règles. C′est pas possible. La solution : faire apprendre au système que ça c′est un chat. Donc le système qui va devoir comprendre par lui même que ça c′est un chat. C’est un chat !! Il faut lui monter énormément d′image de chat (des milliers) et spécifier que se sont des chats, le système va devoir analyser les images et il sera capable à extraire dans les images qu′est ce qui fait que tous ça c′est un chat. Le fonctionnement !! Introduction 8 Introduction 9 Introduction 10 Data Science ? La science des données est un mélange multidisciplinaire d'inférence de données, de développement d'algorithmes et de technologie afin de résoudre des problèmes analytiquement complexes. Data science is a multidisciplinary blend of data inference, algorithm development, and technology in order to solve analytically complex problems. Machine learning ? L′apprentissage automatique est un champ d′étude de l′intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d′ « apprendre » à partir de données. Avec le machine learning, on passe d′une informatique impérative basée sur des hypothèses à une informatiques probabiliste basé sur des informations réelles. 11 Machine learning Que sont les données ? Une donnée est "le résultat d′une observation faite sur une population ou sur un échantillon". Une donnée est donc un nombre, une caractéristique, qui m′apport une information sur un individu, un objet ou une observation." Par exemple, 40 est un nombre sans intérêt, mais si quelqu’un vous dit “j’ai 40 ans”, 40 devenu une donnée qui vous permettra d’en savoir plus sur lui. Généralement, on lie les données à des variables parce que le nombre/la caractéristique varie si on observer plusieurs objets/individus/observations. 12 Machine learning Les principaux type de données ? On distingue généralement les données quantitatives et les donnée qualitatives. Les données quantitatives sont des valeurs qui décrivent une quantité mesurable. sous la forme de nombres sur lesquels on peut faire des calculs (moyenne, etc.) et des comparaisons (égalité/différence, infériorité/supériorité, ...). Elles répondent typiquement à des questions du type «combien» On fait parfois la différence entre : • les données quantitatives continues, qui peuvent prendre n’importe quelle valeur dans un ensemble de valeurs : la température, le taux de chômage, ect ; • et les données quantitatives discrètes, qui ne peuvent prendre qu’un nombre limité de valeurs dans un ensemble de valeurs : le nombre d’enfants par famille, le nombre de pièces d’un logement, etc. 13 Machine learning Les principaux type de données ? Les données qualitatives décrivent quant à elles des qualités ou des caractéristiques. Elles répondent à des questions de la forme « quel type » ou « quelle catégorie ». Ces valeurs ne sont plus des nombres, mais un ensemble de modalités. On ne peut pas faire de calcul sur ces valeurs. les données qualitatives nominales (ou catégorielles), dont les modalités ne peuvent être ordonnées. Par exemple : la couleur des yeux (bleu, vert, marron, etc.), le sexe (homme, femme), la région d’appartenance (68, 38, etc.) ; et les données qualitatives ordinales, dont les modalités sont ordonnées selon un ordre « logique ». Par exemple : les tailles de vêtements (S, M, L, XL), le degré d’accord à un test d’opinion (fortement d’accord, d’accord, pas d’accord, fortement pas d’accord). Type de données Opérations supportées Quantitatives continues Calculs, égalité/différence, infériorité/supériorité Quantitatives discrètes Calculs, égalité/différence, infériorité/supériorité Qualitatives nominales Égalité/différence Qualitatives ordinales Égalité/différence, infériorité/supériorité Les opération supportées par chaque type de données 14 Machine learning D’où viennent les données ? La réponse à cette question n’est pas bien difficile : elles viennent de partout ! En premier lieu, distinguons les données dites privées des données publiques. • Les données privées : sont tout simplement les données qui en théorie n’appartiennent qu’à vous ou à votre organisation. • Les données publiques : accessibles par tout le monde. Dans ce cas, vous disposez d’une source de données quasi infinie : "Internet " Big Data Ensembles de données extrêmement volumineux qui peuvent être analysés par ordinateur pour révéler des modèles, des tendances et des associations, en particulier concernant le comportement humain et les interactions. Introduction 15 Parmi les données on trouve : des images et des vidéos. Ces objets, assez complexes à manipuler, sont dits non structurés. À l’opposé, les données les plus faciles à traiter comme les bases de données, qui sont indexées, elles sont dites structurées. Sachez qu’il existe un niveau de structuration intermédiaire, dit semi−structuré. Niveau de structuration Modèle de données Exemples Facilité de traitement Structuré Système de données relationnel objet/colonne Base de données d’entreprise Facile (Indexé) Semi-structuré XML, JSON, CSV, logs API Google, API Twitter, Web, logs Facile (Non indexé) Non structuré Texte, image, vidéo Web, e-mail, documents Complexe Les différents niveaux de structuration des données 16 Le filtrage des e-mails est le traitement des e-mails pour les organiser selon des critères spécifiés Un véhicule autonome est un véhicule automobile apte à rouler, sur route ouverte, sans intervention d'un conducteur. Les systèmes de recommandation sont une forme spécifique de filtrage de l'information visant à présenter les éléments d'information qui sont susceptibles d'intéresser l'utilisateur. Filtre anti-spam Véhicule autonome (Self-driving car) Système de recommandation Introduction Machine Learning application Un système de reconnaissance faciale est une application logicielle visant à reconnaître une personne grâce à son visage de manière automatique. Système de reconnaissance faciale 17 Introduction L'apprentissage supervisé est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés (avec Target). L'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées. L'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps 18 Machine learning Apprentissage supervisé et non supervisé 19 Machine learning Apprentissage supervisé et non supervisé Les algorithmes supervisés extraient de la connaissance à partir d’un ensemble de données contenant des couples entrée−sortie. • Ces couples sont déjà « connus », dans le sens où les sorties sont définies a priori. • La valeur de sortie peut être une indication fournie par un expert : par exemple, des valeurs de vérité de type OUI/NON ou MALADE/SAIN. • Ces algorithmes cherchent à définir une représentation compacte des associations entrée−sortie, par une fonction de prédiction. les algorithmes non supervisés n’intègrent pas la notion d’entrée−sortie. • Toutes les données sont équivalentes (on pourrait dire qu’il n’y a que des entrées). • Les algorithmes cherchent à organiser les données en groupes. • Chaque groupe doit comprendre des données similaires et les données différentes doivent se retrouver dans des groupes distincts. 20 Machine learning Apprentissage supervisé et non supervisé Imaginons un ensemble d’individus décrits par deux variables d’entrée, X1 et X2. Dans le cas d’un apprentissage supervisé, il faudra ajouter une variable de sortie Y, qui pourra par exemple prendre deux valeurs {O, X}. L’algorithme proposera alors une fonction uploads/Industriel/ data-science-for-business-and-finance 1 .pdf
Documents similaires










-
32
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 02, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 2.3826MB