7 Introduction à la Data Science 8 Introduction à la Data Science Qu’est-ce qu’

7 Introduction à la Data Science 8 Introduction à la Data Science Qu’est-ce qu’on entend par « Data Science » ? « La data science (ou science des données) est un domaine interdisciplinaire, qui emprunte au business, aux statistiques et à l’informatique diverses méthodes, processus et algorithmes pour extraire des informations des données. » 01 Définition 9 Qu’est-ce qu’on entend par « Data Science » ? Si on devait représenter schématiquement la Data Science, on pourrait le faire de la façon suivante : Introduction à la Data Science 01Développementd’applicationsAnalyseexploratoire Modélisation et algorithmie DATA SCIENCE Statistiques Vision Business Informatique 10 Un peu d’histoire… Même si le domaine s’est beaucoup démocratisé ces 10 dernières années, la data science est en réalité beaucoup plus âgée qu’elle n’y parait… Introduction à la Data Science 01 1959 1991 1997 2016 1er cas concret de machine learning : un programme apprend à jouer aux dames Première apparition de l’expression “data science” (Peter Naur) Un algorithme de Machine Learning (Deeper Blue) bat le champion du monde d’échecs Un algorithme de Deep Learning (AlphaGo) bat le champion du monde de Go 11 Introduction à la Data Science Un peu d’histoire… La data science existe depuis des décennies... Alors pourquoi ce nouvel élan ?  Explosion de la quantité des données produites et collectées  Stockage des données plus économique  Augmentation exponentielle des capacités de calcul des ordinateurs  Amélioration d’accessibilité aux algorithmes 01 12 Introduction à la Data Science Quelques domaines d’application Lorsqu’on parle de Data Science, on englobe beaucoup de domaines d’application possibles. Les domaines les plus courants sont : Dans le cadre de cette formation, nous nous intéresserons tout particulièrement au Machine Learning. 01 Apprentissage automatique d’une machine à partir de données Traitement et compréhension automatique d’un langage numérisé Transformation d’un signal sonore en données ou inversement Reconnaissance et traitement d’images ou de caractères DATA SCIENCE MACHINE LEARNING NATURAL LANGUAGE PROCESSING SPEECH ANALYTICS COMPUTER VISION 13 Introduction à la Data Science Le Machine Learning par l’exemple Quotidiennement : J’apprends les langues avec Je regarde des films sur Professionnellement : Détection des fraudes, évaluation des risques de crédit, cybersurveillance… Amélioration des diagnostiques, évaluation en temps réel de l’état de santé… Analyse de ce que les clients disent d’une société sur Twitter… 01 14 Le Machine Learning par l’exemple - Duolingo L’application Duolingo utilise la gamification pour inciter ses utilisateurs à rester sur l’application et ainsi apprendre une nouvelle langue. Son design a été pensé pour être fun et addictif, contrastant avec des méthodes plus traditionnelles d'apprentissage du langage. Introduction à la Data Science 01 15 Introduction à la Data Science Le Machine Learning par l’exemple - Duolingo En utilisant les données recueillies à partir des réponses des utilisateurs, Duolingo a développé un algorithme de Machine Learning basé sur la durée pendant laquelle une personne est susceptible de se remémorer d'un certain mot avant d'avoir besoin d'un rafraîchissement. Grâce à ces informations, Duolingo sait quand il faut envoyer une notification aux utilisateurs qui pourraient bénéficier d'une nouvelle leçon. 01 16 Le Machine Learning par l’exemple - Netflix Netflix utilise le Machine Learning afin de trouver des séries pour ses utilisateurs, séries qu'ils n'auraient peut-être pas choisies au départ. L’algorithme utilisé prend en compte le genre de la série regardée, mais aussi des informations additionnelles qui ne sont pas apparentes au premier abord. Introduction à la Data Science 01 17 Le Machine Learning par l’exemple - Netflix Netflix se repose notamment sur un système de tags (parfois plus de 50 par série) pour affiner ses recommandations. L’algorithme analyse ce que les utilisateurs regardent, ce qu’ils ont regardé auparavant. Avec cet historique, il construit des recommandations personnalisées à l’ensemble de sa base. Introduction à la Data Science 01 18 Définition du Machine Learning 19 Définition du Machine Learning Qu’est-ce qu’on entend par « Machine Learning » ? « Le Machine Learning (ou apprentissage automatique) est un domaine qui utilise les approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'apprendre à partir de données et d’améliorer leurs performances dans l’exécution d’une tâche spécifique, sans être explicitement programmés pour le faire. » 02 Définition 20 Définition du Machine Learning Qu’est-ce qu’on entend par « Machine Learning » ? Si on devait résumer le Machine Learning, on pourrait dire que c’est le fait : 02 D’apprendre à une machine… À optimiser ses performances… …sans faire appel à la Programmation 21 Les données et le Machine Learning Pour apprendre, les modèles ont besoin d’énormément de données. La notion d’apprentissage itératif est importante, car les modèles peuvent être adaptés lorsqu’ils sont exposés à de nouvelles données, en apprenant à nouveau. Définition du Machine Learning 02 22 Les données et le Machine Learning Les données constitueront un ensemble de variables qualitatives et quantitatives. Elles pourront provenir de sources de données structurées (données numérisées) ou non (images, signaux, vidéos, textes…), lisibles par une machine ou non, personnelles ou non... Définition du Machine Learning 02 Mais concrètement, comment une machine s’y prend pour apprendre des données et prédire des évènements ? 23 Le Machine Learning par l’exemple – cas concret Prenons un exemple concret : essayons d’enseigner à un ordinateur comment prédire si la pluie va tomber ou non dans l’heure qui vient. On sait que la prévision météo n’est pas fiable à 100%. On n’a pas de formule toute faite à donner à l’ordinateur pour qu’il nous donne cette estimation. C’est dans ce cas précis qu’on peut faire appel au Machine Learning. Définition du Machine Learning 02 24 Le Machine Learning par l’exemple – cas concret On connait les circonstances qui accompagnent généralement la pluie : la présence de nuages, la force du vent, le taux d’humidité… En donnant ces informations à notre modèle et en lui indiquant dans quels cas des évènements pluvieux ont été enregistrés par le passé, on donne de quoi construire un modèle de prévision à notre machine. Le modèle s’entraîne sur les données. À la fin de son apprentissage, si on lui présente de nouvelles données météo, il sera capable de prédire s’il va pleuvoir ou pas. Définition du Machine Learning 02 25 Définition du Machine Learning Le Machine Learning par l’exemple – cas concret Plus schématiquement, voilà comment représenter l’exemple évoqué plus tôt : 02 Modélisation Machine Learning Application du modèle Modèle Présent Entraînement du modèle Passé Historique des données Historique = nuage, vent, humidité… Résultat = il pleut / il faut beau A partir de nouvelles données météo… …va-t-il pleuvoir ou faire beau ? Futur Prévisions météoNEW 26 Définition du Machine Learning Le glossaire du Machine Learning Le Machine Learning possède son propre langage et ses propres codes. Pour apprendre à parler le Machine Learning, penchons-nous sur ses mots clés : 02 DATASET (FR : jeu de données) FEATURE (FR : variable explicative) TARGET (FR : variable à expliquer) OUTLIERS (FR : valeurs extrêmes) C’est votre jeu de données. Le plus souvent, il prend la forme d’un tableau (EN : DataFrame) ou d’une matrice de données (EN : Array). Ce sont les variables de votre dataset que vous utiliserez pour prédire ce que vous cherchez. C’est la variable de votre dataset que vous souhaitez prédire, celle qui doit être expliquée par votre modèle. Ce sont des données qui sont particulièrement élevées ou basses par rapport à la majorité des valeurs qu’on observe pour une variable. Elles sont soient extrêmes (mais possibles) “j’ai 95 ans” soient aberrantes (donc impossibles) “j’ai 175 ans” 27 Méthodes d’apprentissage du machine learning 28 Les différentes méthodes d’apprentissage en Machine Learning Introduction sur l’apprentissage en Machine Learning Votre machine peut apprendre de 2 méthodes différentes à partir de données : C’est ce que vous cherchez à faire avec vos données ainsi que leur forme qui va définir l’utilisation d’une méthode par rapport à une autre Les données seront le carburant nécessaire pour faire fonctionner votre modèle de Machine Learning. C’est exactement comme avec votre voiture : en fonction de son moteur, vous allez mettre du Gazole ou du Sans-plomb ? Et bien c’est la même chose ici ! Les données sont le carburant, le modèle de Machine Learning le moteur. 03 L’apprentissage non supervisé L’apprentissage supervisé 29 Les différentes méthodes d’apprentissage en Machine Learning Introduction sur l’apprentissage en Machine Learning Je sais ce que je cherche à prédire et j’ai déjà des données en guise d’exemple à fournir à ma machine 03 Je ne sais pas encore ce que je cherche mais je souhaite explorer mes données NON SUPERVISÉ SUPERVISÉ Entrée Sortie ? 10 L’apprentissage non supervisé L’apprentissage supervisé 30 Focus sur l’apprentissage supervisé En apprentissage supervisé, on cherche à construire un modèle qui explique ce que l’on cherche à prédire (notre target) en fonction de plusieurs autres variables en entrée (nos features). Pendant la phase d’apprentissage, on donne à notre machine le résultat attendu en fonction de d’autres données en entrée. La machine apprend à détecter les liens qui vont lui permettre d’associer un résultat à un certain nombre de données. Les différentes méthodes d’apprentissage en Machine Learning 03 Ici, Chien = uploads/Science et Technologie/ ia-le-machine-learning.pdf

  • 12
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager