Machine learning et Data Mining Introduction Jamal Atif jamal.atif@dauphine.fr
Machine learning et Data Mining Introduction Jamal Atif jamal.atif@dauphine.fr Certificat Data Science Université Paris-Dauphine 1 / 42 Jamal Atif CDS-Dauphine Introduction Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 2 / 42 Jamal Atif CDS-Dauphine Introduction ADM, c’est quoi ? Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 3 / 42 Jamal Atif CDS-Dauphine Introduction ADM, c’est quoi ? Le Machine Learning et Data Mining, qu’est-ce que c’est ? 4 / 42 Jamal Atif CDS-Dauphine Introduction ADM, c’est quoi ? Question de vocabulaire... (1) Attention : ▶historiquement : plusieurs « points de départ » ▶domaine récent dont le vocabulaire n’est pas fixé ▶évolution rapide ▶domaine applicatif versus domaine de recherche 5 / 42 Jamal Atif CDS-Dauphine Introduction ADM, c’est quoi ? Question de vocabulaire... (2) ▶reconnaissance des formes (pattern recognition) ▶analyse de données ▶apprentissage automatique (machine learning) ▶fouille de données (data mining) ▶intelligence artificielle ▶statistique ▶... ⇒domaines différents avec des intersections plus ou moins grandes Data Sciences 6 / 42 Jamal Atif CDS-Dauphine Introduction ADM, c’est quoi ? Dans ce cours Définition Ensemble de techniques permettant l’extraction de connaissances sous la forme de modèles à partir de grandes masses de données Ces modèles peuvent être de nature ▶descriptive : permettant d’expliquer le comportement actuel des données ▶prédictive : comportement futur des données. 7 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 8 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Dans l’industrie Carte de crédit ▶tous les achats sont enregistrés ▶détection des fraudes/comportement à risque ▶ciblage ▶accord de prêt ▶... Navigation Web ▶historique de la navigation ▶ciblage/marketing ▶optimisation des sites / du traffic ▶... 9 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Pour la science fMRI ▶functional Magnetic Resonance Imaging ▶variation de pression sanguine en réponse à des stimuli ▶brain computer interface Big Science ▶détecteur ATLAS du CERN ▶40M événements par secondes, 25Mo par événement ▶1Po de données générées par secondes à analyser ▶même situation en biologie, astronomie, ... 10 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Pour la société ▶tous les textes et discussion du parlement européen sont disponibles... ▶...avec leur traduction/interprétation ▶corpus parallèle : les phrases sont alignés ▶utilisable pour apprendre : ▶des dictionnaires ▶des systèmes de traduction automatique ▶des mémoires de traduction ▶⊕analyse « politique » des données 11 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Et encore ▶Smart Cities ▶Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les rails souhaitant suivre en temps réel l’état de son réseau... ▶Analyse de qualité de partenariat : cadres, signature d’un contrat avec un prestataire, pour une qualité de service et de respect de normes nationales ou supra-nationales. = ⇒étude des publications, presse, dépêches, tweets + information interne pour quantifier les cas de non respect ou de respect des engagements. ▶Historique des passages de frontières, etc. 12 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Une grosse quantité de données qui n’est jamais analysée ⇒mettre en place des mécanismes d’analyse automatique. Big Data 13 / 42 Jamal Atif CDS-Dauphine Introduction L’ADM, pourquoi ? ADM : composants de base Grande quantité de données + algorithmes efficaces Un domaine qui s’appuie sur : ▶La disponibilité de grandes quantités de données ▶Si ensemble trop petit, les structures peuvent ne résulter que du hasard. ▶On peut espérer qu’un gros volume de données représente bien l’univers (échantillon). ▶Des algorithmes sûrs et efficaces ▶Algorithmes sûrs : fondés théoriquement, corrects. ▶Efficaces en temps et en espace. ▶Résultats interprétables. ▶Paramètres ajustables facilement et rapidement. 14 / 42 Jamal Atif CDS-Dauphine Types de données Exemples de données disponibles Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 15 / 42 Jamal Atif CDS-Dauphine Types de données Exemples de données disponibles Les données ? Les données peuvent être vues comme une collection d’objets (enregistrements) et leurs attributs. ▶Un attribut est une propriété et ou une caractéristique de l’objet. ▶Un ensemble d’attributs décrit un objet. 16 / 42 Jamal Atif CDS-Dauphine Types de données Exemples de données disponibles Attribut - valeur ▶La valeur d’un attribut est un nombre ou un symbole. ▶Ne pas confondre attribut et valeur Types ▶Quantitative (numérique, exprime une quantité) ▶Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur) ▶Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI) ▶Qualititative ▶Variable ordinale (classement à un concours, échelle de satisfaction client) ▶Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe) ▶Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données ex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont {bleu,vert,noir,...} 17 / 42 Jamal Atif CDS-Dauphine Types de données Exemples de données disponibles Exemple de données disponibles ▶Transactions. ▶Bases de données des entreprises. ▶Téléphone portable. ▶Satellites : espace et la terre. ▶Données temporelles : cours de la bourse, météo. ▶Génomique. ▶Données du web. ▶Données textuelles. ▶... 18 / 42 Jamal Atif CDS-Dauphine Types de données Types de connaissances extraites Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 19 / 42 Jamal Atif CDS-Dauphine Types de données Types de connaissances extraites Types de connaissances extraites Connaissances sous la forme de modèles de permettant de ▶décrire le comportement actuel des données et/ou ▶prédire le comportement futur des données. ▶Analyses ▶e.g. distribution du trafic routier en fonction de l’heure ▶Règles ▶e.g. si un client a acheté un produit alors il sera intéressé par un autre. ▶Attribution de scores de qualité ▶e.g. score de fidélité au client ▶Classification d’entités ▶e.g. mauvais payeurs. 20 / 42 Jamal Atif CDS-Dauphine Familles d’approches Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 21 / 42 Jamal Atif CDS-Dauphine Familles d’approches Typologie des méthodes de fouilles de données Typologie selon l’objectif ▶Classification : examiner les caractéristiques d’un objet et lui attribuer une classe. e.g. diagnostic ou décision d’attribution de prêt à un client. ▶Prédiction : prédire la valeur future d’un attribut en fonction d’autres attributs. e.g. prédire la qualité d’un client . ▶Association : déterminer les attributs qui sont corrélés. e.g. analyse du panier de la ménagère ▶Segmentation : former des groupes homogènes à l’intérieur d’une population. 22 / 42 Jamal Atif CDS-Dauphine Familles d’approches Typologie des méthodes de fouilles de données Typologie selon le type de modèle obtenu ▶Modèles prédictifs. ▶Utilisent les données existantes et des résultats connus sur ces données pour développer des modèles capables de prédire les valeurs d’autres données. e.g. Prédire les clients qui ne rembourseront pas leur crédit. ▶Utilisés principalement en classification et prédiction. ▶Modèles descriptifs. ▶Proposent des descriptions de données pour aider à la prise de décision. ▶Souvent en amont de la construction de modèles prédictifs. ▶Utilisés principalement en segmentation et association. 23 / 42 Jamal Atif CDS-Dauphine Familles d’approches Typologie des méthodes de fouilles de données Typologie selon le type d’apprentissage utilisé ▶Apprentissage supervisé : fouille supervisée ▶Processus qui prend en entrée des exemples d’apprentissage contenant à la fois des données d’entrée et de sortie. ▶Les exemples d’apprentissage sont fournis avec leur classe. ▶But : classer correctement un nouvel exemple. ▶Utilisés principalement en classification et prédiction. ▶Apprentissage non supervisé : fouille non supervisée ▶Processus qui prend en entrée des exemples d’apprentissage contenant que des données d’entrée ▶Pas de notion de classe ▶But : regrouper les exemples en paquets (clusters) d’exemples similaires. ▶Utilisés principalement en segmentation et association. 24 / 42 Jamal Atif CDS-Dauphine Familles d’approches Dans ce cours, nous adoptons la typologie selon le type d’apprentissage utilisé. 25 / 42 Jamal Atif CDS-Dauphine Familles d’approches Apprentissage supervisée Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé 26 / 42 Jamal Atif CDS-Dauphine Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe : étant donné un ensemble de données étiquetées S = {⟨xi, yi⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données uploads/Philosophie/ cours-classification-m-learning-intro-16.pdf
Documents similaires










-
45
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 07, 2022
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 4.3034MB