Introduction au Machine learning et à la classification supervisée Agathe Guill
Introduction au Machine learning et à la classification supervisée Agathe Guilloux Introduction Outline I Introduction Big data / Data Science Exemples de cas d’usage Un focus sur le Machine Learning/Apprentissage statistique Apprentissage non-supervisé Retour sur les cas d’usage Le problème de classification Exemples Classification Approche probabiliste / statistique Analyse discriminante Classifieur constants sur une partition Minimisation de l’erreur, méthodes basées sur l’optimisation Bornes sur les risques Text mining: comment transformer un texte en un vecteur numérique ? Hashing Bag of Words Mots et Word Vectors Organisation du cours ▶Programme ▶Jour 1 : big data / data science + notebook “ds_with_python” ▶Jour 2 et 3 : algorithmes de classification + “classification_gro” ▶Jour 4 : text mining + “notebook_imdb” ▶Evaluation ▶par équipe de 3, analyser le jeu de données “amazon reviews” https://www.kaggle.com/bittlingmayer/amazonreviews ▶soutenances de 15 minutes avec une présentation le 26/09. Big data / Data Science Vocabulaire et buzz words ▶Statistique ▶Intelligence artificielle (AI) ▶Machine Learning (ML) ▶Big Data ▶Data Science ▶Deep Learning (DL) ▶et ensuite ?? Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Wikipedia ▶Le Big data est un terme désignant des ensembles de données si importants et complexes qu’il devient difficile de les analyser en utilisant des applications de traitement de données traditionnelles. ▶La Statistique est l’étude de la collecte, de l’analyse, de l’interprétation, de la présentation et de l’organisation des données. ▶L’Intelligence artificielle est définie comme l’étude d’agents intelligents: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussir. ▶Le Machine learning ou apprentissage statistique est un champ d’étude de l’intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données. ▶La Data science/ Science des données est l’étude de l’extraction généralisable de connaissances à partir de données, mais le mot clé est science ! Data Science Les influences majeures Quatre influences majeures agissent aujourd’hui: ▶La théorie formelle de la statistique ▶L’accélération du développement des ordinateurs ▶Le défi, dans de nombreux domaines, de corpus de données toujours plus grands ▶L’accent mis sur la quantification dans une variété toujours plus large de disciplines Data Science Les influences majeures - Tukey (1962) Quatre influences majeures agissent aujourd’hui: ▶La théorie formelle de la statistique ▶L’accélération du développement des ordinateurs ▶Le défi, dans de nombreux domaines, de corpus de données toujours plus grands ▶L’accent mis sur la quantification dans une variété toujours plus large de disciplines ▶Il parlait de l’analyse de données. ▶Datamining, Machine learning , Big Data, AI ... Faire de la science des données Exemples de cas d’usage Big Data/DS : où et pourquoi ? Cas d’usage en marketing ▶Prédiction du churn ▶Marketing personnalisés et segmentation des clients ▶”Sentiment analysis” des clients ▶Recommandation Churn/attrition Segmentation des clients Sentiment analysis Recommandation Machine Learning/Apprentissage statistique Une définition du Machine Learning par Tom Mitchell (http://www.cs.cmu.edu/~tom/) Un programme informatique est réputé apprendre (learn) d’une expérience E pour certaines classes de tâches T et une mesure de performance P, si ses performances aux tâches T, mesurée par P, s’améliorent avec l’expérience. Un robot qui apprend Un robot doté d’un ensemble de capteurs et d’un algorithme d’apprentissage en ligne ▶Tâche: jouer au football ▶Performance: score ▶Expérience: ▶environnement actuel ▶jeux passés Reconnaissance d’objets dans une image Un algorithme de détection/reconnaissance ▶Tâche : dire si un objet est présent ou non dans l’image ▶Performance : nombre d’erreurs ▶Expérience : ensemble d’images ’”labelisées” précédemment vues Machine Learning Tom Mitchell (http://www.cs.cmu.edu/~tom/) Un programme informatique est réputé apprendre (learn) d’une expérience E pour certaines classes de tâches T et une mesure de performance P, si ses performances aux tâches T, mesurée par P, s’améliorent avec l’expérience. Supervisé et non-supervisé Apprentissage supervisé ▶Objectif : apprendre une fonction f prédisant une variable Y à partir de features X. ▶Données : ensemble d’apprentissage (Xi, Yi) Apprentissage non-supervisé ▶Objectif: découvrir une structure au sein d’un ensemble d’individus (Xi). ▶Data: Learning set (Xi) Machine Learning Méthodes pour le ML ▶Grand catalogue de méthodes, ▶Besoin de définir la performance, ▶Design des features... Apprentissage supervisé Régression I Régression II Classification Régression logistique: une exemple simple Régression logistique: une exemple plus compliqué I Régression logistique: une exemple plus compliqué II Régression logistique: une exemple plus compliqué III Apprentissage non-supervisé Réduction de la dimension / visualisation I Figure 1: MNIST data Réduction de la dimension / visualisation II Figure 2: T-SNE Clustering Figure 3: Hierarchical clustering et K-means Retour sur les cas d’usage Churn/attrition Figure 4: Classification : le client reste ou part Segmentation des clients Figure 5: Clustering Sentiment analysis Figure 6: Classification : le commentaire est positif ou non // Régression : note Recommandation Figure 7: Réduction de la dimension Déclaration de Montréal pour une IA responsable Dix principes : ▶le bien-être, ▶le respect de l’autonomie, ▶la protection de l’intimité et de la vie privée, ▶la solidarité, la participation démocratique, ▶l’équité, ▶l’inclusion de la diversité, ▶la prudence, ▶la responsabilité et ▶le développement soutenable. https://www.declarationmontreal-iaresponsable.com/la-declaration Le problème de classification Exemples Spam detection ▶Données : emails ▶Input : email ▶Output : Spam or No Spam Classification binaire : toy datasets ▶But : retrouver la classe ▶Input : 2 predicteurs ▶Output uploads/Management/ slides-v2.pdf
Documents similaires
-
13
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 28, 2021
- Catégorie Management
- Langue French
- Taille du fichier 7.9124MB