SCIKIT-LEARN MASTER BI PLAN 1. INTRODUCTION MACHINE LEARNING 2. BIBLIOTHÈQUE SC

SCIKIT-LEARN MASTER BI PLAN 1. INTRODUCTION MACHINE LEARNING 2. BIBLIOTHÈQUE SCIKIT-LEARN 3. LINEAR RÉGRESSION (RÉGRESSION LINÉAIRE) 4. LOGISTIQUE RÉGRESSION (RÉGRESSION LOGISTIQUE) 5. NAIVE BAYES (CLASSIFICATION NAÏVE BAYÉSIENNE) 6. SVM (MACHINES À VECTEUR DE SUPPORT) 7. KNN (PLUS PROCHES VOISINS) 8. CONCLUSION 9. BIBLIOGRAPHIE 2 INTRODUCTION MACHINE LEARNING • LE MACHINE LEARNING, OU APPRENTISSAGE AUTOMATIQUE EN FRANÇAIS, EST UN OUTIL ISSU DE L’INTELLIGENCE ARTIFICIEL BASÉ SUR DIFFÉRENTS ALGORITHMES QUI CONSISTE À INTERPRÉTER, COMPRENDRE ET APPRENDRE À PARTIR DE DONNÉES QUI LUI SONT ENVOYÉES. A LA SUITE DE CES ANALYSES, L’OUTIL SERA EN MESURE DE PRODUIRE UNE ANALYSE PRÉDICTIVE. • PEU IMPORTE LE SECTEUR D’ACTIVITÉ, CES ANALYSES PRÉDICTIVES S’AVÈRENT DE PLUS EN PLUS UTILES POUR LES ENTREPRISES, DANS LE PROCESSUS DE DÉCISIONS STRATÉGIQUES. ELLES PERMETTENT, PAR EXEMPLE, D’ANTICIPER UNE PANNE AVANT QUE CELLE-CI NE SE PRODUISE OU ENCORE DE PRÉDIRE LA PERTE D’UN CLIENT AVANT QU’IL NE CHANGE DE SOLUTION 3 INTRODUCTION MACHINE LEARNING 4 SCIKIT-LEARN • SCIKIT-LEARN EST UNE BIBLIOTHÈQUE LIBRE PYTHON DESTINÉE À L’APPRENTISSAGE AUTOMATIQUE. ELLE EST DÉVELOPPÉE PAR DE NOMBREUX CONTRIBUTEURS NOTAMMENT DANS LE MONDE ACADÉMIQUE PAR DES INSTITUTS FRANÇAIS D'ENSEIGNEMENT SUPÉRIEUR ET DE RECHERCHE COMME INRIA ET TÉLÉCOM PARIS TECH. • ELLE COMPREND NOTAMMENT DES FONCTIONS POUR ESTIMER DES FORTES ALÉATOIRES , DES RÉGRESSION LOGISTIQUE, DES ALGORITHMES DE CLASSIFICATION, ET LES MACHINES À VECTEURS DE SUPPORT, ELLE EST CONÇUE POUR S‘HARMONISER AVEC D'AUTRES BIBLIOTHÈQUE LIBRE PYTHON, NOTAMMENT NUMPY ET SCIPY 5 SCIKIT-LEARN POURQUOI SCIKIT-LEARN ? • ELLE DISPOSE D'UNE EXCELLENTE DOCUMENTATION FOURNISSANT DE NOMBREUX EXEMPLES • ELLE DISPOSE D'UNE API UNIFORME ENTRE TOUS LES ALGORITHMES, CE QUI FAIT QU'IL EST FACILE DE BASCULER DE L'UN À L'AUTRE • ELLE EST TRÈS BIEN INTÉGRÉE AVEC LES LIBRAIRIES PANDAS ET SEABORN • ELLE DISPOSE D'UNE GRANDE COMMUNAUTÉ ET DE PLUS DE 800 CONTRIBUTEURS RÉFÉRENCÉS SUR GITHUB ! • C'EST UN PROJET OPEN SOURCE 6 RÉGRESSION LINÉAIRE • LA RÉGRESSION LINÉAIRE EST UN ALGORITHME QUI VA TROUVER UNE DROITE QUI SE RAPPROCHE LE PLUS POSSIBLE D’UN ENSEMBLE DE POINTS. LES POINTS REPRÉSENTENT LES DONNÉES D’ENTRAÎNEMENT (TRAINING SET). • EN STATISTIQUES, EN ÉCONOMÉTRIE ET EN APPRENTISSAGE AUTOMATIQUE, UN MODÈLE DE RÉGRESSION LINÉAIRE EST UN MODÈLE DE RÉGRESSION QUI CHERCHE À ÉTABLIR UNE RELATION LINÉAIRE ENTRE UNE VARIABLE, DITE EXPLIQUÉE, ET UNE OU PLUSIEURS VARIABLES, DITES EXPLICATIVES. 7 RÉGRESSION LINÉAIRE • RÉGRESSION LINÉAIRE SIMPLE • RÉGRESSION LINAIRE MULTIPLE 8 RÉGRESSION LINÉAIRE MULTIPLE 9 • EXEMPLE DE PROBLÈME DE PRÉVISION DE PRIX D’UNE MAISON A NEW JERSEY RÉGRESSION LINÉAIRE MULTIPLE 10 Equation de prédiction RÉGRESSION LINÉAIRE MULTIPLE 11 Lecture des données: Chargement des bibliothèques: RÉGRESSION LINÉAIRE MULTIPLE 12 Nettoyage des données: RÉGRESSION LINÉAIRE MULTIPLE 13 Création du model de régression RÉGRESSION LINÉAIRE MULTIPLE EXEMPLE DE PRÉDICTION • TROUVER LE PRIX D’UNE MAISON AVEC: • AREA = 3000 • BADROOMS = 3 • AGE = 40 14 PRICE => RÉGRESSION LINÉAIRE MULTIPLE EXEMPLE DE PRÉDICTION • TROUVER LE PRIX D’UNE MAISON AVEC: • AREA = 2500 • BADROOMS = 4 • AGE = 5 15 RÉGRESSION LOGISTIQUE LA RÉGRESSION LOGISTIQUE ET LA RÉGRESSION LINÉAIRE APPARTIENNENT À LA MÊME FAMILLE DES MODÈLES GLM (GENERALIZED LINEAR MODELS) : DANS LES DEUX CAS ON RELIE UN ÉVÉNEMENT À UNE COMBINAISON LINÉAIRE DE VARIABLES EXPLICATIVES. LA RÉGRESSION LOGISTIQUE EST UN ALGORITHME DE CLASSIFICATION D'APPRENTISSAGE AUTOMATIQUE UTILISÉ POUR PRÉDIRE UNE PROBABILITÉ VARIABLE POUR UNE CLASSE ELLE EST TRÈS UTILISÉE DANS : LE DOMAINE MÉDICAL EN SOCIOLOGIE EN MARKETING 16 RÉGRESSION LOGISTIQUE • DEUX TYPE DE CLASSIFICATION: • CLASSIFICATION BINAIRE • CLASSIFICATION MULTI CLASS 17 RÉGRESSION LOGISTIQUE CLASSIFICATION DE FLEURS D’IRIS AVEC LA RÉGRESSION LOGISTIQUE • ON UTILISERA LE CÉLÈBRE JEU DE DONNÉES IRIS. CE DERNIER EST UNE BASE DE DONNÉES REGROUPANT LES CARACTÉRISTIQUES DE TROIS ESPÈCES DE FLEURS D’IRIS, SETOSA, VERSICOLOUR ET VIRGINICA. • CHAQUE LIGNE DE CE JEU DE DONNÉES EST UNE OBSERVATION DES CARACTÉRISTIQUES D’UNE FLEUR D’IRIS • QUATRE PROPRIÉTÉS : LONGUEUR ET LARGEUR DE SÉPALES AINSI QUE LONGUEUR ET LARGEUR DE PÉTALES. 18 RÉGRESSION LOGISTIQUE 19 Chargement des bibliothèques Chargement du jeu de données IRIS RÉGRESSION LOGISTIQUE 20 visualisation des données RÉGRESSION LOGISTIQUE 21 Création d’un modèle de régression logistique Prédire de la classe de nouvelles fleurs d’IRIS On a fourni quatre observations à prédire. RÉGRESSION LOGISTIQUE • RÉSULTAT DE PRÉDICTION • LA PREMIÈRE OBSERVATION DE CLASSE 1 : [5.5, 2.5] • LA DEUXIÈME OBSERVATION DE CLASSE 1 : [7, 3] • LA TROISIÈME OBSERVATION DE CLASSE 0 : [3,2] • LA QUATRIÈME OBSERVATION DE CLASSE 0 : [5,3] 22 [5.5, 2.5], [7, 3], [3,2], [5,3] NAIVE BAYES (CLASSIFICATION NAÏVE BAYÉSIENNE) • LES MÉTHODES NAÏVES DE BAYES SONT UN ENSEMBLE D’ALGORITHMES D’APPRENTISSAGE SUPERVISÉ REPOSANT SUR L’APPLICATION DU THÉORÈME DE BAYES AVEC L’HYPOTHÈSE «NAÏVE» D’INDÉPENDANCE CONDITIONNELLE ENTRE CHAQUE PAIRE D’ENTITÉS, COMPTE TENU DE LA VALEUR DE LA VARIABLE DE CLASSE. • EN DÉPIT DE LEURS HYPOTHÈSES APPAREMMENT SIMPLISTES, LES CLASSIFICATEURS NAÏFS DE BAYES ONT TRÈS BIEN FONCTIONNÉ DANS DE NOMBREUSES SITUATIONS RÉELLES, NOTAMMENT LA CLASSIFICATION DES DOCUMENTS ET LE FILTRAGE DU SPAM. ILS ONT BESOIN D'UNE PETITE QUANTITÉ DE DONNÉES D'APPRENTISSAGE POUR ESTIMER LES PARAMÈTRES NÉCESSAIRES. 23 NAIVE BAYES (CLASSIFICATION NAÏVE BAYÉSIENNE) • GAUSSIAN NAIVE BAYES GAUSSIANNB IMPLÉMENTE L'ALGORITHME GAUSSIAN NAIVE BAYES POUR LA CLASSIFICATION. LA PROBABILITÉ DES CARACTÉRISTIQUES EST SUPPOSÉE ÊTRE GAUSSIENNE 24 NAIVE BAYES (CLASSIFICATION NAÏVE BAYÉSIENNE) • MULTINOMIAL NAIVE BAYES MULTINOMIALNB IMPLÉMENTE L'ALGORITHME NAÏVE BAYES POUR LES DONNÉES DISTRIBUÉES DE MANIÈRE MULTINOMIALE ET EST L'UNE DES DEUX VARIANTES NAÏVES DE BAYES CLASSIQUES UTILISÉES DANS LA CLASSIFICATION DE TEXTE (OÙ LES DONNÉES SONT GÉNÉRALEMENT REPRÉSENTÉES SOUS LA FORME DE COMPTES DE VECTEURS MOTS). 25 NAIVE BAYES (CLASSIFICATION NAÏVE BAYÉSIENNE) • BERNOULLI NAIVE BAYES IMPLÉMENTE LES ALGORITHMES NAÏFS D'APPRENTISSAGE ET DE CLASSIFICATION DE BAYES POUR LES DONNÉES DISTRIBUÉES SELON LES DISTRIBUTIONS MULTIVARIÉES DE BERNOULLI; C'EST-À-DIRE QU'IL PEUT Y AVOIR PLUSIEURS CARACTÉRISTIQUES, MAIS CHACUNE D'ELLES EST SUPPOSÉE ÊTRE UNE VARIABLE À VALEUR BINAIRE (BERNOULLI, BOOLEAN). PAR CONSÉQUENT, CETTE CLASSE NÉCESSITE QUE LES ÉCHANTILLONS SOIENT REPRÉSENTÉS EN TANT QUE VECTEURS D'ENTITÉS À VALEURS BINAIRES 26 SVM (MACHINES À VECTEUR DE SUPPORT) : LES MACHINES À VECTEURS DE SUPPORT (SVM) CONSTITUENT UN ENSEMBLE DE MÉTHODES D’APPRENTISSAGE SUPERVISÉ UTILISÉES POUR LA CLASSIFICATION, LA RÉGRESSION ET LA DÉTECTION DES VALEURS ABERRANTES. LES AVANTAGES DES MACHINES À VECTEURS DE SUPPORT SONT LES SUIVANTS: • EFFICACE DANS LES ESPACES DE GRANDES DIMENSIONS. • TOUJOURS EFFICACE DANS LES CAS OÙ LE NOMBRE DE DIMENSIONS EST SUPÉRIEUR AU NOMBRE D'ÉCHANTILLONS. • UTILISE UN SOUS-ENSEMBLE DE POINTS D’ENTRAÎNEMENT DANS LA FONCTION DE DÉCISION (APPELÉS VECTEURS DE SUPPORT), CE QUI EN FAIT UNE MÉMOIRE EFFICACE. 27 SVM (MACHINES À VECTEUR DE SUPPORT) : LES INCONVÉNIENTS DES MACHINES À VECTEURS DE SUPPORT INCLUENT: • SI LE NOMBRE DE FONCTIONNALITÉS EST BEAUCOUP PLUS GRAND QUE LE NOMBRE D'ÉCHANTILLONS, ÉVITEZ DE TROP AJUSTER LE CHOIX DES FONCTIONS DU NOYAU ET LE TERME DE RÉGULARISATION EST CRUCIAL. • LES SVM NE FOURNISSENT PAS DIRECTEMENT D’ESTIMATIONS DE PROBABILITÉ. CELLES-CI SONT CALCULÉES À L’AIDE D’UNE COÛTEUSE VALIDATION CROISÉE PAR CINQ (VOIR SCORES ET PROBABILITÉS CI-DESSOUS). 28 SVM (MACHINES À VECTEUR DE SUPPORT) : • CLASSIFICATION 29 SVM (MACHINES À VECTEUR DE SUPPORT) : • RÉGRESSION LA MÉTHODE DE CLASSIFICATION DES VECTEURS DE SUPPORT PEUT ÊTRE ÉTENDUE POUR RÉSOUDRE LES PROBLÈMES DE RÉGRESSION. CETTE MÉTHODE S'APPELLE RÉGRESSION VECTORIELLE DE SUPPORT. 30 KNN (PLUS PROCHES VOISINS) : • FOURNIT DES FONCTIONNALITÉS POUR DES MÉTHODES D'APPRENTISSAGE NON SUPERVISÉES ET SUPERVISÉES BASÉES SUR LE VOISINAGE. LES VOISINS LES PLUS PROCHES NON SUPERVISÉS SONT À LA BASE DE NOMBREUSES AUTRES MÉTHODES D'APPRENTISSAGE, NOTAMMENT L'APPRENTISSAGE MULTIPLE ET LA CLASSIFICATION SPECTRALE. L'APPRENTISSAGE SUPERVISÉ BASÉ SUR LES VOISINS SE PRÉSENTE SOUS DEUX FORMES: LA CLASSIFICATION DES DONNÉES AVEC DES ÉTIQUETTES DISCRÈTES ET LA RÉGRESSION DES DONNÉES AVEC DES ÉTIQUETTES CONTINUES. • LE PRINCIPE DES MÉTHODES DE PLUS PROCHE VOISIN EST DE TROUVER UN NOMBRE PRÉDÉFINI D’ÉCHANTILLONS D’ENTRAÎNEMENT PROCHES DU NOUVEAU POINT ET D’EN PRÉVOIR LE LIBELLÉ. LE NOMBRE D'ÉCHANTILLONS PEUT ÊTRE UNE CONSTANTE DÉFINIE PAR L'UTILISATEUR (APPRENTISSAGE DU K-VOISIN LE PLUS PROCHE) OU VARIER EN FONCTION DE LA DENSITÉ LOCALE DE POINTS (APPRENTISSAGE DU VOISIN BASÉ SUR LE RAYON). 31 KNN (PLUS PROCHES VOISINS) : • CLASSIFICATION DES VOISINS LES PLUS PROCHES LA CLASSIFICATION BASÉE SUR LES VOISINS EST UN TYPE D'APPRENTISSAGE BASÉ SUR UNE INSTANCE OU UN APPRENTISSAGE NON GÉNÉRALISANT: ELLE NE TENTE PAS DE CONSTRUIRE UN MODÈLE INTERNE GÉNÉRAL, MAIS STOCKE SIMPLEMENT DES INSTANCES DES DONNÉES D'APPRENTISSAGE. LA CLASSIFICATION EST CALCULÉE À PARTIR D'UN VOTE À LA MAJORITÉ SIMPLE DES VOISINS LES PLUS PROCHES DE CHAQUE POINT: UN POINT D'INTERROGATION SE VOIT ATTRIBUER LA CLASSE DE DONNÉES QUI COMPTE LE PLUS GRAND NOMBRE DE REPRÉSENTANTS DANS LES VOISINS LES PLUS PROCHES DU POINT. 32 KNN (PLUS PROCHES VOISINS) : • RÉGRESSION DES VOISINS LES PLUS PROCHES LA RÉGRESSION BASÉE SUR LES VOISINS PEUT ÊTRE UTILISÉE DANS LES CAS OÙ LES ÉTIQUETTES DE DONNÉES SONT CONTINUES PLUTÔT QUE DES VARIABLES DISCRÈTES. L'ÉTIQUETTE ATTRIBUÉE À UN POINT DE REQUÊTE EST CALCULÉE EN FONCTION DE LA MOYENNE DES ÉTIQUETTES DE SES VOISINS LES PLUS PROCHES. 33 5. CONCLUSION • NOUS AVONS PRÉSENTÉ LES FONCTIONNALITÉS ESSENTIELLES DE LA REPRÉSENTATION DES DONNÉES AVEC SCIKIT-LEARN. • QUEL QUE SOIT LE TYPE D'ESTIMATION OU LA PRÉVISION . uploads/Industriel/ 6-scikit-learn 1 .pdf

  • 14
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager