Apprentissage statistique, Cr´ eer des machines intelligentes Ga¨ el Varoquaux
Apprentissage statistique, Cr´ eer des machines intelligentes Ga¨ el Varoquaux 1 L’apprentissage statistique en deux mots 2 De l’activit´ e des neurones ` a la pens´ ee 3 Scikit-learn: une boite ` a outils d’apprentissage G Varoquaux 2 1 L’apprentissage statistique en deux mots G Varoquaux 3 1 Une perspective historique Intelligence artificielle ann´ ees 80 Concevoir des r` egles de d´ ecision Mangeable? Mobile? Grand? G Varoquaux 4 1 Une perspective historique Intelligence artificielle ann´ ees 80 Concevoir des r` egles de d´ ecision Apprentissage machine ann´ ees 90 Les cr´ eer ` a partir d’observations G Varoquaux 4 1 Une perspective historique Intelligence artificielle ann´ ees 80 Concevoir des r` egles de d´ ecision Apprentissage machine ann´ ees 90 Les cr´ eer ` a partir d’observations Apprentissage statistique ann´ ees 2000 Mod´ eliser le bruit dans les observations G Varoquaux 4 1 Une perspective historique Intelligence artificielle ann´ ees 80 Concevoir des r` egles de d´ ecision Apprentissage machine ann´ ees 90 Les cr´ eer ` a partir d’observations Apprentissage statistique ann´ ees 2000 Mod´ eliser le bruit dans les observations Big data maintenant Beaucoup d’observations, des r` egles simples G Varoquaux 4 1 Une perspective historique Intelligence artificielle ann´ ees 80 Concevoir des r` egles de d´ ecision Apprentissage machine ann´ ees 90 Les cr´ eer ` a partir d’observations Apprentissage statistique ann´ ees 2000 Mod´ eliser le bruit dans les observations Big data maintenant Beaucoup d’observations, des r` egles simples “Big data isn’t actually interesting without machine learning” Steve Jurvetson, VC, Silicon Valley G Varoquaux 4 1 L’apprentissage statistique Exemple: reconnaissance de visage Andr´ e Bernard Charles Didier G Varoquaux 5 1 L’apprentissage statistique Exemple: reconnaissance de visage Andr´ e Bernard Charles Didier ? G Varoquaux 5 1 M´ ethode na¨ ıve 1 Stocker des images connues (bruit´ ees) et les noms qui vont avec. 2 A partir d’une photo (bruit´ ee aussi), trouver l’image qui lui ressemble le plus. M´ ethode “des plus proches voisins” G Varoquaux 6 1 M´ ethode na¨ ıve 1 Stocker des images connues (bruit´ ees) et les noms qui vont avec. 2 A partir d’une photo (bruit´ ee aussi), trouver l’image qui lui ressemble le plus. M´ ethode “des plus proches voisins” Quel taux d’erreurs sur les images d´ ej` a vues? ... 0: pas d’erreurs Donn´ ees de test ̸= donn´ ees d’apprentissage G Varoquaux 6 1 1er probl` eme: le bruit Donn´ ees non li´ ees ` a la variable ` a pr´ edire 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Niveau de bruit 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Taux de prediction G Varoquaux 7 1 2` eme probl` eme: nombre de descripteurs Trouver une aiguille dans une botte de foin 1 2 3 4 5 6 7 8 9 10 Fraction utile du cadre 0.65 0.70 0.75 0.80 0.85 0.90 0.95 Taux de prediction G Varoquaux 8 1 L’apprentissage statistique Exemple: reconnaissance de visage Andr´ e Bernard Charles Didier ? Apprentissage ` a partir de descripteurs num´ eriques Difficult´ es: i) bruit, ii) nombre de descripteurs Tˆ ache “supervis´ ee”: labels connus Tˆ ache “non supervis´ ee”: labels inconnus G Varoquaux 9 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y G Varoquaux 10 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y x y Quel mod` ele pr´ ef´ erer? G Varoquaux 10 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y x y Probl` eme du “sur-apprentissage” Minimiser l’erreur n’est pas toujours favorable (apprentissage du bruit) Donn´ ees de test ̸= donn´ ees d’apprentissage G Varoquaux 10 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y x y Pr´ ef´ erer les mod` eles simples = concept de “r´ egularisation” Equilibrer le nombre de param` etres ` a apprendre avec la quantit´ e de donn´ ees G Varoquaux 10 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y Deux descripteurs: 2 dimensions X_1 X_2 y Plus de param` etres G Varoquaux 10 1 Apprentissage supervis´ e: r´ egression Un seul descripteur: une dimension x y Deux descripteurs: 2 dimensions X_1 X_2 y Plus de param` etres ⇒besoin de plus de donn´ ees “mal´ ediction de la dimensionalit´ e” G Varoquaux 10 1 Apprentissage supervis´ e: classification Variable ` a pr´ edire cat´ egorielle, par ex. des chiffres X2 X1 G Varoquaux 11 1 Apprentissage non supervis´ e Structure de la bourse G Varoquaux 12 1 Apprentissage non supervis´ e Structure de la bourse Donn´ ees non lab´ elis´ ees plus courantes que les donn´ ees labelis´ ees G Varoquaux 12 1 Syst` emes de recommandation G Varoquaux 13 1 Syst` emes de recommandation Andr´ e ⋆ ⋆⋆⋆ Bernard ⋆⋆ ⋆⋆⋆ Charles ⋆⋆⋆ ⋆⋆ Didier ⋆⋆⋆ ⋆ ´ Edouard ⋆⋆ ⋆⋆⋆ Peu de recoupement entre utilisateurs G Varoquaux 13 1 L’apprentissage statistique Des d´ efis Statistiques Computationels G Varoquaux 14 1 Strat´ egies d’apprentissage sur du “big data” Big data L’acc` es aux donn´ ees limite plus que la puissance de calcul G Varoquaux 15 1 Strat´ egies d’apprentissage sur du “big data” 1 R´ eduction de donn´ ees ` a la vol´ ee Une r´ eduction rapide, respectant les propri´ et´ es statistiques des donn´ ees Limite la charge m´ emoire + disque G Varoquaux 15 1 Strat´ egies d’apprentissage sur du “big data” 1 R´ eduction de donn´ ees ` a la vol´ ee 2 Algorithmes “en ligne” Consomment les donn´ ees en flux Convergent vers des grandeurs moyennes G Varoquaux 15 1 Strat´ egies d’apprentissage sur du “big data” 1 R´ eduction de donn´ ees ` a la vol´ ee 2 Algorithmes “en ligne” 3 Parall´ elisme par d´ ecoupage des donn´ ees Stratification pour suivre la structure statistique et de stockage des donn´ ees Taille des blocs adapt´ e aux unit´ es de calcul G Varoquaux 15 1 Strat´ egies d’apprentissage sur du “big data” 1 R´ eduction de donn´ ees ` a la vol´ ee 2 Algorithmes “en ligne” 3 Parall´ elisme par d´ ecoupage des donn´ ees 4 Caching Minimiser la latence d’acc` es aux donn´ ees Ne pas recalculer la mˆ eme chose G Varoquaux 15 1 Strat´ egies d’apprentissage sur du “big data” 1 R´ eduction de donn´ ees ` a la vol´ ee 2 Algorithmes “en ligne” 3 Parall´ elisme par d´ ecoupage des donn´ ees 4 Caching 5 Acc` es rapide aux donn´ ees Repr´ esentation coh´ erente avec les motifs d’acc` es Compression pour limiter la bande consomm´ ee G Varoquaux 15 1 Apprentissage statistique et big data Un fort potentiel Apprendre une logique d´ ecisionnelle riche Des d´ efis Statistiques grande dimension Computationels De mise en oeuvre G Varoquaux 16 2 De l’activit´ e des neurones ` a la pens´ ee G Varoquaux 17 2 L’IRM fonctionnelle t Enregistrement de l’activit´ e c´ er´ ebrale G Varoquaux 18 2 NeuroImagerie cognitive Apprendre un lien bilateral entre activit´ e c´ er´ ebrale et fonction cognitive G Varoquaux 19 2 Decodage “Lire dans les pens´ ees” G Varoquaux 20 2 Mod` eles d’encodage Pr´ edire la r´ eponse neurale apprendre les repr´ esentations G Varoquaux 21 2 Accumulation de donn´ ees pour la sp´ ecificit´ e Chaque exp´ erience ne touche qu’` a peu de domaines cognitifs ⇒“m´ eta analyses” G Varoquaux 22 2 Accumulation de donn´ ees pour la sp´ ecificit´ e Motor High level Visual Audio Atlas cognitif G Varoquaux 23 2 Accumulation de donn´ ees pour la sp´ ecificit´ e Motor High level Visual Audio Atlas cognitif Probl´ ematique d’apprentissage et de “big data” en science fondementale G Varoquaux 23 3 Scikit-learn: une boite ` a outils d’apprentissage c ⃝Theodore W. Gray G Varoquaux 24 3 scikit-learn L’apprentissage statistique pour tous Pas de domaine d’application sp´ ecifique Pas de pr´ erequis en machine learning Librairie logicielle de qualit´ e Interfaces pens´ ees pour l’utilisateur D´ eveloppement communautaire License BSD, contributeurs tr` es vari´ es http://scikit-learn.org G Varoquaux 25 3 Une biblioth` eque Python Une biblioth` eque, pas un programme Plus expressif et polyvalent Facile ` a integrer Python: Un langage haut niveau - interactif, - facile ` a debugger, - d’application g´ en´ erale Ecosyst` eme tr` es dynamique G Varoquaux 26 3 Performance computationelle scikit-learn mlpy pybrain pymvpa mdp shogun SVM 5.2 9.47 17.5 11.52 40.48 5.63 LARS 1.17 105.3 - 37.35 - - Elastic Net 0.52 73.7 - 1.44 - - kNN 0.57 1.41 - 0.56 0.58 1.36 PCA 0.18 - - 8.93 0.47 0.33 k-Means 1.34 0.79 ∞ - 35.75 0.68 Optimisations algorithmiques et non bas niveau Minimiser les copies des donn´ ees G Varoquaux 27 3 D´ eveloppement comunautaire ´ Enormement de fonctionnalit´ es: b´ en´ efices d’une grande ´ equipe Croissance du projet: Plus de 200 contributeurs ∼12 d´ eveloppeurs coeur 1 ing´ enieur INRIA temps plein Coˆ ut de d´ eveloppement estim´ e: 6 millions $ Mod` ele COCOMO, http://www.ohloh.net/p/scikit-learn G Varoquaux 28 3 uploads/Histoire/ big-data-live-machine-learning-gael-varoquaux-inria 3 .pdf
Documents similaires
-
18
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 12, 2022
- Catégorie History / Histoire
- Langue French
- Taille du fichier 4.2092MB