Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Philippe GiguèreGLO-4030/7030APPRENTISSAGE PAR RÉSEAUX DE NEURONES PROFONDS Aut

Philippe GiguèreGLO-4030/7030APPRENTISSAGE PAR RÉSEAUX DE NEURONES PROFONDS Auto-encodeurs et Word2vec Auto-encodeur Problèmes des données étiquetées • À date, toujours supervisé • Nécessite beaucoup de données étiquetées • Que faire si beaucoup de données, mais ne sont pas étiquetées ? • Apprentissage supervisé non-supervisé • Pas juste d’ordre pratique – théorie de l’apprentissage en général 3 Pertes • Supervisé : perte basée sur l’erreur entre prédiction et vérité-terrain (+régularisation) • Non-supervisé : erreur basée sur la reconstruction de l’entrée x 4 2 ( ( )) L g f x x   Perte : ( ) f x h ( ) g h x x’encodeurdécodeur + régularisation Pour éviter des solutions inintéressantes auto-encodeur Taxonomie 6 ( ) f x h ( ) g h x x’encodeurdécodeur Undercomplete taille x > taille h Overcomplete taille x < taille h ( ) f x h ( ) g h x x’ • encodeur doit trouver une projection vers un espace de plus petite dimension • si f, g sont linéaire : proche de PCA (exactement si f=UT, g = U, UTU=I) • si f, g sont non-linéaires, projections plus puissantes • sera inutile sans régularisation • copie de x dans h • exemple : x bruité Importance de la régularisation • Sans régularisation, l’encodage pourrait être inutile – Perte de reconstruction n’influence pas directement l’utilité de l’encodage h – Cas pathologique théorique : encodeur- décodeur très puissant, taille h = 1 • Priorisation de certains aspects pertinents de x sera souvent utile à d’autres tâches • Régularisation explicite préférable à diminuer la capacité des réseaux f, g 7 indice x i x   (rappel : réseaux profonds peuvent apprendre par cœur des jeux de données) Variété (manifold) • Principe d’apprentissage machine • La plupart des données réelles vont résider dans des sous-régions particulières de l’espace de x 8 pixels pigés au hasard : uniforme dans x vs. • Compression de x possible car réseau n’a pas à gérer les cas en dehors du manifold Régularisation vs. manifold 9 localement Euclidien • Doit régulariser la perte de reconstruction pour espérer apprendre ce manifold • Idéalement, l’encodeur trouvera les variations pertinentes dans ce manifold – apprendre la « surface » du manifold (tangente) • Formuler l’entrainement ou l’architecture pour encourager un comportement particulier (générer (VAE), débruiter, etc…) Exemple de manifold 10 : plus proches voisins t-SNE sur vecteur h taille 10 11 4 8 2 6 0 1 7 5 9 3 MNIST L.J.P. van der Maaten and G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008. Familles auto-encodeurs (AE) • Sparse • Denoising • Contractive • Variational (VAE) 12 Auto-encodeur sparse • Perte supplémentaire sur le code h : • Exemple : perte L1 • Cousin du sparse coding • Constitue un prior sur les modèles de h pour la génération des données x • Semble aider pour des tâches connexes de classification 13   ( ) , ( ( )) ( ) J L x g f x h   ( ) i i h h    AE denoising • Ajoute du bruit aléatoire à l’entrée x • Cherche quand même à reconstruire x • Fonctionne avec AE overcomplete/réseaux très puissants 14 ( ) f x h ( ) g h xencodeurdécodeur + bruit + x perte   , ( ( )) L x g f x AE denoising • Apprend à déplacer des entrées corrompues vers le manifold 15 x Devient moins sensible aux variations de x perpendiculaires au manifold Reste sensible aux déplacements tangents au manifold AE contractive • Ajout d’une pénalité sur les gradients de l’encodeur f 16   2 ( ) , ( ( )) x i i J L x g f x h       x hi x hi vs. faible pénalité forte pénalité • Désensibiliser l’encodeur à certaines directions (perpendiculaires au manifold) AE contractive • Pour très petits bruits, denoising AE et contractive coïncident (pensez différentiation numérique vs analytique) 17 embedding embedding embedding contraction Variational AE (VAE) • Processus stochastique 19 ( ) f x xencodeur m S pige ( ) g hdécodeur x’ • Perte : Reconstruction + KL divergence (pour forcer la distribution d’être proche d’une normale) • L’encodeur en charge d’estimer les paramètres de génération • Entraînement plus complexe (reparameterization trick) car gradient ne passe pas sampling Distribution normale h Autoencodeur : application • Réduction de dimensionnalité pour classification (généralisation) • Permet de combiner non-supervisé avec supervisé : semi-supervisé 20 Deep AE : entraînement par couche • Si difficulté d’entraîner un AE profond, possibilité d’y aller de manière vorace, couche par couche 21 1( ) f x x 1( ) g h h 1 Perte Deep AE : entraînement par couche • Si difficulté d’entraîner un AE profond, possibilité d’y aller de manière vorace, couche par couche 22 2( ) f x h 2 2( ) g h h 1 Perte Word2vec Word2vec • Encodage 1-hot n’est pas informatif – distance entre deux mots quelconques est TOUJOURS la même • distance L² = 2 • distance cosine = 0 – d(poutine,arbre) = d(maison, habitation) • Cherche représentation distribuée et continue – 1-hot vecteur (embedding, plongement) – RNN fait un peu cela • Architecture simple (pas deep), pour passage à l’échelle – Entraînement sur 1.6 milliards de mots, sur 125- 180 CPU en parallèle 25 Contexte du voisinage • Vous obtenez beaucoup d’information sur le sens d’un mot en regardant son voisinage dans une phrase 27 « You shall know a word by the company it keeps » -J.R. Firth, 1957 • Chercher un encodage (embedding) qui permet de prédire un/des mots voisins Entraînement par prédiction • L’apprentissage des vecteurs se fera via deux tâches • Tâche 1 : prédire le mot au centre d’un contexte de ±T • Tâche 2 : prédire les mots voisins d’un mot central, pour un contexte de ±T 28 La nouvelle technologie blockchain permet les crypto-monnaies ? T = 3 T = 3 blockchain T = 3 ? ? ? T = 3 ? ? ? Paramètres entraînables • Chaque mot aura deux vecteurs associés : 29 a abaca zygote a abaca zygote v v v u u u                            mapping 1-hot vers h (W) prédire mot dans voisinage (W’) Ajuster représentation vectorielle par descente du gradient pour optimiser les 2 tâches de prédiction précédentes S o f t m a x Tâche 1 : prédiction d’un mot 30 prédire le mot manquant CBOW (continuous bag-of-words) (ne tient pas compte de l’ordre des mots) 0 0 1 0 . 0 0 0 vrais mot au centre Réseau linéaire entrées 1-hot S o f t m a x Tâche 1 : prédiction d’un mot 31 prédire le mot manquant CBOW (continuous bag-of-words) (ne tient pas compte de l’ordre des mots) 0 0 1 0 . 0 0 0 vrais mot au centre Réseau linéaire entrées 1-hot gradient perte 32 prédire les mots avoisinants Tâche 2 : prédire mots voisins S o f t m a x S o f t m a x S o f t m a x 0 0 1 0 . 0 0 0 0 0 0 0 . 0 1 0 1 0 0 0 . 0 0 0 vrais mots gradient Architecture skip-gram Arithmétique sur embeddings? • Quelle est la réponse à cette énigme : 33 France – Paris + Italy = ? Rome! Algèbre sur ces vecteurs 34 France – Paris + Italy = Rome Performance 35 uploads/S4/ 08-autoencoder.pdf