²PPlan Introduction Apprentissage automatique Réseaux de neurones artificiels A
²PPlan Introduction Apprentissage automatique Réseaux de neurones artificiels Apprentissage profond Applications en TALN 1 2 3 4 5 PLAN Le traitement automatique du langage naturel couvre un éventail très large d’applications possibles : Analyse morpho-syntaxique du texte Compréhension du langage naturel Dialogue homme-machine Etc. La plupart de ces tâches nécessitent une étape d’apprentissage pour maximiser la performance et gagner en simplicité et flexibilité du modèle de décision réalisé Parfois passer par les techniques d’apprentissage reste la seule alternative possible : Reconnaissance de la parole La traduction automatique Etc. Introduction 3 •Paramétrisation acoustico- phonétique et prosodique •Modèle de décision Détection de la langue parlée •Modélisation phonétique •Modélisation du langage Reconnaissance de la parole •Modèles de langue et de traduction •Analyse morpho- syntaxique et sémantique Traduction automatique •Informations linguistiques et acoustiques •Modèle de synthèse Synthèse de la parole Speech to speech translation Introduction 4 Toutes ces activités sont d’habitude réalisées par l’homme Nécessitent de l’intelligence Quelle est la relation entre intelligence et apprentissage ? Chez l’homme Chez la machine Introduction 5 ²PPlan Introduction Apprentissage automatique Réseaux de neurones artificiels Apprentissage profond Applications en TALN 1 2 3 4 5 PLAN L’apprentissage automatique (machine learning) fait référence au développement et à l’implémentation de méthodes qui permettent à une machine d’évoluer grâce à un processus d’apprentissage et ainsi de remplir des tâches qu’il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. Exemples : Qui est l’auteur de ce texte (HTML, Livre, article, etc.) ? Est-ce que ce commentaire exprime un sentiment positif ou négatif ? Est-ce que ce terme désigne une entité nommée ? Quel est le sujet de ce texte ? 7 Apprentissage automatique Définitions Selon Arthur Samuel, 1959 : c’est donner la capacité aux machines d’apprendre sans les programmer explicitement Selon Tom Mitchell, 1997 : Un programme qui apprend est un programme qui tire profit d’une expérience E, par rapport à une famille de tâches T, pour une mesure d’efficacité P si son efficacité (mesurée par P) dans l’accomplissement des tâches de T, augmente après l’expérience E. 8 Apprentissage automatique 9 Apprentissage automatique Algorithme d’apprentissage Connaissances a priori Données Quelle fonction choisir ? Quelles sont les caractéristiques à garder ? Comment représenter le texte ? Le cas de la classification 10 Représentation du texte Sac de mots TF-IDF TF: Fréquence du terme dans le document IDF: Inverse du nombre de documents contenant le terme ti : Vecteurs de similarités Information mutuelle, divergence de Kullback, etc. 1 0 1 1 0 0 0 0 …. 0 3 0 1 2 0 0 0 0 …. 0 Algorithme d’apprentissage Connaissances a priori Données 11 Sélection de caractéristiques Par expertise : ingénierie des attributs Création Sélection Nécessite beaucoup de connaissances sur le domaine Difficile de sélectionner les attributs les plus pertinents Niveau d’abstraction très bas Automatiquement Méthodes de sélection d’attributs Méthodes de transformation d’attributs Algorithme d’apprentissage Connaissances a priori Données 12 Sélection d’attributs Sélection d’un sous- ensemble d’attributs Algorithme d’apprentissage Evaluation individuelle Sous-ensemble d’attributs optimal Performance Tous les attributs Approche filtre Approche enveloppante Génération d’un sous-ensemble d’attributs Algorithme d’apprentissage Evaluation Performance Tous les attributs Sélection d’un sous- ensemble d’attributs Sous-ensemble d’attributs optimal Algorithme d’apprentissage Sous-ensemble d’attributs optimal Performance Tous les attributs Approche intégrée Sélection d’un sous-ensemble d’attributs Analyse Sémantique Latente Analyse en Composantes Principales 13 Réduction de dimension Le sur-apprentissage est un problème rencontré lorsque l’hypothèse apprise s’ajuste exactement aux données d’apprentissage. On parle aussi du problème d’apprentissage par cœur. 14 Très simple Sur-apprentissage Optimal Sélection de modèle Algorithme d’apprentissage Connaissances a priori Données Pour éviter un apprentissage par cœur, on doit préférer les solutions les plus générales même si elles risquent de se tromper sur quelques exemples Règle générale Règle spécifique 15 Le rasoir d’Occam ²PPlan Introduction Apprentissage automatique Réseaux de neurones artificiels Apprentissage profond Applications en TALN 1 2 3 4 5 PLAN Le cerveau humain Le neurone biologique 19 Nombre de neurones dans le cerveau: ~ 1011 Nombre de connexions par neurone: ~ 104 - 105 Synapse Le neurone biologique 20 axone Le neurone formel 21 wj w1 wn y x1 xj xn Le neurone formel 22 Réseaux de neurones artificiels L ’apprentissage dans les réseaux de neurones artificiels est une phase du développement d’un réseau durant laquelle son comportement est modifié jusqu’à l’obtention du comportement désiré. L’apprentissage consiste à modifier les poids des connexions entre les neurones On distingue deux grandes classes d’algorithmes d’apprentissage : L’apprentissage supervisé L’apprentissage non supervisé 23 Réseaux de neurones artificiels 24 superviseur réseau sortie désirée sortie obtenue erreur ENTREES réseau sortie obtenue ENTREES Apprentissage supervisé Apprentissage non supervisé Réseaux de neurones artificiels • Postulat physiologique : “quand un axone de la cellule A est assez proche pour exciter une cellule B et quand, de façon repétée et persistante, il participe à son activation, un certain processus de croissance ou un changement métabolique s’installe, dans une cellule ou dans les deux, tel que l’efficacité de A, en sa qualité de cellule qui active B, est augmentée”. 25 En résumé : si deux neurones sont souvent excités simultanément, alors ils augmentent la force (le poids) de leur interconnexion . Réseaux de neurones artificiels Deux choses qui viennent toujours ensemble en même temps méritent d'être mémorisées Formalisation mathématique – Wij : Poids de la connexion entre les neurones I et J. – Ai et Aj : Activations des neurones I et J. (0 ou 1) 26 Règle de Hebb : Wij(t+1)=Wij(t)+K.Ai.Aj La règle de Hebb Connexions non modifiées Connexion renforcée Apprentissage supervisé par correction d’erreur Si la solution existe la règle converge La règle de Widrow-Hoff: Wij(t+1)=Wij (t)+ k.(dj-yj).xi 27 x1 x2 . . . xn y1 y2 . . ym Wij I J xi yj (dj) Le Perceptron Algorithme d’apprentissage du Perceptron 1- Initialisation des poids et du seuil à des valeurs (petites) choisies au hasard. 2- Présentation d'une entrée X = (x1, …, xn) de la base d'apprentissage. 3- Calcul de la sortie obtenue Y=(y1, …, ym) pour cette entrée : Pour chaque yj Faire aj = i(wij . xij) - yj = signe (aj) (ici f est la fonction signe) Fin Pour 4- Si la sortie Y du Perceptron est différente de la sortie désirée D pour cet exemple d'entrée X alors modification des poids : wij=wij + k.(dj-yj).xi 5- Tant que tous les exemples de la base d'apprentissage ne sont pas traités correctement (i.e. modification des poids), retour à l’étape 2. 28 On peut construire des Perceptrons capables de réaliser les fonctions logiques : ET / OU Mais le Perceptron est incapable de distinguer les patrons non séparables linéairement. OU Exclusif (XOR) Données non linéairement séparables ! 29 Le Perceptron 30 Le Perceptron e1 e2 E S e1 e2 w2 w1 E’ S’ e1 e2 w’2 w’1 E’=e1. w’1+ e2.w’2 E-Seuil=0 S=1 S=0 E’-Seuil=0 S’=1 S’=0 C E=e1. w1+ e2.w2 31 w1 w2 y =x1 ET x2 x2 x1 +1 +1 +1.5 w1 w2 y =x1 OU x2 x2 x1 +1 +1 - 0.5 y =x1 XOR x2 et et ou +1 +1 x2 x1 +1 +1 -1 -1 XOR(a,b)=(a ET Non(b)) OU (Non(a) ET b) Le Perceptron La règle d’apprentissage d’un Perceptron est : Wij=Wij + k.(dj-yj).xi Non applicable sur unPMC Problème : Quelles sont les sorties désirées de la couche cachée ? 32 x1 x2 . . . xn y1 y2 . . ym Couche d’entrée Couche cachée Couche de sortie Le Perceptron Multi-Couches Solution : rétro-propagation de l’erreur D’une façon distribuée Pondérée par les poids initiaux E est l’erreur commise par le réseau elle représente la différence (D-Y) Minimisation de l’erreur quadratique donnée par : Descente du gradient 33 2 ) ( 2 1 i i i y d E Le Perceptron Multi-Couches ij ij ij ij w E t w t w w ) ( ) 1 ( Algorithme d’apprentissage • Pour les poids entre la couche de sortie et celle qui la précède • Pour les connexions entre les autres couches 34 Rétro-propagation (Backword) i i ij i i ij ij a E avec w a t w t w ) ( ) 1 ( Propagation en avant (Forward) ) exp( 1 1 ) ( ) ( x x F avec x w F a F y j j ij i i wij wi1 win yi ) ).( ( ' i i i i d y a F i ij i j j w a F . ). ( ' Le Perceptron Multi-Couches x1 x2 . . . . . . . xn 1. On place une donnée d’entrée 2. On calcule la sortie des neurones de la couche cachée 3. On calcule la sortie du réseau 4. On calcule l’erreur 5. On ajuste les poids entre la Couche de sortie et uploads/Management/ presentationcec-tal-salma-jamoussi-pdf 1 .pdf
Documents similaires
-
18
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jul 13, 2022
- Catégorie Management
- Langue French
- Taille du fichier 3.8786MB