Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Applicat

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Application du réseaux de neurones à l’apprentissage supervisé Ricco RAKOTOMALALA Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Métaphore biologique Fonctionnement du cerveau Transmission de l’information et apprentissage Idées maîtresses à retenir • Réception d’une information (signal) • Activation + Traitement (simple) par un neurone • Transmission aux autres neurones (si seuil franchi) • A la longue : renforcement de certains liens APPRENTISSAGE Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Modèle de Mc Colluch et Pitts Le perceptron Simple { } ) ( 0 ), ( 1 − + ∈ Y Problème à deux classes (positif et négatif) X0=1 X1 X2 X3 a0 a1 a2 a3 Couche d’entrée Couche de sortie Poids synaptiques Biais Entrées Descripteurs Modèle de prédiction et règle d’affectation 3 3 2 2 1 1 0 ) ( x a x a x a a X d + + + = 0 Sinon 1 Alors 0 ) ( Si = = > Y Y X d Le perceptron simple est un modèle de prédiction linéaire Fonction de transfert Fonction à seuil -- Fonction de Heaviside ) (X d ∞ − ∞ + 0 1 Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 X0=1 X1 X2 X3 a0 a1 a2 a3 Apprentissage du perceptron simple Comment calculer les poids synaptiques à partir d’un fichier de données (Y ; X1, X2, X3) (1) Quel critère optimiser ? (2) Comment procéder à l’optimisation ? Faire le parallèle avec la régression et les moindres carrés Un réseau de neurones peut être utilisé pour la régression (fonction de transfert avec une sortie linéaire) (1) Minimiser l’erreur de prédiction (2) Principe de l’incrémentalité Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 Exemple – Apprentissage de la fonction AND (ET logique) 1 1 1 0 0 1 0 1 0 0 0 0 Y X2 X1 Exemple révélateur – Les premières applications proviennent de l’informatique Données 1 -0.5 -0.3 -0.1 0.1 0.3 0.5 0.7 0.9 1.1 1.3 1.5 -0.5 0 0.5 1 1.5 Représentation dans le plan Principales étapes : 1. Mélanger aléatoirement les observations 2. Initialiser aléatoirement les poids synaptiques 3. Faire passer les observations unes à unes • Calculer l’erreur de prédiction pour l’observation • Mettre à jour les poids synaptiques 4. Jusqu’à convergence du processus Une observation peut passer plusieurs fois ! Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 Exemple AND (1) Initialisation aléatoire des poids : 05 . 0 ; 2 . 0 ; 1 . 0 2 1 0 = = = a a a Frontière : 0 . 2 0 . 4 2 0 05 . 0 2 . 0 1 . 0 1 2 1 − − = ⇔ = + + x x x x 1 -6 -4 -2 0 2 4 6 -0.5 0 0.5 1 1.5 Règle de mise à jour des poids Pour chaque individu que l’on fait passer (Principe de l’incrémentalité) j j j a a a ∆ + ← Erreur Détermine s’il faut réagir ou non Force du signal ( ) j j x y y a ˆ − = ∆ η avec Constante d’apprentissage Détermine l’amplitude de l’apprentissage Quelle est la bonne valeur ? Trop petit lenteur de convergence Trop grand oscillation En général autour de 0.05 ~ 0.15 (0.1 dans notre exemple) Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 Exemple AND (2)        = = = = 0 0 0 1 2 1 0 y x x x Observation à traiter Appliquer le modèle 1 ˆ 1 . 0 0 05 . 0 0 2 . 0 1 1 . 0 = ⇒ = × + × + × y Màj des poids ( ) ( ) ( )      = × − × = ∆ = × − × = ∆ − = × − × = ∆ 0 0 1 1 . 0 0 0 1 1 . 0 1 . 0 1 1 1 . 0 2 1 0 a a a Nouvelle frontière : 0 . 0 0 . 4 0 05 . 0 2 . 0 0 . 0 1 2 2 1 + − = ⇔ = + + x x x x 1 -6 -4 -2 0 2 4 6 -0.5 0 0.5 1 1.5 Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 Exemple AND (3)        = = = = 0 0 1 1 2 1 0 y x x x Observation à traiter Appliquer le modèle 1 ˆ 2 . 0 0 05 . 0 1 2 . 0 1 0 . 0 = ⇒ = × + × + × y Màj des poids ( ) ( ) ( )      = × − × = ∆ − = × − × = ∆ − = × − × = ∆ 0 0 1 1 . 0 1 . 0 1 1 1 . 0 1 . 0 1 1 1 . 0 2 1 0 a a a Nouvelle frontière : 0 . 2 0 . 2 0 05 . 0 1 . 0 1 . 0 1 2 2 1 + − = ⇔ = + + − x x x x 1 -6 -4 -2 0 2 4 6 -0.5 0 0.5 1 1.5 Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Exemple AND (4) – Définir la convergence Nouvelle frontière : 0 . 2 0 . 2 0 05 . 0 1 . 0 1 . 0 1 2 2 1 + − = ⇔ = + + − x x x x 1 -6 -4 -2 0 2 4 6 -0.5 0 0.5 1 1.5 Convergence ? (1) Plus aucune correction effectuée en passant tout le monde (2) L’erreur globale ne diminue plus « significativement » (3) Les poids sont stables (4) On fixe un nombre maximum d’itérations (5) On fixe une erreur minimale à atteindre Remarque : Que se passe-t-il si on repasse l’individu (x1=1 ; x2=0) ?        = = = = 0 1 0 1 2 1 0 y x x x Observation à traiter Appliquer le modèle 0 ˆ 05 . 0 1 05 . 0 0 1 . 0 1 1 . 0 = ⇒ − = × + × + × − y Màj des poids ( ) ( ) ( )      = × × = ∆ = × × = ∆ = × × = ∆ 0 1 0 1 . 0 0 0 0 1 . 0 0 1 0 1 . 0 2 1 0 a a a Pas de correction ici ? Pourquoi ? Voir sa position dans le plan ! Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 Évaluation de P(Y/X) – Fonction de transfert sigmoïde Le Perceptron propose un classement Y/X Dans certains cas, nous avons besoin de la probabilité P(Y/X) ex. Scoring Fonction de transfert Fonction à seuil -- Fonction de Heaviside ) (X d ∞ − ∞ + 0 1 Fonction de transfert Fonction sigmoïde – Fonction logistique ) (X d ∞ − ∞ + 0 1 ) ( 1 1 ) ( X d v e v g v = + = − La régle de décision devient : Si g(v) > 0.5 Alors Y=1 Sinon Y=0 Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 Conséquences d’une fonction de transfert continue et dérivable Modification du critère à optimiser X0=1 X1 X2 X3 a0 a1 a2 a3 [ ] ) ( ) ( ˆ x d f v g y = = Sortie du réseau Critère à optimiser : critère des moindres carrés ( ) 2 ) ( ˆ ) ( 2 1 ∑ Ω ∈ − = ω ω ω y y E Mais toujours fidèle au principe d’incrémentalité, l’optimisation est basé sur la descente du gradient ! Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 12 Descente du gradient Fonction de transfert sigmoïde dérivable )) ( 1 )( ( ) ( ' v g v g v g − = Optimisation : dérivation de la fonction objectif par rapport aux coefficients ) ( )] ( [ ' )] ( ˆ ) ( [ ω ω ω ω j i j x v g y y a E × × − − = ∂ ∂ ∑ Règle de mise à jour des coefficients pour un individu (Règle de Widrow-Hoff ou Règle Delta) j j j x v g y y a a ) ( ' ) ˆ ( − + ← η Gradient : màj des poids dans la direction qui minimise E La convergence vers le minimum est bonne dans la pratique Capacité à traiter des descripteurs corrélés (pas d’inversion uploads/Science et Technologie/ reseaux-de-neurones-perceptron.pdf