Th` ese de doctorat NNT : 2019SACLS517 Apprentissage profond appliqu´ e ` a la

Th` ese de doctorat NNT : 2019SACLS517 Apprentissage profond appliqu´ e ` a la reconnaissance des ´ emotions dans la voix Th` ese de doctorat de l’Universit´ e Paris-Saclay pr´ epar´ ee ` a Universit´ e Paris-Sud ´ Ecole doctorale n◦580 Ecole Doctorale Sciences et Technologies de l’Information et de la Communication (STIC) Sp´ ecialit´ e de doctorat : Informatique Th` ese pr´ esent´ ee et soutenue ` a Orsay, le 18 d´ ecembre 2019, par CAROLINE ETIENNE Composition du Jury : Anne Vilnat Professeure, Universit´ e Paris-Sud (LIMSI) Pr´ esidente Bj¨ orn Schuller Professeur, University of Augsburg & Imperial College London Rapporteur Yannick Est` eve Professeur, Universit´ e d’Avignon et des Pays de Vaucluse (LIA) Rapporteur Jean-Luc Zarader Professeur, Sorbonne Universit´ e (ISIR) Examinateur J´ er´ emie Abiteboul Docteur, DreamQuark’s Chief Product Officer Examinateur Laurence Devillers Professeure, Sorbonne Universit´ e (LIMSI) Directrice de th` ese Remerciements Merci à ma famille, mes frères, Maxime, Pierre, Jean-Hugues, Guillaume, et plus particulièrement mes parents, Geneviève et Philippe de m’avoir soutenue financiè- rement et humainement pendant mes études depuis 2008. Merci à mes amis animaux et humains, surfaciens, virtuels ou souterrains. Merci à Margot Larroche pour sa présence à ma soutenance de thèse. Merci à Isabelle Rio et Laurent Valette sans qui ce manuscrit n’existerait pas. Merci aux équipes de logiciels gratuits (Inkscape) ainsi qu’aux sites web four- nissant un accès libre à des articles scientifiques (Sci-Hub) d’exister. Enfin, ce voyage ne fut possible que grâce aux personnes qui nourrissaient ma réflexion, qu’elles en soient remerciées. « Calme, en avant, droit. » – Général L’Hotte Raska & Echo Delta i Table des matières Remerciements i Table des matières iii Table des figures ix Liste des tableaux xv Introduction 1 Partie I : État de l’art 7 1 L’apprentissage profond 9 1.1 Aspect chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Apprentissage profond supervisé . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Initialisation des poids . . . . . . . . . . . . . . . . . . . . . 13 1.2.2 Propagation avant . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 Rétropropagation du gradient . . . . . . . . . . . . . . . . . 15 1.2.3.1 Calculer l’erreur pour la couche de sortie . . . . . . 15 1.2.3.2 Rétropropager l’erreur . . . . . . . . . . . . . . . . 16 1.2.4 Mise à jour des poids . . . . . . . . . . . . . . . . . . . . . . 17 1.2.4.1 Le principe de l’algorithme de descente de gradient 17 1.2.4.2 La descente de gradient stochastique : SGD . . . . 19 1.2.4.3 La méthode du moment : Momentum . . . . . . . . 19 1.2.4.4 Gradient accéléré de type Nesterov . . . . . . . . . 20 1.2.5 Les fonctions d’activation . . . . . . . . . . . . . . . . . . . 21 1.2.5.1 La fonction sigmoïde . . . . . . . . . . . . . . . . . 21 1.2.5.2 La fonction tangente hyperbolique . . . . . . . . . 21 1.2.5.3 La fonction ReLU . . . . . . . . . . . . . . . . . . 22 1.2.5.4 La fonction softmax . . . . . . . . . . . . . . . . . 23 1.3 Les réseaux de neurones convolutifs . . . . . . . . . . . . . . . . . . 23 1.3.1 Origine des réseaux de neurones convolutifs . . . . . . . . . 24 iii TABLE DES MATIÈRES 1.3.2 Principe des réseaux de neurones convolutifs . . . . . . . . . 25 1.4 Les réseaux de neurones récurrents bidirectionnels à mémoire court- terme et long-terme (BLSTM) . . . . . . . . . . . . . . . . . . . . . 27 1.4.1 Origine en reconnaissance de la parole . . . . . . . . . . . . 27 1.4.2 Réseaux récurrents et problème de disparition et explosion du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.3 Le réseau récurrent à mémoire court-terme et long terme ou LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.5 Aspects matériel et logiciel . . . . . . . . . . . . . . . . . . . . . . . 30 1.5.1 Les processeurs graphiques en apprentissage profond . . . . 31 1.5.2 Les bibliothèques logicielles pour l’apprentissage profond . . 31 1.5.2.1 Instabilité de l’outil de travail . . . . . . . . . . . . 32 1.5.2.2 Les bibliothèques existantes . . . . . . . . . . . . . 32 1.5.2.3 Faciliter leur utilisation . . . . . . . . . . . . . . . 33 2 L’émotion 35 2.1 La paralinguistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2 La prosodie affective . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.1 La prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.2 Les émotions . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3 Traduction de l’information émotionnelle en langage automate . . . 40 2.3.1 Approche catégorielle . . . . . . . . . . . . . . . . . . . . . . 40 2.3.2 Approche dimensionnelle . . . . . . . . . . . . . . . . . . . . 42 2.3.3 Ce que nous retenons . . . . . . . . . . . . . . . . . . . . . . 43 2.4 Modélisation de l’information émotionnelle du signal audio . . . . . 45 2.4.1 Modélisation acoustique . . . . . . . . . . . . . . . . . . . . 45 2.4.1.1 Les méthodes existantes en reconnaissance de la parole . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.1.2 Parole spontanée versus parole préparée . . . . . . 45 2.4.2 Les indices paralinguistiques . . . . . . . . . . . . . . . . . . 46 3 La reconnaissance automatique des émotions dans la voix 47 3.1 Apprentissage automatique des émotions dans la voix . . . . . . . . 47 3.1.1 À l’extérieur du laboratoire . . . . . . . . . . . . . . . . . . 47 3.1.2 Au sein du laboratoire . . . . . . . . . . . . . . . . . . . . . 48 3.2 Apprentissage profond appliqué à la reconnaissance des émotions dans la voix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Premières utilisations . . . . . . . . . . . . . . . . . . . . . . 50 3.2.2 Nos références de base : des travaux par Microsoft . . . . . . 50 3.3 L’architecture bout-en-bout . . . . . . . . . . . . . . . . . . . . . . 52 3.3.1 Qu’est ce que c’est ? . . . . . . . . . . . . . . . . . uploads/Geographie/ etienne-2019-archivage.pdf

  • 87
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager