HAL Id: tel-01748568 https://tel.archives-ouvertes.fr/tel-01748568v2 Submitted

HAL Id: tel-01748568 https://tel.archives-ouvertes.fr/tel-01748568v2 Submitted on 5 Oct 2011 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques Laurent Buniet To cite this version: Laurent Buniet. Traitement automatique de la parole en milieu bruité : étude de modèles connexion- nistes statiques et dynamiques. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy 1, 1997. Français. ￿tel-01748568v2￿ Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques THÈSE présentée et soutenue publiquement le lundi 10 février 1997 par Laurent BUNIET pour l’obtention du Doctorat de l’Université Henri Poincaré - Nancy 1 spécialité informatique Composition du Jury : Rapporteurs : Jean-Claude JUNQUA DR, Panasonic Corp., STL, Santa-Barbara, ÉUA Dominique MÉRY Pr., IUF, UHP & CRIN-CNRS, Nancy Jean-Luc SCHWARTZ CR, ICP-INPG, Grenoble Examinateurs : Frédéric ALEXANDRE CR, INRIA Lorraine, Nancy Dominique FOHR CR, CRIN-CNRS, Nancy Jean-Marie PIERREL Pr., UHP & CRIN-CNRS, Nancy École Doctorale IAE+M DFD Informatique Université Henri Poincaré - Nancy 1 UFR STMIA Centre de Recherche en Informatique de Nancy INRIA Lorraine CNRS URA 262 ii iii Je dédis cette thèse à ma mère et à la mémoire de mon père qui m’ont tous deux permis de la réaliser et à ma femme, Anne-Caroline, pour son amour et son soutien. iv v “I’ve seen things you people wouldn’t believe, attack ships on fire off the shoulder of Orion, I watch C-beams glitter in the dark near the Tannhauser gate. All those moments will be lost in time like tears in rain.” Épitaphe de Roy Batty, in Blade Runner, film de Ridley Scott vi vii REMERCIEMENTS Au terme de cette thèse et en préambule au mémoire rédigé, je tiens à remercier tous les membres du jury qui ont accepté de juger le travail effectué tout au long de ces années : Jean-Marie Pierrel, professeur de l’Université Henri Poincaré - Nancy 1, directeur du Centre de Recherche en Informatique de Nancy (CNRS UMR 262) et responsable de l’équipe Dialogue commune au CRIN et à l’INRIA Lorraine, qui m’a encadré tout au long de ces années de recherche malgré la charge qui était la sienne, Jean-Claude Junqua, chargé de recherche chez Matsushita, au Speech Technology Laboratory de la Panasonic Corp. à Santa Barbara, en Californie, qui est en partie à l’origine de ces recherches et qui me fait aujourd’hui le plaisir de juger un travail proche du sien après avoir dû survoler le tiers de la circonférence du globe, Jean-Luc Schwartz, chargé de recherche à l’Institut de la Communication Parlée de l’Institut National Polytechnique de Grenoble, qui m’aura permis de soutenir cette thèse à la date et à l’heure prévues en acceptant au pied levé d’être rapporteur de ce travail, merci beaucoup, Dominique Méry, membre de l’Institut Universitaire de France, professeur de l’Université Henri Poincaré - Nancy 1 et directeur de recherches au CRIN, qui a bien voulu participer à ce jury après avoir dû me supporter comme ATER, Frédéric Alexandre, chargé de recherche INRIA à l’INRIA Lorraine et responsable du groupe Cortex au sein de l’équipe RFIA/SYCO commune au CRIN et à l’INRIA Lorraine, avec lequel j’ai pû avoir de bons contacts au cours de cette thèse bien qu’aucune hiérarchie officielle n’ait existée, Dominique Fohr, chargé de recherche CNRS au CRIN au sein de l’équipe RFIA/SYCO, qui aura, pendant toutes ces années, suivi mon travail de thèse au pas de charge et m’aura véritablement accordé toute sa confiance. Je tiens également à remercier trois chercheurs du CRIN pour leurs activités et leur passion paraprofessionnelles. Je tiens ainsi à remercier Jean-Pierre Finance, président de l’université Henri Poincaré, qui préside également l’Aéro-Club de Lorraine à Lunéville dont je suis un heureux membre. Je remercie également Jacques Guyard pour m’avoir fait connaître l’ACL et, last but not least, je tiens à remercier très chaleureusement Jean-François Mari qui m’a, patiemment, très patiemment, appris à voler et m’a conduit jusqu’au TT et a toujours, ou presque, gardé son calme bien que des manœuvres aient quelques fois été exotiques. Pour continuer à suivre le fil de l’air, je tiens à remercier le Père Gilles Silvy-Leligois, aumônier de TAT-BA, de m’avoir marié à ma chère et tendre et Patrick “doudou” Doucet, pour ce qui reste, aujourd’hui encore, la frayeur de ma vie... Ma vie dans ce laboratoire ne serait pas ce qu’elle est sans les membres de l’équipe Dialogue, de l’équipe RFIA/SYCO et de son groupe Cortex et de toutes les personnes qui fourmillent, le jour et la nuit, dans le bâtiment Loria. Qu’ils en soient tous vivement remerciés de même que, hors de ce campus, les Supélec de Metz et Rennes, Ludo et Gilles, Monseigneur Stéphane 1er et Madame, ainsi que tous les membres de l’ACTH. Je tiens également à remercier les membres de ma famille qui m’ont soutenu tout au long de ces années et tous les membres de ma toute nouvelle belle famille pour leur amour et leur amitié. Ma vie extraprofessionnelle aurait par ailleurs été bien terne sans toutes les personnes qui m’ont offert leur amitié : Christelle, Christophe, Corinne, Emmanuel, Éric, Fabrice, Frédérique, Jean-Baptiste, Jean-Luc, Jean-Paul, Jean-Philippe, Laurence, Sophie, Stéphanie, ... et tous ceux que j’oublie. Mes amitiés à vous tous ! J’adresse également un petit clin d’œil à Loukhoum pour son sens de la vie... Enfin, je remercie tout particulièrement les relecteurs hors du domaine et j’adresse une mention spéciale au découvreur des néologismes bunietiens... viii ix TABLE DES MATIÈRES Dédicace iii Citation v Remerciements vii Table des matières ix Liste des figures xvii Liste des tables xxi Résumé introductif xxiii PARTIE 1 ÉTAT DE L’ART 1 CHAPITRE 1 PAROLE 3 1.1 Introduction 3 1.2 Le traitement automatique de la langue 4 1.2.1 Les règles de la langue 4 1.2.2 Le dialogue homme-machine 5 1.3 L’appareil phonatoire 6 1.3.1 L’appareil phonatoire humain 6 1.3.2 Modèles articulatoires 7 1.3.3 Systèmes de synthèse de parole 7 1.4 L’appareil auditif 8 1.4.1 L’appareil auditif humain 8 1.4.2 Courbes psycho-acoustiques 9 1.5 Taxonomie des sons 11 1.5.1 Phonétique 11 1.5.1.1 Classes phonétiques 11 1.5.1.2 Classifications phonétiques existantes 12 1.6 Les problèmes de variabilité de la parole 16 1.6.1 Introduction 16 1.6.2 Variabilité intra-locuteur 16 1.6.3 Variabilité inter-locuteur 17 1.6.4 Variabilité due à l’environnement 17 1.6.5 Spectrogrammes 18 1.7 Les représentations du signal de parole 20 1.7.1 Problèmes posés par la transformée de Fourier 20 1.7.2 Méthodes adaptées à la parole 20 1.7.2.1 Représentations cepstrales 21 1.7.2.2 Codage prédictif linéaire 21 1.7.2.3 Codage dit de Modulation par Impulsion et Codage 22 1.7.2.4 PLP 23 1.7.2.5 Rasta PLP 23 1.7.2.6 Modèles d’audition 24 1.7.3 Méthodes modernes de représentation temps-fréquence 24 1.7.4 Méthodes résistantes aux bruits 25 Table des matières x CHAPITRE 2 CONNEXIONNISME 27 2.1 Le pandémonium de la reconnaissance des formes 27 2.1.1 Étendue de notre étude bibliographique 27 2.1.2 Alignement temporel 28 2.1.3 Modèles de Markov et Modèles de Markov à états cachés 30 2.1.4 Évolutions de la modélisation 32 2.2 Neurobiologie 32 2.2.1 Modélisation du neurone 33 2.2.2 Les aires cérébrales 36 2.2.3 La colonne corticale 37 2.3 Modélisation connexionniste 38 2.4 Modèles connexionnistes statiques 38 2.4.1 Les perceptrons multicouches 39 2.4.1.1 Architecture 39 2.4.1.2 Applications possibles des perceptrons multicouches 40 2.4.1.3 Extensions des perceptrons avec la notion de poids partagés 41 2.4.2 Modèles à auto-organisation 43 2.4.3 Autres architectures 44 2.4.4 Apprentissage dans les modèles statiques 45 2.4.4.1 Apprentissage supervisé 45 2.4.4.2 Apprentissage non supervisé 46 2.5 Modèles connexionnistes dynamiques 47 2.5.1 Modèles connexionnistes totalement récurrents 47 2.5.2 Modèles connexionnistes à récurrence par plaque 48 2.5.3 Modèles connexionnistes à récurrence locale 49 2.5.4 L’apprentissage dans les modèles dynamiques 49 PARTIE 2 CONTRIBUTION 51 CHAPITRE 3 PROBLÉMATIQUE DU BRUIT EN RAP 53 3.1 Objectif 53 3.1.1 Mise en œuvre d’un système de Reconnaissance Automatique de la Parole 53 3.1.2 Existence du besoin d’un système fiable 54 3.1.3 Ambitions relatives au système à développer 54 3.1.4 Contraintes imposées 55 3.2 Résistance de la parole au bruit 56 3.2.1 L’influence du bruit dans la communication 56 3.2.2 Qualité d’un message 56 3.2.2.1 Critères de qualité 56 3.2.2.2 Critères objectifs de qualité 57 3.2.2.3 Critères subjectifs de qualité 58 3.2.3 Les différents types de bruit 58 3.2.3.1 Les bruits additifs 59 3.2.3.2 Les bruits convolutionnels 59 3.2.3.3 Les bruits physiologiques 60 3.2.4 Capacités humaines 60 3.2.4.1 Robustesse de la perception humaine 60 3.2.4.2 Limites des capacités auditives humaines 64 3.2.5 Intégration dans les systèmes de RAP 64 3.2.6 Résistance des voyelles 64 Table des matières xi 3.3 Méthodes fondées sur des calculs d’énergie 66 3.3.1 Présentation 66 3.3.2 Algorithme et résultats 66 3.3.3 Inconvénients de la méthode 67 uploads/Science et Technologie/ inria-tu-1118-pdf-a-1b-2005-cmyk 1 .pdf

  • 12
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager