AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury d

AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale. Contact : ddoc-theses-contact@univ-lorraine.fr LIENS Code de la Propriété Intellectuelle. articles L 122. 4 Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm École doctorale IAEM Lorraine Reconnaissance de la parole pour l’aide à la communication pour les sourds et malentendants THÈSE présentée et soutenue publiquement le 11 Décembre 2015 pour l’obtention du Doctorat de l’Université de Lorraine (mention informatique) par Luiza Orosanu Composition du jury : Président : Bernard GIRAU Prof., Université de Lorraine, Loria Rapporteurs : Laurent BESACIER Prof., Université J. Fourier, LIG Georges LINARÈS Prof., Université d’Avignon, LIA - CERI Examinateurs : Régine ANDRÉ-OBRECHT Prof., Université Paul Sabatier, IRIT Martine ADDA-DECKER DR CNRS, LPP Directeur de thèse : Denis JOUVET DR INRIA, Loria Laboratoire Lorrain de Recherche en Informatique et ses Applications - UMR 7503 Remerciements Mes premiers remerciements vont à mon directeur de thèse, M. Denis Jouvet, qui m’a soutenu et encouragé tout au long de cette thèse. Ses compétences, ses conseils et ses re- marques ont été d’une aide précieuse pour faire avancer mes recherches. J’ai pu également apprécier sa gentillesse et sa disponibilité malgré son emploi du temps plus que chargé. Je suis très reconnaissante pour toutes les corrections, recorrections et rerecorrections de ce document. Je remercie également les membres de l’entreprise eROCCA pour m’avoir donné l’oc- casion de travailler sur leur projet. Je souhaite également remercier l’ensemble de l’équipe Multispeech pour m’avoir fourni un cadre de travail enrichissant et agréable. Enfin, j’aimerais remercier mon petit ami, Luc, pour sa compréhension, son soutien et son aide tout au long de mon travail. Résumé Le projet RAPSODIE 1 a été lancé en 2012 avec l’objectif de développer une nou- velle génération de terminaux proposant une reconnaissance vocale spécialisée sur les besoins des personnes sourdes ou malentendantes. Dans ce contexte, l’objectif de cette thèse est d’étudier, d’approfondir et d’enrichir l’extraction d’informations lexicales et para-lexicales à partir de la parole pour aider à la communication avec des personnes sourdes ou malentendantes. En ce qui concerne la modélisation lexicale, nous nous sommes intéressés au choix des unités lexicales définissant le lexique et au modèle de langage associé. L’optimisation du décodage phonétique nous a conduit à évaluer différentes unités lexicales, comme les phonèmes et les mots, et à proposer l’utilisation des syllabes. Cependant, des entretiens effectués en parallèle avec des personnes sourdes ont révélé l’intérêt d’une reconnaissance en mots qui est plus simple à appréhender et qui ne nécessite pas d’effort supplémentaire de la part du lecteur pour regrouper les différentes phonèmes ou syllabes en mots porteurs de sens. Cela nous a amenés à proposer une nouvelle approche reposant sur la combinai- son de mots et de syllabes dans un seul modèle de langage, dit hybride. L’utilisation d’un tel modèle de langage hybride vise à assurer une reconnaissance correcte des mots les plus fréquents et à proposer des suites de syllabes pour les segments de parole correspondant à des mots hors vocabulaire. Afin d’assurer une bonne reconnaissance des mots spécifiques à un certain domaine, nous avons approfondi l’ajout de nouveaux mots dans le modèle de langage sans faire de ré-apprentissage ni d’adaptation du modèle de langage (qui sont des traitements qui nécessitent beaucoup de données). Nous avons donc proposé et évalué une nouvelle ap- proche pour l’ajout de mots qui repose sur un principe de similarité entre mots. Deux mots sont considérés comme similaires s’ils ont des distributions similaires de leurs voisins ; formellement, cela se traduit par un calcul de divergence entre les distributions des mots prédécesseurs et des mots successeurs. L’approche implique ainsi plusieurs étapes : uti- liser quelques phrases exemples pour le nouveau mot à ajouter, chercher dans le modèle de langage des mots similaires au nouveau mot, puis définir les n-grammes associés à ce nouveau mot à partir des n-grammes des mots similaires. Concernant l’extraction d’informations para-lexicales, nous nous sommes intéressés principalement à la détection des questions et des affirmations. Cette détection vise à en- richir la communication avec les personnes sourdes ou malentendantes, de manière à leur signaler quand une question leur est adressée, afin qu’ils puissent y répondre ou intervenir par une demande de répétition ou de clarification. Dans notre étude, plusieurs approches ont été analysées utilisant respectivement seulement des paramètres prosodiques (extraits du signal audio), seulement des paramètres linguistiques (extraits des séquences de mots et de classes grammaticales), ou combinant les deux types d’information. L’évaluation de classifieurs est effectuée en utilisant des paramètres linguistiques et prosodiques extraits à partir de transcriptions automatiques (pour étudier la performance dans des conditions réelles) et de transcriptions manuelles (pour étudier la performance dans des conditions idéales). L’impact d’erreurs sur les frontières des phrases a également été étudié. Mots clés : reconnaissance de la parole, syllabes, modèles de langage hybrides, mots hors-vocabulaire, mots similaires, détection de questions 1. http://erocca.com/rapsodie Abstract The RAPSODIE 2 project was launched in 2012 with the objective of proposing a speech recognition device specialized on the needs of deaf and hearing impaired people. In this context, the aim of the thesis is to study, deepen and enrich the extraction of lexical and para-lexical information from speech in order to help communication with deaf and hearing impaired people. Regarding the lexical modeling, we focused on optimizing the choice of lexical units (defining the vocabulary and the associated language model). The optimisation of the pho- netic decoding led us to evaluate various lexical units, such as phonemes and words, and to propose the use of syllables. However, the interviews conducted in parallel with deaf people showed interest in a word-based recognition, which is the easiest to understand and it does not require additional effort for the reader in order to group up different phonemes or syllables into meaningful words. This led us to propose a new approach based on the combination of words and syllables into a hybrid language model. The use of this hybrid language model aims to ensure proper recognition of the most frequent words and to offer sequences of syllables for speech segments corresponding to out-of-vocabulary words. In order to ensure proper recognition of specific words in a certain area, we have fo- cused on adding new words into the language model, without re-training or adapting the language model (treatments that require a lot of new data). We have therefore proposed and evaluated a new approach to adding words into the model based on a principle of similarity between words. Two words are considered as similar if they have similar neigh- bors distributions ; formally, this results in the computation of the KL divergence on the distribution of their neighbor words. The approach involves three steps: defining a small set of sentences containing the new word to be added, looking for in-vocabulary words similar to the new word, defining the n-grams associated with the new word based on the n-grams of its similar in-vocabulary words. Regarding the extraction of para-lexical information, we focused mainly on the de- tection of questions and statements. This detection aims to enhance communication with deaf and hearing impaired people, in order to inform them when a question is addressed to them because they have to respond or demand a repetition or a clarification. In our study, several approaches were analyzed using only prosodic features (extracted from the audio signal), only linguistic features (extracted from word sequences and sequences of POS tags), or combining both types of information. The evaluation of the classifiers is performed using linguistic and prosodic features (alone or in combination) extracted from automatic transcriptions (to study the performance under real conditions) and from ma- nual transcriptions (to study the performance in ideal conditions). The performance loss when sentence boundaries are not perfect was also evaluated. Keywords: speech recognition, syllables, hybrid language models, out-of-vocabulary words, similar words, question detection 2. http://erocca.com/rapsodie Table des matières Introduction générale 1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Plan du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 I Reconnaissance de la parole 7 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . uploads/Litterature/ ddoc-t-2015-0172-orosanu.pdf

  • 17
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager