HAL Id: tel-00081061 https://tel.archives-ouvertes.fr/tel-00081061 Submitted on
HAL Id: tel-00081061 https://tel.archives-ouvertes.fr/tel-00081061 Submitted on 21 Jun 2006 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Reconnaissance automatique de la parole pour des langues peu dotées Viet Bac Le To cite this version: Viet Bac Le. Reconnaissance automatique de la parole pour des langues peu dotées. Interface homme- machine [cs.HC]. Université Joseph-Fourier - Grenoble I, 2006. Français. tel-00081061 UNIVERSITÉ JOSEPH FOURIER - GRENOBLE 1 N0 attribué par la bibliothèque /__/__/__/__/__/__/__/__/__/__/ THÈSE pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ JOSEPH FOURIER - GRENOBLE 1 Discipline : Informatique présentée et soutenue publiquement par LÊ Việt Bắc le 1er juin 2006 Titre : Reconnaissance automatique de la parole pour des langues peu dotées Directeur de thèse : Jean Caelen Codirecteurs de thèse : Laurent Besacier Brigitte Bigi JURY M. Christian Boitet Président M. Renato De Mori Rapporteur M. Jean-Paul Haton Rapporteur M. Vincent Berment Examinateur M. Jean Caelen Directeur de thèse M. Laurent Besacier Codirecteur de thèse Mlle. Brigite Bigi Codirectrice de thèse Thèse préparée au sein du laboratoire de Communication Langagière et Interaction Personne-Système, Fédération IMAG – Université Joseph Fourier – Grenoble I Kính taëng ba meï toâi ! à mes parents … Remerciements Je voudrais tout d’abord remercier Jean CAELEN pour m’avoir accueilli au sein du laboratoire CLIPS/IMAG et pour avoir accepté d’être mon directeur de thèse. Je tiens à remercier également Laurent BESACIER et Brigitte BIGI pour avoir accepté d’encadrer cette thèse. Un grand remerciement très chaleureux à Laurent BESACIER, qui m’a guidé tout au long de ces années de thèse, pour ses critiques, ses conseils très précis sur mes travaux de recherche et pour avoir relu, corrigé et commenté très soigneusement ce manuscrit. Je voudrais remercier Brigitte BIGI pour son aide dévouée sur mes travaux de thèse, pour ses conseils très utiles et sa relecture de tout mon manuscrit. J’adresse mes remerciements à Renato DE MORI et Jean-Paul HATON pour avoir accepté d’être rapporteurs de ma thèse. Je voudrais remercier aussi Christian BOITET pour avoir accepté d’être le président du jury. Je remercie Vincent BERMENT pour son aide et sa participation au jury de cette thèse. Un grand remerciement également à Jean-François SERIGNAT, responsable de l’équipe GEOD pour m’avoir accueilli dans l’équipe GEOD et pour son aide dévouée. Je tiens à remercier Eric CASTELLI, directeur adjoint du Centre MICA (Hanoi, Vietnam) pour m’avoir accueilli au sein des projets de collaboration CORUS et TALK, pour ses suggestions sur mon sujet et pour sa relecture de ce manuscrit. Un grand merci aux collaborateurs de mes travaux de recherche (Do Dat, Sethserey, Luis Villaseñor, …). J’adresse mes remerciements à Tanja SCHULTZ pour m’avoir accueilli dans le laboratoire Interactive Systems Labs (Carnegie Mellon University) et pour l’intérêt porté à mes travaux de recherche. Je tiens à remercier également tous les membres de l’équipe GEOD (Solange, Yannick, Tien-Ping, Pedro, Richard, Anas, …) pour leur accueil et leur sympathie. Je remercie Denis TUFFELLI pour sa relecture de ce manuscrit. Un grand remerciement à mes amis vietnamiens au CLIPS et à Grenoble (An Te, Quoc Cuong, Do Dat, Ngoc Hoa, Trung Hung, Bao Quoc, Hoang Nam, …) avec qui j’ai partagé de grands moments au cours de ma thèse. Enfin, je voudrais exprimer mes plus profonds remerciements à mes parents, à mon petit frère, à toute ma grande famille et à Hà Trang, ma petite amie, pour leurs sentiments, leurs soutiens et leurs encouragements dans tout le temps où j’ai effectué cette thèse. Un grand merci à tous ! LÊ Việt Bắc Résumé Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l’oral sont inexistants. L’originalité de mon travail de thèse vient de la volonté d’aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. La nature statistique des approches nécessite de disposer d’une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d’un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d’accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d’abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d’un vocabulaire, collecte de documents à partir de l’Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique « open source » nommée CLIPS- Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue. Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d’estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones, …). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l’adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée. Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées. Mots-clés: langues peu dotées, reconnaissance automatique de la parole, ressources écrites et orales, similarités entre des unités acoustique-phonémiques, modélisation acoustique crosslingue, adaptation de modèles acoustiques, modélisation acoustique graphémique, modélisation statistique du langage. Abstract Nowadays, computers are heavily used to communicate via text and speech. Text processing tools, electronic dictionaries, and even more advanced systems like text-to-speech or dictation are readily available for several languages. There are however more than 6900 languages in the world and only a small number possess the resources required for implementation of Human Language Technologies (HLT). Thus, HLT are mostly concerned by languages for which large resources are available or which have suddenly become of interest because of the economic or political scene. On the contrary, languages from developing countries or minorities have been less worked on in the past years. One way of improving this "language divide" is do more research on portability of HLT for multilingual applications. Among HLT, we are particularly interested in Automatic Speech Recognition (ASR). Therefore, we are interested in new techniques and tools for rapid development of ASR systems for under-resourced languages or π-languages when only limited resources are available. These languages are typically spoken in developing countries, but can nevertheless have many speakers. In this work, we investigate Vietnamese and Khmer, which are respectively spoken by 67 million and 13 million people, but for which speech processing services do not exist at all. Firstly, given the statistical nature of the methods used in ASR, a large amount of resources (vocabularies, text corpora, transcribed speech corpora, phonetic dictionaries) is crucial for building an ASR system for a new language. Concerning text resources, a new methodology for fast text corpora acquisition for π-languages is proposed and applied to Vietnamese and Khmer. Some specific problems in text acquisition and text processing for π-languages such as text normalization, text segmentation, text filtering are resolved. For fast developing of text processing tools for a new π-language, an open source generic toolkit named CLIPS-Text-Tk was developed during this thesis. Secondly, for acoustic modeling, we address particularly the use of acoustic-phonetic unit similarities for multilingual acoustic models portability to new languages. Notably, an estimation method of the similarity between two phonemes is first proposed. Based on these phoneme similarities, some estimation methods for polyphone similarity and clustered polyphonic model similarity are investigated. For a new language, a source/target acoustic- phonetic unit mapping table can be constructed with these similarity measures. Then, clustered models in the target language are duplicated from the nearest clustered models in the source language and adapted with limited data to the target language. Results obtained for Vietnamese demonstrate the feasibility and efficiency of these methods. The proposal of grapheme-based acoustic modeling, which avoids building a pronunciation dictionary, is also investigated in our work. Finally, our whole methodology is applied to design a Khmer ASR system uploads/Science et Technologie/ these-levietbac-0609-pdf.pdf
Documents similaires
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Nov 13, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 2.3269MB