UNIVERSITE D’ANTANANARIVO ECOLE SUPERIEURE POLYTECHNIQUE DEPARTEMENT ELECTRONIQ
UNIVERSITE D’ANTANANARIVO ECOLE SUPERIEURE POLYTECHNIQUE DEPARTEMENT ELECTRONIQUE MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR Spécialité : ELECTRONIQUE Option : Informatique Appliquée Présenté par : MARIPO Tsivery Tanjona Soutenu le 23 Avril 2010 N° 01/EN/IA/2009 Année Universitaire : 2008-2009 Traitement du signal et LA RECONNAISSANCE DE LA PAROLE TRAITEMENT DU SIGNAL ET LA RECONNAISSANCE DE LA PAROLE Mémoire de fin d’études en vue de l’obtention du diplôme d’Ingénieur Spécialité : ELECTRONIQUE Option : Informatique Appliquée Présenté par: MARIPO Tsivery Tanjona Devant le Jury : - Monsieur RAKOTOMIRAHO Soloniaina, Président du jury - Monsieur RATSIMBA Mamy Nirina, Examinateur - Monsieur RABESANDRATANA Mamisoa Andriamihaja, Examinateur - Monsieur RANDRIAMAROSON Rivo Mahandrisoa, Examinateur Rapporteur : Monsieur ANDRIAMANANTSOA Guy Danielson Soutenu le 23 Avril 2010 N° 01/EN/IA/2009 Année Universitaire : 2008-2009 REMERCIEMENTS Je rends grâce à Dieu pour le courage, la santé et toute la bénédiction qu’il m’a accordée tout au long de la réalisation de ce mémoire. Je tiens à exprimer mes sincères remerciements à l’issue de ce mémoire de fin d’études à l’égard de : Monsieur RATSIMBA Mamy Nirina, Chef du Département Electronique au sein de l’Ecole Supérieure Polytechnique d’Antananarivo, de m’avoir accueilli au sein du Département Electronique. Monsieur ANDRIAMANANTSOA Guy Danielson, d’avoir fait honneur et tâche de me diriger et de me supporter, matériellement ou moralement, tout au long de la réalisation de ce mémoire de fin d’études. Je lui témoigne particulièrement ma sincère gratitude. Toutes mes reconnaissances également à l’égard de : Monsieur RAKOTOMIRAHO Soloniaina, d’avoir fait honneur de présider le jury. Monsieur RATSIMBA Mamy Nirina, Monsieur RANDRIAMAROSON Rivo Mahandrisoa, Monsieur RABESANDRATANA Mamisoa Andriamihaja, qui ont, malgré leurs lourdes responsabilités, accepté de juger le présent travail. Tous le corps enseignant qui a patiemment contribué à ma formation au sein de l’Ecole Supérieure Polytechnique d’Antananarivo. A toutes et à tous ceux qui ont participés de près ou de loin à l’élaboration de ce mémoire. J’adresse particulièrement ma profonde reconnaissance à ma famille qui m’a soutenue aussi bien moralement que financièrement tout au long de mes cinq années d’études au sein de l’ESPA, et surtout durant la réalisation de ce travail. RESUME La technologie d’acquisition et de traitement du signal ne cesse pas d’évoluer grâce aux recherches et utilisation des machines de plus en plus performantes. Actuellement, la communication homme-machine prit une place importante dans le monde de l’informatique. Malgré la difficulté du traitement du signal de la parole, les recherches ont pu surpasser les obstacles. Le présent rapport se focalise sur le traitement, l’analyse du signal, ainsi que la reconnaissance de la parole. Ce rapport inclus aussi une démonstration de l’usage de traitement du signal de la parole avec le mini logiciel « Dictpad», celui-ci permet de démontrer la commande ainsi que la dictée vocale sous Windows. Les codes sont écrits avec le langage C++ et développées avec l’outil de programmation Visual C++ 6.0 de Microsoft. TABLE DES MATIERES INTRODUCTION .................................................................................................................... 1 CHAPITRE 1 : LE TRAITEMENT DU SIGNAL ................................................................ 2 1.1. Numérisation du signal .................................................................................................... 2 a. Echantillonnage .............................................................................................................. 2 b. La Quantification............................................................................................................. 6 c. Codage ............................................................................................................................. 7 1.2. Traitement numérique du signal ................................................................................... 9 a. Transformée de Fourier d’un signal discret ................................................................. 9 b. Transformée de Fourier Discret ................................................................................. 10 CHAPITRE 2 : GENERALITES SUR LE SIGNAL DE LA PAROLE ........................... 14 2.1. Définitions et caractéristiques du signal de la parole .................................................. 14 a. La fréquence fondamentale (le pitch) ........................................................................ 15 b. La hauteur de la voix ................................................................................................. 15 c. L’intensité .................................................................................................................. 16 2.2. Production et perception de la parole ............................................................................ 16 a. La production de la parole ......................................................................................... 16 b. La perception de la parole .......................................................................................... 17 2.3. Niveaux de description de la parole ............................................................................. 19 CHAPITRE 3 : RECONNAISSANCE DE LA PAROLE .................................................. 20 3.1. Introduction ................................................................................................................... 20 a. Définition ....................................................................................................................... 20 b. Recherche en reconnaissance vocale............................................................................. 20 c. Complexité de la reconnaissance vocale ....................................................................... 20 d. Applications de la reconnaissance vocale .................................................................... 23 e. Classement de la reconnaissance vocale ....................................................................... 24 f. Objectifs de l’ASR ......................................................................................................... 24 3.2. Paramétrisation du signal de la parole .......................................................................... 25 a. Représentation temporelle ............................................................................................. 25 b. Empreinte caractéristique .............................................................................................. 29 c. Décodage acoustico-phonétique .................................................................................... 34 3.3. Techniques de reconnaissance vocale .......................................................................... 35 CHAPITRE 4 : APPLICATION DE LA RECONNAISSANCE DE LA PAROLE SUR WINDOWS .......................................................................................................................... 40 4.1 Introduction ................................................................................................................. 40 4.2. Le logiciel « DICTPAD » .......................................................................................... 40 a. Présentation générale ..................................................................................................... 40 b. Manuel utilisateur .......................................................................................................... 41 c. Mode de fonction de Dictpad ........................................................................................ 44 d. Programmation .............................................................................................................. 45 CONCLUSION ................................................................................................................... 46 ANNEXE A : Le Modèle de Markov Caché (HMM) .......................................................... 47 Formalisme ........................................................................................................................... 47 ANNEXE B : Algorithme DTW ............................................................................................ 48 Notion de l’algorithme DTW [11] ........................................................................................ 48 ANNEXE C: SAPI avec Windows ........................................................................................ 50 C.1 Les bases de la programmation sous Windows ............................................................. 50 a. Introduction .................................................................................................................. 50 b. Hello, World ! .............................................................................................................. 50 c. La fonction WinMain ................................................................................................... 51 C.2 Les fenêtres ................................................................................................................... 52 a. Introduction .................................................................................................................. 52 b. Les messages ................................................................................................................ 52 C.3 SAPI (Speech Application Programming Interface) ...................................................... 53 a. Vue d’ensemble ............................................................................................................. 53 b. API pour Text-to-Speech .............................................................................................. 53 c. API pour la reconnaissance vocale ............................................................................... 55 d. Microsoft Speech SDK.................................................................................................. 58 ANNEXE D : L’alphabet phonétique international (IPA) ................................................. 59 REFERENCES ....................................................................................................................... 60 LISTE DES FIGURES Figure 1.1 : Signal avant et après l’échantillonnage ................................................................... 2 Figure 1.2 : Représentation du spectre du signal s(t) ................................................................. 3 Figure 1.3 : Fonction rectangle ................................................................................................... 4 Figure 1.4 : Spectre modulé en amplitude .................................................................................. 5 Figure 1.5 : Quantification ......................................................................................................... 6 Figure 1.6 : TF de x(t) .............................................................................................................. 11 Figure 1.7 : TF de la fonction rectangle y(t)............................................................................ 11 Figure 1.8 : Troncation de x(t) sur une durée T ....................................................................... 11 Figure 2.1 : Son voisé ............................................................................................................... 15 Figure 2.2 : Son non-voisé ........................................................................................................ 15 Figure 2.3 : Chaine de la communication parlée ..................................................................... 18 Figure 2.4 : Les champs auditifs humains ................................................................................ 19 Figure 3.1: Exemple de 2 signaux temporels (à gauche) et de 2 spectrogrammes (à droite) d’une même phrase prononcée par deux locuteurs différents .................................................. 22 Figure 3.2 : Finalité de l’ASR .................................................................................................. 25 Figure 3.3 : Enregistrement numérique d’un signal acoustique ............................................... 26 Figure 3.4 : Audiogrammes du mot « parenthèse » .................................................................. 27 Figure 3.5: Méthode de calcul d’un FFT pour obtenir le spectrogramme .............................. 27 Figure 3.6: Spectrogramme à bande étroite de la phrase« Alice’s adventure » ...................... 28 Figure 3.7: Spectrogramme et audiogramme ........................................................................... 27 Figure 3.8 : Spectre obtenu par transformée rapide de Fourier (FFT) ..................................... 31 Figure 3.9 : Principe du codage LPC ........................................................................................ 32 Figure 3.10 : Modèle AR .......................................................................................................... 33 Figure 3.11 : Empreinte obtenue par prédiction linéaire (LPC) ............................................... 34 Figure 3.12 : Système de reconnaissance de forme .................................................................. 36 Figure 3.13 : Reconnaissance par DTW ................................................................................... 37 Figure 3.14: Reconnaissance par modélisation d’unité acoustique .......................................... 38 Figure 4.1: Interface de Dictpad ......................................................................................................... 41 Figure 4.2: Description de la barre de tache ..................................................................................... 42 Figure 4.3: Menu Fichier ..................................................................................................................... 43 Figure 4.4: Menu Edition .................................................................................................................... 43 Figure 4.5: Menu Voix ........................................................................................................................ 44 Figure B.1: Chemin parcouru entre deux vecteurs de longueur différente .................................. 49 Figure B.2: Choix de prédécesseur ................................................................................................... 49 Figure C.1: Boite de dialogue « Hello, World » ............................................................................. 50 Figure C.2: Vue d’ensemble de SAPI ............................................................................................... 53 LISTE DES TABLEAUX Tableau 1.1: Code Binaire Naturel ...................................................................................................... 8 Tableau 1.2: Transformée Fourier des signaux discrets usuels ...................................................... 9 Tableau D.1: Les symboles de l’IPA utilisé en français (Annexe D) .......................................... 59 1 LISTE DES ACRONYMES AMDF: Average Magnitude Difference Function API: Application Programming Interface AR/MA: Auto-Regressive/Moving Average ASR: Automatic Speech Recognition CAN/CNA : Convertisseur Analogique Numérique/Convertisseur Numérique Analogique DFT : Transformée de Fourier Discret DCB: Decimal Code Binary DTW: Dynamic Time Warping FD/PSOLA: Frequency Domain/ Pitch Synchronous Overlap and Add FIR: Finite Impulse Response FFT: Fast Fourier Transform HMM: Hidden Markov Model IDFT/ TFD: transformée de fourrier discrète inverse/ Transformée de Fourier Discrète IPA: International Phonetic Alphabet IPR : Infinite Pulse Response LPC: Linear Predictif Coding MMSF: Minimum Mean Square Filtering PLP: Perceptual Linear Prediction PSOLA: Pitch Synchronous Overlap and Add RAP : Reconnaissance Automatique de la Parole RELP: Residual Excited Linear Prediction SAPI: Speech Application Programming Interface SDK: Software Development Kit SIFT: Simplified Inverse Filter Tracking-algorithm TCP/IP: Transfer Control Protocol Internet Protocol TDPSOLA: Time Domain Pitch Synchronous Overlap and Add 1 INTRODUCTION La communication verbale est le moyen le plus efficace pour transmettre les informations. Tout être vivant ont chacune leur propre moyen de communiquer. Les hommes sont les seules êtres vivants dotés de la parole. Cependant, la reconnaissance de la parole est devenue un outil nécessaire pour la technologie que ce soit dans le cadre de sécurité, commande des machines et la dictée vocale. La reconnaissance de la parole s’inscrit dans le cadre de la communication homme-machine, elle rend la communication plus facile puisque l'oral est une interface naturelle, quasi-universelle. Ce projet de mémoire s’intitule « Traitement du signal et la reconnaissance de la parole » est composé de quatre chapitres dont le premier chapitre s’intitule «Traitement de signal » pour l’étude général du traitement uploads/Sante/ maripotsiveryt-espa-ing-10.pdf
Documents similaires
-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 24, 2021
- Catégorie Health / Santé
- Langue French
- Taille du fichier 1.4023MB