See discussions, stats, and author profiles for this publication at: https://ww

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/228710307 Reconnaissance automatique de la parole Article · January 1978 DOI: 10.51257/a-v2-h3728 CITATIONS 21 READS 2,949 1 author: Some of the authors of this publication are also working on these related projects: Language Modelling View project Speech Recognition View project J.-P. Haton Lorrain de Recherche en Informatique et Ses Applications 288 PUBLICATIONS 2,047 CITATIONS SEE PROFILE All content following this page was uploaded by J.-P. Haton on 13 February 2015. The user has requested enhancement of the downloaded file. 1 La reconnaissance automatique de la parole Jean-Paul Haton LORIA-INRIA Université Henri Poincaré, Nancy 1 Institut Universitaire de France jph@loria.fr Tutoriel TAIMA’2005 Hammamet, Tunisie Tutoriel RAP J-P. Haton 2 Plan de l’exposé • Introduction • La communication parlée • Analyse du signal acoustique • Approche statistique de la reconnaissance • Utilisation de modèles neuromimétiques • Approches fondées sur des connaissances • Robustesse des systèmes • Compréhension et dialogue homme-machine • Application de la RAP • Conclusion et perspectives d’avenir 2 Tutoriel RAP J-P. Haton 3 Plan de l’exposé • Introduction • La communication parlée • Analyse du signal acoustique • Approche statistique de la reconnaissance • Utilisation de modèles neuromimétiques • Approches fondées sur des connaissances • Robustesse des systèmes • Compréhension et dialogue homme-machine • Application de la RAP • Conclusion et perspectives d’avenir Tutoriel RAP J-P. Haton 4 Traitement Automatique de la Parole - CODAGE ET TRANSMISSION - SYNTHÈSE DE LA PAROLE - RECONNAISSANCE DE LA PAROLE - IDENTIFICATION DE LA LANGUE - VÉRIFICATION DU LOCUTEUR 3 Tutoriel RAP J-P. Haton 5 Tutoriel RAP J-P. Haton 6 Campagnes d’évaluation NIST-DARPA 4 Tutoriel RAP J-P. Haton 7 Types de tâches de reconnaissance             Vocabulary size (number of words) Speaking style Spontaneous speech Fluent speech Read speech Connected speech Isolated words 2 20 200 2000 20000 Unrestricted word spotting digit strings voice commands directory assistance form fill by voice name dialing 2-way dialogue natural conversation transcription office dictation system driven dialogue network agent & intelligent messaging Tutoriel RAP J-P. Haton 8 5 Tutoriel RAP J-P. Haton 9 Plan de l’exposé • Introduction • La communication parlée • Analyse du signal acoustique • Approche statistique de la reconnaissance • Utilisation de modèles neuromimétiques • Approches fondées sur des connaissances • Robustesse des systèmes • Compréhension et dialogue homme-machine • Application de la RAP • Conclusion et perspectives d’avenir Tutoriel RAP J-P. Haton 10 La chaîne de communication parlée 6 Tutoriel RAP J-P. Haton 11 Le système phonatoire Tutoriel RAP J-P. Haton 12 Production des voyelles 7 Tutoriel RAP J-P. Haton 13 Le triangle des voyelles (d’après F. Lonchamp) Tutoriel RAP J-P. Haton 14 Perception auditive : sensibilité de l’oreille Echelle Bark : Echelle Mel : 8 Tutoriel RAP J-P. Haton 15 Tutoriel RAP J-P. Haton 16 Principe de la reconnaissance des formes 9 Tutoriel RAP J-P. Haton 17 Principe de la reconnaissance de la parole Algorithme de reconnaissance Message reconnu Modèles acoustiques Modèles de mots Modèles de langue         Tutoriel RAP J-P. Haton 18 Plan de l’exposé • Introduction • La communication parlée • Analyse du signal acoustique • Approche statistique de la reconnaissance • Utilisation de modèles neuromimétiques • Approches fondées sur des connaissances • Robustesse des systèmes • Compréhension et dialogue homme-machine • Application de la RAP • Conclusion et perspectives d’avenir 10 Tutoriel RAP J-P. Haton 19 Paramétrisation • transformer le signal brut en paramètres plus robustes et plus discriminants fondés sur certains critères, notamment perceptifs • réduire le flux d’informations à traiter par le moteur de reconnaissance Tutoriel RAP J-P. Haton 20 • Fenêtrage : spectre à court-terme Paramétrisation 11 Tutoriel RAP J-P. Haton 21 Paramétrisation • Fenêtre de Hamming Tutoriel RAP J-P. Haton 22 Paramétrisation • Fenêtre de Hamming -> le centre est bien modélisé -> recouvrement 12 Tutoriel RAP J-P. Haton 23 Transformation de Fourier Spectre de puissance : Spectre de phase : Tutoriel RAP J-P. Haton 24 13 Tutoriel RAP J-P. Haton 25 Tutoriel RAP J-P. Haton 26 Analyse par transformée de Fourier 14 Tutoriel RAP J-P. Haton 27 Analyse par banc de filtres Tutoriel RAP J-P. Haton 28 Banc de filtres (échelle Mel) 15 Tutoriel RAP J-P. Haton 29 • paramétrisation la plus utilisée : MFCC (Mel Frequency Cespral Coefficients) – FFT pour décomposer le signal en ses fréquences constituantes – filtres triangulaires placés de façon à imiter le comportement de l’oreille (échelle Mel) Paramétrisation Tutoriel RAP J-P. Haton 30 Analyse homomorphique 16 Tutoriel RAP J-P. Haton 31 Analyse cepstrale Tutoriel RAP J-P. Haton 32 MFCC + dérivées 17 Tutoriel RAP J-P. Haton 33 Analyse RASTA-PLP Tutoriel RAP J-P. Haton 34 Autres méthodes Modèles d’oreille Paramètres fréquentiels filtrés Ondelettes etc.! 18 Tutoriel RAP J-P. Haton 35 Plan de l’exposé • Introduction • La communication parlée • Analyse du signal acoustique • Approche statistique de la reconnaissance • Utilisation de modèles neuromimétiques • Approches fondées sur des connaissances • Robustesse des systèmes • Compréhension et dialogue homme-machine • Application de la RAP • Conclusion et perspectives d’avenir Tutoriel RAP J-P. Haton 36 Approche statistique de la reconnaissance de la parole • Comparaison «élastique» de formes (« DTW ») • Principe : règle de décision de Bayes • Modélisation acoustique : trames vs segments • Evolution des modèles : – modélisation de la durée – corrélation entre trames (HMM2, modèles AR, modèles contextuels) – modèles discrets, continus, mélanges de lois – partage de paramètres – apprentissage : MLE vs MMI 19 Tutoriel RAP J-P. Haton 37 Principe de la programmation dynamique en RAP Tutoriel RAP J-P. Haton 38 20 Tutoriel RAP J-P. Haton 39 Tutoriel RAP J-P. Haton 40 21 Tutoriel RAP J-P. Haton 41 Tutoriel RAP J-P. Haton 42 Approche statistique de la reconnaissance de la parole • Comparaison «élastique» de formes (« DTW ») • Principe : règle de décision de Bayes • Modélisation acoustique : trames vs segments • Evolution des modèles : – modélisation de la durée – corrélation entre trames (HMM2, modèles AR, modèles contextuels) – modèles discrets, continus, mélanges de lois – partage de paramètres – apprentissage : MLE vs MMI 22 Tutoriel RAP J-P. Haton 43 Règle de décision de Bayes Parole Paramétrisation X = x [ 1:T ] Recherche max P(X/W) * P(W) W = w [1:N] Suite de mots reconnus Modèles acoustiques Modèles de langage P(X/W) P(W) Tutoriel RAP J-P. Haton 44 Approche statistique de la reconnaissance de la parole • Comparaison «élastique» de formes (« DTW ») • Principe : règle de décision de Bayes • Modélisation acoustique : le HMM • Evolution des modèles : – modélisation de la durée – corrélation entre trames (HMM2, modèles AR, modèles contextuels) – modèles discrets, continus, mélanges de lois – partage de paramètres – apprentissage : MLE vs MMI 23 Tutoriel RAP J-P. Haton 45 Qu’est-ce qu’un modèle de Markov caché, HMM ? (selon D. Fohr) • c’est un automate probabiliste Probabilité de transition O2 O3 O4 O1 Tutoriel RAP J-P. Haton 46 La parole modélisée par HMM • On suppose que le système de production de la parole est un système markovien 24 Tutoriel RAP J-P. Haton 47 Modèle de Markov Caché Tutoriel RAP J-P. Haton 48 Modèle HMM de Bakis S1 S2 S3 S4 S5 p11 p12 p 13 25 Tutoriel RAP J-P. Haton 49 Notations • soit O=(o1,o2,...,oT) une suite d’observations de longueur T • N : nombre d’états du modèle • q : séquence d’états q=(q0,q1,q2...,qT) • au temps t, le modèle – est dans l ’état qt – engendre l ’observation ot Tutoriel RAP J-P. Haton 50 Définition formelle Pour définir un modèle de Markov il faut: πi : probabilité initiale : probabilité d’être à l’état i au temps 0 πi = P(q0=i) aij : probabilité de transition : probabilité d’aller de l’état i à l’état j aij=P(qt=j|qt-1=i) bi : densité de probabilité d’observation : probabilité d’observer ot à l’état i bi(ot) = P(ot|qt=i) 26 Tutoriel RAP J-P. Haton 51 Apprentissage • A l ’aide d’un corpus étiqueté d’exemples, il faut estimer: – les probabilités initiales πi – les probabilités de transition aij – les probabilités d ’émissions bi(o) c ’est à dire les moyennes µi et les matrices de covariances Σi Tutoriel RAP J-P. Haton 52 HMM avec mélange de gaussiennes p(q1|q1) p(q2|q2) p(q2|q1) p(q3|q3) p(q3|q2) q1 q2 q3 xn xn xn p(xn |q1) p(xn |q2) p(xn |q3) 27 Tutoriel RAP J-P. Haton 53 Reconnaissance par HMM . o1 o2 o3 o4 o5 o6 o7 o8 o9 o10 o11 Tutoriel RAP J-P. Haton 54 Algorithme de Viterbi • But: trouver la meilleure séquence d’états q pour une observation O soit : δt(i) est le meilleur score (plus grande probabilité) du chemin qui s’arrête à l’état i au temps t δ λ t q q q t t i P q q q q i t ( ) max ( ... , , ,..., = = − − 1 2 1 1 2 1 | uploads/Philosophie/ reconnaissance-automatique-de-la-parole.pdf

  • 13
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager