Yassine Ben Ayed Maître Assistant à l’Institut Supérieur d’Informatique et Mult

Yassine Ben Ayed Maître Assistant à l’Institut Supérieur d’Informatique et Multimédia de Sfax ISIMS Reconnaissance Automatique de la Parole 2 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 3 Numérisation Numérisation La fréquence d'échantillonnage doit être au moins égale au double de la fréquence maximale du signal à numériser (Shannon) La fréquence d'échantillonnage doit être au moins égale au double de la fréquence maximale du signal à numériser (Shannon) Bande passante Fréquence d’échantillonnage Téléphone 300-3500 Hz 8 kHz 8bits Voix 60-10000 Hz 16 kHz 16 bits Hifi 10-18000 Hz 44 kHz 16 bits (CD) 4 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 5 Détection de début et fin de parole Détection de début et fin de parole  mauvaise détection mauvaise reconnaissance Début ou fin coupée : Reconnaissance impossible Erreur irrécupérable Début trop tôt ou fin trop tard : Risque d’insertion de mots par le moteur Erreur récupérable si le moteur sait bien modéliser les longs silences ou les bruits  mauvaise détection mauvaise reconnaissance Début ou fin coupée : Reconnaissance impossible Erreur irrécupérable Début trop tôt ou fin trop tard : Risque d’insertion de mots par le moteur Erreur récupérable si le moteur sait bien modéliser les longs silences ou les bruits 6 Détection de début et fin de parole Détection de début et fin de parole Exemple de reconnaissance avec une fin mal découpée Exemple de reconnaissance avec une fin mal découpée 7 Détection de début et fin de parole Détection de début et fin de parole Principales méthodes de détection énergie + durée : la parole est plus énergétique que le bruit de fond et un mot dure un temps minimal + rapide - sensible au bruit de fond Modèle + durée : modélisation de la parole et du bruit de fond, comparaison de distance entre les deux modèles +précis -calcul Principales méthodes de détection énergie + durée : la parole est plus énergétique que le bruit de fond et un mot dure un temps minimal + rapide - sensible au bruit de fond Modèle + durée : modélisation de la parole et du bruit de fond, comparaison de distance entre les deux modèles +précis -calcul Sujet master : Segmentation d’un signal audio : parole-musique 8 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 9 Paramétrisation Paramétrisation Transformer le signal brut en paramètres plus robustes et plus discriminants fondés sur des critères perceptifs Réduire le flux d’informations à traiter par le moteur Transformer le signal brut en paramètres plus robustes et plus discriminants fondés sur des critères perceptifs Réduire le flux d’informations à traiter par le moteur 10 Paramétrisation (2) Paramétrisation (2) Exemple de deux signaux différents mais indiscernables à l’oreille Une transformée de Fourier permet de connaître les fréquences qui composent le signal (paramètres perceptifs) Exemple de deux signaux différents mais indiscernables à l’oreille Une transformée de Fourier permet de connaître les fréquences qui composent le signal (paramètres perceptifs) 11 Transformée de Fourier Transformée de Fourier Même transformée de Fourier Même transformée de Fourier 12 Paramétrisation Paramétrisation Paramétrisation la plus utilisée : MFCC (Mel Frequency Cespral Coefficients) FFT pour décomposer le signal en ses fréquences constituantes Filtres triangulaires placés de façon à imiter le comportement de l’oreille On peut distinguer un son de 100Hz d’un de 150Hz On ne peut distinguer un son de 4000 d’un de 4050 Hz Paramétrisation la plus utilisée : MFCC (Mel Frequency Cespral Coefficients) FFT pour décomposer le signal en ses fréquences constituantes Filtres triangulaires placés de façon à imiter le comportement de l’oreille On peut distinguer un son de 100Hz d’un de 150Hz On ne peut distinguer un son de 4000 d’un de 4050 Hz 13 Paramétrisation Paramétrisation Filtres triangulaires Filtres triangulaires 14 Paramétrisation Paramétrisation Réduction du flux de données Signal brut : 16000 données par seconde Paramètres MFCC : 2250 données par seconde Réduction du flux de données Signal brut : 16000 données par seconde Paramètres MFCC : 2250 données par seconde 15 Paramétrisation Paramétrisation Fenêtrage Fenêtrage 16 Paramétrisation Paramétrisation Fenêtre de Hamming Fenêtre de Hamming 17 Paramétrisation Paramétrisation Fenêtre de hamming -> le centre est bien modélisé -> recouvrement Fenêtre de hamming -> le centre est bien modélisé -> recouvrement 18 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 19 Problèmes de la reconnaissance Problèmes de la reconnaissance  Variabilité inter-locuteur  Voix graves/aiguës Niveau fort/faible  Accents / étranger Niveau scolaire  Variabilité inter-locuteur  Voix graves/aiguës Niveau fort/faible  Accents / étranger Niveau scolaire 20 Problèmes de la reconnaissance Problèmes de la reconnaissance Variabilité intra-locuteur Humeur Stress Vitesse d’élocution  Canal de transmission Téléphone/GSM/poste fixe Compression GSM/Web Type de microphone Variabilité intra-locuteur Humeur Stress Vitesse d’élocution  Canal de transmission Téléphone/GSM/poste fixe Compression GSM/Web Type de microphone 21 Vitesse d’élocution Vitesse d’élocution 22 Problèmes de la reconnaissance Problèmes de la reconnaissance Environnement Bruit stationnaire Avion en croisière Bureau calme Bruits non stationnaire Voiture Hall de gare Claquement porte Réverbération, écho Environnement Bruit stationnaire Avion en croisière Bureau calme Bruits non stationnaire Voiture Hall de gare Claquement porte Réverbération, écho 23 Problèmes de la reconnaissance Problèmes de la reconnaissance  Vitesse d’élocution Lent/rapide Variabilité entre locuteurs Variabilité pour un même locuteur  Vitesse d’élocution Lent/rapide Variabilité entre locuteurs Variabilité pour un même locuteur Brève introduction aux Modèles de Markov Cachés (MMC) Anglais : Hidden Markov Models (HMM) 25 Qu’est-ce qu’un HMM ? Qu’est-ce qu’un HMM ? C’est un automate probabiliste C’est un automate probabiliste Probabilité de transition O2 O3 O4 O1 26 La parole modélisée par HMM La parole modélisée par HMM On suppose que le système de production de la parole est un système Markovien On suppose que le système de production de la parole est un système Markovien 27 Pourquoi caché ? Pourquoi caché ? Parce qu’on ne voit que les observations On ne sait pas quelle suite d’états a permis d’obtenir cette suite d’observation Parce qu’on ne voit que les observations On ne sait pas quelle suite d’états a permis d’obtenir cette suite d’observation 28 Modèles de Markov Cachés Modèles de Markov Cachés 29 Reconnaissance Reconnaissance Chaque mot à reconnaître est modélisé par un HMM Reconnaître ce qui a été prononcé C’est chercher la meilleure séquence d’états qui est censée avoir produit la suite d’observations (le signal de parole) Si on a trouvé la séquence d’états, on connaît la séquence de modèles donc la phrase prononcée Chaque mot à reconnaître est modélisé par un HMM Reconnaître ce qui a été prononcé C’est chercher la meilleure séquence d’états qui est censée avoir produit la suite d’observations (le signal de parole) Si on a trouvé la séquence d’états, on connaît la séquence de modèles donc la phrase prononcée 30 Problème de la reconnaissance Problème de la reconnaissance Trouver le modèle M qui maximise la probabilité a posteriori P(M|O) P(M|O) : probabilité que ce soit le modèle M qui ait généré l’observation O Calcul direct impossible => loi de Bayes Trouver le modèle M qui maximise la probabilité a posteriori P(M|O) P(M|O) : probabilité que ce soit le modèle M qui ait généré l’observation O Calcul direct impossible => loi de Bayes P M O P O M P M P O ( ) ( ) ( ) ( ) | |  31 Explications Explications P(O|M) : probabilité d’observer O sachant le modèle M P(M) : probabilité a priori du modèle M P(O) : probabilité a priori de la séquence O P(O|M) : probabilité d’observer O sachant le modèle M P(M) : probabilité a priori du modèle M P(O) : probabilité a priori de la séquence O P M O P O M P M P O ( ) ( ) ( ) ( ) | |  32 Notations Notations Soit O=(o1,o2,...,oT) : une suite d’observations de longueur T N : nombre d’états du modèle q : séquence d’états q=(q0,q1,q2...,qT) Au temps t, le modèle est dans l’état qt engendre l’observation ot uploads/Philosophie/ cours-reconnaissance-de-la-parole-yassine-benayed.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager