Yassine Ben Ayed Maître Assistant à l’Institut Supérieur d’Informatique et Mult
Yassine Ben Ayed Maître Assistant à l’Institut Supérieur d’Informatique et Multimédia de Sfax ISIMS Reconnaissance Automatique de la Parole 2 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 3 Numérisation Numérisation La fréquence d'échantillonnage doit être au moins égale au double de la fréquence maximale du signal à numériser (Shannon) La fréquence d'échantillonnage doit être au moins égale au double de la fréquence maximale du signal à numériser (Shannon) Bande passante Fréquence d’échantillonnage Téléphone 300-3500 Hz 8 kHz 8bits Voix 60-10000 Hz 16 kHz 16 bits Hifi 10-18000 Hz 44 kHz 16 bits (CD) 4 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 5 Détection de début et fin de parole Détection de début et fin de parole mauvaise détection mauvaise reconnaissance Début ou fin coupée : Reconnaissance impossible Erreur irrécupérable Début trop tôt ou fin trop tard : Risque d’insertion de mots par le moteur Erreur récupérable si le moteur sait bien modéliser les longs silences ou les bruits mauvaise détection mauvaise reconnaissance Début ou fin coupée : Reconnaissance impossible Erreur irrécupérable Début trop tôt ou fin trop tard : Risque d’insertion de mots par le moteur Erreur récupérable si le moteur sait bien modéliser les longs silences ou les bruits 6 Détection de début et fin de parole Détection de début et fin de parole Exemple de reconnaissance avec une fin mal découpée Exemple de reconnaissance avec une fin mal découpée 7 Détection de début et fin de parole Détection de début et fin de parole Principales méthodes de détection énergie + durée : la parole est plus énergétique que le bruit de fond et un mot dure un temps minimal + rapide - sensible au bruit de fond Modèle + durée : modélisation de la parole et du bruit de fond, comparaison de distance entre les deux modèles +précis -calcul Principales méthodes de détection énergie + durée : la parole est plus énergétique que le bruit de fond et un mot dure un temps minimal + rapide - sensible au bruit de fond Modèle + durée : modélisation de la parole et du bruit de fond, comparaison de distance entre les deux modèles +précis -calcul Sujet master : Segmentation d’un signal audio : parole-musique 8 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 9 Paramétrisation Paramétrisation Transformer le signal brut en paramètres plus robustes et plus discriminants fondés sur des critères perceptifs Réduire le flux d’informations à traiter par le moteur Transformer le signal brut en paramètres plus robustes et plus discriminants fondés sur des critères perceptifs Réduire le flux d’informations à traiter par le moteur 10 Paramétrisation (2) Paramétrisation (2) Exemple de deux signaux différents mais indiscernables à l’oreille Une transformée de Fourier permet de connaître les fréquences qui composent le signal (paramètres perceptifs) Exemple de deux signaux différents mais indiscernables à l’oreille Une transformée de Fourier permet de connaître les fréquences qui composent le signal (paramètres perceptifs) 11 Transformée de Fourier Transformée de Fourier Même transformée de Fourier Même transformée de Fourier 12 Paramétrisation Paramétrisation Paramétrisation la plus utilisée : MFCC (Mel Frequency Cespral Coefficients) FFT pour décomposer le signal en ses fréquences constituantes Filtres triangulaires placés de façon à imiter le comportement de l’oreille On peut distinguer un son de 100Hz d’un de 150Hz On ne peut distinguer un son de 4000 d’un de 4050 Hz Paramétrisation la plus utilisée : MFCC (Mel Frequency Cespral Coefficients) FFT pour décomposer le signal en ses fréquences constituantes Filtres triangulaires placés de façon à imiter le comportement de l’oreille On peut distinguer un son de 100Hz d’un de 150Hz On ne peut distinguer un son de 4000 d’un de 4050 Hz 13 Paramétrisation Paramétrisation Filtres triangulaires Filtres triangulaires 14 Paramétrisation Paramétrisation Réduction du flux de données Signal brut : 16000 données par seconde Paramètres MFCC : 2250 données par seconde Réduction du flux de données Signal brut : 16000 données par seconde Paramètres MFCC : 2250 données par seconde 15 Paramétrisation Paramétrisation Fenêtrage Fenêtrage 16 Paramétrisation Paramétrisation Fenêtre de Hamming Fenêtre de Hamming 17 Paramétrisation Paramétrisation Fenêtre de hamming -> le centre est bien modélisé -> recouvrement Fenêtre de hamming -> le centre est bien modélisé -> recouvrement 18 Comment bâtir un système de reconnaissance? Comment bâtir un système de reconnaissance? Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur Numériser le signal Détecter le début et la fin de la parole Paramétrer le signal Effectuer la reconnaissance à l’aide d’un moteur 19 Problèmes de la reconnaissance Problèmes de la reconnaissance Variabilité inter-locuteur Voix graves/aiguës Niveau fort/faible Accents / étranger Niveau scolaire Variabilité inter-locuteur Voix graves/aiguës Niveau fort/faible Accents / étranger Niveau scolaire 20 Problèmes de la reconnaissance Problèmes de la reconnaissance Variabilité intra-locuteur Humeur Stress Vitesse d’élocution Canal de transmission Téléphone/GSM/poste fixe Compression GSM/Web Type de microphone Variabilité intra-locuteur Humeur Stress Vitesse d’élocution Canal de transmission Téléphone/GSM/poste fixe Compression GSM/Web Type de microphone 21 Vitesse d’élocution Vitesse d’élocution 22 Problèmes de la reconnaissance Problèmes de la reconnaissance Environnement Bruit stationnaire Avion en croisière Bureau calme Bruits non stationnaire Voiture Hall de gare Claquement porte Réverbération, écho Environnement Bruit stationnaire Avion en croisière Bureau calme Bruits non stationnaire Voiture Hall de gare Claquement porte Réverbération, écho 23 Problèmes de la reconnaissance Problèmes de la reconnaissance Vitesse d’élocution Lent/rapide Variabilité entre locuteurs Variabilité pour un même locuteur Vitesse d’élocution Lent/rapide Variabilité entre locuteurs Variabilité pour un même locuteur Brève introduction aux Modèles de Markov Cachés (MMC) Anglais : Hidden Markov Models (HMM) 25 Qu’est-ce qu’un HMM ? Qu’est-ce qu’un HMM ? C’est un automate probabiliste C’est un automate probabiliste Probabilité de transition O2 O3 O4 O1 26 La parole modélisée par HMM La parole modélisée par HMM On suppose que le système de production de la parole est un système Markovien On suppose que le système de production de la parole est un système Markovien 27 Pourquoi caché ? Pourquoi caché ? Parce qu’on ne voit que les observations On ne sait pas quelle suite d’états a permis d’obtenir cette suite d’observation Parce qu’on ne voit que les observations On ne sait pas quelle suite d’états a permis d’obtenir cette suite d’observation 28 Modèles de Markov Cachés Modèles de Markov Cachés 29 Reconnaissance Reconnaissance Chaque mot à reconnaître est modélisé par un HMM Reconnaître ce qui a été prononcé C’est chercher la meilleure séquence d’états qui est censée avoir produit la suite d’observations (le signal de parole) Si on a trouvé la séquence d’états, on connaît la séquence de modèles donc la phrase prononcée Chaque mot à reconnaître est modélisé par un HMM Reconnaître ce qui a été prononcé C’est chercher la meilleure séquence d’états qui est censée avoir produit la suite d’observations (le signal de parole) Si on a trouvé la séquence d’états, on connaît la séquence de modèles donc la phrase prononcée 30 Problème de la reconnaissance Problème de la reconnaissance Trouver le modèle M qui maximise la probabilité a posteriori P(M|O) P(M|O) : probabilité que ce soit le modèle M qui ait généré l’observation O Calcul direct impossible => loi de Bayes Trouver le modèle M qui maximise la probabilité a posteriori P(M|O) P(M|O) : probabilité que ce soit le modèle M qui ait généré l’observation O Calcul direct impossible => loi de Bayes P M O P O M P M P O ( ) ( ) ( ) ( ) | | 31 Explications Explications P(O|M) : probabilité d’observer O sachant le modèle M P(M) : probabilité a priori du modèle M P(O) : probabilité a priori de la séquence O P(O|M) : probabilité d’observer O sachant le modèle M P(M) : probabilité a priori du modèle M P(O) : probabilité a priori de la séquence O P M O P O M P M P O ( ) ( ) ( ) ( ) | | 32 Notations Notations Soit O=(o1,o2,...,oT) : une suite d’observations de longueur T N : nombre d’états du modèle q : séquence d’états q=(q0,q1,q2...,qT) Au temps t, le modèle est dans l’état qt engendre l’observation ot uploads/Philosophie/ cours-reconnaissance-de-la-parole-yassine-benayed.pdf
Documents similaires










-
31
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 03, 2022
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 10.6586MB