Théodore APAPOULLE Thibault CHATIRON La reconnaissance vocale 1 SY24 - P15 Plan

Théodore APAPOULLE Thibault CHATIRON La reconnaissance vocale 1 SY24 - P15 Plan SY24 - P15 2 Introduction Définition Applications de reconnaissance vocale Problématiques liées à la reconnaissance vocale Principe de fonctionnement Robustesse des systèmes de reconnaissance vocale Conclusion Traitement automatique de la parole SY24 - P15 3 Ensemble de 6 grands thèmes: Codage et compression de la parole Synthèse de la parole Reconnaissance et vérification du locuteur Identification de la langue Détermination de l’état émotionnel d’un locuteur Reconnaissance de la parole La reconnaissance vocale SY24 - P15 4 Domaine recouvrant tous les aspects liés à l’interprétation, par la machine, du langage humain. Domaine de la science ayant toujours eu un grand attrait auprès des chercheurs comme auprès du grand public Exemples Piloter son installation domestique à la voix Ne plus avoir à taper pendant des heures sur un clavier pour rédiger un rapport Applications de la reconnaissance vocale SY24 - P15 5 Trois grands types de systèmes : Les systèmes de commandes vocales Les systèmes de dictée automatique Les systèmes de compréhension. Exemples : Aide à la navigation à bord de voiture Aide au handicap Saisie de données La parole humaine SY24 - P15 6 Flux continu constitué d'une suite de mots, eux mêmes étant constitués d'un enchainement de phonèmes et de bruits articulatoires. Phonème : Unité distinctive de prononciation dans une langue. Exemple : /ε / et / ε: / dans père et paire Parole humaine: Très variable puisqu'un même phonème possède de nombreux paramètres qui sont en fonction du locuteur. Intensité de la voix hauteur de la voix type de son émis par le locuteur (chuchotement, chant, parole) émotion dans la voix du locuteur Problématiques SY24 - P15 7 Plusieurs problèmes font que le reconnaissance de la parole est un domaine difficile Une grande variabilité de la parole Variabilité intralocuteur : voix chantée, criée, murmurée, enrhumée, enrouée, sous stress, bégaiement . .. Variabilité interlocuteur : timbres différents, voix masculines, féminines, voix d'enfants Continuité et coarticulation La production d’un son est fortement influencée par le son qui le précède et qui le suit en raison de l’anticipation du geste articulatoire. Architecture d’un système de reconnaissance vocale SY24 - P15 8 Analyse acoustique du signal parole SY24 - P15 9 Conversion analogique/numérique SY24 - P15 10 Onde acoustique de parole captée par le microphone Transformation de l’onde acoustique de parole en un signal électrique. Filtrage pour éliminer tous les composants du signal en dehors de la bande passante [ 50 Hz - 8 kHz ] Conversion analogique-numérique du signal : Echantillonnage : la fréquence d'échantillonnage doit donc au moins 8 kHz pour la parole de qualité téléphonique et de 16 à 20 kHz pour la parole de bonne qualité Quantification . Préaccentuation SY24 - P15 11 Le signal échantillonné est pré-accentué : Ressortir les hautes fréquences avec un filtre numérique à réponse impulsionnelle finie de premier ordre Hautes fréquences moins énergétiques que les basses fréquences Segmentation SY24 - P15 12 Méthodes du traitement de signal utilisées dans l’analyse du signal opèrent sur des signaux stationnaires Parole: un signal non stationnaire. Solution : Analyse de ce signal effectuée sur des trames successives de parole, de durée relativement courte sur lesquelles le signal peut en général être considéré comme quasi stationnaire Découpage du signal pré accentué en trames de N échantillons de parole. En général N est fixé de telle manière à ce que chaque trame corresponde à environ 20 à 30 ms de parole. Fenêtrage SY24 - P15 13 La segmentation du signal en trames produit des discontinuités aux frontières des trames (Lobes secondaires). Réduction de ces effets en multipliant les échantillons de la trame par une fenêtre de pondération telle que la fenêtre de Hamming Analyse à court terme SY24 - P15 14 Analyse à court terme : chaque trame fenêtrée du signal est ensuite convertie en un vecteur acoustique constitué d’un ensemble réduit de paramètres Différentes méthodes coexistent pour la transformation d'une trame fenêtrée de signal en un vecteur acoustique Méthodes non paramétriques Méthodes paramétriques Méthodes avec modèles de perception Analyse à court terme SY24 - P15 15 Les méthodes paramétriques qui se basent sur un modèle de production Codage par prédiction linéaire LPC (Linear Prediction Coding) LPCC (Linear Prediction Cepstral Coefficients). Les méthodes non paramétriques le taux de passage par zéro, la fréquence fondamental (pitch), la transformée de Fourier discrète,  l'énergie du signal, les sorties d'un banc de filtres numériques la transformée en ondelettes. Les méthodes fondées sur un modèle de perception MFCC (Mel Frequency Cepstral Coefficients) PLP(Perceptual Linear Prediction) Analyse à court terme SY24 - P15 16  Les méthodes les plus couramment utilisées: MFCC PLP LPCC Méthode MFCC SY24 - P15 17 Exploiter les propriétés du système auditif humain par la transformation de l'échelle linéaire des fréquences en échelle Mel Méthode de reconnaissance vocale Décodage acoustico-phonétique Extraire les paramètres choisis pour représenter le signal Décoder le signal d’entrée SY24 - P15 18 Les techniques (1/2) Approche globale : le mot Fournir une image acoustique de chaque mots à identifier Limite : petits vocabulaires nombre restreint de locuteurs SY24 - P15 19 Les techniques (2/2) Approche analytique : la structure des mots Identifier les composantes élémentaires (phonèmes, syllabes, ...) => unités de base Meilleure approche :  Pour reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. SY24 - P15 20 Les phases (1/2) La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, pour créer en machine le dictionnaire de références acoustiques. Pour l’approche analytique, l'ordinateur demande à l'utilisateur d'énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l'intérêt de comporter des successions de phonèmes bien particuliers. SY24 - P15 21 Les phases (2/2) La phase de reconnaissance : un locuteur prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes: Un capteur permettant d'appréhender le phénomène physique considéré (microphone), Paramétrisation des formes (analyseur spectral), Décision de classer une forme inconnue dans l'une des catégories possibles SY24 - P15 22 Reconnaissance du mot Signal vocal comparé aux mots du dictionnaire de référence L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, en calculant le taux de similitude entre le mot prononcé et les diverses références. Les modèles de Markov à états cachés (Hidden Markov Model) Modèle acoustique Résultats : Donne la probabilité de correspondance à phonème Associer le phonème le plus probable à la tranche Le programme va comparer le mot prononcé par le locuteur avec ceux qui sont en mémoire depuis l’apprentissage Trouver le signal le plus ressemblant. SY24 - P15 23 L’étape de reconnaissance Analyser le signal inconnu sous la forme d’une suite de vecteurs acoustiques Comparer la suite inconnue à des exemples préalablement enregistrés. Le mot «reconnu» sera alors celui dont la suite de vecteurs acoustiques colle le mieux à celle du mot inconnu. SY24 - P15 24 Principe HMM Soit A un signal acoustique, le processus de reconnaissance peut être décrit comme le calcul de la probabilité P(W|A) qu’une suite de mots (ou phrase) W corresponde au signal acoustique A, et la détermination de la suite de mots qui maximise cette probabilité. - P(W), probabilité de la suite de mots W - P(A|W), probabilité du signal acoustique A, étant donné la suite W , - P(A), probabilité du signal acoustique. => Nécessaire de considérer P(A|W) (modèle acoustique) et P(W) (modèle linguistique). SY24 - P15 25 Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Probabilité d’obtenir un mot connaissant les mots précédents SY24 - P15 26 Modèle acoustique + linguistique SY24 - P15 27 Robustesse Le système est-il capable de fonctionner dans des conditions difficiles ? Bruits d'environnement (dans une rue, etc…) Déformation de la voix par l’environnement (réverbérations, échos, etc…) Qualité du matériel utilisé (micro, carte son etc…) Bande passante fréquentielle limitée (fréquence limitée d’une ligne téléphonique) Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc…) Certains systèmes peuvent être plus robustes que d'autres à l'une ou l'autre de ces perturbations, mais en règle générale, les systèmes de reconnaissance de la parole sont encore sensibles à ces perturbations. SY24 - P15 28 Conclusion Aujourd’hui : Systèmes fonctionnels basés sur une approche statistique Logiciels de reconnaissance du langage continu Tailles de vocabulaire allant à 60 000 mots, Dictée à la vitesse de 120 à 160 mots par minute Succès de reconnaissance supérieur à 95%. Avenir : Améliorer les modèles acoustiques Améliorer les modèles linguistiques : techniques statistiques et réseaux neuronaux. Rendre les modèles indépendants du locuteur SY24 - P15 29 Réference SY24 - P15 30 Reconnaissance automatique de la parole : Du signal à uploads/Philosophie/ la-reconnaissance-vocale.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager