MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSIT
MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN – Mohamed BOUDIAF Faculté des mathématiques et d’informatique- Département d’informatique 2013-2014 Cours de Traitement Automatique de la Parole 1ière année Master RFIA BENDAHMANE Abderrahmane 1. Introduction au traitement automatique de la parole 2. Phonétique articulatoire 3. Phonétique acoustique 4. Phonétique Auditive 5. Variabilité de la parole 6. Débruitage de la parole 7. Codage de la parole 1ière année Master RFIA USTO-MB Cours T. Parole Mr BENDAHMANE Abderrahmane @mail : abder.bendahmane@gmail.com 2 1- Introduction au traitement automatique de la parole La parole est l’un des principaux moyens de communication entre êtres humains, sa simplicité en fait d’ailleurs le moyen de communication le plus populaire dans la société humaine (il est plus facile de parler à quelqu’un que de lui écrire ou de lui faire un schéma). Néanmoins, cette simplicité (pour l’être humain) renferme un traitement très complexe fait par notre cerveau, de la production de la parole jusqu’à sa perception et sa compréhension, ce qui rend la parole difficilement automatisable pour une machine. L’avancement technologique et surtout de l’informatique a suscité le besoin de nouveaux moyens de dialogue homme machine (la parole), des moyens qui libéreraient l’homme d’un contact constant avec la machine limitant ainsi l’utilisation du clavier et autres périphériques qui rendaient la communication avec la machine très difficile et très lente. La parole est le principal support de la langue, comme pour l’écriture, le message doit donc être bien structuré selon des règles connues par tous ceux qui parlent la même langue (grammaire, syntaxe, vocabulaire…). Bien que l’évolution de la langue mue par les tendances actuelles rend de plus en plus difficile le fait de fixer des règles statiques une bonne fois pour toute, l’être humain grâce à l’ordinateur le plus sophistiqué au monde (son cerveau), pressé de faire passer son message, transgresse le plus souvent ces règles et arrive sans difficultés à le comprendre, ce qui montre le caractère dynamique du cerveau humain qui arrive très bien à s’adapter à de nouvelles situations, caractère qui devrait caractériser tout système de traitement de la parole. Exemple de dialogue personne-personne. Pour l’être humain comprendre ce que dit son interlocuteur est très simple, même s’il parle avec cette personne pour la première fois. L’interlocuteur arrive à générer grâce à son système articulatoire un signal acoustique ( le son étant le support de la parole ) continu et très complexe, perçu par notre système perceptif ce signal est traité par notre cerveau pour le filtrer de toute information inutile (bruit), en extraire des informations sur l’interlocuteur (voix, état mentale…), décoder le message en unités de base (phonèmes, syllabes…) qui seront réunies en mots choisis à partir d’un lexique qui permet de compenser d ‘éventuelles erreurs de décodage, affecter des significations à ces mots (phrases) selon une sémantique et un contexte. Tout cela pour montrer le nombre colossal de connaissances nécessaires pour le traitement de la parole. En générale, le traitement 1ière année Master RFIA USTO-MB Cours T. Parole Mr BENDAHMANE Abderrahmane @mail : abder.bendahmane@gmail.com 3 automatique de la parole utilise des sources de connaissance Phonétiques, Phonologiques, Prosodiques, Lexicales, Syntaxiques, Sémantiques. La phonétique : Science qui étudie les caractéristiques physiques des sons sur trois plans complémentaires (articulatoire, acoustique, perceptif). La phonologie : Étudie l’aptitude linguistique en relation avec le son, en faisant abstraction de ses propriétés physiques. Elle définie un inventaire des unités de base (phonèmes) avec des contraintes de combinaison. La prosodie : La prosodie peut être considérée comme une sorte de “ponctuation acoustique” de la parole. Elle recouvre les aspects liés à la hauteur de la voix, à l'intensité et à la durée des segments syllabiques. Son rôle dans la langue est multiple. Le lexique : Les performances d'un système de reconnaissance sont affectées par la taille du vocabulaire et aussi par le degré de confusion entre les mots. Le dictionnaire doit être étudié de telle sorte qu'il autorise économiquement la représentation de toutes les prononciations envisageables des mots, mais aussi pour qu'il permettre d'accéder directement à tous les mots contenant la même syllabe ou le même trait acoustique, de telle sorte qu'il soit possible de générer les hypothèses des mots à partir des caractéristiques du signal dans l'analyse ascendante. La syntaxe : Du point de vue de la langue, la syntaxe est l'ensemble des règles contraignant l'ordre des mots dans la phrase. Dans un système de compréhension, le but de la syntaxe est de réduire le nombre de phrases autorisées à partir du vocabulaire choisi. La sémantique : La sémantique est définie d'un point de vue linguistique, comme la relation entre la forme des signes linguistiques, ou "signifiants", et ce qui est signifié, ou "signifiés". En reconnaissance de la parole la sémantique restreint la combinatoire syntaxique. Cela dit les connaissances nécessaires pour la compréhension de la parole sont énormes, ainsi nous allons nous contenter d’étudier l‘aspect reconnaissance de la parole qui a pour objectif de décoder le signal de la parole en unités de bases (phonèmes, mots …) sans en donner une signification (sans comprendre le sens des phrases construites). De nos jours, les systèmes de reconnaissance de la parole ont évolué et utilisent non seulement des connaissances en linguistique (Phonétiques, Phonologiques, Prosodiques, Lexicales…) mais aussi des connaissances dans les domaines : Traitement du signal, Reconnaissance des formes… 1.2) Les différentes méthodes de reconnaissance de la parole La Reconnaissance de la Parole Continue consiste à transformer le "flot" acoustique du signal de parole en une représentation symbolique. Cette représentation doit être caractéristique du contenu linguistique. La reconnaissance de la parole continue peut être basée directement sur une comparaison de formes nouvelles avec des références des mots à reconnaître (e.g., description complète des mots en termes de modèles acoustiques), ou bien 1ière année Master RFIA USTO-MB Cours T. Parole Mr BENDAHMANE Abderrahmane @mail : abder.bendahmane@gmail.com 4 sur l'identification d'un ensemble d'unités élémentaires (e.g., phonèmes, diphones, syllabes). Dans le premier cas, il s'agit d'une reconnaissance globale, dans le second cas, d'une reconnaissance analytique. 1.2.1) La méthode globale Cette méthode considère le plus souvent le mot comme unité de reconnaissance minimale, c’est-à-dire indécomposable. Dans ce type de méthode, on compare globalement le message d'entrée (mot, phrase) aux différentes références stockées dans un dictionnaire en utilisant des algorithmes de programmation dynamique. Cette méthode a pour avantage d'éviter l'explicitation des connaissances relatives aux transitions qui apparaissent entre les phonèmes. Ce type de méthode est utilisé dans les systèmes de reconnaissance de mots isolés, reconnaissance de parole dictée avec pauses entre les mots… et présente l’inconvénient de limiter la taille du dictionnaire. 1.2.2) La méthode analytique Cette méthode fait intervenir un modèle phonétique du langage. Il y a plusieurs unités minimales pour la reconnaissance qui peuvent être choisies (syllabe, demi-syllabe, diphone, phonème, phone homogène, etc.). Le choix parmi ces unités dépend des performances des méthodes de segmentation utilisées. La reconnaissance dans cette méthode, passe par la segmentation du signal de la parole en unités de décision puis par l'identification de ces unités en utilisant des méthodes de reconnaissance des formes (classification statistique, réseau de neurones, etc.) ou des méthodes d'intelligence artificielle (systèmes experts par exemple). Cette méthode est beaucoup mieux adaptée pour les systèmes à grand vocabulaire et pour la parole continue. Les problèmes qui peuvent apparaître dans ce type de système sont dus en particulier aux erreurs de segmentation et d'étiquetage phonétique. C'est pourquoi le DAP (Décodage Acoustico-Phonétique) est fondamental dans une telle approche. Un système de reconnaissance de la parole peut être utilisé par une seule personne (mono locuteur), plusieurs personnes (multi locuteurs) ou tout le monde (indépendant du locuteur). 1.3) Le Décodage Acoustico-Phonétique C’est un module qui utilise essentiellement les caractéristiques acoustiques pour obtenir, à partir du signal : - un ensemble de segments, et un ensemble de traits acoustiques pour chaque segment. - l'ensemble des transcriptions phonétiques de chaque segment. Schéma général d’un système de reconnaissance de parole continu Parole (Signal) Numérisation et Prétraitement Suite de mots sélectionnés Lexique (dictionnaire) DAP Transcription phonétique (avec des erreurs) Analyse syntaxique Phrases écrites 1ière année Master RFIA USTO-MB Cours T. Parole Mr BENDAHMANE Abderrahmane @mail : abder.bendahmane@gmail.com 5 Donc le rôle du décodage acoustico-phonétique est de transformer le signal acoustique, en une suite d'unités phonétiques, sans connaissance des niveaux supérieurs. -Segmentation : Cette opération consiste à découper le signal en segments suffisamment homogènes pouvant être transcrits en unités de base (phonème, syllabe…). -Paramètrisation : Pour chaque segment un vecteur de paramètres (traits acoustiques) est extrait, ces paramètres doivent être : - pertinents : Extraits de mesures suffisamment fines, ils doivent être précis mais leur nombre doit rester raisonnable (éliminer la redondance des données) afin de ne pas avoir de coût de calcul trop important dans le module de décodage. - discriminants : Ils doivent donner une représentation caractéristique des sons de base et les rendre facilement séparables. - robustes : Ils ne doivent pas être trop sensibles à des variations de niveau sonore ou à un bruit de fond. -Classification : Utiliser les traits acoustiques pour donner une uploads/Philosophie/ traitement-parole2014mohim.pdf
Documents similaires










-
39
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Apv 03, 2021
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 2.1848MB