TRAITEMENT DE LA PAROLE http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE
TRAITEMENT DE LA PAROLE http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE 233 andrzej.drygajlo@epfl.ch Speech Processing and Biometrics Group (GTPB) Laboratoire de IDIAP (LIDIAP) Signal Processing Institute (ITS) Swiss Federal Institute of Technology Lausanne (EPFL) National Center of Competence in Research (NCCR) “Interactive Multimodal Information Management (IM)2” IDIAP Research Institute, Martigny InterSpeech - Eurospeech 2003 • 8th European Conference on Speech Communication and Technology • Organizer: International Speech Communication Association (ISCA) • 1110 registered participants from 47 countries Knowledge Navigator Implications technologiques • Integration du téléphone – Mains libres/micro HiFi – Majordome d’accueil vocal – Vidéoconférence • Codage de la parole – Débit/coût/qualité – Standardisation • Synthèse – Vocabulaire illimité – Intonation naturelle – Synthèse à partir de concepts • Reconnaissance, compréhension – Vocabulaire illimité – Système indépendant du locuteur Speech/Music Discrimination and Recognition entropy dynamism Music/ other sounds Speech CRAZY JOE Interactive Tour-Guide Robot Face Loud speakers Microphone array Buttons SICK laser scanner Bumpers Mobile robot RoboX EXPO.02 – Robotics Exhibition Pourquoi? Quelle est votre définition de la parole? • Moyen de communication par excellence. • Information qui est véhiculée par les ondes sonores. • C’est un bruit qui a un sens. • C’est le vecteur d’information qui différencie l’homme de l’animal. • Signal permettant la communication entre humains. • Je ne sais pas en français. J’espere que ça sera plus clair après ce cours. L’homme est-il fait pour parler? La parole • La parole – faculté de communiquer la pensée par un système de sons articulés émis par les organes de la phonation • La parole – expression verbale de la pensée Le Petit Robert 1993 La voix et le langage • La voix – ensemble de sons produits par le système phonatoire et articulatoire • Le langage – fonction d’expression de la pensée et de communication entre les hommes, mise en œuvre au moyen d’un système de signes vocaux (parole) et éventuellement de signes graphiques (écriture) qui constitue une langue Le cerveau et le langage • Le langage nous aide à structurer le monde en concepts et à reduire la complexité des structures abstraites afin de les appréhender: c’est la propriété de « compression cognitive » • La perception – fonction par laquelle l’esprit se représente les objets Act de communication parlée LOCUTEUR AUDITEUR Idée Traitement cognitif Comprehénsion Traitement cognitif Traitement cognitif Traitement linguistique et phonétique Production du son Traitement linguistique et phonétique Traitement linguistique et phonétique Système auditif périphérique Système auditif périphérique Phonétique et Phonologie • La phonétique s’intéresse à la manière dont les sons du langage sont produits, transmis et perçus par les sujets parlants • La phonétique – branche de la linguistique qui étudie les phonèmes • La phonologie – science qui étudie les phonèmes non en eux-mêmes, mais quant à leur fonction dans la langue Phonème • Phonème (notion phonologique) – unité minimale du langage porteuse d’une signification linguistique • Allophone – realisation d’un phonème (un phonème peut avoir plusieurs allophones) Phonèmes utilisés en français La parole • La parole est un signal réel (4D), continu, d’énergie finie, non stationnaire. • Sa structure est complexe et variable dans le temps: – Tantôt périodique (plus exactement pseudo- périodique) pour les sons voisés, – Tantôt aléatoire pour les sons fricatifs, – Tantôt impulsionnelle dans les phases explosives des sons occlusifs. • Exemple: voix-parole Speech synthesis • Synthesis by rule • Text-to-speech Speech synthesis • Synthesis by rule • Text-to-speech Individuality • Speaker recognition • Speaker adaptation/normalization • Voice conversion Individuality • Speaker recognition • Speaker adaptation/normalization • Voice conversion Human-machine interface • Ergonomics • Subjective/objective evaluation Human-machine interface • Ergonomics • Subjective/objective evaluation Speech recognition /understanding • Speaker-independent • Spontaneous speech Speech recognition /understanding • Speaker-independent • Spontaneous speech Speech coding • Wide/narrow-band • Very-low-bit-rate Speech coding • Wide/narrow-band • Very-low-bit-rate Robustness • Noise/distortion Robustness • Noise/distortion Psychology Physiology Articulation Acoustic phonetics Memory/learning Artificial Intelligence Acoustics Signal processing Speech perception Nerve system Speech production Speech analysis Database Database Feature extraction (dynamics) Speech information processing "tree" (Furui) Speech Recognition Speaker Recognition Language Recognition Speech Synthesis Speech Input Speech Output Multimodal Interface Language Understanding Language Generation Dialogue System Database Communication parlée homme-machine Invention du téléphone L’émetteur à liquide de Bell L’émetteur à induction de Bell 0110-05 Internet Internet VoIP VoIP PSTN PSTN Voice Traffic Content Content servers Voice portal environment UMTS • UMTS – Universal Mobile Telecommunications System • Le téléphone mobile de la 3e génération UMTS - Swisscom • L’opérateur propose depuis 16 novembre 2004 l’UMTS • Swisscom à investi ‘plusieurs centaines’ de millions de francs pour créer son réseau UMTS fort de 12’000 antennes, parallèle au GMS actuel • L’UMTS permet un débit maximal de 384 kbit/s • Swisscom se vante de couvrir 89,74% de la population en UMTS, soit 45% du territoire suisse MIT wearable computing people Traitement automatique de la parole Objectifs A la fin du cours, les étudiants seront capables d’appliquer les principales méthodes de traitement numérique du signal pour l’analyse, la compression, la synthèse et la reconnaissance de la parole. Bibliographie • A. Drygajlo, “Traitement de la parole”, EPFL, Lausanne, 2005 • R. Boite, H. Bourlard, T. Dutoit, J. Hancq, H. Leich, “Traitement de la parole”, PPUR, Lausanne 2000. Bibliographie • B. Gold, N. Morgan, “Speech and Audio Signal Processing”, John Wiley and Sons, New York, 2000 • T. Quatieri, “Discrete-Time Speech Signal Processing: Principles and Practice”, Prentice Hall PTR, Upper Saddle River, 2002. • X. Huang, A. Acero, H.-W. Hon, “Spoken Language Processing”, Prentice Hall PTR, Upper Saddle River, 2001. Contenu • Production et perception de la parole • Analyse et modélisation de la parole • Reconnaissance de la parole • Reconnaissance du locuteur • Synthèse de la parole • Compression et codage de la parole • Communication vocale homme-machine Production et perception de la parole • Aperçu anatomique • Mécanisme de la phonation • Phonétique articulatoire • Acoustique de la phonation • Mécanisme de l’audition • Psychoacoustique – Masquage – Bandes critiques Modélisation de la parole Analyse et modélisation de la parole • Représentation numérique du signal vocal • Analyse temporelle • Analyse spectrale • Modélisation spectro-temporelle et spectrogrammes • Analyse homomorphique • Modélisation basée sur la prédiction linéaire • Estimation des formants • Estimation de la période du fondamental Spectrogramme d’enveloppe Reconnaissance de la parole • Difficultés • Méthodes déterministes – Comparaison dynamique (DTW) – Quantification vectorielle (VQ) • Méthodes statistiques – Modèles de Markov cachés (HMM) – Algorithmes de Baum-Welch et de Viterbi – Réseaux de neurones artificiels (ANN) • Reconnaissance: – de mots isolés – de mots connectés – de la parole continue Comparaison dynamique (DTW) R T w 0103-19 Enveloppes spectrales Dictionnaire Quantification vectorielle (VQ) Gaussian Mixture Model (GMM) 1 2 1 2 1 2 ( ) ( ) (1) (1) (1) ( (2) (2) (2) ) T T T v D v D v v v v v v v D ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ • • • • • • ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ • • • ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ Vecteurs acoustiques d’entraînement GMM Paramètre 1 Paramètre 2 Paramètre D Histogrammes Distance = Score = vraisemblance (parole | modèle) 0104-08 Phoneme models Feature vectors Phoneme k-1 Phoneme k Phoneme k+1 time 1 1 3 3 2 2 Output probabilities b1(x) b2(x) b3(x) x x x 0.2 0.4 0.7 0.5 0.6 0.3 0.3 Modèles de Markov cachés (HMM) Reconnaissance du locuteur • Variabilité intra- et inter-locuteur • Vérification et identification du locuteur • Méthodes déterministes et statistiques • Méthodes dépendantes du texte – Comparaison dynamique (DTW) – Modèles de Markov cachés (HMM) • Méthodes indépendantes du texte – Quantification vectorielle (VQ) – Modèles à mélanges de gaussiens (GMM) Identification biométrique Empreinte digitale Voix Visage Rétine Signature Iris Bases de données Trace Population Suspect Population potentielle Références Contrôles Paramètres Paramètres Affaire Données Base des données de référence (R) du suspect Base des données de contrôle (C) du suspect Base des données de la population potentielle (P) Synthèse de la parole • Prosodie • Techniques de synthèse – Synthèse directe – Synthèse à travers un modèle – Simulation du conduit vocal • Systèmes de synthèse – Synthèse de messages – Synthèse à partir du texte - Traitements linguistico-prosodiques - Synthèse par règles - Synthèse par diphones •The DAVO articulatory synthesizer developed by George Rosen at MIT, 1958. The English Alphabet Song! Compression et codage de la parole • Enjeux actuels - Signal de parole dans la bande téléphonique - Signal de parole en bande élargie - Signal de parole en bande large • Méthodes temporelles (codeurs d’onde) - MIC (PCM), MICD (DPCM), MICDA (ADPCM) - Codage en sous-bandes • Méthodes paramétriques (vocodeurs) • Méthodes hybrides (CELP) • Normes internationales Représentation numérique du signal vocal • Bande large 20 Hz – 20 kHz Fréquence d’échantillonage – 44.1 kHz • Bande élargie 50 Hz – 7 kHz Fréquence d’échantillonage – 16 kHz • Bande uploads/Management/ 1-traitement-de-la-parole-2007-03-16.pdf
Documents similaires










-
58
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 30, 2021
- Catégorie Management
- Langue French
- Taille du fichier 3.6740MB