Branche Développement Le présent document contient des informations qui sont la

Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit du CNET © France Télécom - D1 - 26/10/2004 France Télécom R&D Reconnaissance de la parole Octobre 2001 Arnaud MARTIN PLAN z Introduction aux domaines de la parole et de la reconnaissance z Bref Historique et applications z Paramètres importants z Production et perception de la parole z Méthodes de reconnaissance de la parole z Numérisation du signal Domaines du Traitement de la Parole Dialogue Décodage Reconnaissance Reconnaissance Analyse Génération Restitution message texte Dialogue son son Synthèse Synthèse I.A. Transmission Codage Codage Appel à un Système Interactif Vocal (SVI) Analyse son Codage DAV Transmission Decodage Analyse Mots ou phrases reconnus message SIV RECO Module de Reconnaissance signal Analyse Coefficients RECO Décision DBP Mots ou phrases reconnus Efficacité de la Parole z Rapidité – par rapport à l’écrit, au geste, au dessin, ... z Liberté de mouvement – mains libres – indépendant de la vision z Moyen de communication le plus naturel Reconnaissance : Interdisciplinarité z Intersection d ’un grand nombre de domaines – Linguistique. – Phonétique. – Physique (acoustique). – Traitement du signal. – Reconnaissance des formes. – Théorie de l ’information. – Informatique. Historique z 50 ans de recherches z années 50, premiers essais (Bell Labs, MIT) : – mesures de résonances spectrales (moyens analogiques), sur les phonèmes. – reconnaissance de phonèmes : utilisation de connaissances statistiques. z années 60 : – Japon : développement de circuits intégrés dédiés à la reconnaissance vocale. – US : alignement temporelle (RCA Lab). – URSS : programmation dynamique (Vintsyuk). Historique z Années 70 : – US : groupe IBM (Jelinek), introduction des modèles de Markov cachés. z Années 80 : – Début de la reconnaissance sur les grands vocabulaires et la parole continue (programme DARPA). – Reconnaissance à travers le réseau téléphonique. z Années 90 : – Progrès de l ’informatique. – Développement des applications commerciales. Intervenants actuels 1 z Laboratoires universitaires : – US : CMU (Carnegie Mellon University), MIT, … – Europe : Cambridge, ... – France : • LIMSI Orsay (CNRS) – Systèmes dépendants du locuteur, technique DTW – Transcription des “Broadcat News” • Université Grenoble, Toulouse, Avignon • ENST • LORIA Nancy Intervenants actuels 2 z Opérateurs téléphoniques: – USA : ATT, Bell Labs, ... – Europe : France Télécom R&D, CSELT, ... – Japon : NTT, KDD, ... z Géants de l’informatique / électronique : – Philips, Sony, IBM, Intel, Motorola, Microsoft, … z « Petites » sociétés spécialisées : – Telisma, Nuance, Dragon Systems, Entropic, Lernout & Hauspie… Applications (1) z Commande vocale : – Répertoire vocal (annuaire). – Serveurs vocaux interactifs (réservation trains). – Recherche vocale sur Internet. z Authentification vocale : – Sécurisation d’un accès. – Reconnaissance d’un mot de passe ... – … et/ou reconnaissance du locuteur. Applications (2) z Dictée vocale (Dragon, IBM, Lernout & Hauspie (Voice Xpress), IBM (ViaVoice), Philips (FreeSpeech)) : – Parole continue, grand vocabulaire (60000 mots). – Système adapté à un seul utilisateur. z Traduction automatique : – Langage naturel. – Tâche très complexe : pas encore de produit commercialisé. Reconnaissance de la parole z Ce qu’on a observé… – Applications potentielles très nombreuses (la voix est le mode de communication naturel) – Études de marché euphoriques (depuis 1980) – Démonstrations spectaculaires en laboratoire (IBM, AT&T, LIMSI, BBN, Philips…) z Mais… – Études de marché contredites par les faits jusqu’en 1990 – Décalage entre évaluations et applications réelles – Démarrage significatif aux USA aux début des années 90 seulement z Leçons tirées… – Connaissance des limites réelles de la technique – Importance capitale des facteurs humains z Aujourd’hui – Phénomène de mode pour le vocal en général – Émergence de nombreux produits Difficultés de la reconnaissance de la parole ÎLocuteur & application vocale ... parole spontanée ÎPrise de son & transmission ... environnement, bruit, réseaux ÎReconnaissance de parole ... modélisation markovienne et reconnaissance flexible Caractérisation des systèmes Environnement & transmission ÎPrise de son iMicro casque (dictée vocale) iCombiné téléphonique (bureau) iMains libres (voiture) ÎMilieu ambiant iCalme iBruyant (bruit de fond, stationnaires, non stationnaires, …) ÎTransmission iAucune (i.e. local), RTC, Radio (GSM), IP, … (pb. bruits, échos, pertes de paquets, …) Exemple de bruit de fond p a r t i k y l j e @ n ~ O Caractérisation des systèmes Quel locuteur ? ÎSystème dépendant du locuteur iApprentissage individuel indispensable (Monolocuteur : dictée vocale) ÎSystème indépendant du locuteur (Multilocuteur) iN’importe qui peut utiliser le système (homme, femme, enfant, accents, ... ?) iPas d’apprentissage individuel iMais phases d’apprentissage (ou d’adaptation) indispensables nécessitant de gros corpus de parole Différentes voix y m z e r e Homme Femme e z y m r e Adolescent y m z e r e Enfant e z y m r e Voix criée n ~ O Voix normale Voix criée ~ O n Bruits de souffle ~ O n j l a souffle ~ A souffle i v s y Caractérisation des systèmes Quel type d’élocution ? ÎMots isolés iUn seul mot (ou commande vocale) à la fois ÎDétection de mots clés iUne ou plusieurs commandes vocales au sein d'un énoncé iPlus approprié à la parole spontanée des utilisateurs ÎMots enchaînés iPour des syntaxes contraintes, ex: suite de chiffres, épellation, tâches spécifiques (ex: contrôle aérien) ÎParole continue iLangage naturel iEn pratique, il faut chercher à identifier le vocabulaire et la syntaxe que l'utilisateur va adopter spontanément ÎParole spontanée iAucune contrainte imposée Caractérisation des systèmes Quel vocabulaire ? ÎPetits vocabulaires (< 100 mots) iMots de commande, répertoires personnels, … ÎVocabulaires moyens (1 000 à 10 000 mots) iAnnuaires d’entreprise, … iDialogue oral ÎGrands vocabulaires (~ 50 000 mots) iDictées vocales ÎTrès grands vocabulaires (> 100 000 mots) iAnnuaires publics ÎVocabulaire fini Ö traiter rejet entrées inconnues Paramètres importants (1) z Taille du vocabulaire. – De quelques dizaines de mots (ex: les 10 chiffres) – … à plusieurs dizaines de milliers (ex: dictées vocales) z Conditions de prise de son. – Microphone (dictée vocale) – Téléphone portable (serveurs téléphoniques) z Nombre de locuteurs. – Monolocuteur (dictée vocale) – Multilocuteur (serveurs téléphoniques) Paramètres importants (2) z Type de parole traitée : – mots isolés – détection de mots clés – parole continue – parole spontanée z Conclusion : – pas de système de reconnaissance parfait, universel – compromis à trouver Paramètres importants (3) Taille du vocabulaire Type de parole Nombre de locuteurs Production / Perception de la parole Formulation du message Conduit Vocal Contrôle neuro-musculaire Code linguistique Compréhension du message Construction du langage Transduction neuronale Membrane basilaire Canal de transmission Onde acoustique Onde acoustique Production de la parole Production de la parole Larynx Cavité Nasale Cavité Buccale Cordes vocales Luette Poumons muscles Sons voisés z Signal périodique – Cause : vibration des cordes vocales – Une fréquence fondamentale et ses harmoniques z Présence de « formants » pour les voyelles – Formant = pic d’énergie dans le spectre z Phonèmes voisés : – Voyelles : /a/, /i/, /ε/ …, Diphtongues : /ay/, /oy/, ... – Semi-voyelles : /w/, /l/, … – Consonnes nasales : /m/, /n/, ... – Fricatives voisées : /v/, /z/, ... – Plosives voisées : /b/, /d/, /g/, ... Voyelles : Sons non voisés z Pas de périodicité du signal z Propriétés spectrales proches du bruit z Phonèmes non voisés : – Plosives non voisées : /p/, /t/, /k/, … – Fricatives non voisées : /f/, /s/, /ch/, ... – ... Exemple d’onde acoustique (« un silence ») Spectrogramme (« un silence ») Zones voisées /non voisées Phénomènes de coarticulation Production de la parole z Variabilité temporelle et fréquentielle du signal de parole. z variabilités inter-locuteurs (âge, sexe, accent…). z variabilité intra-locuteur (variation de débit, style…) : un même locuteur ne prononce jamais le même phonème de façon identique. Différents niveaux de traitement (1) z Niveau Acoustique – propriétés physiques de l’onde sonore z Niveau Phonétique – phonèmes = briques de base du langage parlé z Niveau Lexical – mots formés avec les phonèmes de l’alphabet phonétique – lexique = ensemble des mots disponibles z Niveau Syntaxique – phrases formées avec les mots du lexique – syntaxe = règles de construction des phrases Différents niveaux de traitement (2) z Niveau Sémantique – extraire le sens des mots et des phrases z Pragmatique. – extraire le sens en fonction du contexte (exemple : « la belle ferme le voile ») Exemples « mange découvrir verte la » : lexique correct / syntaxe incorrecte « le chat lexical modélise les crayons » : syntaxe correcte / sémantique incorrecte Approches en reconnaissance de la parole z BUT : A partir d’un signal numérique, trouver des mots ou des suites de mots reconnus. z Approches possibles : – Approche acoustique / phonétique (+ intelligence artificielle). – uploads/Philosophie/ parole-ensai-cours1.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager