La Reconnaissance Vocale Reconnaissance vocale : conversion de la voix en fichi
La Reconnaissance Vocale Reconnaissance vocale : conversion de la voix en fichier numérique qui permet de décoder un signal acoustique de parole en une suite de mots effectivement prononcés SOMMAIRE INTRODUCTION 1 . L’approche d’un rêve 2 . Origine 3 . Quelques applications 4 . La reconnaissance vocale : oui mais à quel prix ? 5 . Historique I. LA RECONNAISSANCE VOCALE : VISION D’ ENSEMBLE 1 . Présentation 2 . La parole : c’est quoi déjà ? 3 . Paramétrisation 4 . Décodage acoustico - phonétique a) Les techniques b) Principe général de la méthode globale et analytique c) Choisir le mot 5. Principe du neurone artificiel a) Le premier niveau de stratégie : lire ou prédire ? b) Le deuxième niveau de stratégie : traitement de gauche à droite ou du milieu vers les cotés ? c) Le troisième niveau de stratégie : la recherche d’une solution optimale II. ZOOM SUR QUELQUES TECHNOLOGIES PERMETTANT LA RECONNAISSANCE VOCALE 1. Les automates stochastiques dans la reconnaissance a. Définition du modèle b. Identification de la séquence d’états ayant engendrée l’observation d’une séquence d’observables c. Apprentissage et obtention des paramètres caractérisant les MMC 2. Grammaire décrivant la langue parlée CONCLUSION INTRODUCTION 1 . L’approche d’un rêve « Sésame, ouvre-toi ! » Cette phrase mythique n’est pas sans signification, car en dépit du trésor caché derrière la porte de pierre, une autre découverte s’ouvre à nous : La recherche en Reconnaissance Automatique de la Parole (RAP). Celle-ci ne cesse de s’étendre dans nos foyer en dépit de l’étonnement qu’avaient nos « chères petites têtes blonde » en regardant bioman donner des ordres à son vaisseau. Nous sommes cependant en dessous de la fiction étant donné la difficulté que nous avons encore a analyser un signal vocal complètement aléatoire. Si dans un téléphone, on écoute les sons qu’émettent un Minitel, un fax ou un micro-ordinateur pour échanger des données, ils se présentent à nous comme un sifflement suraigu bourré de parasites : le message semble parfaitement inintelligible. A l’inverse, alors que notre propre langage nous paraît simple et clair, la machine, elle, n’y détecte rien de cohérent. SOMMAIRE 2 . Origine Les USA sont encore une fois en première loges C'est dans les années 40 au USA, que les premières tentatives de création d'une machine capable de comprendre le discours humain eurent lieu. Leurs principaux objectifs étaient d'interpréter les messages russes interceptés. SOMMAIRE 3 . Quelques applications On utilise la reconnaissance vocale dans différents domaines. - Une dictée vocale peut être associée à un traitement de texte : Un locuteur parle et le texte s?affiche ; ainsi, il n’a plus besoin de taper son texte au clavier. - Les serveurs d?informations par téléphone - La messagerie - Elle permet l’autonomie : par exemple en médecine, lorsqu’un chirurgien a les deux mains occupées, il peut parler pour demander une information technique au lieu de taper sur un clavier (autonomie qui est aussi valable en industrie). - La sécurité possible grâce à la signature vocale - La possibilité de commande et de contrôle d’appareils à distance. SOMMAIRE 4 . La reconnaissance vocale : oui mais à quel prix ? Pendant ces premières années, il a fallu énormément de temps et de ressources informatiques pour enregistrer et emmagasiner la représentation de chaque mot dans chaque langue. La représentation de symboles en discours n’est pas si simple, d’autant que différents symboles peuvent résulter de sons similaires. D’autres problèmes peuvent se poser : les sons individuels peuvent varier en fonction des sons qui suivent et qui précèdent. La vitesse de traitement de la parole ne s’aligne pas encore avec celle d’un être humain : celle-ci est de 180 mots par minute, alors que des systèmes de reconnaissance vocale bien entraînés traitent au alentour de 130 mots par minute. Et là encore, « l’ enrolling » (entraînement) qui consiste à lire un certain nombre de phrases de base en nombre suffisant pour créer un profil d’utilisateur de base, peut donner des performances médiocres s’il est mal établi. Même le meilleur système de reconnaissance vocale ne pourra fonctionner correctement sans appui matériel. Le bruit de fond réduit considérablement le taux de précision ; par conséquent, des écouteurs conçus spécialement pour réduire le bruit sont recommandés. SOMMAIRE 5 . Historique Une évolution rapide • 1952 : reconnaissance des 10 chiffres par un dispositif électronique câblé • 1960 : utilisation des méthodes numériques • 1965 : reconnaissance de phonèmes en parole continue • 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) • 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables • 1972 : premier appareil commercialisé de reconnaissance de mots • 1978 : commercialisation d?un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés • 1983 : première mondiale de commande vocale à bord d ?un avion de chasse en France • 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots • 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel • 1988 : apparition des premières machines à dicter par mots isolés • 1990 : premières véritables applications de dialogue oral homme-machine • 1994 : IBM lance son premier système de reconnaissance vocale sur PC • 1997 : lancement de la dictée vocale en continu par IBM SOMMAIRE I. LA RECONNAISSANCE VOCALE : VISION D’ENSEMBLE 1 . Présentation La parole est le principal vecteur d’information dans notre société humaine. Située entre celui du signal numérique et du langage, son traitement s’est fortement développé parallèlement au développement des moyens et des techniques de télécommunications. Sa particularité, tient du rôle que joue le cerveau humain dans la production et la compréhension de la parole, par l'emploi automatique de diverses fonctions. L’étude des mécanismes de phonation isole la parole de ce qui n’en est pas, et l'étude des mécanismes d’audition et de perception dit ce qui est réellement perçu dans le signal de parole. Perception et Compréhension influence la production de la parole : on ne parle que dans la mesure où l’on s’entend et se comprend soi-même; la complexité du signal qui en découle s’en ressent forcément ! S’il n’est pas de parole sans cerveau humain pour l’entendre, et la comprendre, les techniques modernes de traitement de la parole tendent à produire des systèmes automatiques et plus précisément les reconnaisseurs, qui ont pour mission de décoder l’information portée par le signal vocal à partir des données fournies par l’analyse. SOMMAIRE 2 . La parole : c’est quoi déjà ? La parole correspond à une variation de la pression de l’air causée par le système articulatoire. La phonétique acoustique étudie ce signal en le transformant dans un premier temps en signal électrique grâce au transducteur approprié qui de nos jours est le plus souvent numérisé. phonétique acoustique : étude des propriétés physiques du son. Il peut alors être soumis à un ensemble de traitements statistiques qui visent à mettre en évidence les traits acoustiques. - Le son émis par le locuteur est capté par un microphone. - Le signal vocal est numérisé à l’aide d’un convertisseur a nalogique-numerique - Comme la voix humaine est constituée d’une multitude de sons, souvent répétitifs, le signal peut être compressé pour réduire le temps de traitement et l’encombrement en mémoire. - L’analyse peut alors commencer ... SOMMAIRE 3 . Paramétrisation La paramétrisation du signal vocal s’effectue en deux temps et permet d’obtenir une « empreinte caractéristique » du son, sur laquelle on pourra ensuite traiter la reconnaissance ... 1ère étape : Evolution temporelle du signal Enregistrement numérique d’un signal acoustique. La fréquence de coupure du filtre de garde, la fréquence d’échantillonnage, le nombre de bits et le pas de quantification sont respectivement notés fc , fe , b, et q. L’échantillonnage transforme le signal à temps continu x(t) en signal à temps discret x(n) défini aux instants d’échantillonnage, multiples entiers de la période d’échantillonnage (inverse de la fréquence d’échantillonnage). Pour le signal vocal, il faut choisir une fréquence satisfaisant à peu près le théorème de Shannon.(24kHZ). théorème de Shannon : L'information véhiculée par un signal dont le spectre est à support borné, n'est pas modifiée par l'opération d'échantillonnage, à condition que la fréquence d'échantillonnage soit au moins deux fois plus grande que la plus grande fréquence contenue dans le signal. Parmi les valeurs possibles pour les échantillons x(n), la quantification ne retient qu’un nombre fini 2b de valeurs (b étant le nombre de bits de la quantification), espacées du pas de quantification q. Le signal numérique résultant est noté x(n). Une quantification de bonne qualité requiert en général 16 bits. Audiogramme de signaux de parole. Il est souvent intéressant de représenter l’évolution temporelle du spectre d’un signal, sous la forme d’un spectrogramme. L’amplitude du spectre y apparaît sous la forme de niveaux de gris dans un diagramme en deux dimensions temps - fréquence. Ils mettent en évidence l’enveloppe spectrale uploads/Philosophie/ benguigui-ismais-hamdan.pdf
Documents similaires










-
30
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 29, 2021
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 0.8533MB