EXAMEN PROBATOIRE Spécialité : INFORMATIQUE CONSERVATOIRE NATIONAL DES ARTS ET

EXAMEN PROBATOIRE Spécialité : INFORMATIQUE CONSERVATOIRE NATIONAL DES ARTS ET METIERS Centre Régional Languedoc-Roussillon A AP PP PR RO OC CH HE E D DE E L LA A R RE EC CO ON NN NA AI IS SS SA AN NC CE E A AU UT TO OM MA AT TI IQ QU UE E D DE E L LA A P PA AR RO OL LE E Par : Julien ALLEGRE Soutenu le : 07 avril 2003 Jury : Président : M. Jean RANCHIN Membres : M. Marc NANARD Approche de la reconnaissance automatique de la parole Rapport cycle probatoire, CNAM, Année 2003 Page 3 SOMMAIRE Introduction …………………………………………… p. 4 1. Définition …………………………………………… p. 5 2. Historique ………………………………………… p. 6 2.1. La naissance …………………………………… p. 6 2.2. Les premiers mots ……………………………. .. p. 6 2.3. L’avancée des années 70 ………………………. p. 7 2.4. La reconnaissance du langage ………………… p. 8 2.5. Dates clés ………………………………………… p. 8 3. Principe de fonctionnement ………………….. p. 10 3.1. Problématique ….………………………….……. p. 10 3.2. Fonctionnement ………………………………… p. 11 3.2.1. Par comparaison à des exemples …………….. p. 12 3.2.2. Par modélisation d’unités de parole ………….. p. 13 4. Applications …………………………………….. p. 16 4.1. Services vocaux ……………………………….… p. 16 4.2. Contrôle de qualité, saisie des données ……... p. 16 4.3. Avionique ………………………………………… p. 17 4.4. Formation ………………………………………… p. 18 4.5. Aide aux handicapés …………………………… p. 18 4.6. Dictée vocale ……………………………………. p. 19 4.7. Et aussi … ……………………………………….. p. 20 5. Conclusion ………………………………………. p. 21 Annexes …………………………………………….. p. 22 A – Glossaire …………………………………………. p. 22 B – Bibliographie et références Internet …………… p. 23 Approche de la reconnaissance automatique de la parole Rapport cycle probatoire, CNAM, Année 2003 Page 4 I IN NT TR RO OD DU UC CT TI IO ON N La reconnaissance automatique de la parole est un domaine de la science ayant toujours eu un grand attrait auprès des chercheurs comme auprès du grand public. En effet, qui n’a jamais rêvé de pouvoir parler avec une machine ou, du moins, piloter un appareil ou un ordinateur par la voix. Ne plus avoir à se lever pour allumer ou éteindre tel ou tel appareil électrique, ne plus avoir à taper pendant des heures sur un clavier pour rédiger un rapport(par exemple). L’homme étant par nature paresseux, une telle technologie a toujours suscité chez lui une part d’envie et d’intérêt, ce que peu d’autres technologies ont réussi à faire. Le secteur de la reconnaissance automatique de la parole est en pleine croissance et nous verrons dans ce document que la technologie actuelle est très aboutie, pouvant commencer à répondre aux attentes de l’homme. Bien que des progrès soient encore à faire sur les systèmes complexes de reconnaissance, il est à noter que la reconnaissance de petits vocabulaires est quasiment parfaite, ce qui suffit largement pour des outils de traitements vocaux du quotidien. Sans compter le coût de ces systèmes qui a considérablement chuté ces dernières années mais aussi le gain qu’ils peuvent apporter à un particulier et surtout à une entreprise. Dans un premier temps j’expliquerai ce que l’on entend par reconnaissance automatique de la parole afin de mieux appréhender le sujet. Puis, je montrerai l’évolution de la discipline depuis ses débuts jusqu’à nos jours. Suivra ensuite un chapitre abordant les différentes méthodes utilisées pour reconnaître la parole. Enfin les différents types d’applications basées sur cette technologie. Approche de la reconnaissance automatique de la parole Rapport cycle probatoire, CNAM, Année 2003 Page 5 1 1. . D DE EF FI IN NI IT TI IO ON N La reconnaissance automatique de la parole est l’un des deux domaines du traitement automatique de la parole, l’autre étant la synthèse vocale. La reconnaissance automatique de la parole permet à la machine de comprendre et de traiter des informations fournies oralement par un utilisateur humain. Elle consiste à employer des techniques d'appariement afin de comparer une onde sonore à un ensemble d'échantillons, composés généralement de mots mais aussi, plus récemment, de phonèmes (unité sonore minimale : voir plus loin). En revanche, le système de synthèse de la parole permet de reproduire d’une manière sonore un texte qui lui est soumis, comme un humain le ferait. Ces deux domaines et notamment la reconnaissance vocale, font appel aux connaissances de plusieurs sciences : l'anatomie (les fonctions de l'appareil phonatoire et de l'oreille), les signaux émis par la parole, la phonétique, le traitement du signal, la linguistique, l'informatique, l'intelligence artificielle et les statistiques. Il faut bien distinguer ces deux mondes : un système de synthèse vocale peut très bien fonctionner sans qu’un module de reconnaissance n’y soit rattaché. Evidemment le contraire est également tout à fait possible. Par contre, dans certains domaines bien précis, l’un ne va pas sans l’autre. Il est bien entendu que l’étude se portant sur la reconnaissance automatique de la parole, l’autre aspect du traitement de la parole ne sera pas traité dans ce rapport. Le traitement automatique de la parole ouvre des perspectives nouvelles compte tenu de la différence considérable existant entre la commande manuelle et vocale. L'utilisation du langage naturel dans le dialogue personne/machine met la technologie à la portée de tous et entraîne sa vulgarisation, en réduisant les contraintes de l'usage des claviers, souris et codes de commandes à maîtriser. En simplifiant le protocole de dialogue personne/machine, le traitement automatique de la parole vise donc aussi un gain de productivité puisque c'est la machine qui s'adapte à l'homme pour communiquer, et non l'inverse. De plus, il rend possible l'utilisation simultanée des yeux ou des mains à une autre tâche. Il permet d'humaniser les systèmes informatiques de gestion de l'information, en axant leur conception sur les utilisateurs. A la base, les logiciels de reconnaissance vocale servent surtout à entrer du texte en masse tout en se passant du clavier (qui offre un débit de 50 mots par minute contre plus de 150 pour la parole), le clavier reste cependant encore nécessaire aux corrections de texte et à l'utilisation de l'ordinateur. Approche de la reconnaissance automatique de la parole Rapport cycle probatoire, CNAM, Année 2003 Page 6 2 2. . H HI IS ST TO OR RI IQ QU UE E Ce chapitre va montrer l’évolution de la reconnaissance automatique de la parole depuis ses débuts jusqu’à nos jours. 2.1. La naissance Les premières tentatives de création d’une machine capable de comprendre le discours humain eurent lieu aux USA à la fin des années 40, au sein du Ministère de la Défense américain. Le but était de traduire et d’interpréter des messages russes interceptés. Ces premières expériences s’appuyaient sur une approche descendante, c’est-à-dire fournissant une recherche mot à mot. Pendant ces premières années de vie de la reconnaissance vocale, il a fallu énormément de temps et de ressources informatiques pour enregistrer et emmagasiner la représentation de chaque mot dans chaque langue. Malgré tous les efforts fournis, les résultats sont médiocres et peu fiables, mais laissaient la porte ouverte à de nombreuses recherches. 2.2. Les premiers mots Vers 1950 apparaît le premier système de reconnaissance de chiffres, appareil entièrement câblé et très imparfait. En 1951, S.P. Smith présente un détecteur de phonèmes ; une année après, K.H. Davis, R Biddulph et S.Baleshek annoncent la première machine à aborder la reconnaissance de manière globale : les dix chiffres «zero» à «nine» sont reconnus analogiquement avec un bon taux de réussite pour une seule voix. Puis en 1960, P.B. Denes et M.V. Matthews, pour reconnaître les dix premiers chiffres, comparent globalement les représentations temps fréquence, numérisées et normalisées en durée totale : le taux d'erreur est nul pour un seul locuteur et s’élève à 6% pour cinq locuteurs ayant participé à un apprentissage. H.F. Olson et H.Belar envisagent, en 1961, la reconnaissance d'unités phonétiques autres que les phonèmes : leurs unités sont des «syllabes phonétiques» que le locuteur doit articuler séparément ou, du moins, avec une chute importante du niveau sonore en guise de séparation ; il s'agit donc presque d'une reconnaissance par mots, étant entendu que ces «mots» sont courts et que leur répertoire est limité : 2000 syllabes suffisent à couvrir 98% des besoins de la langue anglaise. J.Dreyfus-Graf met au point en 1961 son «phonétographe», appareillage analogique composé de vingt filtres passe-bande et de circuits identificateurs de phonèmes. Le phonétographe utilise des «compresseurs sélectifs» qui augmentent l'émergence de certains sons. Obtenu en temps réel, le résultat est spectaculaire ; cependant l'appareil ne fonctionne Approche de la reconnaissance automatique de la parole Rapport cycle probatoire, CNAM, Année 2003 Page 7 qu'avec un seul locuteur qui doit adapter sa diction à la machine : hauteur, intensité, rythmes très faibles. Après avoir constaté que l'identification des phonèmes dans le signal de parole est un problème beaucoup plus compliqué qu'ils ne l’imaginent, les chercheurs se tournent, entre 1965 et 1970, d'une part vers la reconnaissance par mots isolés en vue d'applications pratiques comme la commande vocale, d'autre part vers l'utilisation d'informations de niveau linguistique supérieur avec lexique et syntaxe, pour compléter le message vocal reconnu au niveau phonétique. Cette uploads/Philosophie/ rapport-58.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager