INTRODUCTION l’informatique joue un rôle de plus en plus considérable, via le d
INTRODUCTION l’informatique joue un rôle de plus en plus considérable, via le domaine du traitement automatique du langage naturel (TALN). L’informatique est une discipline scientifique recente, qu’il ne faut pas restreindre `a la simple utilisation d’ordinateurs et de programmes. Son nom la designe comme la science du “traitement automatique de l’information”. Elle est en fait l’heritiere d’une longue tradition math´ematique et logique de modelisation du calcul. Le projet de l’Intelligence Artificielle dans le developpement de la recherche , qui vise a modéliser l’ intelligence et le raisonnement humain grace aux ordinateur ,mène a rendre la machine capable de discuter avec l’homme d’une manière naturelle , comme pour le traitement de la numérisation d une image donne une configuration de nombres codant un certains nuages de pixels en représentant des caractères , de la même manière, en de nombres codants des sons afin de reconnaitre certaines configurations de mots ou de phonèmes .d ou la reconnaissance automatique de la parole. DÉFINITION la reconnaissance automatique de la parole (RAP) est un ensemble de techniques informatiques qui consiste, en analysant la voix humaine à partir d’un microphone, à convertir le signal de parole, phonèmes ou phrases prononcées par un locuteur. en un ensemble de symboles transcrits sous formes de textes assimilables et exploitable par la machine. Malgré les progrès considérables en modélisation de la parole, on est néanmoins très loin de pouvoir identifier avec certitude des voix La reconnaissance automatique de la parole est basée sur le traitement automatique de la parole permet à la machine de comprendre et de traiter des informations fournies oralement par un utilisateur humain. Elle consiste à employer des techniques d'appariement afin de comparer une onde sonore à un ensemble d'échantillons, composés généralement de mots mais aussi, plus récemment, de phonèmes (unité sonore minimale). Principe de la reconnaissance vocale La (RAP) suit un système de Transcription Automatique de la Parole qui est un ensemble de programmes informatiques permettant de convertir un énoncé oral capturé par un microphone, en un texte . Les avantages de la reconnaissance . Citons certaines Saisie vocale de données Elle libère complètement l‟usage de la vue et des mains; Commande vocale de machines ou de robots tout en pilotant une automobile ou un avion ; Aide aux handicapés ; complexité Le texte automatiquement produit est ensuite révisé par des annotateurs afin d’en ôter par exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe qui apparaissent fréquemment dans des enregistrements de parole conversationnelle spontanée. Les transcriptions peuvent également être enrichies avec diverses informations comme, entre autres la présence de musique, de silence ou de bruit Ainsi l'obstacle majeur d'avoir une grande précision de la reconnaissance, est la grande variabilité des caractéristiques d'un signal vocal. Cette complexité du signal de parole provient de la combinaison de plusieurs facteurs, la redondance du signal acoustique, la grande variabilité inter et intralocuteur, les effets de la coarticulation en parole continue, et les conditions d'enregistrement. Une grande variabilité À contenu phonétique égal, le signal vocal est très variable pour un même locuteur (variabilité intralocuteur) ou pour des locuteurs différents (variabilité interlocuteur). La continuité La production d'un son est fortement influencée par les sons qui le précédent et le suivent en raison de l'anticipation du geste articulatoire. L'identification correcte d'un segment de parole isolé de son contexte est parfois impossible. Évidement il est plus simple de reconnaître des mots isolés bien séparés par des périodes de silence que de reconnaître la séquence de mots constituant une phrase. En effet, dans ce dernier cas, non seulement la frontière entre mots n'est plus connue mais, de plus, les mots deviennent fortement articulés. Le système est-il robuste ? Autrement dit, le système est-il capable de fonctionner proprement dans des conditions difficiles? En effet, de nombreuses variables pouvant affecter significativement les performances des systèmes de reconnaissance ont été identifiées : Bruits d'environnement (dans une rue, un bistrot etc…) ; Déformation de la voix par l‟environnement (réverbérations, échos, etc…) ; Qualité du matériel utilisé (micro, carte son etc…) ; Bande passante fréquentielle limitée (fréquence limitée d‟une ligne téléphonique) ; Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc…). Certains systèmes peuvent être plus robustes que d'autres par rapport à l'une de ces perturbations, mais en règle générale, les systèmes de reconnaissance de la parole sont encore sensibles à ces perturbations. Les effets de co-articulation La production "parfaite" de chaque son suppose théoriquement un positionnement précis des organes phonatoires. Or, lorsque le débit de parole s'accélère, le déplacement de ces organes est limité par une certaine inertie mécanique. Les sons émis dans une même chaîne acoustique subissent l'influence de ceux qui les suivent ou les précèdent, ces effets de co-articulation sont des interférences. Ils entraînent l'altération des formes sonores en fonction des contextes droits ou gauches, selon des règles étudiées par les acousticiens d'un point de vue articulatoire ou perceptif. La reconnaissance de la parole s’insère dans le cadre plus général de la reconnaissance des formes. Un son correspondant à un mot est prononcé oralement devant le microphone, qui convertit le signal acoustique en un signal électrique. Celui-ci est soumis à un prétraitement (numérisation, séparation du signal pertinent par rapport au bruit ambiant), puis il subit la paramétrisation (extraction de paramètres). Ce traitement s’applique tant en phase d’apprentissage qu’en phase de reconnaissance. L’utilisation du système consiste à comparer un nouveau son à un son de l’ensemble d’apprentissage. Plus simplement, il suffit de parler à son ordinateur ou à son Smartphone pour que l’appareil comprenne les paroles à travers les mots prononcés. Les techniques utilisées se basent sur l’analyse du spectre, les fréquences ou le mouvement des lèvres (dans ce dernier cas, il s’agit de reconnaissance d’images). L’approche «compositionnelle» utilisée en reconnaissance d’images est aussi valable en reconnaissance vocale. De la même manière qu’un ordinateur peut « additionner » les pixels trouvés dans à une image pour recomposer la moustache d’un chat, on peut recomposer des syllabes à partir de sons, puis des mots et enfin des phrases complètes. La cousine germaine de la reconnaissance vocale est la synthèse vocale qui permet cette fois non plus de transformer une parole en phrase écrite mais de transformer une phrase écrite en énoncé vocal. . . Un système de Transcription Automatique de la Parole est un ensemble de programmes informatiques permettant de convertir un énoncé oral capturé par un microphone, en un texte devant être le plus semblable possible de ce qu’un humain aurait fidèlement transcrit. Le texte automatiquement produit est ensuite révisé par des annotateurs afin d’en ôter par exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe qui apparaissent fréquemment dans des enregistrements de parole conversationnelle spontanée. Les transcriptions peuvent également être enrichies avec diverses informations comme, entre autres la présence de musique, de silence ou de COMMENT FONCTIONNE LA RECONNAISSANCE VOCALE ? Il existe deux systèmes : La Reconnaissance Mono Locuteur C’est une solution qui est généralement stockée en local et qui nécessite d’enregistrer au préalable la voix du user pour que le logiciel s’en serve comme référence. Cette technique s’utilise pour dicter un texte à retranscrire à un dictaphone numérique. On peut citer par exemple le logiciel Dragon NaturallySpeaking. Ces produits sont plutôt destinés à des usages précis B to B. La Reconnaissance Multi Locuteurs Ce système fonctionne avec n’importe quelle voix, mais nécessite une connexion internet pour comparer la requête avec une base de données. Ces produits sont plutôt grand public, pour des commandes simples et dans plusieurs langues. Par exemple, on peut citer la commande à la voix de la XboxOne ou le contrôle du SmartHub des téléviseurs connectés Samsung. Le principe reste le même : la voix est numérisée et associée à des sons basés dans son lexique, appelé aussi la «grammaire». Le logiciel d’IA reconnaît ensuite les sons, les syllabes, les mots et enfin la phrase pour adresser une requête à un serveur. Il existe 2 types de lexiques : La grammaire de règles : la phrase est traitée comme un seul ensemble La grammaire statistique : seuls certains mots clefs sont reconnus L’applicatif SIRI d’Apple combine subtilement les deux grammaires. A noter : les meilleures systèmes ont des taux d’erreurs de 8 à 12% quand l’homme a un taux d’erreur à 4% (retranscription d’une conversation téléphonique). Démo Apple IPhone 4S Siri LA MARGE D’ERREURS Les meilleurs systèmes plafonnent en ce moment à 10% de taux d’erreurs contre 3% pour un être humain. La différence entre l’homme et la machine vient essentiellement de la non désambiguïsation des mots, car le robot ne COMPREND pas ce qui est dit. Seul le mot dans son acception «son» est entendu. Deux mots de même prononciation (homonyme, voire un groupe de mots au(x) sens radicalement différent(s)), peuvent parfois conduire à de curieux quiproquos. Quelles sont les deux techniques utilisées pour la reconnaissance vocale? Posté par camille le le 16/11/2015 à 09:12:44 - L'approche globale qui s'intéresse directement aux mots. - L'approche analytique qui est basée sur la reconnaissance uploads/Philosophie/ definition.pdf
Documents similaires










-
40
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 14, 2022
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 0.5416MB