Traitement du signal pour la reconnaissance vocale Cours 5: Traitement du signa

Traitement du signal pour la reconnaissance vocale Cours 5: Traitement du signal et reconnaissance de forme Chaîne de Reconnaissance vocale Acquisition microphone Numérisation du signal Pré-traitement Extraction de paramètres Classification et décision Dictionnaire Tests et validation Plan Numérisation du signal Fourier Reconnaissance de la parole Conclusion Plan Numérisation du signal Fourier Reconnaissance de la parole Conclusion Signal ? Définition: codage et simplification d’un message. un signal 1D est une fonction en général du temps s(t)  signaux lumineux, sonores, etc… ou spatial (2D, 3D images) A chaque instant t, on associe une valeur (amplitude). Le traitement, l’analyse, et l’interprétation des signaux sont regroupés dans la discipline appelée traitement du signal. Différents secteurs et différentes branches Les signaux sont présents dans différents secteurs (électronique, optique, audiovisuels, informatiques…). Quelques branches particulières qui nous intéressent . - traitement d’image (déjà vu) - traitement de la parole Signaux Signaux analogiques: signaux produits de manière naturelle, continus (capteurs, amplificateurs, CNA)  traitement réalisé par circuits électroniques, (ou manuellement) Signaux numériques: signaux utilisés dans le traitement informatique, discrets, facilité et rapidité de traitement. Ils sont artificiels  traitement réalisé par micro-ordinateurs, DSP (microprocesseurs spécialisés) Problème en reconnaissance de parole Acquisition microphone Signal analogique Traitement de la parole Signal numérique Conversion analogique –numérique (CAN) Exemple Signal analogique U(t)  signal continu (représentation par une courbe) Signal numérique Ut  valeurs non continues (représentation par un histogramme) Conversion analogique- numérique (1) La conversion analogique- numérique se décompose en général en deux actions: - l’échantillonnage (on prélève la valeur du signal à une fréquence définie) - la quantification (on affecte une valeur numérique à chaque échantillon prélevé) Qualité de la CAN La qualité du signal numérique dépend donc: - Taux d’échantillonnage (ou fréquence d’échantillonnage) plus la fréquence est grande, plus la qualité du signal numérique est bonne. - le nombre de bits sur lequel on code les valeurs (phase de quantification) Echantillonnage Qui dit échantillonnage dit perte d’information. Si fréquence très faible  espace très grand entre deux données  grosse perte d’informations Si fréquence trop grande  information stockée inutile  gaspillage de l’espace de stockage Fréquence d‘échantillonnage: fréquence à laquelle les données sont enregistrées ou capturées (Hz  nombre de valeurs par seconde). Théorème de Shannon – fréquence de Nyquist Pour pouvoir échantillonner un signal, il faut fixer une fréquence d’échantillonnage au moins égal au double de la fréquence du signal  fréquence limite = fréquence de Nyquist (théorème de Shannon) Signal sinusoïdal  fréquence du signal: pas de problème Exemple: signal sinusoïdal Signal analogique (f = 10 Hz) échantillonnage à 20Hz (=2f)  cas parfait si on part du maximum Sous échantillonnage à 10Hz T Signal périodique non sinusoïdal On applique le théorème de shannon mais quelle fréquence choisir ? Signal peut être décomposé en signaux sinusoïdaux dont la fréquence est le multiple d’une fréquence fondamentale (largeur de bande) Fréquence de Nyquist = 2*plus haute fréquence Phénomène d’aliasing Sous-échantillonnage (restitution d’un faux signal) phénomène d’Aliasing (ou de repliement) Quantification (1) Chaque valeur est quantifiée sur un certain nombre de bits par rapport à la valeur réelle du signal analogique. Nombre de bits disponibles est important pour quantifier la valeur du signal à un temps t. Plus le nombre est élevé, plus la quantification est de qualité Quantification (2) Quantification - sur 1 bit (2 valeurs) - sur 8 bits = 1 octet (256 valeurs) - sur 16 bits = 216 valeurs les quantifications se font en général sur 16 bits Plan Numérisation du signal Fourier Reconnaissance de la parole Conclusion Fourier ? Joseph Fourier (mathématicien du XIXème sicèle) Séries de Fourier (par extension, transformée de Fourier et transformée de Fourier discrète) base de toute la théorie de traitement du signal De façon mathématique  ∞ = + = 0 ] 2 sin 2 cos [ ) ( n n n T nt b T nt a t f π π Signal périodique (période T) = somme pondérée de signaux sinusoïdaux 1/T : fréquence fondamentale (on utilise souvent =2/T) n/T: harmonique an et bn coefficients pondérateurs de Fourier Exemples (1) Somme pondérée de deux signaux de fréquence f et 3f (H3)  signal résultant (b): addition point par point des deux courbes de (a). Exemples (2) Meilleure approximation d’un Signal carré f(t): décomposition de la façons suivante ) 23 sin( 23 1 ... ) 5 sin( 5 1 ) 4 cos( 0 ) 3 sin( 3 1 ) 2 cos( 0 ) sin( ) ( t t t t t t t f ϖ ϖ ϖ ϖ ϖ ϖ + + + + + + = Analyse spectrale (1) Représentation des amplitudes des différentes harmoniques (n=1,3,5,7…23) d’un signal  analyse spectrale. Analyse spectrale (2) Note de musique: harmoniques différentes pour le son du diapason (La pur) , son d’une guitare, son de cymbale. Remarque (1) Etant donné que les séries de Fourier sont une décomposition en cosinus et sinus, on utilise souvent la notation complexe: Avec Fn=(an+ibn)/2 et F-n=(an-ibn)/2  ∞ −∞ = = n n T F t f ) int 2 exp( ) ( π Remarque (2) A partir de l’équation précédente, les coefficients de Fourier se calculent de la façon suivante: dt T t f T F T T n ) int 2 exp( ) ( 1 2 / 2 / π − =  − Le nombre de descripteurs de Fourier calculés ainsi est en théorie infini Interprétation Plus n est grand, plus les fonctions sinusoïdales varient rapidement.  une fonction lisse (c.a.d qui ne varient pas beaucoup) aura des coefficients an et bn qui prendront rapidement (hautes fréquences) des valeurs faibles  une fonction très perturbée et très changeante (ou bruitée) auront des composantes importantes dans les hautes fréquences. Transformée de Fourier (1) Souvent fonctions non périodiques et non bornées , la transformée de Fourier permet de généraliser le concept de séries de Fourier à ce type de fonction: dt t i t f F  ∞ ∞ − − = ) 2 exp( ) ( ) ( υ π υ On peut noter le changement de variable  = n/T, ce qui explique la disparition du facteur 1/T avant la somme. Interprétation De façon peu rigoureuse, on pourrait considérer un signal analogique non périodique comme un signal dont la période tendrait vers l’infini, la fréquence tendrait alors vers 0 (dν) et on obtient un spectre de Fourier continu appelé spectre de bande (et non un spectre de raies): Exemple de spectre de bande En pratique, signal non borné: très rare ! on définit une fenêtre d’application [-T/2,T/2] Échantillonnage à une fréquence f telle que T=K/f Vers la transformée de Fourier discrète  − − = − = 1 ) 2 / ( 2 / ) 2 exp( 1 K K k K n K ink f K F π Remarque Le signal numérique est décomposé en K segments. Le nombre total de coefficients de Fourier sera K. En traitement de signal, on utilise la FFT (Fast Fourier Transform) qui, sous certaines conditions, permet d’accélérer le calcul Pour en revenir à l’échantillonnage On fait un échantillonnage à très haute fréquence fe Toutes les fréquences supérieures à fe/2 sont éliminées: filtre anti-aliasing Exemple: Pour un CD (fréquence 44,1 kHz), il ne faut pas de sons supérieurs à 22 kHz (L’oreille humaine capte au maximum à 20 kHz) . Exemple de FFT et théorème de Shannon Spectre de bande, coupure à fe/2 Plan Numérisation du signal Fourier Reconnaissance de la parole Conclusion La reconnaissance vocale Applications de la reconnaissance vocale: - commande vocale: mots isolés, petit vocabulaire. - compréhension: signification d’un petit message en parole continue - dictée: retranscription du texte sans compréhension - Identification ou vérification du locuteur Comment ça marche? Même méthodologie que reconnaissance de forme: - Pré-traitement - Segmentation - Extraction de caractéristiques - Classification - Décision Mais…. Continuité: difficulté de séparer les mots ou les phonèmes dans un signal (les silences ne remplacent pas les blancs) Variabilité (effets plus importants que sur document visuel): - plusieurs locuteurs (timbre de voix, âge) - pour un même locuteur (émotions, voix enrouée, chants..) - rythme de la dictée (temps plus ou moins long pour dire la même chose) - bruit extérieur Deux approches Approche globale: reconnaissance de mots. Plus facile mais limité par le vocabulaire, la taille mémoire et le temps de calcul. Approche analytique: reconnaissance de phonèmes, de sons, plus difficile à mettre en place mais plus puissant Pré-traitement du signal Signal parlé: onde non stationnaire (pas les mêmes caractéristiques statistiques au cours du temps. On découpe le signal en fenêtre temporelle (quelques ms) On analyse chaque fenêtre temporelle Exemple Segmentation (en mots ou phonèmes) Les mots sont marqués par des silences plus ou moins longs Reconnaissance de mots isolés: facile Reconnaissance de mots dans une parole continue: bien articuler et distinguer les mots Reconnaissance de phonèmes: très difficile (changement de rythmes, rupture en fréquence…) Extraction de l’empreinte du signal Identifier une empreinte caractéristique du son émis - analyse spectrale - analyse par prédiction linéaire - analyse par coefficients cepstraux Analyse spectrale uploads/Sante/ rdf-5.pdf

  • 51
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 15, 2021
  • Catégorie Health / Santé
  • Langue French
  • Taille du fichier 9.2375MB