Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal...

53
Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale Quelques bases de traitement du signal G. Richard « Licence de droits d'usage" http://formation.enst.fr/licences/pedago_sans.html

Transcript of Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal...

Page 1: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale

Quelques bases de traitement du signal

G. Richard

« Licence de droits d'usage"

http://formation.enst.fr/licences/pedago_sans.html

Page 2: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 2

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Page 3: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 3

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

Page 4: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 4

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

Paramétrisation

•MFCC, LPCC,..

•DNN,…

Page 5: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 5

Contenu

Objectif du cours:

• Présenter quelques bases du traitement du signal

Contenu

• Représentation de Fourier

• Échantillonnage

• Transformée en Z

• Transformée de Fourier Discrète

• Filtrage

• La représentation cepstrale

Page 6: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 6

Représentation des signaux

Qu’est-ce qu’un signal ?

Signal déterministe:

Signal aléatoire

Page 7: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 7

Représentation de Fourier

Séries de Fourier

Tout signal périodique x(t) de période T peut être

décomposé sous la forme d’une série de Fourier :

Page 8: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 8

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

(Exercice)

Page 9: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 9

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

En faisant n=0, on obtient

En faisant x(t) = y(t) on obtient

Interprétation: La puissance d’un signal est égale à la somme des puissances élémentaires de chacune de ses composantes.

Composante = signal « sinusoidal »

Page 10: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 10

Représentation de Fourier (temps continu)

Soit x(t) appartenant à , la transformée de

Fourier existe et appartient à

Page 11: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 11

Propriétés

Parseval

Spectre (ou densité spectrale d’énergie):

Exercice

Important ?

Page 12: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 12

Exemple: Spectre de quel signal ?

Page 13: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 13

Exemple: Spectre d’un segment de /i/

Page 14: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard

Représentation du signal

Soit un signal x(t) à valeurs continues dans le temps:

Soit x(nT) le signal échantillonné à des valeurs discrêtes t=nT

x(t)

t

x(n)=x(nT)

t

T

Page 15: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 15

Échantillonnage: Formule de Poisson

Interprétation: Echantillonnage périodisation du spectre

Page 16: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 16

Reconstruction

2 situations:

-B +B

1/T 2/T

1/T 2/T

Page 17: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 17

Échantillonnage d’un signal à bande

illimitée

Nécessité de filtrer le signal analogique pour obtenir

un signal à bande limitée avant échantillonnage

Page 18: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 18

Transformée en Z / TFTD

La transformée en Z d’un signal x(n) est donnée par:

avec

La Transformée de Fourier à Temps Discrêt (TFTD) est donnée

par:

est périodique de période 1

Page 19: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 19

Quelques résultats

Le domaine de convergence Dc est une couronne circulaire

Si x(n) est de durée finie Dc est le plan tout entier

Causalité: si x(n) est nul à gauche (x(n)= 0 pour n<0) on a

• Exemple:

Re(z)

Im(z)

R2

R1

Dc

Converge pour

Page 20: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 20

Quelques propriétés

Linéarité

Symétrie hermitienne

Convolution

Décalage fréquentiel

Décalage temporel (retard)

Page 21: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 21

Transformée de Fourier Discrète (TFD)

Par définition, la TFTD est une fonction périodique de période 1.

En pratique, nous prenons N échantillons, et on discrétise

l’intervalle de fréquences [0-1] en L valeurs telles que:

On obtient:

La TFD est alors définie par les formules directe et inverse:

Page 22: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 22

Relation TZ <-> TFD

Cela correspond à un échantillonnage de la transformée en z en

N points régulièrement espacés autour du cercle unité

Re(z)

Im(z)

N/2

Page 23: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 23

Représentation temps-fréquence

Transformée de Fourier discrête

xn |Xk| Spectrogramme

Page 24: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 24

Paramétrisation: paramètres spectraux

Paramétrisation spectrale: analyse d’un signal audio (d’après Laroche)

Page 25: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard

Description du signal de parole

Importance de la taille de la fenêtre d’analyse

Bande étroite Large bande

Spectrogrammes sur une voyelle /a/ avec un pitch montant

Page 26: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard

Spectrogramme des voyelles / a e i o u/

Page 27: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 27

Représentations du signal audio

Exemple sur un signal audio: note Do (262 Hz) jouée

par un piano et un violon.

Signal temporel

Spectrogramme

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

Page 28: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 28

Représentations du signal audio

Exploitation de propriétés perceptives: Echelles

fréquentielles non linéaires

• Transformée à « Q » constant

• Transformée temps- log(fréquence)

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

Page 29: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 29

Notions de Filtrage

Système linéaire invariant dans le temps

Filtre est caractérisé par sa réponse impulsionnelle h(n) et sa fonction de transfert H(z)

H x(n) y(n)

Entrée =Excitation Sortie

La convolution permet de caractériser la transformation

entrée/sortie réalisée par un filtre linéaire invariant.

Page 30: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 30

Notions de Filtrage (2)

Equation récurrente entrée/sortie (pour un filtre RIF)

Par transformée en Z:

Réponse en fréquence

Module Phase

Page 31: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 31

Modèle source-filtre

enveloppe spectrale, source

Modèle de

Source

Modèle du

résonateur

Source Filtre

f0

f0

f0 xn yn

Page 32: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 32

Echelle Mel

Correspond à une approximation de la sensation

psychologique de hauteur d’un son (Tonie)

Existence de formules analytiques:

Exemples:

• Gamme mel Gamme Hertz

32

Page 33: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 33

Filtre en échelle Mel

Filtrage Mel (d’après Rabiner93)

Energie dans chaque bande

Sj SN S1

33

Page 34: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 34

Représentation cepstrale

Intérêt

• Modèle source filtre de la parole

Modèle source filtre dans le domaine spectral

Cepstre (réél): somme de 2 termes

34

Page 35: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 35

Représentation cepstrale (d’après Furui2001)

Exemples:

• de Spectres à court

terme (gauche)

• et de cepstre c()

(droite)

est homogène à un

temps et est appelé

quéfrence

35

Page 36: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 36

Représentation cepstrale

Séparation de la contribution du conduit vocal et de

la source par liftrage

36

Page 37: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 37

Représentation cepstrale

Contribution de la source

Contribution du conduit vocal

(hypothèse: filtre causal, stable, minimum de phase)

37

Page 38: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 38

Représentation cepstrale

Contribution du conduit vocal

Développement en série

38

Page 39: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 39

Représentation cepstrale

Exemples de liftres (d’après Calliope89)

Gaël RICHARD – SI340 – Parole - Paramétrisation 39

Page 40: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 40

Paramétrisation MFCC

« Mel-Frequency Cepstral Coefficients »

40

Page 41: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 41

Paramétrisation MFCC

Calcul des coefficients MFCC

Une implémentation classique:

• 13 Coefficients (sans C0)

• Filtres Mels espaces de 150 Mel (largeur de bandes

300 Mels)

• Utilisation des dérivées premières et secondes

• Soit des vecteurs de 39 paramètres acoustiques

41

Page 42: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 42

Lissage cepstral

Estimation de l’enveloppe par le cepstre:

• Calcul du cepstre réel Cn, puis lifrage basses quéfrences

• Reconstruction de l’enveloppe spectrale d’amplitude E =FFT(Cn)

Gaël RICHARD – SI340 – Parole - Paramétrisation 42

Page 43: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 43

Quels paramètres aujourd’hui pour la

reconnaissance avec DNN

MFCC toujours possible mais souvent remplacé par :

- Spectrogramme

- Mel-spectrogramme (plusieurs fenêtres successives autour de la

fenêtre courante comme entrée du DNN): le plus courant

- Des « bancs de filtres perceptifs »

- Un réseau spécifique pour des features discriminants

- … voir le signal de parole brut (mais pas encore aussi

performant)

Page 44: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 44

Quels paramètres aujourd’hui pour la

reconnaissance avec DNN/CNN

• Exemple pour la détection de mots clés [Sainath15]

• Autre exemple avec des Réseaux Convolutionnels (CNN)

(Mel spectrogram)

[Sainath15]: T. Sainath, C. Parada, « Convolutional Neural Networks for Small-footprint Keyword

Spotting, in Proc. Of Interspeech 2015,

Page 45: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 45

Un autre exemple pour la reconnaissance

du locuteur [Snyder17]

Chaque « embedding » peut

constituer des paramètres

(« features ») utilisés dans un

autre système de

classification

(MFCC)

[Snyder17]: D. Snyder & al. ,”Deep Neural Network Embeddings for Text-Independent Speaker Verification”, in

Proc. Of Interspeech 2017.

Page 46: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 46

Compléments

Pour en savoir plus sur le traitement du signal:

• G. Blanchet, M. Charbit, « Signaux et images sous

Matlab », Ed. Hermès, 2001

• (existe en anglais chez ISTE, 2006)

Page 47: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 47

Compléments

Quelques transparents supplémentaires pour le

théorème d’échantillonnage

Page 48: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 48

Système linéaire invariant dans le temps

Soit x(t) un signal à énergie finie:

Page 49: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 49

Échantillonnage

Soit x(n) la version échantillonnée de xa(t) :

Peut-on reconstruire xa(t) à partir de x(n) ?

En prenant la Transformée de Fourier

Page 50: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 50

Échantillonnage (2)

Or est périodique:

Et est donc développable en série de Fourier

avec

Page 51: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 51

Échantillonnage (3)

Or

Posons t=nT

posons

Page 52: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 52

Reconstruction (2)

Sans perte d’information possible uniquement si

En choisissant

Formule de reconstruction

-B +B

Page 53: Master 2 Recherche AIC & SETI - LIMSI · Représentations du signal audio Exemple sur un signal audio: note Do (262 Hz) jouée par un piano et un violon. Signal temporel Spectrogramme

G. Richard 53

Reconstruction pratique

Bloqueur d’ordre zéro