1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....

58
1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur l’audition 3. Allure temporelle Analyse en fréquence Typologie des signaux (phonèmes) Représentation Temps-Fréquence, spectrogramme Détection de la mélodie, de l’intonation Analyse « cepstrale » et par prédiction linéair 4. Transmission (compression) 5. Principe de la synthèse de parole 6. Données utilisées en reconnaissance de parole http://tcts.fpms.ac.be/cours/1005-08/speech/parole.p http://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

Transcript of 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....

Page 1: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

1

Le Signal Vocal

• 1. Production du signal ; Modèles de production• 2. Notions sur l’audition• 3. Allure temporelle Analyse en fréquence• Typologie des signaux (phonèmes)• Représentation Temps-Fréquence, spectrogramme• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• 4. Transmission (compression) • 5. Principe de la synthèse de parole• 6. Données utilisées en reconnaissance de parole

http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

Page 2: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

2http://perso.club-internet.fr/mantonio/condvoc.htm

1. Production du signal ; Modèles de production

Page 3: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

3

http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

1. Production du signal

Page 4: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

4

http://perso.club-internet.fr/mantonio/condvoc.htm

1. Production du signal

Page 5: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

5

http://perso.club-internet.fr/mantonio/condvoc.htm

temps

http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

1. Production du signal les cordes vocales

Page 6: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

6

http://www.ling.su.se/staff/hartmut/kemplne.htm

Wolfgang von Kempelen (1770)

http://alexandria.tue.nl/extra2/200512836.pdf

1. Production du signal

Page 7: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

7http://alexandria.tue.nl/extra2/200512836.pdf

The speech organ of Professor Faber from

1846(from the Journal of

the Acoustical Society of America [3]).

1. Production du signal

Page 8: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

8

vocoders à canaux : reproduire l’évolution de l’amplitudedu signal dans quelques dizaines de bandes spectrales

vocoders à formants : trouver les 3 à 5 maxima du spectre à court termeet reproduire ces fréquences avec les amplitudes associées

vers les années 1950/1960 : développement de l’électronique

vers les années 1960/1970 : développement de l’informatique

traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire

Analyse et Synthèse du Signal Vocal

1. Production du signal

Page 9: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

9

guimbarde, chants diphoniques, arc à bouche, didgeridoo

clicsen langue xhosaen Afrique du sud

1. Production du signal

Page 10: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

10

Synthèse numérique (ou équivalent analogique)

y t a i y t i x ti

p ou( ) ( ) ( ) ( )

( )

1

10 12

1

A z( )

Filtre récursif

Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles

des résonances du conduit vocal

Impulsionsdes cordes vocales

(intonation)ou bruit

(fricatives)

(Sa réponse en fréquencecorrespond au spectre du signal vocal)

y t( )

Signal synthétisé

x t( )

1. Production du signal

Page 11: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

11

100 2000

1

0 50400

200

0

200

100 2001

0

1

0 2000

50

100

0 2000

20

40

0 100 2000

0.5

temps

fréquence

Cordes vocalesintonation

Conduit vocalrésonances

Signal sonoresynthétique

1. Production du signal

Page 12: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

12http://www.iurc.montp.inserm.fr/cric/audition/

2. Audition

http://www.cochlea.org

Page 13: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

13

http://www.iurc.montp.inserm.fr/cric/audition/ 2. Audition

Page 14: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

14

bruit

exce

ssif =

dommages

irrém

édiables

2. Audition

Page 15: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

15

Phénomène de masquage (mp3)

0 5 10 15

0

20

40

60

80

0 5 10 15

0

20

40

60

80

x(n) = sinusoïde masquante

q(n) = sinusoïde masquée

0 5 10 150

20

40

60

80

100

120

Fréquences (kHz)

Sx(f) = DSP du signal

Sm(f) = Seuil de masquage

http://tsi.enst.fr/~moreau/activites_enseignement.html

fréquence fréquence

2. Audition

Page 16: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

16

Analyse spectrale à court terme

spectre

Spectre (log)

temps

Spectre échelle mel

fréquence

fréquencefréquence Hz

2500 Hz50 ms

2500 Hz3000 Hz

3. Analyse, description et typologie des signaux

Page 17: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

17

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

Signal vocal

Zoom

Spectre de la portion analysée : formants

temps

fréquence

tempsquasi périodicité de l’ordre de 5 à 10 ms suivant l’intonation

harmoniques de la fréquence fondamentale

3. Analyse

Page 18: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

18

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

spectre

Module de la transformée de Fourier

Deux secondes de signal temporel

Analyse d ’une portion de 100 ms

fondamental

harmoniques

Formants (résonnances)

temps

fréquence

3. Analyse

Page 19: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

19

Allure temporelle des signaux

• Voyelles et consonnes voisées

• Fricatives

• Plosives• Fricatives voisées

• Plosives voisées

• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r

m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g

+sons « doubles », diphtongues, ... w, ll

mais il y a une grande variabilité même pour un locuteuren fonction du contexte du son prononcé, de l’intonation,

de l’état de santé, etc...

3. Analyse

Page 20: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

20

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ eu ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ a ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ ai ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ o ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

Page 21: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

21

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ u ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ i ’

temps

fréquence

temps

fréquence

3. Analyse

Page 22: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

22

‘ (ll)an ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

4

‘ on ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

debutanalyse

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

‘ in ’

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

Page 23: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

23

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

(a)ll

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ m ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ n ’

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

Page 24: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

24

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

‘ ta ’

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ d ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ b ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ po ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

3.0557

2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10

4

2754

3.28 104‘ co ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ g ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

Page 25: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

25

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ s ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ j ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ f ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

30

‘ z ’

0 0.010.020.030.040.050.060.070.080.09 0.1

0 400800120016002000240028003200360040000

20

40

‘ v ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40

10

20

‘ ch ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

Page 26: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

26

tempsfréquence perspective

log spectrogramme( )

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10

4

0

2 104

chronogrammeénergie (log)

temps

fréq

uenc

e

ampl

itude spectrogramme

chronogramme

3. Analyse

Page 27: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

27

fréquence

temps

amplitude

Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme

fréquence

temps

3. Analyse

Page 28: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

28

ph o n e t i c i an

fréquence

temps

3. Analyse

Page 29: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

29

Le « cepstre »

- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance

fréquence« temps »

périodicité des harmoniques

variations lentes du spectre

déconvolution source (harmoniques) / conduit (enveloppe)

3. Analyse

Page 30: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

30

Analyse de la fréquence fondamentalechant, intonation

4

0 125 250 375 500 625 750 875 10001

2

3

temps

fréquence

fondamentalharmoniques

3. Analyse

Page 31: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

31

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

1.943 104

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1000

500

0

500

1000893.488

884.279

CCk

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

3 104

2.272 104

0

cbandek

longueurcoupe

50

00 k

0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104

1 104

5000

0

5000

1 104

5.366 103

5.366 103

CFBk

REDRESk 0.5

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

5 107

1 108

8.578 107

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1 107

5 106

0

5 106

1 107

5.927 106

5.939 106

CCk

longueurcoupe0 k

Passe bas

Passe bandedémodulation

Passe bassur le résultat

Analyse de la mélodie (pitch)

fondamental

harmoniques

temps

fréquence

temps

fréquence

temps

fréquencefondamental retrouvé par démodulation

3. Analyse

Page 32: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

32

Codage à bas débit (moins de 15kbits/s) : prédiction linéaire

Codage à débit moyen : 16 à 32 kbits/s : modulation delta

Téléphonie : 8bits x 8000 éch./s = 64 kbits/s

Haute fidélité 16bits x 44100 éch./s = 700 kbits/

MP3 = 144 kbits/s

4. Codage de la parole : différents débits enfonction des applications et de la qualité acceptée

Page 33: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

33

Téléphonie numérique

Réduire la dynamique

Loi « mu »)].1([log2 xQy

94.4 38.8 0 72.4 128

0

128

128

yx

128128 x 128

Échantillonnage à 8kHz quantification sur 8 bits

4. Codage

Page 34: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

34

Codage par modulation delta (parole)pour les débits de 16 à 32 kBits/s

Quantification de la différenceentre le signal et sa prédiction

q

kktkb

1

+

_)(tx

)(t

Tra

nsm

issi

on

q

kktkt btx

1

)(

)(tx )(t

Synthèse

Analyse

4. Codage

Page 35: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

35

Filtrage des signauxdans différentes bandes de fréquences

T. FourierSélection des canaux utiles (effet de masquage)1er codage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

Em

issi

on d

es d

onné

es

Principe du codage MP34. Codage

Page 36: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

36

Analyse par prédiction linéaire

Canal vocalImpusions

(cordes vocales)

Bruit(pour les fricatives)

Signal Synthétique

Filtre récursifévoluant « lentement »

au cours du tempset dont la réponse en

fréquence estcelle du spectre

à court terme

)(

1

zA

4. Codage

Page 37: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

37

- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)

- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif

(sous la forme d ’un filtre en treillis)

- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal

199

0)()(

tk ktxtxr

101 )10()1(1

1

)(

1

zazazA

4. Codage

Page 38: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

38

Codage par prédiction linéaire

signal analysé calcul de corrélationalgorithme de Levinson

coefficients du filtre A(z)filtre nonrécursif A(z)

signal résiduel e(t)recherche de périodicité L

(max de corrélation) e(t)e(t+L)

v(t)=e(t)-r.e(t-L)

quantificationrecherche d’un

élément ressemblant à un tronçon de v(t)

dans un dictionnaire

d(n)

filtre récursif 1/A(z)

e(t)=v(t)+r.e(t-L)

reconstruction de v(t)à partir des d(n)

transmission

signal synthétisé

L

signal résiduel e(t)

d(n)

v(t) v(t)

étape decompression

analyse synthèse

4. Codage

Page 39: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

39

Spectre de la portionde signal analysé

Réponse en fréquencedu filtre récursif

modélisant le signal vocal

Analyse par prédiction linéaire

fréquence

4. Codage

Page 40: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

40

Code Excited Linear Prediction (CELP)

Dictionnairede signaux

élémentairesPrédiction à long terme(intonation)

Modèledu conduit vocal

génération du signald’entrée du filtre (cordes vocales, bruit)

4. Codage

Page 41: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

41

(Ech 11025 Hz)

k 0 1023

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816

113

590

0 128 256 384 512 640 768 896 10240

500

1000

0 204.8 409.6 614.4 819.2 1024500

0

500

portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences

temps

tempsfréquence

Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie

4. Codage

Page 42: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

42

0 2 4 6 8 10 125 10

6

0

5 106

1 107

0 1 2 3 4 5 6 7 8 9 10 11 12 13 141

0

1Corrélation : r(n) Coefficients de A(z)

Réponse impulsionnelledu filtre récursif 1/A(z)

Réponse impulsionnelledu filtre non récursif A(z)

Algo de Levinsonou Schur

temps

Signal modélisé

tempstemps

4. Codage

Page 43: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

43

50 100 150 200 250 300 350 4002000

1000

0

1000

0 102.4 204.8 307.2 409.6 5120

2

4

6

1.2 0 1.21.2

0

1.2

Réponse impulsionnelledu filtre récursif 1/A(z) modélisantla production de ce signal

Réponse en fréquence du filtre récursif 1/A(z))

Zéros de A(z)(pôles de 1/A(z))

temps

fréquence

Signal analyséamplitude 4. Codage

Page 44: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

44

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71

124.2

598.31

Signal résiduel à coder- Recherche de la périodicité (pitch :

prédiction à long termeon code x(t)-x(t-L) : estimer L

- Quantification vectorielle

1617181920212223242526272829303132346.71

4.74

337.22

L

On découpe le signal résiduel en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre

Spectre du signal résiduel

temps

temps

fréquence

4. Codage

(~ bruit blanc)

Page 45: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

45

5. Synthèse de son ; diphones

Difficultés:• Enchainement de sons élémentaires• Intonation naturelle

Page 46: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

46

Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch

)().()( tfttxts nn

nknknk httsn

ty ,, ).()(

Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons

Synthèse de parole

)()( nn ttsn

tx

mbrolahttp://tcts.fpms.ac.be/synthesis/

.

5. Synthèse

Page 47: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

47

On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...

Plus aigu : diminuer

Plus grave : augmenter

Modification de l ’amplitude en changeant

nkt ,

nkt ,

nkh ,

5. Synthèse

Page 48: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

48

6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés

Hidden Markov Models

1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate

http://htk.eng.cam.ac.uk/

Page 49: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

49

transition

mesures

a m m( ' , )

b m n( , ') b m n( , )

2. Automates utilisés dans les modèles de Markov cachés

Séquence d’états :

Séquence de mesures :

(Probabilités)

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

d m p s m( ) ( ) 0

a m m p s m s mt t( ' , ) ( '/ ) 1

b m n p y n s mt t( , ) ( / )

états

n’ n

m’ m

probabilité de transition de l’état m’ à l’état m

probabilité de mesurer ‘n’ quand l’automate estdans l’état m

probabilité que l’état initial soit m

6. Reconnaissance

Page 50: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

50

Les trois problèmes :

1. Reconnaissance : Y donné quelle est la S la plus probable ?

2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?

3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)

Séquence d’états :

Séquence de mesures :

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

6. Reconnaissance

Page 51: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

51

Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0

Initialisation

Récurrence

Fin de l’algorithme

r m r m a m m b m ytm

t t( ') max ( ) ( , ') ( ' , ) 1

r m d m b m y0 0( ) ( ) ( , )

t T

r mt 1( )

q mt ( ')m'

Obtention de la séquence la plus probable

m' '

t 1 t t 1 temps

Etat m

« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps

6. Reconnaissance

Page 52: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

52

Probabilité d’observation d’une séquence Y avec (a,b,d)

p Y d s b s y a s s b s yt t t tt

T

S( ) ( ) ( , ) ( , ) ( , )

0 0 0 1

1

1

Calcul à t croissant

t t tm p s m y y( ) ( ,[ , , ]) 0

0 0( ) ( ) ( , )m d m b m y

tm

M

t tm m a m m b m y

11

1( ) ( ') ( ' , ) ( , )'

p Y mm

T( ) ( )

Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)

(aussi utilisé dans les « turbocodes en détection d ’erreurs »

6. Reconnaissance

Page 53: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

53

Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)

Automate usuel (Bakis)

Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »

t

t’

(lourd : nécessite de nombreuses réalisations deY)

6. Reconnaissance

Page 54: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

54

3. Mise en forme des données mesurées sur la parole

Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle

F o n e t i ch i an

6. Reconnaissance

Page 55: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

55

Analyse spectrale à court terme

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

2000

4000

Echelle Mel linéaire exponentielle

Fréquence centraledu filtre

Banc de filtres

6. Reconnaissance

Page 56: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

56

Coefficients cepstraux

Energie en sortie des différents filtres : C(n)

c k C n k nn

( ) log[ ( )]cos[ ( )]

1

20

20

1

2

Peuvent être liés aux coefficients de la prédiction linéaire

c k a kk

a c kk

( ) ( ) ( ) ( ) ( )

1

1

1

6. Reconnaissance

Page 57: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

57

Quantification vectorielle

Trouver des représentants pour des nuages de points

Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence

Passer des c(k) aux y (mesures)

« expectation maximization »

les HMM nécessitent une quantification (assez grossière) des données traitées

6. Reconnaissance

Page 58: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

58

Toutefois, beaucoup de réglages et de variantes…

Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)

Comprendre le fonctionnement de la cochlée et du système nerveux auditif

http://www.cochlea.org/spe/cerveau-auditif-2.html

6. Reconnaissance