1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....
-
Upload
sylviane-fortin -
Category
Documents
-
view
108 -
download
0
Transcript of 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....
![Page 1: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/1.jpg)
1
Le Signal Vocal
• 1. Production du signal ; Modèles de production• 2. Notions sur l’audition• 3. Allure temporelle Analyse en fréquence• Typologie des signaux (phonèmes)• Représentation Temps-Fréquence, spectrogramme• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• 4. Transmission (compression) • 5. Principe de la synthèse de parole• 6. Données utilisées en reconnaissance de parole
http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html
![Page 2: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/2.jpg)
2http://perso.club-internet.fr/mantonio/condvoc.htm
1. Production du signal ; Modèles de production
![Page 3: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/3.jpg)
3
http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html
1. Production du signal
![Page 4: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/4.jpg)
4
http://perso.club-internet.fr/mantonio/condvoc.htm
1. Production du signal
![Page 5: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/5.jpg)
5
http://perso.club-internet.fr/mantonio/condvoc.htm
temps
http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html
1. Production du signal les cordes vocales
![Page 6: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/6.jpg)
6
http://www.ling.su.se/staff/hartmut/kemplne.htm
Wolfgang von Kempelen (1770)
http://alexandria.tue.nl/extra2/200512836.pdf
1. Production du signal
![Page 7: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/7.jpg)
7http://alexandria.tue.nl/extra2/200512836.pdf
The speech organ of Professor Faber from
1846(from the Journal of
the Acoustical Society of America [3]).
1. Production du signal
![Page 8: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/8.jpg)
8
vocoders à canaux : reproduire l’évolution de l’amplitudedu signal dans quelques dizaines de bandes spectrales
vocoders à formants : trouver les 3 à 5 maxima du spectre à court termeet reproduire ces fréquences avec les amplitudes associées
vers les années 1950/1960 : développement de l’électronique
vers les années 1960/1970 : développement de l’informatique
traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire
Analyse et Synthèse du Signal Vocal
1. Production du signal
![Page 9: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/9.jpg)
9
guimbarde, chants diphoniques, arc à bouche, didgeridoo
clicsen langue xhosaen Afrique du sud
1. Production du signal
![Page 10: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/10.jpg)
10
Synthèse numérique (ou équivalent analogique)
y t a i y t i x ti
p ou( ) ( ) ( ) ( )
( )
1
10 12
1
A z( )
Filtre récursif
Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles
des résonances du conduit vocal
Impulsionsdes cordes vocales
(intonation)ou bruit
(fricatives)
(Sa réponse en fréquencecorrespond au spectre du signal vocal)
y t( )
Signal synthétisé
x t( )
1. Production du signal
![Page 11: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/11.jpg)
11
100 2000
1
0 50400
200
0
200
100 2001
0
1
0 2000
50
100
0 2000
20
40
0 100 2000
0.5
temps
fréquence
Cordes vocalesintonation
Conduit vocalrésonances
Signal sonoresynthétique
1. Production du signal
![Page 12: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/12.jpg)
12http://www.iurc.montp.inserm.fr/cric/audition/
2. Audition
http://www.cochlea.org
![Page 13: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/13.jpg)
13
http://www.iurc.montp.inserm.fr/cric/audition/ 2. Audition
![Page 14: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/14.jpg)
14
bruit
exce
ssif =
dommages
irrém
édiables
2. Audition
![Page 15: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/15.jpg)
15
Phénomène de masquage (mp3)
0 5 10 15
0
20
40
60
80
0 5 10 15
0
20
40
60
80
x(n) = sinusoïde masquante
q(n) = sinusoïde masquée
0 5 10 150
20
40
60
80
100
120
Fréquences (kHz)
Sx(f) = DSP du signal
Sm(f) = Seuil de masquage
http://tsi.enst.fr/~moreau/activites_enseignement.html
fréquence fréquence
2. Audition
![Page 16: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/16.jpg)
16
Analyse spectrale à court terme
spectre
Spectre (log)
temps
Spectre échelle mel
fréquence
fréquencefréquence Hz
2500 Hz50 ms
2500 Hz3000 Hz
3. Analyse, description et typologie des signaux
![Page 17: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/17.jpg)
17
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
Signal vocal
Zoom
Spectre de la portion analysée : formants
temps
fréquence
tempsquasi périodicité de l’ordre de 5 à 10 ms suivant l’intonation
harmoniques de la fréquence fondamentale
3. Analyse
![Page 18: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/18.jpg)
18
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
spectre
Module de la transformée de Fourier
Deux secondes de signal temporel
Analyse d ’une portion de 100 ms
fondamental
harmoniques
Formants (résonnances)
temps
fréquence
3. Analyse
![Page 19: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/19.jpg)
19
Allure temporelle des signaux
• Voyelles et consonnes voisées
• Fricatives
• Plosives• Fricatives voisées
• Plosives voisées
• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r
m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g
+sons « doubles », diphtongues, ... w, ll
mais il y a une grande variabilité même pour un locuteuren fonction du contexte du son prononcé, de l’intonation,
de l’état de santé, etc...
3. Analyse
![Page 20: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/20.jpg)
20
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ eu ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ a ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ ai ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ o ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
![Page 21: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/21.jpg)
21
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ u ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ i ’
temps
fréquence
temps
fréquence
3. Analyse
![Page 22: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/22.jpg)
22
‘ (ll)an ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
4
‘ on ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
debutanalyse
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
‘ in ’
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
![Page 23: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/23.jpg)
23
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
(a)ll
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ m ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ n ’
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
![Page 24: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/24.jpg)
24
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
‘ ta ’
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ d ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ b ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ po ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
3.0557
2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10
4
2754
3.28 104‘ co ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ g ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
![Page 25: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/25.jpg)
25
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ s ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ j ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ f ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
30
‘ z ’
0 0.010.020.030.040.050.060.070.080.09 0.1
0 400800120016002000240028003200360040000
20
40
‘ v ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40
10
20
‘ ch ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
![Page 26: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/26.jpg)
26
tempsfréquence perspective
log spectrogramme( )
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10
4
0
2 104
chronogrammeénergie (log)
temps
fréq
uenc
e
ampl
itude spectrogramme
chronogramme
3. Analyse
![Page 27: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/27.jpg)
27
fréquence
temps
amplitude
Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme
fréquence
temps
3. Analyse
![Page 28: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/28.jpg)
28
ph o n e t i c i an
fréquence
temps
3. Analyse
![Page 29: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/29.jpg)
29
Le « cepstre »
- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance
fréquence« temps »
périodicité des harmoniques
variations lentes du spectre
déconvolution source (harmoniques) / conduit (enveloppe)
3. Analyse
![Page 30: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/30.jpg)
30
Analyse de la fréquence fondamentalechant, intonation
4
0 125 250 375 500 625 750 875 10001
2
3
temps
fréquence
fondamentalharmoniques
3. Analyse
![Page 31: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/31.jpg)
31
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
1.943 104
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1000
500
0
500
1000893.488
884.279
CCk
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
3 104
2.272 104
0
cbandek
longueurcoupe
50
00 k
0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104
1 104
5000
0
5000
1 104
5.366 103
5.366 103
CFBk
REDRESk 0.5
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
5 107
1 108
8.578 107
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1 107
5 106
0
5 106
1 107
5.927 106
5.939 106
CCk
longueurcoupe0 k
Passe bas
Passe bandedémodulation
Passe bassur le résultat
Analyse de la mélodie (pitch)
fondamental
harmoniques
temps
fréquence
temps
fréquence
temps
fréquencefondamental retrouvé par démodulation
3. Analyse
![Page 32: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/32.jpg)
32
Codage à bas débit (moins de 15kbits/s) : prédiction linéaire
Codage à débit moyen : 16 à 32 kbits/s : modulation delta
Téléphonie : 8bits x 8000 éch./s = 64 kbits/s
Haute fidélité 16bits x 44100 éch./s = 700 kbits/
MP3 = 144 kbits/s
4. Codage de la parole : différents débits enfonction des applications et de la qualité acceptée
![Page 33: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/33.jpg)
33
Téléphonie numérique
Réduire la dynamique
Loi « mu »)].1([log2 xQy
94.4 38.8 0 72.4 128
0
128
128
yx
128128 x 128
Échantillonnage à 8kHz quantification sur 8 bits
4. Codage
![Page 34: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/34.jpg)
34
Codage par modulation delta (parole)pour les débits de 16 à 32 kBits/s
Quantification de la différenceentre le signal et sa prédiction
q
kktkb
1
+
_)(tx
)(t
Tra
nsm
issi
on
q
kktkt btx
1
)(
)(tx )(t
Synthèse
Analyse
4. Codage
![Page 35: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/35.jpg)
35
Filtrage des signauxdans différentes bandes de fréquences
T. FourierSélection des canaux utiles (effet de masquage)1er codage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
Em
issi
on d
es d
onné
es
Principe du codage MP34. Codage
![Page 36: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/36.jpg)
36
Analyse par prédiction linéaire
Canal vocalImpusions
(cordes vocales)
Bruit(pour les fricatives)
Signal Synthétique
Filtre récursifévoluant « lentement »
au cours du tempset dont la réponse en
fréquence estcelle du spectre
à court terme
)(
1
zA
4. Codage
![Page 37: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/37.jpg)
37
- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)
- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif
(sous la forme d ’un filtre en treillis)
- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal
199
0)()(
tk ktxtxr
101 )10()1(1
1
)(
1
zazazA
4. Codage
![Page 38: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/38.jpg)
38
Codage par prédiction linéaire
signal analysé calcul de corrélationalgorithme de Levinson
coefficients du filtre A(z)filtre nonrécursif A(z)
signal résiduel e(t)recherche de périodicité L
(max de corrélation) e(t)e(t+L)
v(t)=e(t)-r.e(t-L)
quantificationrecherche d’un
élément ressemblant à un tronçon de v(t)
dans un dictionnaire
d(n)
filtre récursif 1/A(z)
e(t)=v(t)+r.e(t-L)
reconstruction de v(t)à partir des d(n)
transmission
signal synthétisé
L
signal résiduel e(t)
d(n)
v(t) v(t)
étape decompression
analyse synthèse
4. Codage
![Page 39: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/39.jpg)
39
Spectre de la portionde signal analysé
Réponse en fréquencedu filtre récursif
modélisant le signal vocal
Analyse par prédiction linéaire
fréquence
4. Codage
![Page 40: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/40.jpg)
40
Code Excited Linear Prediction (CELP)
Dictionnairede signaux
élémentairesPrédiction à long terme(intonation)
Modèledu conduit vocal
génération du signald’entrée du filtre (cordes vocales, bruit)
4. Codage
![Page 41: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/41.jpg)
41
(Ech 11025 Hz)
k 0 1023
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816
113
590
0 128 256 384 512 640 768 896 10240
500
1000
0 204.8 409.6 614.4 819.2 1024500
0
500
portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences
temps
tempsfréquence
Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie
4. Codage
![Page 42: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/42.jpg)
42
0 2 4 6 8 10 125 10
6
0
5 106
1 107
0 1 2 3 4 5 6 7 8 9 10 11 12 13 141
0
1Corrélation : r(n) Coefficients de A(z)
Réponse impulsionnelledu filtre récursif 1/A(z)
Réponse impulsionnelledu filtre non récursif A(z)
Algo de Levinsonou Schur
temps
Signal modélisé
tempstemps
4. Codage
![Page 43: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/43.jpg)
43
50 100 150 200 250 300 350 4002000
1000
0
1000
0 102.4 204.8 307.2 409.6 5120
2
4
6
1.2 0 1.21.2
0
1.2
Réponse impulsionnelledu filtre récursif 1/A(z) modélisantla production de ce signal
Réponse en fréquence du filtre récursif 1/A(z))
Zéros de A(z)(pôles de 1/A(z))
temps
fréquence
Signal analyséamplitude 4. Codage
![Page 44: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/44.jpg)
44
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71
124.2
598.31
Signal résiduel à coder- Recherche de la périodicité (pitch :
prédiction à long termeon code x(t)-x(t-L) : estimer L
- Quantification vectorielle
1617181920212223242526272829303132346.71
4.74
337.22
L
On découpe le signal résiduel en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre
Spectre du signal résiduel
temps
temps
fréquence
4. Codage
(~ bruit blanc)
![Page 45: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/45.jpg)
45
5. Synthèse de son ; diphones
Difficultés:• Enchainement de sons élémentaires• Intonation naturelle
![Page 46: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/46.jpg)
46
Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch
)().()( tfttxts nn
nknknk httsn
ty ,, ).()(
Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons
Synthèse de parole
)()( nn ttsn
tx
mbrolahttp://tcts.fpms.ac.be/synthesis/
.
5. Synthèse
![Page 47: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/47.jpg)
47
On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...
Plus aigu : diminuer
Plus grave : augmenter
Modification de l ’amplitude en changeant
nkt ,
nkt ,
nkh ,
5. Synthèse
![Page 48: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/48.jpg)
48
6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés
Hidden Markov Models
1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate
http://htk.eng.cam.ac.uk/
![Page 49: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/49.jpg)
49
transition
mesures
a m m( ' , )
b m n( , ') b m n( , )
2. Automates utilisés dans les modèles de Markov cachés
Séquence d’états :
Séquence de mesures :
(Probabilités)
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
d m p s m( ) ( ) 0
a m m p s m s mt t( ' , ) ( '/ ) 1
b m n p y n s mt t( , ) ( / )
états
n’ n
m’ m
probabilité de transition de l’état m’ à l’état m
probabilité de mesurer ‘n’ quand l’automate estdans l’état m
probabilité que l’état initial soit m
6. Reconnaissance
![Page 50: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/50.jpg)
50
Les trois problèmes :
1. Reconnaissance : Y donné quelle est la S la plus probable ?
2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?
3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)
Séquence d’états :
Séquence de mesures :
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
6. Reconnaissance
![Page 51: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/51.jpg)
51
Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0
Initialisation
Récurrence
Fin de l’algorithme
r m r m a m m b m ytm
t t( ') max ( ) ( , ') ( ' , ) 1
r m d m b m y0 0( ) ( ) ( , )
t T
r mt 1( )
q mt ( ')m'
Obtention de la séquence la plus probable
m' '
t 1 t t 1 temps
Etat m
« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps
6. Reconnaissance
![Page 52: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/52.jpg)
52
Probabilité d’observation d’une séquence Y avec (a,b,d)
p Y d s b s y a s s b s yt t t tt
T
S( ) ( ) ( , ) ( , ) ( , )
0 0 0 1
1
1
Calcul à t croissant
t t tm p s m y y( ) ( ,[ , , ]) 0
0 0( ) ( ) ( , )m d m b m y
tm
M
t tm m a m m b m y
11
1( ) ( ') ( ' , ) ( , )'
p Y mm
T( ) ( )
Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)
(aussi utilisé dans les « turbocodes en détection d ’erreurs »
6. Reconnaissance
![Page 53: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/53.jpg)
53
Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »
t
t’
(lourd : nécessite de nombreuses réalisations deY)
6. Reconnaissance
![Page 54: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/54.jpg)
54
3. Mise en forme des données mesurées sur la parole
Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle
F o n e t i ch i an
6. Reconnaissance
![Page 55: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/55.jpg)
55
Analyse spectrale à court terme
0 500 1000 1500 2000 2500 3000 3500 4000 4500
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
2000
4000
Echelle Mel linéaire exponentielle
Fréquence centraledu filtre
Banc de filtres
6. Reconnaissance
![Page 56: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/56.jpg)
56
Coefficients cepstraux
Energie en sortie des différents filtres : C(n)
c k C n k nn
( ) log[ ( )]cos[ ( )]
1
20
20
1
2
Peuvent être liés aux coefficients de la prédiction linéaire
c k a kk
a c kk
( ) ( ) ( ) ( ) ( )
1
1
1
6. Reconnaissance
![Page 57: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/57.jpg)
57
Quantification vectorielle
Trouver des représentants pour des nuages de points
Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence
Passer des c(k) aux y (mesures)
« expectation maximization »
les HMM nécessitent une quantification (assez grossière) des données traitées
6. Reconnaissance
![Page 58: 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.](https://reader037.fdocuments.us/reader037/viewer/2022110117/551d9d81497959293b8bb295/html5/thumbnails/58.jpg)
58
Toutefois, beaucoup de réglages et de variantes…
Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)
Comprendre le fonctionnement de la cochlée et du système nerveux auditif
http://www.cochlea.org/spe/cerveau-auditif-2.html
6. Reconnaissance