Aligning pitch targets in speech synthesis: effects of syllable structure

17
Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. T. Rietveld and C. Gussenhoven Gussenhoven Präsentiert von Anja Moos Präsentiert von Anja Moos

description

Aligning pitch targets in speech synthesis: effects of syllable structure. T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos. Hypothese:. - PowerPoint PPT Presentation

Transcript of Aligning pitch targets in speech synthesis: effects of syllable structure

Page 1: Aligning pitch targets in speech synthesis: effects of syllable structure

Aligning pitch targets in speech synthesis: effects of syllable

structure

T. Rietveld and C. Gussenhoven T. Rietveld and C. Gussenhoven

Präsentiert von Anja MoosPräsentiert von Anja Moos

Page 2: Aligning pitch targets in speech synthesis: effects of syllable structure

Hypothese:

Die perzeptive Diskriminierung eines Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer „flat hat“ frühen bzw. späten Falls in einer „flat hat“ Kontur im Niederländischen wird von der Kontur im Niederländischen wird von der Silbenstruktur beeinflusst.Silbenstruktur beeinflusst.(vergleiche Figure 1)(vergleiche Figure 1)

Mögliche Faktoren: Silbenlänge, folgende Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und CodaStimmhaftigkeit in Onset und Coda

Page 3: Aligning pitch targets in speech synthesis: effects of syllable structure

Daten zum Experiment:

Synthetischer Leitsatz: „Maar ARNhem ligt Synthetischer Leitsatz: „Maar ARNhem ligt in X-land“in X-land“

In X-land variiert Onset (vergleiche Table I) In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/und Coda (/m/ vs. /p/), Vokal immer /o:/

P-center (=„perceptual center“) je nach P-center (=„perceptual center“) je nach Silbenstruktur errechnetSilbenstruktur errechnet

Page 4: Aligning pitch targets in speech synthesis: effects of syllable structure

Intonationskontur der 12 Sätze: 100 ms Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in langer Anstieg in ARN, 100 ms langer Fall in XX

Der Zeitpunkt des Falls wurde 10 x um 20 ms Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2)(vergleiche Figure 2)

120 Stimuli120 Stimuli Perzeptiv wurde die erste Version als Perzeptiv wurde die erste Version als

downstepped erkannt, letztere als non-downstepped erkannt, letztere als non-downsteppeddownstepped

Page 5: Aligning pitch targets in speech synthesis: effects of syllable structure

Experimentsdurchführung:

27 Teilnehmer 27 Teilnehmer Aufnahmen randomisiertAufnahmen randomisiert Vorherige Einweisung und Übung an Hand Vorherige Einweisung und Übung an Hand

von 10 Minimalpaaren (was die Kontur von 10 Minimalpaaren (was die Kontur betrifft)betrifft)

Alle 20 Stimuli wurden erneut zwei Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespieltMinimalpaare eingespielt

Page 6: Aligning pitch targets in speech synthesis: effects of syllable structure

Ergebnisse: PSE (="Point of Subjective Equality") = PSE (="Point of Subjective Equality") =

Durchschnittswert der Beurteilungen der Pbn, Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nichtob downstep vorliegt oder nicht

Mit einer Ausnahme ist der PSE der Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3)stimmlosen Coda immer früher (Fig. 3)

Um PSE vorhersagen zu können, wurden mit Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen und P-Center multiple Regressionsanalysen durchgeführtdurchgeführt

Page 7: Aligning pitch targets in speech synthesis: effects of syllable structure

Signifikant sind alle Variablen außer P-Signifikant sind alle Variablen außer P-CenterCenter

Stimmhafte CodaStimmhafte Coda späterer PSEspäterer PSE Längerer OnsetLängerer Onset früherer PSEfrüherer PSE Längere Stimmhaftigkeit im OnsetLängere Stimmhaftigkeit im Onset

früherer PSEfrüherer PSE (Die Produkt-Moment-Korrelation ergab: (Die Produkt-Moment-Korrelation ergab:

PSE korreliert mit Onsetdauer und P-Center PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset)mit Stimmhaftigkeitsdauer im Onset)

Page 8: Aligning pitch targets in speech synthesis: effects of syllable structure

Fazit:

Der PSE wird von der Silbenstruktur Der PSE wird von der Silbenstruktur beeinflusstbeeinflusst

Der Punkt der Alignierung kann also nicht Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in aus Onsetdauer und Stimmhaftigkeit in Onset und CodaOnset und Coda

!Vorsicht: Die Daten beruhen auf !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial!synthetischem Sprachmaterial!

Page 9: Aligning pitch targets in speech synthesis: effects of syllable structure

Folgehandlung:

Im Sprachsyntheseprogramm RIAS wird Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach einen Sonoranten in der Coda 15 ms nach rechts.rechts.

Page 10: Aligning pitch targets in speech synthesis: effects of syllable structure

Effects of Time Pressure in the Phonetic Realization of the

Dutch Accent-Lending Pitch Rise and Fall

J.Caspers and V.J. van HeuvenJ.Caspers and V.J. van Heuven

Page 11: Aligning pitch targets in speech synthesis: effects of syllable structure

Hypothese: Die wichtigsten Kriterien der Intonation bei Die wichtigsten Kriterien der Intonation bei

Akzenten, wie Kontur, Höhe und Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien Schlüsse ziehen, welche Kriterien unverändert bleiben. unverändert bleiben.

Mögliche Kompensationsstrategien: Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung Akzenten und Grenzen oder Anpassung derselben. derselben.

Page 12: Aligning pitch targets in speech synthesis: effects of syllable structure

Daten zum Experiment:

Untersucht wurde der Anstieg „1“ („abrupt, Untersucht wurde der Anstieg „1“ („abrupt, full-size and early in the syllable“) und der full-size and early in the syllable“) und der Fall „A“ („ abrupt, full-size and late in the Fall „A“ („ abrupt, full-size and late in the syllable“)syllable“)

Hierbei wurden die Form (Höhe, Dauer und Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die Steilheit der Bewegungen), die durchschnittliche Fdurchschnittliche F00-Kontur und die -Kontur und die

Alignierung unter die Lupe genommenAlignierung unter die Lupe genommen

Page 13: Aligning pitch targets in speech synthesis: effects of syllable structure

Experimentsdurchführung:

Arten des Zeitdrucks: Arten des Zeitdrucks: I. Pbn sollen so schnell wie möglich I. Pbn sollen so schnell wie möglich sprechensprechenII. Kurz- vs. Langvokal (/a:/ vs. /II. Kurz- vs. Langvokal (/a:/ vs. //)/)III. Mehrere Konturbewegungen auf wenige III. Mehrere Konturbewegungen auf wenige Silben verteilt (vergleiche Fig. 1)Silben verteilt (vergleiche Fig. 1)

Pbn waren die Autoren (also nicht naiv)Pbn waren die Autoren (also nicht naiv)

Page 14: Aligning pitch targets in speech synthesis: effects of syllable structure

Ergebnisse:

Form des Anstiegs und Falls: (Table 1-3)Form des Anstiegs und Falls: (Table 1-3)I. Dauer nimmt ab und Steilheit nimmt zu. I. Dauer nimmt ab und Steilheit nimmt zu.

Umfang scheint zu sinken.Umfang scheint zu sinken.II. Beim Kurzvokal Bewegung kürzer, steiler II. Beim Kurzvokal Bewegung kürzer, steiler

und im Umfang größer.und im Umfang größer.III. Umfang verkleinert sich. Der Anstieg ist III. Umfang verkleinert sich. Der Anstieg ist

kürzer und steiler (nicht so der Fall). kürzer und steiler (nicht so der Fall). Die Zeit, nicht der Frequenzumfang Die Zeit, nicht der Frequenzumfang

wird komprimiert.wird komprimiert.

Page 15: Aligning pitch targets in speech synthesis: effects of syllable structure

Tonhöhe:Tonhöhe:I. und II. unbedeutendI. und II. unbedeutendIII. Peaks und Valleys sind höher. III. Peaks und Valleys sind höher.

Verringerung des FVerringerung des F00-Umfangs wurde nicht -Umfangs wurde nicht bestätigt.bestätigt.

Genaue Höhe der Akzenttöne ist Genaue Höhe der Akzenttöne ist unbedeutend.unbedeutend.

Page 16: Aligning pitch targets in speech synthesis: effects of syllable structure

Alignierung vom Anstieg (Fig. 2):Alignierung vom Anstieg (Fig. 2):Der Beginn des Anstiegs ist in allen Der Beginn des Anstiegs ist in allen Zeitdrucktypen relativ zum Silbenonset Zeitdrucktypen relativ zum Silbenonset gesehen circa zum gleichen Zeitpunkt.gesehen circa zum gleichen Zeitpunkt.

Alignierung vom Fall (Fig. 3):Alignierung vom Fall (Fig. 3):Keine fixe Alignigerung in Bezug auf die Keine fixe Alignigerung in Bezug auf die Silbenstruktur. Ein vorangehender Anstieg Silbenstruktur. Ein vorangehender Anstieg schiebt den Fall nach hinten. schiebt den Fall nach hinten.

Beim Anstieg ist der Ankerpunkt Beim Anstieg ist der Ankerpunkt wichtig, beim Fall eher die Form.wichtig, beim Fall eher die Form.

Page 17: Aligning pitch targets in speech synthesis: effects of syllable structure

Fazit:

Entgegen anderer Untersuchungen wurde Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen dem Beginn der Silbe synchron zu setzen ist.ist.