lehrerbibliothek.deDatenschutzerklärung
Audiovisuelle Sprachsynthese Systementwicklung und -bewertung
Audiovisuelle Sprachsynthese
Systementwicklung und -bewertung




Sascha Fagel

Reihe: Mündliche Kommunikation


Logos Verlag Berlin
EAN: 9783832507428 (ISBN: 3-8325-0742-6)
152 Seiten, paperback, 14 x 20cm, 2004

EUR 40,50
alle Angaben ohne Gewähr

Umschlagtext
Wenn wir Menschen miteinander reden, sehen wir uns oft in die Augen. Ist unser Gegenüber jedoch akustisch schwer zu verstehen - z.B. aufgrund lauter Umgebungsgeräusche - wandert unser Blick zu den Lippen. Die sichtbaren Sprechbewegungen helfen uns, die unvollständige Information des akustischen Kanals zu ergänzen.



Dieses Buch erläutert Eigenschaften des visuellen Sprachverstehens und aktuelle Ansätze, sichtbare Sprechbewegungen synthetisch zu erzeugen. Es beschreibt detailliert die Entwicklung eines audiovisuellen Sprachsynthesizers ("Talking Head") und vergleicht dessen Visualisierung von Sprechbewegungen mit natürlicher Sprache hinsichtlich der Verständlichkeit.



Audiovisuelle Sprachsynthese hat eine Vielzahl potenzieller Anwendungen wie z.B. computergestütztes Sprechtraining für gehörlose oder hörgestörte Menschen, virtuelle Fernsehmoderatoren, Informationssysteme an geräuschvollen Orten oder Applikationen im Bereich Videokonferenz und Bildtelefonie.
Rezension
Viele Informationsflüsse werden bei der mündlichen Kommunikation verbunden: Akustische Signale geben etwa Informationen über das Geschlecht des Sprechers. Auch die visuellen Informationen wie Bewegungen, Stirnrunzeln oder Augenzwinkern werden verarbeitet. Das vorliegende Buch beschreibt die Entwicklung und Bewertung eines Audiovisuellen Sprachsynthesizers. Ziel ist dabei die Verbesserung der Verständlichkeit synthetischer Sprache. Dabei sind vor allem die Anwendungsmöglichkeiten wie z. B. das computergesteuerte Sprechtraining für gehörlose oder hörgestörte Menschen oder virtuelle Fernsehmoderatoren von großem Interesse.

Arthur Thömmes, lehrerbibliothek.de
Inhaltsverzeichnis
1 Einleitung 15

I Theoretischer Teil 17

2 Visuelle Information in Sprache 19
2.1 Verbesserung der Verständlichkeit 19
2.2 Quellen visueller Information 23
2.3 McGurk-Effekt 25
2.4 Audiovisuelle sensorische Integration 27
3 Visuelle Sprachsynthese 31
3.1 Parametrischc Verfahren 32
3.1.1 Geometrische Modelle 32
3.1.2 Physiologische Modelle 34
3.2 Datenbasierte Verfahren 35
3.3 Steuerung der Sprachvisualisierung 40
3.3.1 „Look-Ahead"-, „Time-Locked"- und hybrides Modell 40
3.3.2 Dominanzmodell 42
3.3.3 n-Visem-Modell 45
3.3.4 Artikulatorische Information im akustischen Signal 46
4 Sprachverständlichkeitstests 49
4.1 Testkorpus 49
4.2 Trainings- und Teststimuli 51
4.3 Antwortform 51
4.4 Störung des akustischen Kanals 53

II Praktischer Teil 55
Vorarbeiten: Gesichtsmodelle 57
5.1 Bildbasierte Videosynthese 58
5.2 Macromedia Flash - Version 1 59
5.3 Macromedia Flash - Version 2 60
5.4 3D-Modell 61
6 MASSY - der Modulare Audiovisuelle SprachSYnthesizer 63
6.1 Phonetisches Artikulationsmodul und Audiosynthesemodul 65
6.2 Artikulationsparameter 65
6.3 Visuelles Artikulationsmodul 67
6.3.1 Di-Visem-Modell 67
6.3.2 Dominanzmodell 69
6.3.3 Datenvisualisierung 73
6.4 Gesichtsmodul 74
6.4.1 Dreidimensionaler virtueller Kopf 74
6.4.2 Bildbasiertes Gesichtsmodell 79
6.5 Ermittlung der Artikulationsmodelle 85
6.5.1 Messaufbau 86
6.5.2 Testkorpus 87
6.5.3 EMA Daten 89
6.5.4 Di-Visem-Modell 91
6.5.5 Dominanzmodell 94
6.6 Optimierung des Systems 96
6.6.1 Vorgehensweise 96
6.6.2 Ergebnisse 98
7 Bewertung der Verständlichkeit des Systems 101
7.1 Testaufbau 102
7.1.1 Testitems, Konditionen und Stimuli 102
7.1.2 Durchführung 103
7.2 Auswertung 104
7.2.1 Zeitliche Veränderimg der Erkennungsleistungen 104
7.2.2 Antwortzeiten 105
7.2.3 Unterschiede zwischen den Konditionen 107
7.2.4 Unterschiede zwischen Lautklassen 108
7.2.5 Unterschiede zwischen Lautpositionen 111
7.2.6 Verwechslungsstruktur 114
7.2.7 Integration der visuellen Information 116
7.3 Interpretation der Ergebnisse 120
8 Schluss 123
8.1 Mögliche Anwendungen 123
8.2 Zusammenfassung 126
8.3 Ausblick 127

Literaturverzeichnis 131
Anhang 141

A Testkorpus der Sprachverständlichkeitstests 143
B Modulschnittstellen 147
B.J Phonetisches Artikulationsmodul 147
B.2 Audiosynthesemodul 148
B.3 Visuelles Artikulationsmodul 149
B.4 Gesichtsmodul 150
C Erkennungsleistungen 151