| 
 
 
  | 
  
 | 
  
    | 
     Audiovisuelle Sprachsynthese 
    Systementwicklung und -bewertung 
		
  
		
  Sascha Fagel
    Reihe: Mündliche Kommunikation 
     Logos Verlag Berlin
 
EAN: 9783832507428 (ISBN: 3-8325-0742-6)
 152 Seiten, paperback, 14 x 20cm, 2004
EUR 40,50 alle Angaben ohne Gewähr
     
    
 | 
 
 
 | 
 
 
Umschlagtext 
Wenn wir Menschen miteinander reden, sehen wir uns oft in die Augen. Ist unser Gegenüber jedoch akustisch schwer zu verstehen - z.B. aufgrund lauter Umgebungsgeräusche - wandert unser Blick zu den Lippen. Die sichtbaren Sprechbewegungen helfen uns, die unvollständige Information des akustischen Kanals zu ergänzen.
  
  
Dieses Buch erläutert Eigenschaften des visuellen Sprachverstehens und aktuelle Ansätze, sichtbare Sprechbewegungen synthetisch zu erzeugen. Es beschreibt detailliert die Entwicklung eines audiovisuellen Sprachsynthesizers ("Talking Head") und vergleicht dessen Visualisierung von Sprechbewegungen mit natürlicher Sprache hinsichtlich der Verständlichkeit.
  
  
Audiovisuelle Sprachsynthese hat eine Vielzahl potenzieller Anwendungen wie z.B. computergestütztes Sprechtraining für gehörlose oder hörgestörte Menschen, virtuelle Fernsehmoderatoren, Informationssysteme an geräuschvollen Orten oder Applikationen im Bereich Videokonferenz und Bildtelefonie. 
  Rezension 
Viele Informationsflüsse werden bei der mündlichen Kommunikation verbunden: Akustische Signale geben etwa Informationen über das Geschlecht des Sprechers. Auch die visuellen Informationen wie Bewegungen, Stirnrunzeln oder Augenzwinkern werden verarbeitet. Das vorliegende Buch beschreibt die Entwicklung und Bewertung eines Audiovisuellen Sprachsynthesizers. Ziel ist dabei die Verbesserung der Verständlichkeit synthetischer Sprache. Dabei sind vor allem die Anwendungsmöglichkeiten wie z. B. das computergesteuerte Sprechtraining für gehörlose oder hörgestörte Menschen oder virtuelle Fernsehmoderatoren von großem Interesse.  
 
Arthur Thömmes, lehrerbibliothek.de 
Inhaltsverzeichnis 
1 Einleitung 15 
 
I Theoretischer Teil 17 
 
2 Visuelle Information in Sprache 19 
2.1 Verbesserung der Verständlichkeit 19 
2.2 Quellen visueller Information 23 
2.3 McGurk-Effekt  25 
2.4 Audiovisuelle sensorische Integration 27 
3 Visuelle Sprachsynthese 31 
3.1 Parametrischc Verfahren 32 
3.1.1 Geometrische Modelle  32 
3.1.2 Physiologische Modelle 34 
3.2 Datenbasierte Verfahren 35 
3.3 Steuerung der Sprachvisualisierung 40 
3.3.1 „Look-Ahead"-, „Time-Locked"- und hybrides Modell 40 
3.3.2 Dominanzmodell  42 
3.3.3 n-Visem-Modell 45 
3.3.4 Artikulatorische Information im akustischen Signal 46 
4 Sprachverständlichkeitstests 49 
4.1 Testkorpus 49 
4.2 Trainings- und Teststimuli 51 
4.3 Antwortform 51 
4.4 Störung des akustischen Kanals 53 
 
II Praktischer Teil 55 
Vorarbeiten: Gesichtsmodelle 57 
5.1 Bildbasierte Videosynthese 58 
5.2 Macromedia Flash - Version 1 59 
5.3 Macromedia Flash - Version 2 60 
5.4 3D-Modell 61 
6 MASSY - der Modulare Audiovisuelle SprachSYnthesizer 63 
6.1 Phonetisches Artikulationsmodul und Audiosynthesemodul 65 
6.2 Artikulationsparameter 65 
6.3 Visuelles Artikulationsmodul 67 
6.3.1 Di-Visem-Modell 67 
6.3.2 Dominanzmodell 69 
6.3.3 Datenvisualisierung 73 
6.4 Gesichtsmodul 74 
6.4.1 Dreidimensionaler virtueller Kopf 74 
6.4.2 Bildbasiertes Gesichtsmodell 79 
6.5 Ermittlung der Artikulationsmodelle 85 
6.5.1 Messaufbau 86 
6.5.2 Testkorpus 87 
6.5.3 EMA Daten 89 
6.5.4 Di-Visem-Modell 91 
6.5.5 Dominanzmodell 94 
6.6 Optimierung des Systems 96 
6.6.1 Vorgehensweise 96 
6.6.2 Ergebnisse 98 
7 Bewertung der Verständlichkeit des Systems 101 
7.1 Testaufbau 102 
7.1.1 Testitems, Konditionen und Stimuli 102 
7.1.2 Durchführung 103 
7.2 Auswertung 104 
7.2.1 Zeitliche Veränderimg der Erkennungsleistungen 104 
7.2.2 Antwortzeiten 105 
7.2.3 Unterschiede zwischen den Konditionen 107 
7.2.4 Unterschiede zwischen Lautklassen  108 
7.2.5 Unterschiede zwischen Lautpositionen 111 
7.2.6 Verwechslungsstruktur 114 
7.2.7 Integration der visuellen Information 116 
7.3 Interpretation der Ergebnisse  120 
8 Schluss 123 
8.1 Mögliche Anwendungen 123 
8.2 Zusammenfassung 126 
8.3 Ausblick 127 
 
Literaturverzeichnis 131 
Anhang 141 
 
A Testkorpus der Sprachverständlichkeitstests 143 
B Modulschnittstellen 147 
B.J Phonetisches Artikulationsmodul 147 
B.2 Audiosynthesemodul 148 
B.3 Visuelles Artikulationsmodul 149 
B.4 Gesichtsmodul 150 
C Erkennungsleistungen 151 
        
        
        
        
        
         
  |   
 | 
 |