Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"

Sprachinteraktion und anthropomorphe Interfaceagenten in
multimodalen interaktiven Systemen
Eine explorative Studie im Rahmen des mUltimo3D-Projektes am Heinrich-Hertz-Institut
Diplomarbeit
Vorgelegt zur Erlangung des akademischen Grades einer
Diplom-Psychologin (Dipl.-Psych.)
Eingereicht am Institut für Psychologie
Mathematisch-Naturwissenschaftliche Fakultät an der HU Berlin
Nicole Kelling
Matrikelnummer 116586
Angefertigt unter der Leitung von
Dr. Katharina Seifert, Volkswagen AG, Wolfsburg
Prof. Hartmut Wandke, HU Berlin

Eidesstattliche Erklärung
2
Die selbständige und eigenhändige Anfertigung der vorliegenden Diplomarbeit versichere
ich an Eides statt.
Berlin, den 31.07.2003
Unterschrift

Inhaltsverzeichnis
3
1 Inhaltsverzeichnis
EIDESSTATTLICHE ERKLÄRUNG ........................................................................................................ 2
1 INHALTSVERZEICHNIS............................................................................................................... 3
2 ZUSAMMENFASSUNG .................................................................................................................. 5
3 EINLEITUNG ................................................................................................................................... 6
4 THEORIEN / KONZEPTE.............................................................................................................. 7
4.1 MULTIMODALITÄT – EINE EINFÜHRUNG AM BEISPIEL DER EMBASSI-ANWENDUNGEN
(ELEKTRONISCHE MULTIMODALE BEDIEN- UND SERVICE- ASSISTENZ)....................................................... 7
4.2 SPRACHINTERAKTION ZWISCHEN MENSCH UND MASCHINE....................................................... 9
4.2.1 Sprachkodierung................................................................................................................... 9
4.2.2 Spracherkennung .................................................................................................................. 9
4.2.3 Sprachverstehen...................................................................................................................10
4.2.4 Sprachsynthese / Sprachausgabe.........................................................................................11
4.2.5 Sprechererkennung ..............................................................................................................11
4.2.6 Menschliche Sprachwahrnehmung versus maschinelle Spracherkennung ..........................12
4.2.7 Problemfelder der Spracherkennung...................................................................................12
4.2.8 Verbesserung der Spracherkennung durch Multimodalität und eingegrenztes Vokabular..16
4.3 DIE GESTALTUNG DER INTELLIGENTEN BENUTZUNGSSCHNITTSTELLE DURCH ADAPTIVE
DIALOGSYSTEME..........................................................................................................................................17
4.3.1 Die vier Seiten einer Nachricht............................................................................................17
4.3.2 Benutzermodellierung..........................................................................................................18
4.3.3 Überblick zu bestehenden Belief-Desire-Intention-Verfahren für die Benutzermodellierung
18
4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der Dialoggestaltung..................................19
4.3.5 Stereotypen ..........................................................................................................................21
4.3.6 Bayessche Netze...................................................................................................................23
4.4 INTERFACEAGENTEN ALS MULTIMODALE BENUTZUNGSSCHNITTSTELLE...................................26
4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum Anthropomorphismus in der
Mensch-Computer-Interaktion................................................................................................................26
4.4.2 Agenten als Avatare.............................................................................................................27
4.4.3 Erwartungen an Agenten .....................................................................................................27
4.4.4 Agentenrepräsentation.........................................................................................................28
4.4.5 Lerneffekt / Funktionalität ...................................................................................................29
4.4.6 Interaktion mit Nutzer..........................................................................................................29
4.4.7 Attribution von Persönlichkeitsmerkmalen..........................................................................30
4.4.8 Evaluation der vorgestellten Studien ...................................................................................32
4.4.9 Die Kombination von Agenten und Sprache im multimodalen Interface.............................33

Inhaltsverzeichnis
4
5 EXPLORATIVE STUDIE ZU SPRACHINTERAKTION UND ANTHROPOMORPHEN
INTERFACEAGENTEN IM RAHMEN DES MULTIMO-3D-PROJEKTES AM HEINRICH-
HERTZ-INSTITUT........................................................................................................................................34
5.1 PROJEKTRAHMEN ......................................................................................................................34
5.2 SYSTEMBESCHREIBUNG.............................................................................................................34
5.2.1 Das 3D-Display ...................................................................................................................35
5.2.2 Spracherkennung .................................................................................................................36
5.2.3 Technische Anordnung des Systems.....................................................................................36
5.2.4 Die Testapplikation CAD-Raum ..........................................................................................37
5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum....................................................37
5.2.6 Die Testapplikation Avatar..................................................................................................38
5.3 METHODE..................................................................................................................................38
5.3.1 Einbettung der vorliegenden Fragestellung in die Gesamtuntersuchung............................38
5.3.2 Variablen .............................................................................................................................39
5.3.3 Explorative Fragestellungen zur Sprachinteraktion............................................................40
5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion............................................................41
5.3.5 Explorative Fragestellungen zum Avatar ............................................................................41
5.3.6 Theoriegeleitete Hypothesen zum Avatar ............................................................................42
5.3.7 Stichprobe des Logfileexperiments ......................................................................................43
5.3.8 Versuchsdurchlauf des Logfileexperimemts.........................................................................44
5.3.9 Stichprobe des Simulationsexperiments...............................................................................45
5.3.10 Versuchsdurchlauf des Simulationsexperimentes ...........................................................45
5.4 AUSWERTUNG ...........................................................................................................................47
5.4.1 Die Untersuchungsmethoden und das Datenniveau ............................................................47
5.4.2 Ergebnisse............................................................................................................................48
5.5 DISKUSSION...............................................................................................................................72
5.5.1 Interpretation der Ergebnisse..............................................................................................72
5.5.2 Kritik an der Untersuchung .................................................................................................77
5.5.3 Integration der Ergebnisse in die Forschung und Ableitung von Fragestellungen für die
Gestaltung einer intelligenten Benutzungsschnittstelle mit Sprache und Agenten..................................79
5.5.4 Ausblick................................................................................................................................81
6 LITERATURVERZEICHNIS ........................................................................................................83
7 ANHANG..........................................................................................................................................90
7.1 DATEN AUS SPSS......................................................................................................................90
7.2 ABBILDUNGSVERZEICHNIS ......................................................................................................104
7.3 TABELLENVERZEICHNIS ..........................................................................................................105
8 DANKSAGUNG.............................................................................................................................107

Zusammenfassung
5
2 Zusammenfassung
Die vorliegende Untersuchung befasst sich mit zwei Bestandteilen einer multimodalen
Schnittstelle – den anthropomorphen Interfaceagenten und der Sprachinteraktion. Der
Avatar soll hinsichtlich Ansprache und Bewertung der hedonistischen Qualität durch den
Benutzer in Beziehung zu allgemeinen Vorstellungen über Avatare untersucht werden.
Dabei handelt es sich um eine explorative Studie in Form eines Simulationsexperimentes.
In einem weiteren Experiment geht es um die Sprachinteraktion in einem prototypischen
multimodalen System zur Konstruktion von 3D-Objekten. Neben Spracheingabe war hier
Interaktion mit Blick und Maus möglich. Die Interaktion mit Sprache im Vergleich zu den
anderen Modalitäten über die Zeit und die Auswirkung der Sprachinteraktion auf die
Leistung der Versuchspersonen sollte hierbei näher untersucht werden. Der theoretische
Rahmen besteht aus multimodaler Interaktion, Besonderheiten der Sprachinteraktion
zwischen Mensch und Maschine, psychologischen Grundlagen zur Gestaltung von
adaptiven Dialogsystemen und bestehenden Forschungsergebnissen zu anthropomorphen
Interfaceagenten, die im Rahmen von Multimodalität zur Gestaltung einer intelligenten
Benutzungsschnittstelle betrachtet werden.
Die Ergebnisse können die aufgestellten Hypothesen nur teilweise stützen. So zeigt sich
wie erwartet, dass die überwiegende Zahl der Versuchsteilnehmer den Avatar
personifiziert ansprechen. Die Bewertung der hedonistischen Qualität fällt allerdings zu
gleichen Teilen entgegen der Erwartung gut und schlecht aus. Eine Aussage über
Geschlechter- oder Altersunterschiede kann auf Grund der Stichprobengröße nicht
getroffen werden. Statistisch gesicherte Aussagen über Unterschiede in den Antworten auf
allgemeine Fragen zum Avatar konnten auf Grund der diskutierten methodischen Probleme
ebenfalls nicht getroffen werden. Der Versuch einer Interpretation wird trotzdem
vorgenommen. Für die Interaktion mit Sprache zeigen sich entgegen der Erwartung keine
Zusammenhänge zur Leistung der Versuchspersonen. Sie ist entgegen den Erwartungen
insgesamt auch nicht die herausragende Modalität, was offensichtlich mit der starken
Gewöhnung des Nutzers an Maus und Tastatur und technischen Schwierigkeiten
zusammenhängt. Der Anteil der Sprachinteraktion nimmt im Laufe der Zeit ab, was auf
Grund von Motivationsverlusten und Schwierigkeiten bei der Spracherkennung erwartet
wurde. Eine Diskussion der Ergebnisse zeigt weiteren Forschungsbedarf auf dem Gebiet
der multimodalen Schnittstellen und der besseren Gestaltung und Integration der
Modalitäten auf.

Einleitung
6
3 Einleitung
Die meisten Menschen unterscheiden heute noch klar zwischen den Robotern aus der
Science-Fiction-Welt und den Maschinen in ihrem täglichen Leben. In Filmen wie „Krieg
der Sterne“, „Raumschiff Enterprise“ und „2001: Odyssee im Weltraum“ sehen wir
intelligente Maschinen, die Namen wie C3PO, R2D2, Commander Data und HAL tragen.
Aber unsere Rasenmäher, Autos oder Textverarbeitungssysteme können ihnen nicht
entfernt das Wasser reichen. Die Science-Fiction-Konstrukte und die Maschinen, mit
denen wir leben, gehören zwei völlig verschiedenen Welten an. Die Fantasiemaschinen
verfügen über Sprachvermögen und Technologie, äußern Gefühle, Wünsche, Ängste, sie
lieben und sind stolz. Für unsere realen Maschinen gilt das - noch - nicht. Aber wie wird
das in hundert Jahren sein?
Die Grenze zwischen Fantasie und Realität wird schon sehr bald innerhalb der nächsten
Jahre fallen, auch wenn das so schwer vorstellbar ist wie vor zehn Jahren die tägliche
Benutzung des World Wide Web. Wir stehen kurz vor der „Roboterrevolution“. Das jahr-
hundertealte Projekt der Menschheit, künstliche Wesen zu schaffen, fängt an, Früchte zu
tragen. Maschinen fällen Urteile, die die Menschen in den letzten 200 Jahren seit der in-
dustriellen Revolution auf Trab gehalten haben. Aber diese Roboter sind nicht einfach
Roboter - es sind künstliche Lebewesen. Unsere Beziehung zu diesen Maschinen wird sich
sehr von unseren Verhältnissen zu allen vorangehenden unterscheiden. [BROOKS02]
Die Forschung befasst sich deshalb verstärkt mit der multimodalen Schnittstelle
zwischen Mensch und Computer. Ist es vom Benutzer gewünscht, dass der Computer wie
ein Mensch reagiert? Wollen wir mit dem Computer wie mit einem Menschen
kommunizieren? Was heißt überhaupt Kommunikation mit dem Computer - welche Kanäle
spielen dabei eine Rolle?
Diese Arbeit beschäftigt sich speziell mit Spracheingabe und anthropomorphen
Interfaceagenten als Teile einer multimodalen Benutzungsschnittstelle. Andere
Publikationen, die im Rahmen des im empirischen Teil vorgestellten mUltimo3D-Projektes
am Heinrich-Hertz-Institut angefertigt wurden, beschäftigen sich des Weiteren mit der
Haptik [BRIEST02], der Blickinteraktion [BAUMGARTEN02] und mit der Integration
aller Modalitäten [SEIFERT02].

Theorien / Konzepte
7
4 Theorien / Konzepte
Im Folgenden werden einige psychologische Grundlagen und bestehende Forschungs-
ergebnisse zu den Themen Multimodalität als Oberkategorie, anthropomorphe Interface-
agenten und Sprachinteraktion als Teilgebiete und zum Thema adaptive Dialogsysteme als
relevante Aspekte der Gestaltung einer intelligenten Benutzungsschnittstelle zwischen
Mensch und Computer vorgestellt und diskutiert. Diese Betrachtung bietet einen groben
Überblick über ein stark umforschtes, aber noch relativ diffiziles Gebiet der künstlichen
Intelligenz. Theoriegeleitete Hypothesen für die Empirie im zweiten Teil sind deshalb nur
bedingt zu erwarten.
4.1 Multimodalität – eine Einführung am Beispiel der
Embassi-Anwendungen (Elektronische Multimodale
Bedien- und Service- ASSIstenz)
Multimodale Systeme können natürliche Eingabeformen wie Sprache, Gestik, Blick-
bewegungen etc. mit multimodalen Ausgabemöglichkeiten kombinieren. Sie ermöglichen
es dem Nutzer, abhängig von der jeweiligen Intention, die passende Modalität für die
Interaktion mit dem vorhandenen technischen System zu nutzen. [OVIATT99]
Die nachfolgende Abbildung 1 stellt die technischen Komponenten eines multimodalen
Interfaces dar.
Abbildung 1 - Multimodales Interface
!"#$%&'()*+(
,-.%/0'1(23+'+(
Ausgabe von(4565(
2'781(9.%:;<(
Ausgabe von
Vibration, Kraft
='$;#8.;'."+$()*+(
23+'+1(,-.%/0'(
='$;#8.;'."+$()*+(
9'#8;<1(>;?;<(
='$;#8.;'."+$()*+(
.%:81(!;&.%8;*+(
!"";8;)'#(#+8'.:%/'((
!;#"'$$'#(#+8'.:%/'(
%%-8;#/0'#(#+8'.:%/'(
&$:%<8*.;#/0'#(
#+8'.:%/'(

Theorien / Konzepte
8
Das System sollte in der Lage sein, aus dem Strom von Äußerungen mit Hilfe von
Spracherkennung, Gestenanalyse etc. das abstrakte Ziel des Nutzers zu rekonstruieren.
Ein wichtiges Szenario im Bereich Privathaushalt des Embassi-Projektes [EMBASSI01]
ist das „Wohnzimmerszenario“. Es soll eine Medienauswahl auf der Grundlage eines
Nutzerkonzepts realisiert werden. Der Nutzer äußert etwa „Ich will Nachrichten sehen /
den Film aufnehmen.“ und das erwartete Resultat wird durch das System komplett bis zur
Programmierung des Videorekorders realisiert. Innerhalb des Projektes wurden natürlich-
sprachliche In- und Outputmodalitäten entwickelt. Dabei werden Spracheingabe, eine
Vielzahl grafischer Navigations- und Hinweiswerkzeuge sowie Sprachsynthese und an-
thropomorphe Interfaceagenten auf der Ausgabeseite verwendet.
Die Vorteile multimodaler Interaktion liegen in einer flexibleren Handhabung tech-
nischer Systeme und in der gleichzeitigen Entlastung des Benutzers durch die Verteilung
der Informationsübertragung auf mehrere Sinne [HEDICKE02].
Konkret können Fehler in der Aufgabenbearbeitung bis zu 50% während multimodaler
Interaktion reduziert werden. Die Flexibilität von multimodalen Systemen zahlt sich
besonders in wechselnden Umgebungen oder bei Einschränkungen auf Grund von Behin-
derungen aus. In einer im Rahmen des Anwendungsbereiches „Öffentliche Terminal-
systeme“ des Embassi-Projektes mit 90 Personen durchgeführten Studie zur Ermittlung des
Unterstützungsbedarfs behinderter und nicht-behinderter Personen bei der Bedienung von
Automaten [ENGE00] stellte sich heraus, dass Sehbehinderte Sprachausgabe vor der
Ausgabe in Braille-Schrift oder in taktiler Form präferierten.
Mit dem Embassi-Anwendungsbereich Kraftfahrzeug sind spezielle Einschränkungen
verbunden, die sich durch die Fahrsituation ergeben. So soll etwa der Fahrer seine Augen
möglichst nicht von dem Verkehrsgeschehen abwenden und seine Hände am Steuerrad
behalten. Aus diesem Grund sind konventionelle Nutzerschnittstellen (Displays, Knöpfe,
Schieberegler etc.) in diesem Kontext nicht sonderlich geeignet. Daher müssen insbe-
sondere Sprachein- und -ausgabe eingesetzt werden.
Ein Mythos der Multimodalität [OVIATT99] besagt, dass Sprache die primäre
Modalität ist, sofern sie im multimodalen System enthalten ist..Im Folgenden wird deshalb
näher auf diese Modalität und ihre Bersonderheiten in der Mensch-Maschine-Kom-
munikation eingegangen.

Theorien / Konzepte
9
4.2 Sprachinteraktion zwischen Mensch und Maschine
In diesem Kapitel wird auf die einzelnen Bestandteile der Sprachinteraktion als
wichtiges Teilgebiet der in Kapitel 4.1 dargestellten multimodalen Interaktion zwischen
Mensch und Maschine eingegangen. Abbildung 2 zeigt die die Gliederung der Bestandteile
in einer Baumstruktur nach [VARY98].
Abbildung 2 - Sprachinteraktion zwischen Mensch und Maschine nach Vary et al. ,1998
4.2.1 Sprachkodierung
Die Sprachkodierung ist eine unerlässliche technische Voraussetzung für Sprach-
erkennung und Sprechererkennung. Das durch ein Mikrofon auf den Computer übertragene
akustische Signal wird durch Auswertung der durch die Lautfolge der Sprache ausgelösten
Luftdruckschwankungen mittels eines Analog/Digital-Wandlers in elektrische Impulse um-
gewandelt. [SUSEN99] Die entstandenen Frequenzbereiche müssen zur weiteren Daten-
bearbeitung beschnitten werden, um die Übermittlung, besonders im Telekom-
munikationsbereich, zu gewährleisten.
4.2.2 Spracherkennung
In der Spracherkennungskomponente wird versucht, die eingehende Sprachsequenz
meistens bis auf Wort- oder Phonemebene zu zerlegen. Ein Phonem ist die kleinste
eigenständige Einheit im akustischen System einer Sprache. Dann versucht man anhand
,-.%/0;+8'.%<8;*+(
4';#/0'+(>'+#/0("+"(
>%#/0;+'(
,-.%/0%"#$%&'(
(,-.%/0#)+80'#'*(
,-.%/0<*";'."+$(
,-.%/0'.<'++"+$( ,-.'/0'.'.<'++"+$(
,-.%/0)'.#8'0'+(
+;%$*$#)#8'?'(

Theorien / Konzepte
10
von vorher erhaltenen Sprachdaten das wahrscheinlichste Wort zu ermitteln. Eine Hilfe
dabei ist das Wissen der Menschen über die Häufigkeit beziehungsweise die
Auftretenswahrscheinlichkeit von Wörtern, Phonemen und anderen Einheiten sowie über
das mögliche und wahrscheinliche Aufeinanderfolgen dieser Einheiten beziehungsweise
die Übergangswahrscheinlichkeiten. Mit welchen Verfahren ist dies zu bewerkstelligen ?
Die etablierten psycholinguistischen Verfahren zur Anwendung dieser Wahrschein-
lichkeiten sind Hidden-Markov-Modelle und die in Kapitel 4.3.6 näher beschriebenen
dynamischen Bayessche Netze (DBN).
Hidden-Markov-Modelle (HMM) sind ein stochastischer Ansatz zur ASR (Automatic
Speech Recognition), der die ursprünglichen Methoden der dynamischen Programmierung
weiterentwickelt. HMM nutzen Informationen über die statistische Wahrscheinlichkeit
einzelner Phoneme und bestimmen das Ergebnis aus ganzen Sequenzen, was die Ge-
nauigkeit der Erkennung des einzelnen Phonems drastisch erhöht. Da die zugrunde-
liegenden Tabellen nicht fest verankert sind, können sie relativ leicht trainiert werden
[PICONE90].
Die Anwendung dynamischer Bayesscher Netze auf die Spracherkennung erweitert das
zugrundeliegende Konzept um die Anwendung zweier Wahrscheinlichkeitsparameter für
die Worterkennung. Zusätzlich zur normalen Bewertung phonetischer Sequenzen wird der
artikulatorische Ablauf zur Bestimmung herangezogen. Diese Adaption an unterschied-
liche Ausspracheformen ist auch mit klassischen HMM möglich, verursacht dort aber eine
wesentlich höhere Komplexität auf Grund der zusätzlichen, versteckten Knoten und der
daraus resultierenden Abfolgemöglichkeiten. Die Modellierung des artikulatorischen Kon-
textes in dynamischen Bayesschen Netzen hingegen hat nur eine Verdopplung des
Suchraumes zu Folge.
Im Vergleich zu herkömmlichen BN-Modellen erhöht sich die Erkennungsrate um 12
bis 29%. Die direkte Bedeutung der zusätzlichen Kontextinformation ist nicht klar abzu-
leiten. In einigen Fällen zeigt sich aber eine starke Korrelation mit der Aussprache der
Vokale [ZWEIG99].
4.2.3 Sprachverstehen
Hier verwendet man oft eine syntaktische und eine semantische Analyse, um den
strukturellen Aufbau der erkannten Wortkette (Satzbau) zu erhalten und daraus die Bedeu-
tung der einzelnen Wörter zu erkennen. Hierzu benötigt man ein Lexikon und eine

Theorien / Konzepte
11
Grammatik. Das Lexikon besteht in der Regel aus komplexen Strukturen, um alle
relevanten syntaktischen Charakteristiken eines Wortes zu beschreiben, zum Beispiel, ob
es sich um Singular oder Plural handelt oder welcher Tempus benutzt wird. Die
Grammatik besteht aus Regeln für Satz- und Phrasenstrukturen und gibt an, wie die Wörter
miteinander kombiniert werden können und welcher Schluss sich aus der jeweiligen
Kombination ziehen lässt [TUR02].
4.2.4 Sprachsynthese / Sprachausgabe
Die Konstruktion der auszugebenden Wortkette besteht aus zwei Punkten:
• Welche Information soll ausgegeben werden?
• Wie soll die Information strukturiert sein?
Dazu kann man einfache vorgefertigte Muster verwenden oder komplexe Methoden, die
natürliche Sprachgenerierungstechniken verwenden, wie zum Beispiel Text-To-Speech-
Systeme. [VARY98] Sie erlauben es, fließende Sprache mit unbegrenztem Vokabular
lediglich aus einem Satz sprachlicher Regeln über die Produktion von Phonemen zu
synthetisieren.
Die Sprachausgabe besteht aus symbolischer Verarbeitung, der Prosodiengenerierung
(Sprachmelodie) und der Signalgenerierung. In der symbolischen Verarbeitung wird zu-
nächst die Wortkette in Einheiten zerlegt und anschließend normalisiert, das heißt umge-
wandelt in eine Form, die später gesprochen werden kann. In der morphologischen
Analyse wird dann jedes Wort in Stamm und Endung zerlegt. In der grammatikalischen
Analyse werden Daten für die Betonung und der Satzfokus ermittelt. In der phonetischen
Zerlegung wird der Übergang von der Rechtsschrift zur Lautschrift durchgeführt. Die
Prosodiegenerierung erzeugt die individuelle Intensität, Grundfrequenz und Segmentdauer
eines einzelnen Abschnitts und die Signalgenerierung beinhaltet lediglich einen
Synthetisator, welcher die eingehenden Daten in eine akustische Ausgabe verwandelt.
4.2.5 Sprechererkennung
Hiermit wird die Identifikation oder Verifikation eines bestimmten Sprechers vorge-
nommen. Bestehende Sprachmuster der betreffenden Person werden nach sprachlichen
Charakteristika beschrieben, abgespeichert und eingehende Sprachsignale hinsichtlich ihrer
Charakteristika damit verglichen [RABINER95].

Theorien / Konzepte
12
4.2.6 Menschliche Sprachwahrnehmung versus maschinelle
Spracherkennung
Zunächst stellt sich die Frage, welches die grundlegenden Wahrnehmungseinheiten
sind: Phoneme, Wörter oder sonstige Einheiten wie zum Beispiel Silben. Gegen Wörter als
kleinste relevante Einheiten spricht, dass Menschen auch unbekannte Wörter und Neo-
logismen korrekt erkennen können. Es ist ebenfalls unwahrscheinlich, dass die Sprach-
wahrnehmung ausschließlich auf Phonemen beruht, da keine 1 : 1 Übereinstimmung
zwischen akustischen Signalen und erkannten Phonemen besteht: je nach Kontext wird
dasselbe Sprachsignal unterschiedlich interpretiert. Außerdem werden auch solche Pho-
neme als spontan richtig erkannt, die zum Beispiel wegen eines Störgeräusches gar nicht
hörbar waren, die sich aber aus dem vorausgehenden Kontext ergeben. Dies deutet darauf
hin, dass bei der Sprachwahrnehmung nicht isolierte Phoneme aneinandergereiht werden,
sondern dass von Anfang an auch höhere Verarbeitungsstufen beteiligt sind (Wort-
erkennung, syntaktische Analyse, semantische Analyse), die parallel ablaufen und deren
Ergebnisse berücksichtigt werden können.
Bei der Sprachwahrnehmung sind also bottom-up und top-down-Prozesse kombiniert.
Für die maschinelle Spracherkennung ergibt sich somit: Bezüglich der Wahrnehmungs-
einheiten kommen diejenigen Systeme den menschlichen Prozessen am nächsten, die auf
mehreren Ebenen arbeiten und sich nicht zum Beispiel auf den Mustervergleich ganzer
Wörter oder die Erkennung anhand akustischer Signale von Phonemen beschränken
[GREENBERG98].
4.2.7 Problemfelder der Spracherkennung
Es gibt einige Besonderheiten gesprochener Sprache, die bei der Gestaltung der
benutzerzentrierten Sprachinteraktion beachtet werden müssen. Der alineare Ablauf (Stot-
tern, Selbstkorrektur), Bestätigungsanfragen („Sind Sie sicher“) oder Feedback („Jaja,
kann ich verstehen“), prosodische und nicht-verbale Modulation der Sprache und Beein-
flussung wechselseitiger Kommunikation durch Unterbrechungen sind einige davon. Wie
in Abbildung 3 verdeutlicht, kommt es dadurch zu einer Störungen im
Kommunikationsprozess und eventuellen Fehlinterpretationen der Aussagen des
Kommunikationspartners. Im Folgenden wird auf einige dieser Phänomene und mögliche
Lösungsansätze in der maschinellen Spracherkennung näher eingegangen.

Theorien / Konzepte
13
Abbildung 3 - Kommunikation / technnisches Modell
4.2.7.1 Linguistische Unterschiede
Identische Phoneme können unterschiedlich akustisch realisiert werden. Daher funk-
tionieren Spracherkennungssysteme dann am besten, wenn sie von jedem Benutzer selbst
trainiert werden. Ist dies nicht möglich oder nicht erwünscht (sprecherunabhängige
Spracherkennung), so sollte das System von möglichst vielen Sprechern trainiert werden.
Als Muster wird dann ein Mittelwert gespeichert. Manche Systeme passen sich zusätzlich
während der Bedienung an den jeweiligen Benutzer an.
4.2.7.2 Individuelle Sprecherfaktoren
Die Form des Vokaltraktes, Alter, Geschlecht, regionale Zuordnung beeinflussen die
akustisch-phonetischen Parameter ebenso wie Müdigkeit und mentale Verfassung. Auch
muss auf Satzbau und Betonung der einzelnen Worte geachtet werden [DESHMUKH02].
Für Einzelplatzsysteme kann ein sprecherspezifisches Training des Sprachmodells die
Sicherheit so weit erhöhen, dass praktisch keine Fehler mehr auftreten. Weitere positive
Faktoren sind hier die Konstanz der Umgebung und die hohe Qualität der Eingangssignale
in Abhängigkeit des verwendeten Mikrophons. Dedizierte Headsets verbessern die
Erkennung so stark, dass sie bei den ersten Breitenanwendungen der bestimmende Faktor
für die Sicherheit waren. Auch bei Systemen, die auf einzelne Sprecher trainiert sind,
müssen aber weitere Faktoren, wie emotionaler Zustand und Hintergrundgeräusche,
berücksichtigt werden. Insbesondere im öffentlichen Bereich sind jedoch weder
sprecherabhängige Sprachmodelle noch aufwändige Headsets realisierbar. Verschärfende
Faktoren sind die stark variierenden Modulationen und die typisch gravierenderen
Nebengeräusche [YOON]. Auf diese unterschiedlichen Übertragungskanäle bezieht sich
der nächste Abschnitt.
Verstehen
Übersetzung
Empfangen
Störung
Idee
Übersetzung
Senden
Sender Empfänger

Theorien / Konzepte
14
4.2.7.3 Unterschiedliche Übertragungskanäle
Diese Einflüsse wirken sich primär auf die erste Stufe der Spracherkennung, die
Identifikation einzelner Phoneme aus. Dabei wirken im wesentlichen drei Faktoren:
• Statische Hintergrundgeräusche (Rauschen, Umgebung) können Teile des Sprach-
signals überdecken
• Akustische Einzelereignisse, die nicht der Sprache zuzuordnen sind
• Begrenzung und Verfälschung der eingehenden Audiodaten durch den Über-
tragungskanal (Grenzfrequenzen insbesondere bei Mobiltelefonen, Artefakte bei
psychoakustischer Kompression)
Diesen Faktoren wird mit unterschiedlichen Verfahren begegnet. Zur Kompensation
statischer Störfaktoren werden Spracherkennungssysteme manchmal mit Störvermin-
derungssystemen kombiniert. [FELLBAUM91] J. Droppo et. al. [DROPPO02] haben ein
Verfahren entwickelt, das die Isolation der Nutzinformation deutlich verbessert.
Verfälschende Einzelereignisse beeinträchtigen meist nur die Erkennung einzelner
Phoneme. Die Heranziehung linguistischer Kontextinformationen in den in Kapitel 4.2.2
erläuterten hierarchischen HMM und dynamischen Bayesschen Netzen kann diese Fehler
deutlich minimieren.
Die dritte Störform ist stark applikationsabhängig und wird durch entsprechende
Kalibrierung der Aufnahmetechnik oder spezifische Modellierung des Übertragungskanals
ausgeglichen [BLOMBERG94].
4.2.7.4 Unflüssige Sprechweise:
Unflüssigkeiten wie Selbstkorrektur, Fehlstarts, spontane Wiederholungen und Füll-
silben beziehungsweise -wörter stellen eine große Hürde für sprachgesteuerte Systeme dar.
Es wird bisher noch nach zuverlässigen Möglichkeiten gesucht, sie anhand von
prosodischen, syntaktischen oder semantischen Mustern zu erkennen. Tabelle 1
verdeutlicht, wie oft solche Fehler im Mensch-Mensch-Dialog im Gegensatz zum Mensch-
Maschine-Dialog vorkommen.

Theorien / Konzepte
15
Mensch-Mensch-Dialog
2-Personen-Telefonat 8,83
3-Personen-Telefonat 6,25
2-Personen-Gespräch 5,50
Monolog 3,60
Mensch-Maschine-Dialog
Unbeschränkter Dialog 1,74-2,14
Strukturierter Dialog 0,78-1,70
Tabelle 1 - Fehlerhäufigkeiten pro 100 Wörter
4.2.7.5 Lange Sätze = Fehler?
Komplizierte und lange Satzkonstruktionen sind sehr fehleranfällig. Sätze mit ein bis
sechs Wörtern bergen 0,66 Fehler und Sätze mit sieben bis 18 Wörtern 2,81 Fehler. Man
könnte mit der Frage schon eine kurze Antwort implizieren und damit die Fehler um 30 bis
40 Prozent reduzieren. Forschung im Auftrag von Telefongesellschaften hat dies gezeigt.
Systeme können durch die Art und Weise, in der Anfragen an den Benutzer gestellt
werden, beeinflussen, in welcher Weise er antworten wird (offene, kurze Antworten
werden unterstützt). [OVIATT95]
4.2.7.6 Hyperartikulation
Hyperartikulation ist der Versuch des Benutzers, betont deutlich zu sprechen, um dem
System die Spracherkennung zu erleichtern [FISCHER99]. Sie tritt meistens auf, nachdem
das System signalisiert hat, dass es eine Eingabe nicht verstanden hat. Dadurch werden
weitere Fehler provoziert (Spiral Errors) und die Frustrationsgefahr steigt [KARAT99]. In
der Praxis führt das oft dazu, dass ein Benutzer die Arbeit abbricht.
Bekannte Kompensationsverfahren sind die Anpassung der Frequenzebene, die breite
Modellierung der Vokale in den Referenzdaten und die Nutzung spezieller Erkennungs-
modelle bei Hyperartikulation [OVIATT89], [SOLTAU98].
Versuche haben gezeigt, dass Hyperartikulation meist eine direkte Erhöhung der
Sprechfrequenz und Variation der Sprachmelodie zur Folge hat. Dies kann zum einen
durch entsprechende Anpassung der Eingangsfilter an Tonhöhe und Lautstärke ausge-
glichen werden. Zum anderen erleichtert es vor allem die Erkennung von Hyper-
artikulation, da sich die üblichen Frequenzmuster stark verändern.

Theorien / Konzepte
16
Die gleichen Versuche haben auch eine deutliche Veränderung im Zeitverhalten der
Sprecher ergeben. Im Durchschnitt stieg die Dauer einer Sprachprobe bei Hyperarti-
kulation um 20% an. Diese Erhöhung tritt jedoch nicht gleichmäßig auf, sondern wird
besonders bei stimmhaften Konsonanten und Zischlauten sichtbar.
Mittels Erkennung von Hyperartikulation, Modellierung der veränderten Sprachform
und Einbeziehung spezifischer Basisdaten kann der jeweils wahrscheinlichste Fall ermittelt
und verfolgt werden. Allein diese Maßnahmen erhöhen die Erkennungsrate um zwei bis
fünf Prozent [SOLTAU00].
4.2.8 Verbesserung der Spracherkennung durch Multimodalität
und eingegrenztes Vokabular
Die Anwendung der Spracherkennung bestimmt, welche Störfaktoren einzubeziehen
sind und mit welchen Methoden die Erkennungsrate erhöht werden kann. Sind die oben
erläuterten Verfahren nicht ausreichend, sind korrigierende Benutzereingriffe über andere
Eingabemodi erforderlich. Es ist nämlich sehr natürlich, nach einer fehlgeschlagenen
Eingabe das Medium zu wechseln und zwar dreimal mehr als sonst. Benutzer erfassen
recht schnell, welche Eingabemethode am einfachsten ist. Walker [WALKER89] und
Cohen [COHEN89] schlagen deshalb vor, die Anwendung natürlicher Sprache mit
grafischen Interfaces zu kombinieren. Gerade im Zusammenspiel mit anderen Ein- und
Ausgabekanälen kann durch zusätzliche kontextabhängige Eingrenzung des Vokabulars
die Spracherkennung deutlich verbessert werden. Dazu müssen verschiedene Formen der
Sprachgestaltung abgewogen werden. Grundsätzlich kann zwischen freien, natürlichen und
künstlichen, restriktiven Sprachen unterschieden werden. Letztere erfordern eine
Einlernphase beim Benutzer oder sehr klare und eindeutige Benutzerführung durch andere
Interfaceelemente [TENNANT83]. Trotzdem zeigen sich domänenspezifische künstliche
Sprachen als deutlich robuster und effizienter, wobei Variationen und Redundanz in
Vokabular und Syntax sogar die Nutzerakzeptanz erhöhen können. Es bleibt also offen, ob
der Nutzer die natürliche oder künstliche Sprachen präferiert. Es kommt anscheinend auf
die Qualität der Erkennung, den Kontext der Anwendung und die noch vorhandenen
Modalitäten an.

Theorien / Konzepte
17
4.3 Die Gestaltung der intelligenten Benutzungsschnittstelle
durch adaptive Dialogsysteme
Im letzten Abschnitt wurde Sprachinteraktion als wichtiger Teil eines multimodalen
Interfaces behandelt. Wie bereits erwähnt, dient Multimodalität dazu, die für das Ziel des
Nutzers passende Interaktionsform zu wählen. Im Gegensatz zu einer funktionsbasierten
Interaktion, bei der das Vokabular durch das System definiert wird, führt eine zielbasierte
Interaktion in natürlicher Weise zu einer konversationalen Schnittstelle, da es für das
System in bestimmten Fällen notwendig werden kann, für die präzise Bestimmung des
Ziels fehlende Informationen beim Nutzer nachzufragen. Um konversationale Interaktion
zu unterstützen, bedient sich das System auch non-verbaler Interaktionstechniken (z. B.
Gestik, Mimik), die zum Beispiel durch anthropomorphe Interfaceagenten, auf die im
Kapitel 4.4 näher eingegangen wird, realisiert werden können. In diesem Kapitel geht es
zunächst um die Konzepte, die der adaptiven Dialoggestaltung zwischen Mensch und
Maschine zugrunde liegen.
4.3.1 Die vier Seiten einer Nachricht
Menschen nehmen nicht nur das gesprochene Wort, sondern viele Ebenen eines
Dialoges wahr. Dazu gehören beispielsweise der Tonfall, die Schnelligkeit des Sprechens,
Pausen, Lachen, Seufzen und nonverbale Kommunikation wie Körperhaltung oder Aus-
drucksbewegungen. „Man kann nicht nicht kommunizieren“, wie schon Paul Watzlawik
treffend bemerkte. Schulz von Thun [SCHULZ00] formulierte die in Abbildung 4
dargestellten vier Seiten einer Nachricht: Sachinhalt („Worüber möchte ich informieren“),
Selbstoffenbarung („Was ich von mir selbst kundgebe“), Beziehungsaspekt („Was ich von
dir halte und wie wir zueinander stehen.“).
Abbildung 4 - Kommunikation nach Schulz von Thun
,'+"'.( ,%/0.;/08( -?-:.+$'.(
,%/0;+0%$8(
6'4;'0"+$(
!--'$$(
,'$&#8*::'+/
&%0."+$(

Theorien / Konzepte
18
Die Forschung in der künstlichen Intelligenz hat sich lange Zeit nur mit dem Erkennen
des Sachinhaltes befasst. Erst neuere Projekte - wie zum Beispiel adaptive Dialogsysteme
und intelligente Benutzeroberflächen - richten ihr Augenmerk auch auf die anderen Ebenen
der Kommunikation.
4.3.2 Benutzermodellierung
Es gibt zwei Arten von Modellen, die bei der Mensch-Computer-Kommunikation eine
Rolle spielen:
Mentales Modell/ Benutzermodell: Dieses Modell bildet der Benutzer bewußt oder
unbewußt über den Aufgabenbereich und das Computersystem.
Systemmodell/ Anwendungsmodell: Das ist ein Modell über den Anwendungsbereich
seitens eines Computersystems.
Die Voraussetzung mentaler Modelle ist das gemeinsame Wissen beider Kom-
munikationspartner. Die Aufgabe des Interfaces ist es, das mentale Modell des Benutzers
wiederzugeben und sich auf den Benutzer einzustellen.
Die Entwicklung von intelligenten Benutzungsschnittstellen erfordert also eine explizite
Modellierung des Benutzers (user modelling). Das bedeutet, das System sollte die Fähig-
keiten (abilities), die Ziele (goals), das Wissen (knowledge beziehungsweise beliefs) sowie
den emotionalen Zustand des Benutzers erkennen und in geeigneter Weise modellieren.
[RICH89] Üblicherweise spricht man beim Wissen eher von „beliefs“ als von „know-
ledge“, da der Begriff impliziert, dass die Ansichten des Benutzer auch durchaus falsch
sein können.
Das Erkennen des emotionalen Zustandes ist wichtig, um beispielsweise zu erkennen,
wann der Benutzer gelangweilt, über- oder unterfordert oder schlicht gestresst ist. Das Ziel
einer intelligenten Benutzeroberfläche soll es sein, sich den aktuellen Bedürfnissen des
Nutzers optimal anzupassen, also zum Beispiel im richtigen Moment Hilfestellungen
anzubieten. Ebenso sollte es je nach Vorwissen des Benutzers knappe oder ausführliche
Anweisungen geben und somit der Mensch-Mensch-Kommunikation näher kommen.
4.3.3 Überblick zu bestehenden Belief-Desire-Intention-
Verfahren für die Benutzermodellierung
Bestehende BDI-Verfahren (Belief, Desire, Intention) modellieren den Nutzer auf den
bereits oben genannten Ebenen. Die erste Ebene „Belief“ repräsentiert das vermutliche

Theorien / Konzepte
19
Wissen des Anwenders bezüglich der Problemdomäne. Üblicherweise teilt der Nutzer sein
Wissen nicht direkt mit, es muss indirekt aus der Interaktion geschlossen werden.
[KOBSA90]. Basierend auf sinnvollen Vorgaben für verschiedene Stereotypen, auf die im
Kapitel 4.3.5 näher eingegangen wird, kann dieses Bild im Laufe der Interaktion weiter
verfeinert werden.
Die konzeptionelle Trennung der beiden Elemente „Desire“ und „Intention“ trägt der
Tatsache Rechnung, dass der Nutzer zwar genaue Vorstellungen über das gewünschte
Vorgehen haben kann, diese aber nicht zwingend für sein tatsächliches Ziel sinnvoll sind.
Im günstigsten Fall erweitert die Interaktion die Wissensbasis des Nutzers und unterstützt
ihn bei der Annäherung seiner kurzfristigen Absichten an seine realen Ziele. Horvitz und
Paek [HORVITZ01] gehen speziell auf die gezielte Beeinflussung des Nutzers ein und
analysieren die akustische Charakteristik aufgenommener Sprache in Hinblick auf
Zustimmung, Ablehnung und Reflektion.
Für die Pflege des Nutzermodells gibt es verschiedene Techniken, die auch kombiniert
werden können. Das gebräuchlichste Verfahren ist das ständige Abgleichen des internen
Modells auf Grund der direkten Handlungen und Eingaben. Dies hat den Vorteil, dass
Fehlschlüsse des Systems nur begrenzte Auswirkungen haben, es kann abstraktere Ziele
aber nur schwer abbilden.
Ein anderes Verfahren, das Allen et al. verfolgten [ALLEN80], schließt hingegen
unwahrscheinliche Modellierungen aus und verbessert so die Interpretation der Nutzer-
absichten. Rich leitet ein abstraktes Persönlichkeitsprofil aus den Aktionen des Nutzers ab.
Dies bietet zwar ein stabileres Modell, hat aber gleichzeitig auch den Nachteil, kaum
dynamisch auf offensichtliche Fehlbeurteilungen reagieren zu können. [RICH89]
4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der
Dialoggestaltung
Wie oben erwähnt,müssen nicht nur die Ebenen „Belief“, „Desire“ und „Intention“
sondern auch die je nach Situation vorhanden Ressourcen des Dialogpartners bei der
Gestaltung der Schnittstelle berücksichtigt werden. Wie kann eine Überlastung des
Dialogpartners zustande kommen? Die Kapazität des menschlichen Arbeitsgedächtnisses
ist begrenzt.

Theorien / Konzepte
20
Extern gewonnene Informationen werden in „drei Stufen“ verarbeitet [ATKINSON68]:
• Aufnahme in das Arbeitsgedächtnis („Kurzzeitgedächtnis“)
• Abgleich mit langfristig gespeicherten Strukturen
• Integration in die langfristig gespeicherten Strukturen
Das Arbeitsgedächtnis ist der aktive Teil des menschlichen Gedächtnisses
[EYSENCK94] und limitiert auf durchschnittlich 7 ± 2 voneinander unabhängige seman-
tische Einheiten (chunks). Diese magische Zahl hat sich bis heute gehalten, wird aber
differenziert betrachtet. [SHIFFRIN94]
Diese Limitierung muss bei der Dialoggestaltung beachtet werden, um eine
Informationsüberflutung zu vermeiden. Belastung oder Nebenbeschäftigungen können
diese Kapazität noch weiter einschränken. Mit anderen Worten: ein Benutzer, der eine
komplizierte Aufgabe lösen muss oder ein Dialogpartner, der sich einer schwierigen
Situation gegenüber sieht, ist weniger aufnahmefähig als üblich. Das System muss diesen
Umstand erkennen und sich dem anpassen, zum Beispiel, indem es langsamer
kommuniziert, einfachere Satzkonstruktionen benutzt, knappere Anweisungen gibt, mehr
Pausen macht oder Ähnliches.
Es können viele Aspekte des Sprechens auf die Arbeitsgedächtnisbelastung des
Dialogpartners hindeuten. In einer explorativen Studie von Schäfer und Weyrath 1996
[SCHÄFER96] wurde als Domäne eine Feuerwehrnotrufzentrale (FNZ) gewählt. Elf
Mitarbeiter der FNZ, die regelmäßig Notrufe entgegennehmen, dienten dabei als
Versuchspersonen, da sie besonders viel Erfahrung im Umgang mit solchen Ressourcen-
beschränkungen haben. Notrufe werden nämlich meist in großer Eile geführt. Die
wenigsten Anrufer bereiten sich auf das Gespräch vor. Daher ist mit einem hohen Grad an
Spontansprache zu rechnen. Da die Anrufer zusätzlich durch die Vorfälle, die um sie
herum passieren, abgelenkt sind, können selbst einfache Fragen hohe Anforderungen an
das Arbeitsgedächtnis des Anrufers stellen. Aufregung, Ablenkung, Geschwindigkeit und
Qualität der Antwort zeigten sich hier als Ursachen und Folgen von Arbeitsge-
dächtnisbelastung.
Ein wichtiger Aspekt der ressourcenadaptiven Dialogführung zwischen Mensch und
System ist also die richtige Auswahl von Äußerungen und damit verbunden die richtige
Einschätzung der Anforderungen, die die Äußerung an das Arbeitsgedächtnis des
Dialogpartners stellt. Aber oft ist es nicht möglich, sich ein vollständiges Bild über die

Theorien / Konzepte
21
Situation zu machen, in der sich der Dialogpartner befindet. Neue Informationen, die von
der getroffenen Einschätzung abweichen, führen zu einer Veränderung des Bildes über die
Arbeitsgedächtnisbelastung des Dialogpartners. Die Einschätzungen und Schluss-
folgerungen, die das Dialogsystem dazu ziehen muss, sind also unsicher und
zeitveränderlich. Eine Technik der Benutzermodellierung sollte also idealer Weise mit
unsicherem und zeitveränderlichem Wissen umgehen und auf dieser Basis Schluss-
folgerungen ziehen können. Wie wird das nun realisiert? Welche Prinzipien aus der
Mensch-zu-Mensch-Kommunikation machen sie sich zunutze? Im Folgenden werden die
Ansätze der Stereotypen und der Bayesschen Netze vorgestellt.
4.3.5 Stereotypen
Menschen neigen dazu, Gesprächspartner auf Grund weniger Wahrnehmungen und
Informationen zu kategorisieren. Stereotypen dienen hier als soziale Schemata. Eine ähn-
liche Technik kann man sich auch für künstlich intelligente Dialogsysteme zu Nutze
machen. [RICH89]
Es geht dabei um die leichtere Identifikation von häufig vorkommenden Eigenschaften
und die Übernahme gewohnheitsmäßiger Handlungen der Nutzer. Ein Stereotyp ist eine
Sammlung von Eigenschaften, die unter einem gemeinsamen Namen zusammengefasst
sind.
Stereotypen lassen sich hierarchisch in einer Baumstruktur ordnen. Die Wurzel des
Baumes der allgemeinste Stereotyp, über den relativ wenig bekannt ist. Jeder Knoten des
Baumes kann eine beliebige Anzahl von Kindknoten haben. Die Kindknoten erben die
Eigenschaften des Elternknotens, können sie jedoch erweitern und verfeinern. Die
Kindknoten bilden dadurch Unterklassen der übergeordneten Stereotypen.
Beispielsweise könnte man den allgemeinsten Stereotypen „Mensch“ in die Kindknoten
„männlich“ und „weiblich“ unterteilen. Den Männern schreiben wir die Eigenschaften
„guckt gern Fußball“ und „trinkt gern Bier“ zu. Frauen hingegen „gehen gern ins Ballet“
und „trinken gern Wein“.
Auf Grund seiner Wahrnehmungen über den Dialogpartner kann das System denjenigen
Stereotypen ermitteln, auf den diese Wahrnehmungen am besten zutreffen. Alle Eigen-
schaften dieses Stereotypen werden dem Partner zugeschrieben. Wenn das System
beispielsweise erfährt, dass der Dialogpartner gern Fußball sieht, kann es die Schluss-

Theorien / Konzepte
22
folgerung ziehen, dass es sich um einen Mann handelt und er dann wohl auch gern Bier
trinkt.
Selbstverständlich muss das System mit jeder neu gewonnenen Information seine
bisherige Kategorisierung des Partners neu bewerten und gegebenenfalls einen anderen
Stereotypen als Modell wählen, so wie wir bei unseren Gesprächspartnern immer neue
Informationen sammeln und gegebenenfalls unsere Meinung revidieren.
Dabei können auch Konflikte auftreten - beispielsweise könnte man an eine Person
geraten, die gern Fußball schaut und gern Wein trinkt beziehungsweise nicht gern Bier
trinkt.
Solche Konflikte müssen vom System aufgelöst werden. Üblicherweise wird zu jeder
dem Nutzer zugeschriebenen Eigenschaft ein Confidence-Wert ermittelt und gespeichert,
der angibt, wie sicher sich das System ist, dass diese Eigenschaft tatsächlich zutrifft. Auf
diese Weise lassen sich mit relativ wenigen Informationen brauchbare Schlussfolgerungen
über das Gegenüber ziehen. Genau diese Eigenschaft ist der größte Vorteil dieses An-
satzes. Ein Nachteil ist, dass die Kategorisierung unter Umständen von außen schlecht
nachvollziehbar ist.
Ein bekanntes Beispiel ist das stereotypbasierte Bibliotheksauskunftssystem Grundy
von [RICH79, RICH89]. Grundy ist ein Dialogsystem, das ein Beratungsgespräch in einer
Bibliothek simuliert. Grundy übernimmt dabei die Rolle eines Bibliothekars, der dem Be-
nutzer bei der Auswahl seiner Lektüre behilflich ist. Um zu entscheiden, welche Bücher
der Benutzer gerne liest, verwendet Grundy stereotypisches Wissen über den Benutzer, das
im Laufe eines Dialogs zu einem individuellen Benutzermodell verfeinert wird.
Der dargestellte Stereotypenansatz könnte auch gut in der sprachcomputerbasierten
Anrufbeantwortung und -weiterleitung etwa bei der Pannenhilfe genutzt werden. Wenn
zum Beispiel jemand laut atmet oder stöhnt (Bedingung a) und schnell oder abgehackt
spricht (Bedingung b) ist zu schlussfolgern, dass eine schnelle Handlung beziehungsweise
Weiterleitung des Anrufes an die entsprechende Stelle UND die Beruhigung des Anrufers
erforderlich ist. Der Sprachcomputer könnte die Eckdaten erfragen (wie bei anderen
Anliegen auch) UND etwas Beruhigendes antworten („Es wird so schnell wie möglich
jemand bei Ihnen sein. Bitte bleiben Sie ruhig!“), damit sich der Anrufer verstanden und
betreut fühlt. Natürlich sind hierbei wie oben bereits erwähnt Fehlinterpretationen möglich.

Theorien / Konzepte
23
Deshalb wäre es zum Beispiel ethisch bedenklich, einen Sprachcomputer in der Feuer-
wehrnotrufzentrale einzusetzen.
4.3.6 Bayessche Netze
Eine weitere Technik der Benutzernodellierung, die schon im den Kapiteln 4.2 und 4.3
kurz vorgestellt wurde, sind die Bayesschen Netze. Sie beruhen auf dem Satz von Bayes,
der Aussagen über die Wahrscheinlichkeiten voneinander abhängiger Ereignisse trifft.
Bayessche Netze sind gerichtete, azyklische Graphen. Jeder Knoten des Graphen entspricht
einem Ereignis. Eine Kante von A nach B bedeutet, dass Ereignis B (zum Beispiel Alarm)
von Ereignis A (zum Beispiel Einbruch) abhängig ist. Für Ereignisse, die keine
Vorgängerknoten im Netz, das heißt, keine eingehenden Kanten, haben, sind sogenannte a
- priori - Wahrscheinlichkeiten gegeben. Das Ereignis tritt mit einer bestimmten Wahr-
scheinlichkeit ein und ist von allen anderen Ereignissen unabhängig. Für abhängige Ereig-
nisse (solche mit Vorgängerknoten) ist eine Wahrscheinlichkeitsmatrix gegeben, die die
Wahrscheinlichkeit des Eintretens in Abhängigkeit vom Eintreten der Vorgängerereignisse
beschreibt. [CHARNIAK91] In Abbildung 5 sieht man die einzelnen Wahrscheinlichkeiten
für das Auftreten der beiden Ereignisse „Einbruch“ und „Alarm“ in wechselseitiger
Abhängigkeit.
Abbildung 5 - Bayessche Netze / Wahrscheinlichkeiten
Inwiefern ist das nun für die Benutzermodellierung relevant ? Durch die Vorhersage der
Wahrscheinlichkeiten können Annahmen über Benutzereigenschaften formuliert werden,
die für die Interaktion mit dem Anwender nützlich sind. Nach erfolgter Evidenz durch
• Azyklischer, gerichteter Graph
• P(Einbruch|Alarm) = 0,00095
Einbruch Pa priori = 0,001 Alarm
Einbruch Kein
0,010,95Alarm
0,990,05Kein Alarm

Theorien / Konzepte
24
beobachtete Symptome werden die Einschätzungen der Knoten entsprechend der
vorliegenden Situation angepasst. Ein Beispiel dafür ist Dialogsystem PRACMA.
[JAMESON95] Es modelliert bewertungsorientierte Dialoge am Beispiel von
Verkaufsgesprächen. Die Domäne ist der Gebrauchtautomarkt. Dabei wird von einer nicht
ausschließlich kooperativen Dialogsituation ausgegangen: Der Käufer möchte dem
Verkäufer möglichst detaillierte Informationen entlocken und das Auto zu einem möglichst
geringen Preis erwerben. Der Verkäufer möchte negative Fakten über das Auto
verschweigen und das Auto dem Kaufinteressenten möglichst positiv darbieten. PRACMA
kann jeweils eine der Dialogrollen (Käufer/Verkäufer) übernehmen.
In der bisher betrachteten Form sind Bayessche Netze nur für die Modellierung nicht-
zeitabhängigen Wissens geeignet. Eine Erweiterung dieses Konzeptes, die so genannten
dynamischen Bayesschen Netze, erlaubt genau das. [DAGUM92, GHARAMANI98]
Dynamische Bayessche Netze teilen den zu modellierenden Zeitraum in Zeitscheiben
von endlicher Dauer ein, diskretisieren also den kontinuierlichen Zeitverlauf. Es wird nun
zwischen drei Arten von Knoten unterschieden: statische Knoten sind zeitunabhängig und
existieren außerhalb der Zeitscheiben. Somit sind die bisher betrachteten Netze ein Spe-
zialfall der dynamischen Bayesschen Netze, wobei alle Knoten statisch sind. Temporäre
Knoten existieren nur in einer einzigen Zeitscheibe, typischerweise sind das Knoten von
Beobachtungen. Die zu modellierende zeitveränderliche Eigenschaft wird durch dyna-
mische Knoten dargestellt. Das sind Knoten, die in jeder Zeitscheibe existieren und über
die Zeitscheiben hinweg miteinander verknüpft sind. Die Wahrscheinlichkeit der Eigen-
schaft in einer Zeitscheibe ist dadurch immer abhängig von ihrer Wahrscheinlichkeit in der
letzten Zeitscheibe.
Bayessche Netze sind also in der Lage, unsicheres und zeitabhängiges Wissen
darzustellen und daraus Schlüsse zu ziehen. Sie sind durch Computer verhältnismäßig
leicht und effizient berechenbar. Der größte Nachteil ist, dass das Netz als solches – in-
klusive der Wahrscheinlichkeitsmatrizen - von einem Menschen modelliert werden muss.
Die Qualität dieser Modellierung ist wesentlich für die Qualität der Vorhersagen.
Wofür werden nun die Bayesschen Netze in der Mensch-Computer-Kommunikation
noch angewendet ? Wie wir weiter oben gesehen haben, sind sie einerseits wichtig für die
Modellierung der Sprachinteraktion. Des Weiteren funktionieren viele Agenten, auf die im
nächsten Kapitel näher eingegangen wird, auf der Basis von Bayesschen Netzen.

Theorien / Konzepte
25
Das multimodale Präsentationssystem PPP benutzt Bayessche Netze in seiner
Benutzermodellierungskomponente PEDRO um die Verständlichkeit der Präsentation
technischer Anleitungen vorherzusagen. [MULKEN96], Auf diesen Versuch wird später
eingegangen.
Ein weiteres Beispiel ist das Lumiere-Projekt [HORVITZ98]. In diesem Projekt wird
ein Assistent entwickelt, der den Benutzer bei der Benutzung seiner Software unterstützt.
Der Prototyp dieses Assistenten dient als Basis für den Office Assistent im Microsoft
Office Paket.
Abbildung 6 - Agent im Microsoft Office : Karl Klammer
Der MS-Office-Assistent versucht, aus dem Verhalten des Benutzers dessen Absichten
zu schlussfolgern und bei Bedarf Hilfe anzubieten. Beim Benutzer wird dadurch der
Eindruck erweckt, dass der Agent „mitdenkt“. Der Prototyp verwendete dazu die beschrie-
benen Bayesschen Netze. Für die Verkaufsversion wurden die Bayesschen Netze durch
einen zwar einfacheren, aber ähnlichen Algorithmus ersetzt. [ECONO01]
Im Folgenden wird näher auf den Agentenbegriff eingegangen und verschiedene
Studien zur Gestaltung von solchen Agenten als Teil einer intelligenten Benutzungs-
schnittstelle vorgestellt.

Theorien / Konzepte
26
4.4 Interfaceagenten als multimodale Benutzungsschnittstelle
Der Begriff des „Agenten“ ist facettenreich. Speziell ein Software- oder Interfaceagent
bezeichnet in der Regel ein Programm, dessen Funktion als das eigenständige Erledigen
von Aufträgen oder Verfolgen von Zielen in Interaktion mit einer Umwelt beschrieben
werden kann. Interface-Agenten fungieren als Bindeglied in der Mensch-Computer-Inter-
aktion. Dazu müssen Agenten Fähigkeiten der Wahrnehmung, des Handelns und der
Kommunikation miteinander verbinden und, bezogen auf eine zu erfüllende Aufgabe,
situationsangemessen ein- und umsetzen können. Technisches System und Interface-
Agenten verbinden sich dabei zu einem teilautonomen System (siehe Abbildung 7),
welches Anteile seiner Funktion unabhängig von direkter Steuerung durch Benutzer
erbringen kann („indirektes Management“).
Abbildung 7 - Agenten als Bindeglied in der Mensch-Maschine-Kommunikation (Wachsmuth)
Wie sollten solche Agenten beschaffen sein, damit der Benutzer sie akzeptiert und
entsprechend mit ihnen interagiert?
4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum
Anthropomorphismus in der Mensch-Computer-
Interaktion
Bereits im Jahre 1950 schlug Alan M. Turing [TURING50] seinen viel diskutierten Test
vor. Es ist dabei die Aufgabe der Versuchsperson, die sich in einem seperaten Raum
aufhält, anhand eines textbasierten Frage-Antwort-Spiels festzustellen, bei welchem ihrer
Gesprächspartner es sich um eine Frau handelt. Die Aufgabe der männlichen Versuchs-
person ist es, die Versuchsperson zu täuschen, indem sie vorgibt, eine Frau zu sein. In
einer zweiten Phase wird die weibliche Gesprächspartnerin gegen eine Maschine
ausgetauscht und das Spiel wiederholt. Wenn sich der Fragesteller nun ebenso oft falsch
Interface-
agenten
Technisches
System
Mensch
Teilautonomes System

Theorien / Konzepte
27
entscheidet, wie in der ersten Phase des Tests, kann der Maschine Intelligenz zugesprochen
werden. Im Jahre 1966 entwarf Josef Weizenbaum [WEIZENBAUM66] ein Computer-
programm, das eine therapeutische „Unterhaltung“ lediglich durch Wiederholung von
Schlüsselwörtern führen konnte. Die Personen, die sich mit Eliza unterhielten, stellten eine
emotionale Beziehung zum Computer her und wiesen ihm menschliche Eigenschaften zu.
Weizenbaum formulierte daraus, dass das Vorhandensein von menschlichen Eigenschaften
bei Schnittstellen einen nicht unwesentlichen Einfluss auf das Verhalten des Benutzers hat.
Es geht also darum, die Schnittstelle so anthropomorph wie möglich zu gestalten. Unter
Anthropomorphismus versteht man die Übertragung von menschlichen Eigenschaften auf
Nichtmenschliches. [BROCKHAUS] Im Folgenden werden einige Studien zum
Anthropomorphismus von Mensch-Computer-Schnittstellen in Form von Agenten
vorgestellt.
4.4.2 Agenten als Avatare
Agenten können Avatare sein. In der Mythologie sind Avatare wiedergeborene Wesen,
die auf die Erde herabsteigen, um die bedrohte Weltordnung zu schützen. Als Avatare
bezeichnet man heute virtuelle Figuren, die meist einem Menschen (anthropomorph) oder
einfach einem bestimmten Körper (embodied) nachgebildet sind und sich dabei so
„natürlich“ wie möglich bewegen. Der Begriff ist nicht ganz klar definiert. Avatare können
nämlich auch virtuelle Repräsentanten von real existierenden Personen im 3D- Raum,
meist in einer verteilten Umgebung, sogenannten Communities, sein. Dabei können sie
entweder „eigenständig“ agieren und untereinander in Interaktion treten oder aber vom
Benutzer gesteuert werden [HOFBAUER00, FOLDOC]. Im Weiteren wird die
Verwendung des Begriffes „Avatar“ auf einen anthropomorphen Agenten bezogen.
4.4.3 Erwartungen an Agenten
Das Erscheinungsbild solcher Agenten reicht von einfachen cartoonartigen 2D-Figuren
bis hin zu animierten Agenten, die auf komplexen 3D-Modellen basieren und im Ansatz
kaum noch von Aufnahmen realer Personen (oder anderen realen Lebewesen) zu unter-
scheiden sind. In der Anwendung dienen solche Agenten zum Beispiel als Führer durch
virtuelle Welten oder sie demonstrieren Handlungsabläufe einer Gerätereparatur. Im
Bereich Lernsoftware übernehmen sie die Rolle virtueller Tutoren, erklären Sachverhalte,
erteilen auf Nachfragen Auskunft oder stellen selbst Fragen an den Schüler.

Theorien / Konzepte
28
Die Realisierung animierter Figuren ist nicht nur eine Herausforderung aus Sicht der
Computergrafik und -animation, sondern auch im Hinblick auf die glaubwürdige Ver-
haltensausstattung. Hier werden unter anderem folgende Anforderungen diskutiert: Model-
lierung von Persönlichkeit, Integration von Emotionsmodellen, Koordinierung unterschied-
licher Ausdrucksmittel wie Gesichtsausdrücke, Körpergesten und gesprochene Sprache.
Die Erwartungen an Agenten sind hoch. Durch höheren Unterhaltungswert, verbesserte
Aufmerksamkeit, intelligentes Feedback etc. sollen sie Lernerfolge maximieren. Die
Interaktion zwischen Nutzer und Computer soll mit ihrer Hilfe vereinfacht, verbessert und
intuitiver gestaltet werden. Computerspielen sollen sie zu besserem Unterhaltungswert
verhelfen. Mit den Agenten sollen neue zusätzliche und bessere Möglichkeiten zur
gezielten Beeinflussung des Nutzerverhaltens zur Verfügung stehen. Aber halten
Embodied Conversational Agents bisher was wir uns von ihnen versprechen?
4.4.4 Agentenrepräsentation
King und Ohya [KING96] verglichen Agentenrepräsentationen. Die Autoren fragten
sich, wie die Repräsentation von Agenten die von Nutzern wahrgenommenen Eigen-
schaften beeinflussen. Die 18 Probanden bewerteten die dreidimensionale menschen-
ähnlichste Form signifikant häufiger als „Agenten“ als andere anthropomorphe und nicht-
anthropomorphe Formen. Die Versuchspersonen schätzten die Gruppe der anthropo-
morphen Formen als intelligenter und „agentenhafter“ ein als den Rest der Stimuli. Am
intelligentesten und „agentenhaftesten“ schätzten sie die menschlichen Formen mit
zufälligem Lidschlag ein.
Takeuchi und Naito [TAKEUCHI95]) ließen in ihrer Untersuchung zwei menschliche
Gegner ein Memory-ähnliches Kartenspiel am Computer spielen. Auf dem Display war
einmal ein Gesicht, ein anderes Mal ein dreidimensionaler Pfeil zu sehen. Das Display mit
dem Gesicht erzeugte mehr Augenkontakt als das Display mit dem Pfeil, fanden die
Autoren. Dies lässt darauf schließen, dass das Gesicht mehr Aufmerksamkeit der Pro-
banden auf sich zog. Andererseits lenkte es auch eher von der Hauptaufgabe ab. Die
Probanden empfanden das Display mit dem animierten Gesicht als unterhaltsamer als das
Display mit Pfeil. Andererseits empfanden die Versuchspersonen das Display mit dem
Pfeil als nützlicher, verglichen mit dem Display, auf dem das Gesicht abgebildet war.
Koda und Maes [KODA96] wollten herausfinden, ob es eher vorteilhaft ist, einen
Agenten mit einem Gesicht zu repräsentieren. Sie nutzten ein Poker-Spiel als Test-

Theorien / Konzepte
29
umgebung für ihre Studie. Die zehn Probanden spielten 18 Runden Poker gegen vier
Agenten. Die Probanden versuchten, die Gesichter und Gesichtsausdrücke zu deuten, was
sie von ihrer Aufgabe abhielt. Gesichter wurden als sympathisch - im Gegensatz zu
unsichtbaren Gegnern - und einnehmend im Pokerspiel angesehen. Je realistischer das
menschliche Gesicht, desto eher wurde es als intelligent, sympathisch und komfortabel
angesehen. Koda und Maes empfehlen deshalb, Agenten mit Gesichtern im Entertain-
mentbereich einzusetzen. Auch für Aufgaben, bei denen der Nutzer Engagement zeigen
muss (zum Beispiel bei Bildung und Training), sei ein solcher Agent von Vorteil.
4.4.5 Lerneffekt / Funktionalität
Van Mulken, André und Müller [MULKEN98] führten ein Experiment mit ihrem PPP
(„Personalized, Plan-based Presenter“) genannten System an 28 Versuchspersonen durch.
Bei der Darstellung eines technischen Systems (Flaschenzüge) fanden die Probanden die
Erklärungen leichter verständlich, wenn sie von dem animierten Agenten mit Zeigestock
anstatt nur mit Hilfe eines Zeigestocks gegeben wurden. Auch wurde der animierte Agent
als hilfreicher und unterhaltender angesehen als der Zeigestock. 50% der Probanden
würden eine Präsentation mit einem animierten Agenten bevorzugen, 43% würden dies
von dem zu präsentierenden Material abhängig machen und 7% wünschten sich Prä-
sentationen ohne animierten Agenten.
4.4.6 Interaktion mit Nutzer
Cassell und Vilhjálmsson [CASSELL99] beschäftigten sich damit, wie man das
kommunikative Verhalten von Avataren in grafischen Chats verbessern kann. Ist der
Nutzer damit beschäftigt, Nachrichten einzutippen, ständen die Avatare nur bewegungslos
herum. Dies liefe der natürlichen Kommunikation zuwider, denn hier ist ein beachtlicher
Teil non-verbale Kommunikation im Spiel. Zwar könnten die Nutzer in den neuesten Sys-
temen verschiedene Animationen oder emotionale Zustände aus einem Menü wählen, aber
non-verbale Kommunikation sei oft spontan und der Nutzer zu beschäftigt, um das Ver-
halten seines Avatars zu kontrollieren. Wäre es nicht wünschenswert, wenn Avatare au-
tonom kommunikatives Verhalten zeigen würden, fragten sich Cassell und Vilhjálmsson.
Hier stellt sich die Frage, was der Nutzer bevorzugt: direkte Manipulation oder Autonomie
des Agenten. Sie fragten die 24 Probanden, wie natürlich sie das Verhalten des Avatars
und die Interaktion fanden und stellten fest, dass die Nutzer des autonomen Systems dieses

Theorien / Konzepte
30
als natürlicher beurteilten als die anderen Systeme. Dies konnte man auch in der Inter-
aktion beobachten (höhere Aufmerksamkeit, längere Gespräche).
Die Autoren sehen sich in ihrer Schlussfolgerung unterstützt, dass die Nutzer Kontrolle
und Spaß primär dem Gespräch selbst entnehmen und sich durch die Kontrolle des Ver-
haltens ihres Avatars abgelenkt fühlen.
Dietz & Lang [DIETZ99] beschlossen, ihren Agenten mit selbst-generierten Emotionen
auszustatten. Mit dem Experiment versuchten sie herauszufinden, welchen Einfluss dies
auf die Benutzer hat. Die ca. 80 Probanden berichteten von mehr Gefühlen in der emo-
tionalen Bedingung. Andere signifikante Ergebnisse konnten nicht erzielt werden. Die
Tendenzen stimmen vorsichtig optimistisch.
Cassell und Thórisson [CASSELL98] präsentieren in ihrer Arbeit einen perso-
nifizierten, animierten Agenten mit der Fähigkeit, multimodale Konversation mit einem
Nutzer in Echtzeit durchzuführen. Mit diesem Agenten untersuchten sie zwei menschliche
Eigenschaften, die als besonders nützlich für konversationale Systeme herausgestellt
werden: emotional feedback und envelope feedback. Emotional feedback bezeichnet die
Technik, eine bestimmte Emotion durch einen bestimmten Gesichtsausdruck darzustellen.
Envelope feedback meint non-verbales Verhalten während eines Gesprächs von An-
gesichts zu Angesicht, die der animierte Agent als Antwort auf die kommunikativen
Aktionen des Nutzers generiert. Insgesamt unterstützen die Ergebnisse die Signifikanz von
envelope feedback über emotional feedback und rein inhaltliche Rückmeldungen. Manch-
mal redete der Nutzer zeitgleich mit dem Agenten. Das Ins-Wort-Fallen ist typisch für
Mensch-zu-Mensch Kommunikation. Der Agent hatte aber Probleme mit dem Ins-Wort-
Fallen, was wiederum der Grund für Zögern des Nutzers sein könnte.
4.4.7 Attribution von Persönlichkeitsmerkmalen
Sproull et al. [SPROULL96] haben die Verhaltensunterschiede des Nutzers bezüglich.
eines textuellen Interfaces versus eines Interfaces mit einem realistischen Gesicht und
verbaler Sprachausgabe in einer Studie mit 130 Versuchspersonen untersucht. Als
Anwendungsgebiet wurde die Karriereberatung gewählt. Hierzu wurde eine Modifikation
von J. Weizenbaums „Eliza“ herangezogen. Die Probanden attribuierten Persönlichkeits-
merkmale des Gesichtsinterfaces, die mit dem Aussehen verknüpft werden (soziale
Bewertung, Geselligkeit, intellektuelle Bewertung), anders als die des Textinterfaces. Der
Unterschied bei Persönlichkeitsmerkmalen, die nicht mit dem Aussehen verknüpft werden

Theorien / Konzepte
31
(Potenz, Aktivität, Emotionalität), fiel geringer aus. Bei den Gesichtsinterfaces beschrieben
sich die Probanden weniger entspannt und weniger selbstsicher. Probanden, die mit den
Gesichtsinterfaces arbeiteten, brauchten mehr Zeit zum Beantworten der Fragen der
psychologischen Tests, als die Probanden mit den Textinterfaces. Die Probanden, die das
Gesichtsinterface benutzten, stellten sich selbst positiver bezüglich Altruismus und sozialer
Erwünschtheit dar. Basierend auf der Hypothese, dass Frauen und Männer unterschiedlich
empfänglich für soziale Signale wie Gesichtsausdrücke sind, vermuteten die Autoren, dass
sich Männer und Frauen in ihren Antworten auf das Gesichtsdisplay mehr unterscheiden
werden als in Antworten auf das Textdisplay. Eine Unterscheidung gab es aber zwischen
den Applikationen. Männer reagierten positiver auf das Gesichtsdisplay und Frauen eher
auf das Textdisplay. Das könnte bei den Frauen auf die Unnatürlichkeit der Darstellung
des Gesichtes und bei den Männern auf die Neugier an der Technik zurückzuführen sein.
Was bedeutet Adaptivität für die Persönlichkeit? Moon und Nass [MOON96] haben
dies untersucht. 44 als dominant und 44 als unterwürfig eingeschätzte Probanden wurden
zufällig auf vier Versuchsbedingungen mit Agenten aufgeteilt. Die Autoren sprechen von
drei Ergebnissen.
1. Nutzer mögen Computer mit ihrem Persönlichkeitstyp.
2. Nutzer ziehen adaptive Computer denen vor, die über die Zeit konstant gleich
bleiben.
3. Die bevorzugte Richtung der adaptiven Änderung ist die des Persönlichkeitstyps
des Nutzers.
Reeves & Nass [REEVES96] fanden in der generellen Mensch-Computer (nicht speziell
Agenten-) Interaktion viele sozialpsychologische Aspekte bestätigt. Versuchspersonen, die
nach einer Lehreinheit zu ihrer Meinung über die Leistung des Computers befragt wurden,
formulierten eine positivere Antwort, wenn der Computer selbst die Frage stellte, als wenn
es ein anderer Computer oder eine schriftliche Befragung war. Alle Versuchspersonen
wiesen jedoch die Vermutung von sich, sie könnten ihre Bewertungen aus Höflichkeit
gegenüber dem Computer ändern. Die Versuchspersonen waren davon überzeugt, sie
hätten mehr geleistet, wenn der Computer ihre Leistung positiv bewertete. Unter diesen
Umständen mochten sie den Computer auch lieber und trauten ihm größere Leistungen zu.
Dies gilt unabhängig davon, ob das erfahrene Lob gerechtfertigt war oder nicht. Die
Autoren formulieren daraus, dass Computer oder Agenten so programmiert werden sollten,

Theorien / Konzepte
32
dass sie ihren Benutzern positive Rückmeldungen geben. Auch andere
sozialwissenschaftliche Erkenntnisse bezüglich Selbst- und Fremdurteil und
Persönlichkeitsstruktur aus der Mensch-Mensch-Kommunikation konnten in der Mensch-
Computer-Kommunikation bereits repliziert werden. Man könnte damit zu dem Schluss
kommen: Intelligente Maschinen werden von Menschen wie ihresgleichen behandelt.
[REEVES96, S. 251]
4.4.8 Evaluation der vorgestellten Studien
Die dargestellten Studien unterscheiden sich in der Art der untersuchten Animationen,
in der Art der Maße, mit denen die Effekte gemessen wurden und in der Art der An-
wendungsumgebung. Die Ergebnisse sind nicht immer statistisch signifikant. Dennoch
konnten einige Vermutungen erhärtet werden. So führte der Einsatz von animierten Agen-
ten bei Takeuchi und Naito, aber auch bei van Mulken et al. zu höheren Unterhaltungs-
werten. Und bei Sproull et al. zeigte sich, dass sich die Probanden tatsächlich in Anwe-
senheit eines Gesichtes eher so verhalten, wie es sozial erwartet wird. Für andere Vermu-
tungen konnten noch nicht einmal Hinweise gefunden werden: Zum Beispiel gab es in
Bezug auf den Lernerfolg und das Erinnerungsvermögen keinen Hinweis auf positive
Effekte durch den Einsatz von animierten Agenten. Es kristallisieren sich jedoch drei
wichtige Faktoren heraus, die die Wirkung von animierten Agenten ganz wesentlich mit zu
beeinflussen scheinen [DEHN00]:
• Domäne, Aufgabenstellung
• mögliche Informationsquellen (gibt es neben dem Gesicht noch weitere Quellen
wie etwa gesprochene Sprache oder eine Textausgabe?)
• Persönlichkeit und Eigenschaften des Agenten (sind uns Stimme und Gesicht
sympathisch?).
Diese Einflussfaktoren wurden jedoch in keiner Studie umfassend berücksichtigt. Die
Schwierigkeiten sind sicherlich unter anderem bedingt durch noch zu geringe Erkenntnisse
nicht nur im speziellen Gebiet der animierten Agenten, sondern auch in den involvierten
Wissenschaften. So sind zum Beispiel insbesondere die sozio-emotionalen Funktionen der
nonverbalen Kommunikation wenig erforscht [BENTE00]. Deshalb können in den Studien
nicht einfach die Bedeutung und die Effekte von einzelnen Einflussgrößen gemessen
werden. Diese müssen selbst erst noch bestimmt werden, um dann die erforderlichen
Instrumentarien und relevanten Variablen ermitteln zu können. Bente und Krämer

Theorien / Konzepte
33
[BENTE02] schlagen unter anderem einen „Bottom-Up-Ansatz“ vor. Dieser Ansatz basiert
auf dem in Kapitel 4.3.5 dargestellten Stereotypenprinzip. Verhaltensmuster sollen, ohne
sie bis ins Detail zu verstehen, in Datenbanken abgelegt werden, um bei Bedarf auf diese
„Verhaltenskonserven“ zurückgreifen zu können. Hierbei wird bewusst eine (zu Beginn
deutlich) eingeschränkte Interaktivität und Flexibilität in Kauf genommen. Über mehrere
Zwischenschritte sollen die feinen Regeln der Kommunikation herausgearbeitet werden,
um später dann regelbasierte Agenten implementieren zu können. Bisher mangelnde
Forschungsergebnisse macht auch die Evaluation von animierten Agenten schwierig:
Bisher sind die richtigen Variablen und Methoden um die Effekte der Agenten messen zu
können noch nicht gefunden.
4.4.9 Die Kombination von Agenten und Sprache im
multimodalen Interface
Die Kombination von Automatic Speech Recognition (ASR), Natural Language Pro-
cessing (NLP) und Agententechnologie ermöglicht die Implementation anwendungsspe-
zifischer Programme, die dem Benutzer nicht nur die Steuerung durch Sprache erlauben,
sondern auch aktiv Hilfe anbieten. Eine Weiterentwicklung dieses Systems nutzt
Sprachsynthese zur Ausgabe und ermöglicht den sinnvollen Einsatz in mobilen Systemen,
wie z.B. Fahrzeugen (vgl. Embassi-Projekt), bei denen Interaktion mit einem Bildschirm
nicht möglich oder wünschenswert ist. Durch weitere Kopplung mit Avatar-Techniken
werden in Echtzeit geführte audiovisuelle Dialoge mit natürlichsprachlichen Systemen
realisierbar [XUEDONG]. Der Einsatz von Agenten und Sprache als Teile von
multimodalen Interfaces scheint also sehr sinnvoll für den Benutzer zu sein. Im Folgenden
wird deshalb eine explorative Studie zu Sprachinteraktion und anthropomorphen
Intefaceagenten in einem prototypischen multimodalen System vorgestellt.

Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
34
5 Explorative Studie zu Sprachinteraktion und
anthropomorphen Interfaceagenten im Rahmen des
mUltimo-3D-Projektes am Heinrich-Hertz-Institut
In der Studie ging es vor allem um die explorative Untersuchung des Benutzer-
verhaltens auf diesem relativ neuen Forschungsgebiet. Basierend auf den im Theorieteil
vorgestellten Vorerfahrungen wurde speziell die Sprachinteraktion mit dem System und
einem anthropomorphen Interfaceagenten beobachtet und ausgewertet. Am Ende werden
die Ergebnisse vor dem Hintergrund bestehender Forschung diskutiert und weiterer
Forschungsbedarf abgeleitet.
5.1 Projektrahmen
Das Projekt mUltimo-3D ist ein vom Bundesministerium für Bildung und Forschung
(BMBF) finanziertes Projekt. Während einer Laufzeit von zwei Jahren (01/99 bis 12/01)
wurden neue Möglichkeiten der multimodalen Interaktion entwickelt. Ermöglicht wurden
diese neuen Interaktionsformen durch die Verbindung einer Anwendungsschnittstelle mit
einem 3D-Display und Systemen zur Erkennung von Augen- und Blickbewegungen und
Sprache sowie in späteren Versuchen Handgesten. Im Rahmen der Evaluation dieser
Systeme wurden Nutzertests durchgeführt. Ein ausführliches Evaluationskonzept für eine
multimodale Schnittstelle im Rahmen dieses Projektes findet sich bei Katharina Seifert
(2002). Der Schwerpunkt der vorliegenden Untersuchungsauswertung liegt auf der
sprachbasierten Interaktion.
5.2 Systembeschreibung
Die multimodale Bedienschnittstelle des mUltimo-3D-Systems für den Versuch bestand
aus Maus und Tastatur, einer sprecherunabhängigen Spracherkennung und einer Blick-
orterkennung. Die Spracherkennung basierte auf Viavoice Software Developers Kit von
IBM. Ca. 90 Wörter wurden pro Testanwendung relativ gut erkannt. Die Blickort-
erkennung ist eine Eigenentwicklung des Heinrich-Hertz-Instituts für Nachrichtentechnik
GmbH und basiert auf der Cornea-Reflex-Methode [LIU99]. Der Benutzer konnte wählen,
ob er eine Funktion durch Sprache, Tastatur, Maus oder Blick oder über die Kombination
dieser Modalitäten auslöste. Nicht alle Funktionen konnten über die Modalitäten Blick und
Sprache auf Grund ihrer Besonderheiten ausgelöst werden. Es wurden zwei Test-

35
anwendungen mit multimodaler Interaktion entwickelt. Der erste Prototyp zur Kon-
struktion von 3D-Körpern heißt CAD-Raum und der zweite zur Suche und Betrachtung
von räumlichen und textuellen Informationen heißt Info-Browser. Der Hauptversuch wurde
mit beiden Testapplikationen im Vergleich durchgeführt. Diese Darstellung konzentriert
sich auf den dreidimensionalen CAD-Raum und den Prototypen eines dreidimensional
dargestellten Avatars.
Abbildung 8 - mUltimo3D
5.2.1 Das 3D-Display
Für die vorliegende Untersuchung wurde ein 3D-Display eingesetzt, das vom Heinrich-
Hertz-Institut entwickelt wurde und eine freie Betrachtung des Objektes ermöglicht. Diese
Displays basieren auf dem Prinzip des Richtungs-Multiplexing, das heißt die unterschied-
lichen perspektivischen Ansichten der Teilbilder sind nur aus bestimmten Richtungen zu
sehen [LIU99].
Sitzt der Betrachter in einer bestimmten Position vor dem Display, verschmelzen diese
beiden getrennten räumlichen Wahrnehmungen zu einem Bild. Das hat den Vorteil, dass
der Nutzer keine Spezialbrille tragen muss, um Dreidimensionalität wahrzunehmen.

36
Abbildung 9 - 3D-Display
5.2.2 Spracherkennung
Die Spracheingabe erfolgt über ein Headset. Die Auswertung erfolgt auf einem PC, auf
dem das IBM-Programm ViaVoice Pro - Millenium-Edition installiert ist. Die Wahl von
Via Voice bestimmt die Charakteristik der Spracherkennung. In dem Versuch war das
System schon relativ benutzerunabhängig, es musste kein vorheriges Training erfolgen.
Der Output von ViaVoice an das System ist ein fortlaufender ASCII-Text, der vom
Sprachtreiber des Systems nach interaktionsrelevanten Schlüsselbegriffen durchsucht wird
(keyword-spotting technique). Dabei ist es möglich, mehrere Schlüsselbegriffe für ein
Kommando zu definieren. Jedes einzelne zu erkennende Wort musste in einer Trainings-
phase dem System durch mehrere Nutzer vorgesprochen werden, um durch den Muster-
vergleich einen Mittelwert zu erzielen und damit eine relativ sprecherunabhängige
Spracherkennung der vorgegebenen Kommandos zu erreichen. Der Nachteil ist, dass der
Nutzer nach jedem Satz eine Pause machen muss, damit Aktionen und Objekte richtig
zugeordnet und nicht mit dem nächsten Satz vermischt werden.
5.2.3 Technische Anordnung des Systems
Dieses System ist technisch betrachtet ein Zusammenschluss von vier Rechnern mit
klarer Funktionsteilung, die ihre jeweiligen Teilaufgaben parallel verarbeiten. Teilauf-
gaben bestehen hauptsächlich in der Bereitstellung der multimodalen Ein- und Ausgabe-
kanäle. Als zentrale Verarbeitungseinheit dient eine Onyx2 von Silicon Graphics. Auf ihr
laufen alle parallel verarbeiteten Prozesse zusammen und werden dort verrechnet. Die
Ausgaben werden von der Onyx2 gesteuert und über Lautsprecher und über das auto-
stereoskopisches Display multimedial vermittelt.

37
5.2.4 Die Testapplikation CAD-Raum
Mit dem CAD-Raum besteht die Möglichkeit der Konstruktion von komplexen
Objekten aus einfachen geometrischen Grundkörpern durch verschiedenste Bearbeitungs-
funktionen (Verschieben, Drehen, Skalieren, Farb- und Texturauswahl). Die Grundkörper
Würfel, Kugel, Zylinder, Ring, Kegel, Hohlzylinder und Pyramide werden aus einem
Objektregal in die 3D-Szene geholt und entsprechend bearbeitet. Es können alle Objekte
aus- und wieder abgewählt werden. Die Szene kann in x- und y-Richtung der Ebene
gedreht werden, um bessere Anschauung zu gewährleisten. Die obere Menüleiste enthält
die vier Hauptmenüs Verwaltung, Objekte, Werkzeuge und Hilfe. Diese werden bei
Aktivierung transparent und öffnen sich mit einer Bewegung in den Raum. Die einzelnen
enthaltenen Funktionen werden so für den Benutzer durch Icons und Text sichtbar. Wird
eine Funktion gewählt, schließt sich das Menü wieder. In der unteren Menüleiste findet
sich ein Werkzeug zur Achsen- und Ebenen-Auswahl und eines zur stufenlosen Rotation
der Szene.
Abbildung 10- Screenshot des CAD-Raumes
5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum
Bei der Gestaltung des CAD-Raumes wurde festgelegt, welche Funktion in welcher
Form durch welche Modalität ausgewählt werden kann. Dabei entstanden Gruppen von
Funktionen, die zwei oder drei Auslösemöglichkeiten hatten. Zur letzten Gruppe gehören
die Hauptmenüs, die mit Maus, Sprache und Blick aktiviert werden konnten. Jede einzelne
Funktion in den Menüs gehört zur der Gruppe Maus und Sprache. Eine Ausnahme bildet
die Rotationskugel, die nur mit der Maus bewegt werden kann. Wie oben bereits erwähnt,

38
können nicht alle Funktionen mit den einzelnen Modalitäten auf Grund ihrer Beson-
derheiten ausgelöst werden. Mit der linken Maustaste kann jede Funktion ausgelöst
werden, mit Sprache, wenn die zugehörigen Kommandos von der Spracherkennung
erkannt werden. Blick kann nur von Sprache oder Maus (rechte Maustaste) unterstützt
werden, um eine Funktion auszulösen.
5.2.6 Die Testapplikation Avatar
Die Testapplikation für den Avatar besteht aus einer 3D-Szene, in der sich eine Treppe
mit einem Tor, ein Kugellager, das sich öffnet, ein Bild, das näher zum Betrachter rückt
und ein Computerbildschirm, der sich dreht, befinden. Der Avatar kann in die Szene
geladen werden und folgt einem vorprogrammierten Bewegungsablauf vom Startpunkt auf
der Treppe zu den drei animierten Elementen und zurück zum Ausgangspunkt. Die
multimodale Interaktion ist hier zum Zeitpunkt der Untersuchung noch nicht vollständig
gestaltet. Sprach-, Blick- oder Gestikinteraktion mit dem Avatar ist noch nicht möglich.
5.3 Methode
5.3.1 Einbettung der vorliegenden Fragestellung in die
Gesamtuntersuchung
Die Fragestellung der Gesamtuntersuchung war, welchen Effekt die multimodale Inter-
aktion auf die Leistung und die subjektive Qualitätsbewertung durch den Benutzer hat. Die
hier untersuchte Fragestellung beschäftigt sich konkret mit der Sprachinteraktion als einem
Teilgebiet der multimodalen Interaktion in zwei verschiedenen Applikationen des Systems
und mit den Vorstellungen und Bewertungen des Benutzers hinsichtlich dieser beiden
prototypischen Applikationen, der Modalität Sprache und der Mensch-Computer-Inter-
aktion allgemein. Im Folgenden wird der Teil zur Modalität Sprache Logfileexperiment
und der Teil zum anthropomorphen Interfaceagenten Simulationsexperiment gennant.

39
5.3.2 Variablen
5.3.2.1 Unabhängige Variable im Logfileexperiment
Aufgaben in verschiedenem Schwierigkeitsgrad
Die Versuchsteilnehmer bekamen eine Übungsaufgabe und drei Experimentalaufgaben
mit unterschiedlichem Schwierigkeitsgrad vorgelegt, der nach einem Permutationsplan in
der Reihenfolge der Bearbeitung variierte. Die Aufgaben bestanden in der Konstruktion
dreidimensionaler Modelle anhand einer Vorlage.
Die Aufgabenschwierigkeit ergab sich aus der Anzahl der einzelnen Grundobjekte, die
zur Konstruktion des Gesamtobjektes erforderlich war. Die leichteste Aufgabe (Fisch)
enthielt sieben Grundobjekte, die mittlere (Pinocchio) 15 und die schwierigste (Eisenbahn)
30.
5.3.2.2 Abhängige Variablen im Logfileexperiment
Leistung der Versuchspersonen
Die Leistungsdaten wurden anhand der Anzahl der bearbeiteten Elemente, der Form-
ähnlichkeit und der Position der Teile zueinander und der Oberflächenbearbeitung durch
Farbe und Textur anhand von Bildschirmfotos aus drei verschiedenen Perspektiven ermit-
telt. Die Bewertung der Einzelleistungen erfolgte nach einer vordefinierten Bewertungs-
vorschrift und wurde im Konsensverfahren von vier Beurteilern als Expertenrating
getroffen.
Die Häufigkeit der Sprachinteraktion als Teil der multimodalen
Interaktionshäufigkeit
Die Häufigkeit der Sprachinteraktion wurde anhand der Logfiledaten festgestellt. Wenn
ein Kommando von der Spracherkennungssoftware erkannt wurde, erfolgte ein Eintrag im
Logfile.
Wahrnehmung der Sprachinteraktion aus Benutzerperspektive
Hierzu erfolgte eine Befragung der Versuchspersonen nach dem Versuch in
halbstrukturierter Form.

40
5.3.2.3 Unabhängige Variablen im Simulationsexperiment
Im Simulationsexperiment waren das Verhalten und das Aussehen des Avatars und das
Geschlecht und das Alter der Versuchspersonen die unabhängigen Variablen. Es gab keine
Aufgabe, die in einem Versuchplan variiert werden konnte. Eine Vergleichsapplikation gab
es auch nicht.
5.3.2.4 Abhängige Variablen im Simulationsexperiment
Die Art der Ansprache des Avatars durch die Versuchspersonen
Die Art der Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video
dokumentiert.
Die Wahrnehmung der Applikation aus Benutzerperspektive
Hierzu erfolgte eine schriftliche Befragung der Versuchspersonen in Form eines
Fragebogens.
5.3.3 Explorative Fragestellungen zur Sprachinteraktion
Wie bereits erwähnt, ging es in der Studie vor allem darum, den Umgang des Benutzers
mit der neuen Technik zu beobachten. Daraus ergaben sich für den untersuchten Teil
folgende explorative Fragestellungen:
• Wird Sprache überhaupt benutzt?
• Wie wirkt sich die Voreinstellung des Nutzers zur Kommunikation mit dem einem
Computersystem auf die Benutzung von Sprache aus?
• Wie wird Sprache im Vergleich zwischen den Versuchspersonen benutzt?
• Wie wird Sprache im Vergleich zu den anderen Modalitäten Maus und Blick
benutzt?
• Wie verhält sich die Benutzung von Sprache über die einzelnen
Aufgabenschwierigkeiten?
• Wie verhält sich die Benutzung von Sprache über die Zeit?
• Steht die Benutzung von Sprache mit der Leistung über alle Aufgaben in
Beziehung?
• Wie wird die Sprachinteraktion mit dem System vom Benutzer bewertet?

41
5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion
Zu einigen dieser explorativen Fragestellungen wurden aus der bisherigen Forschung
konkrete Hypothesen gebildet:
• Der Mythos der Multimodalität, dass Sprache in einem multimodalen System
die herausragende Interaktionsform sei, wurde schon einige Male wider-
legt.[OVIATT99] Es kommt immer auf die Anwendungsform an. Im
untersuchten System stellte Sprache vor allem eine Zeitersparnis gegenüber der
Mausinteraktion dar und ein besonderes Training und damit Einstellen auf die
Modalität musste nicht erfolgen. Es wird deshalb vermutet, dass Sprache im
Sinne des Mythos die am häufigsten gewählte Interaktionsform ist.
H1 : Sprache > Maus > Blick
H0 : Sprache = Maus = Blick
• Die dargestellten Problemfelder der Spracherkennung (Hyperartikulation,
individuelle Sprecherfaktoren) existierten auch in unserem Versuch. Es wird
deshalb vermutet, dass die Sprachinteraktion über die Zeit abnimmt, weil
Frustrationseffekte durch Fehleingaben einsetzen.
H1 : Sprachbenutzung in Aufgabe 1 > Sprachbenutzung in Aufgabe 3
H0 : Sprachbenutzung in Aufgabe 1 = Sprachbenutzung in Aufgabe 3
• Die Zeitersparnis durch die Spracheingabe gegenüber der Eingabe per Maus und
die Natürlichkeit der Eingabeform könnte Auswirkung auf die Leistung bei der
Aufgabenbearbeitung haben. Es wird deshalb ein positiver Zusammenhang
zwischen Leistung und Sprachinteraktionshäufigkeit vermutet.
H1 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben=) > 0
H0 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben) = 0
5.3.5 Explorative Fragestellungen zum Avatar
• Wie verhält sich der Benutzer in der Interaktion mit dem Avatar?
• Unter welchen Bedingungen wird die Anwesenheit des Avatars gewünscht?
• Was wünscht sich der Benutzer vom Avatar?
• Wie hedonistisch wird die Interaktion mit dem Avatar empfunden?

42
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
Ansprache des vorgestellten Avatars zueinander?
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
empfundene hedonistische Qualität dieses speziellen Avatars zueinander?
• Lassen sich Unterschiede für den Avatar in Bezug auf Alter und Geschlecht
feststellen?
5.3.6 Theoriegeleitete Hypothesen zum Avatar
• Die erläuterten Studien zur Repräsentation eines Avatars zeigten, dass eine
menschenähnliche Gestalt vom Benutzer ein natürliches Kommunikations-
verhalten verstärkt. Es wird deshalb vermutet, dass der Grossteil der Versuchs-
personen den Avatar personifiziert ansprechen wird.
H1= G 1 (personifiziert ) > G 2 (unpersonifiziert)
H0= G 1 (personifiziert) = G 2 (unpersonifiziert)
Dabei wird speziell aus der Forschung von Sproull et al. [SPROULL96]
vermutet, dass mehr Frauen als Männer den Avatar personifiziert ansprechen,
da Frauen empfänglicher auf soziale Signale wie Gesichtsausdrücke reagieren.
• Die bisherigen Studien belegen ebenfalls, dass ein menschliches Erscheinungs-
bild und Verhalten des Avatars als sympathisch empfunden wird. Es wird
deshalb vermutet, dass positive Einschätzungen zur hedonistischen Qualität des
Avatars überwiegen.
H1= G 3 (hatten Spaß) > G 4 (hatten keinen Spaß)
H0= G 3 (hatten Spaß) = G 4 (hatten keinen Spaß)
Diesbezüglich wird speziell aus der Forschung von [SPROULL96] vermutet,
dass Männer eher Spaß mit dem Avatar haben als Frauen, da sie interessierter
an neuer Technik sind.

43
5.3.7 Stichprobe des Logfileexperiments
Teilnehmer der Untersuchung waren 22 Männer und fünf Frauen. Das durchschnitt-
liche Alter war 27 (Minimum 13, Maximum 42 Jahre). Die durchschnittliche Com-
putererfahrung betrug 8,6 Jahre und die durchschnittliche Computernutzung 24 Stunden
pro Woche für Anwenderprogramme wie MS-Word, 3D-Programme, Datenbanken,
WWW, Spielen und Programmieren. Anwendungsprogramme und WWW standen beim
Ranking an erster Stelle. 50 Prozent der Versuchsteilnehmer hatte bereits Erfahrung mit
3D-Anwendungen, wobei die Erfahrung mit Spracherkennungssoftware gering war. 18
Personen hatten keine und eine Person wenig Erfahrung. Von den übrigen acht Versuchs-
teilnehmern werteten sechs ihre Erfahrung als schlecht und zwei als gut. Die meisten
Personen gaben an, durch Ausprobieren am besten zu lernen und vor allem aus Neugier
und Interesse an Wissenschaft und Technik, an dem Versuch teilzunehmen.
Als Kontrollvariablen dienten Subtests aus HAWIE [WECHSLER91] und LPS
[HORN62] zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis. Alle
Teilnehmer erzielten hier durchschnittliche Ergebnisse, ein Zusammenhang mit den
Leistungsdaten konnte nicht nachgewiesen werden.
Mit dem Zeiss Nahprüfgerät wurde sichergestellt, dass alle Versuchsteilnehmer über ein
gutes Stereosehen verfügen, was für die beanspruchte Arbeit mit dem stereoskopischen
Display vorauszusetzen ist.
In der Vorbefragung wurde ebenfalls erfragt, wie sich die Teilnehmer Kommunikation
mit dem Computer vorstellen. Dabei wurden Spracherkennung und Sprachausgabe am
häufigsten angekreuzt, wie aus Grafik 11 ersichtlich ist.

44
0 5 10 15 20 25
herkömmlich (Maus / Tastatur)
Sprachausgabe
Spracherkennung
Assistent
Blickinteraktion
Pop up
Tamagochi
Emotions- / Motivationserkennung
Emotionsäußerung
Abbildung 11 - Wunsch Kommunikation mit Computer N=27
5.3.8 Versuchsdurchlauf des Logfileexperimemts
Vor der Einführung in das System wurden der Fragebogen zur Person und die Tests
zum stereoskopischen Sehen vorgelegt und unmittelbar ausgewertet. Außerdem wurden die
Tests zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis durchgeführt und
ausgewertet. Nach der Kalibrierung des Systems erfolgte eine Einführung in den CAD-
Raum mit einer Übungsaufgabe. Sie diente dazu, sich mit der Applikation vertraut zu
machen; dabei konnten auch Fragen an den Versuchsleiter gestellt werden, um mehr
Sicherheit im Umgang mit dem System zu erlangen. In der Übungsaufgabe zur Kon-
struktion modellierten die Probanden eine nur aus drei Grundobjekten bestehende Hantel,
um die Manipulationsmöglichkeiten auszuprobieren und zu üben. Diese Einführungsphase
dauerte ungefähr 45 Minuten. Für die folgenden drei Konstruktionsaufgaben (siehe
Abbildung 12) hatten die Versuchsteilnehmer jeweils maximal zehn Minuten Zeit, die zur
vollständigen Bearbeitung nicht ausreichten, um Deckeneffekte zu vermeiden. Im
Anschluss an jede Aufgabe sollte auf der SEA-Skala [EILERS86] die Höhe der
Beanspruchung durch die Aufgabe selbst eingeschätzt werden und am Ende des Versuches
wurde das semantische Differential zur Einschätzung der hedonistischen und
pragmatischen Qualität sowie der Attraktivität der Applikation vorgelegt
[HASSENZAHL00]. Des weiteren sollte der Aufgabenschwierigkeitsgrad der einzelnen
Aufgaben selbst eingeschätzt und in eine Rangreihe gebracht werden. In einer

45
Nachbefragung in Form eines halbstrukturierten Interviews hatten die Versuchsteilnehmer
die Möglichkeit, sich über das System zu äußern. Dieses Interview wurde mit der
Videokamera aufgezeichnet.
Abbildung 12 - Screenshots der Konstruktionsaufgaben
5.3.9 Stichprobe des Simulationsexperiments
Die Stichprobe für das Simulationsexperiment bestand zu einem Teil aus der Stichprobe
des Logfileexperiments und zum anderen Teil aus einer Nachuntersuchung, um die Anzahl
der Versuchspersonen für diesen Teil der Untersuchung auf Grund der Kürze des Ver-
suches und wegen Datenausfällen auf 43 zu erhöhen. Damit bestand die Stichprobe aus 27
Männern und 16 Frauen mit einem durchschnittlichen Alter von 28,1 Jahren, wobei die
jüngste Person 13 und die älteste 42 war. Von den zusätzlichen 16 Personen, die nicht am
Logfileexperiment teilgenommen haben, liegen keine weiteren Daten über Vorerfahrungen
und Präferenzen in der Computerinteraktion vor.
5.3.10 Versuchsdurchlauf des Simulationsexperimentes
Dieser Teil der Untersuchung erfolgte vor oder nach dem Hauptversuch im CAD-Raum
für einen Teil der Stichprobe und für den anderen Teil nach dem Versuch zur Haptik Die
Versuchspersonen bekamen ein Headset aufgesetzt, um zu simulieren, dass Spracheingabe
erfolgen kann, was in diesem Experiment in Wahrheit nicht möglich war. Auf dem 3D-
Display erschien die Demoversion des Avatars mit Gesicht, in Menschengestalt und ohne
Bekleidung. Die Darstellung des Avatars ähnelte der in Abbildung 13. Die Versuchsperson
erhielt die Instruktion, dass der Avatar auf Sprache reagiere und das Kugellager öffnen,

46
den Bildschirm bewegen werden und das Bild näher betrachten könne. Danach wurde die
Versuchsperson aufgefordert, den Avatar zu starten und ihn zu animieren, etwas zu tun.
Dabei startete der Versuchsleiter unbemerkt selbst die ca. zwei Minuten lange Sequenz.
Die Bewegungsabläufe waren vorgegeben und erfolgten im günstigsten Fall gemäss den
Anweisungen der Versuchsperson, so dass der Eindruck, der Avatar reagiere auf Sprache,
zum großen Teil bis zum Ende der sehr kurzen Sequenz aufrechterhalten werden konnte.
Die Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video aufgezeichnet.
Danach wurde die Versuchsperson über die Simulation aufgeklärt, sofern sie sie nicht von
Anfang an bemerkt hatte. Ein kurzer Fragebogen zur hedonistischen Qualität der
Applikation und den gewünschten Eigenschaften eines Avatars sollte anschließend
ausgefüllt werden.
Abbildung 13 - Darstellung eines Avatars

47
5.4 Auswertung
In diesem Teil der Arbeit wird genauer auf die Art der Untersuchungsmethoden, das
Datenniveau und die daraus folgenden Ergebnisse eingegangen. Weitere Auswertungen
der Daten mit den im Versuchsdurchlauf des Logfileexperimentes genannten
Messinstrumenten finden sich bei Seifert [SEIFERT02] und Baumgarten
[BAUMGARTEN02].
5.4.1 Die Untersuchungsmethoden und das Datenniveau
In der Untersuchung wurden quantitative und qualitative Daten genutzt, um aus ihnen
neue Ideen und Hypothesen explorativ abzuleiten. Das theoretische Vorverständnis auf
dem Gebiet der Multimodalität ist noch nicht soweit elaboriert und fokussiert, dass sich
viele operationale und statistische Hypothesen formulieren lassen, die einer Signifikanz-
prüfung unterzogen werden könnten. Es ging in der Untersuchung vorrangig darum, den
Umgang mit neuer Technik zu testen und darüber Daten zu sammeln und diese ent-
sprechend aufzubereiten. Auf die Problematiken der vorliegenden Daten wird in der
methodischen Kritik zur Untersuchung noch genauer eingegangen.
Das Simulationsexperiment wurde im eingeschränkten Stil der Wizard-of-Oz-
Experimente durchgeführt. Bei diesen Experimenten geht es darum, Funktionen noch nicht
fertig gestellter Systeme zu untersuchen. Simulation ist billiger und schneller als
Abänderung eines Prototypen, man hat unbeschränktere Möglichkeiten und erkannte
Probleme können leichter isoliert werden. Wizard-of-Oz-Eperimente simulieren ein
natürlichsprachliches System, indem sie einen Menschen zur Interpretation der
Kommandos der Versuchsteilnehmer benutzen. In einem typischen Experiment erteilt der
Versuchsteilnehmer ein Kommando auf einen Bildschirm, das an einem anderen Ort von
dem Wizard interpretiert und im Sinne eines realen Systems beantwortet wird. Im
Simulationsexperiment wurde den Versuchspersonen vermittelt, dass der Computer
beziehungsweise der Avatar auf Spracheingabe reagiere, was aber tatsächlich nicht der
Fall, sondern erst in der Weiterentwicklung vorgesehen war. Die Interaktion mit dem
System erfolgte daher einseitig.
Die aufgezeichneten Videodaten aus dem Simulationsexperiment wurden per Hand
ausgewertet, indem die Antworten der Versuchspersonen zunächst wörtlich nieder-
geschrieben wurden. Die Menge der Informationen wurde durch selbst aufgestellte

48
Kategorien reduziert. Fragebogendaten aus der kurzen Nachbefragung standen auch zur
Verfügung. Bei der Auswertung der Fragebogendaten musste beachtet werden, dass
Mehrfachnennungen möglich waren.
Die Logdateien aus dem Logfileexperiment sind einfache Textdateien. Die Rohdaten
aus den Logfiles wurden in eine für SPSS lesbare Datei exportiert und ausgewertet.
5.4.2 Ergebnisse
Hier werden die deskriptiven, inferenzstatistischen, Post-Hoc- und Interviewergebnisse
zunächst zur Sprachinteraktion und anschließend in derselben Reihenfolge zum Avatar
vorgestellt. Die Ergebnisse zu den anderen Fragestellungen des Logfileexperiments sind
hier nicht berücksichtigt. Zur besseren Übersicht wurde größtenteils die Darstellung in
Form von Grafiken verwendet. Die Ergebnistabellen aus SPSS zu den einzelnen
Abschnitten und den dazugehörigen Grafiken finden sich im Anhang.
5.4.2.1 Deskriptive Ergebnisse zur Spracheingabe
Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen
Um darzustellen, wie häufig Sprache überhaupt im Vergleich zwischen den
Versuchspersonen benutzt wurde, wurden die Interaktionshäufigkeiten über alle Aufgaben
zusammengefasst und anhand des Mittelwertes in vier Bereiche unterteilt:
• 0 - 9 gering
• 10 – 19 mittel
• 20 – 29 häufig
• ab 30 sehr häufig
Aus Abbildung 14 ist ersichtlich, dass Sprache im Vergleich zwischen den
Versuchspersonen eher weniger benutzt wurde.

Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"

Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (6)

Ähnlich wie Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"

Ähnlich wie Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems" (20)

Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"