Sprachinteraktion und anthropomorphe Interfaceagenten in
multimodalen interaktiven Systemen
Eine explorative Studie im Rahmen des mUltimo3D-Projektes am Heinrich-Hertz-Institut
Diplomarbeit
Vorgelegt zur Erlangung des akademischen Grades einer
Diplom-Psychologin (Dipl.-Psych.)
Eingereicht am Institut für Psychologie
Mathematisch-Naturwissenschaftliche Fakultät an der HU Berlin
Nicole Kelling
Matrikelnummer 116586
Angefertigt unter der Leitung von
Dr. Katharina Seifert, Volkswagen AG, Wolfsburg
Prof. Hartmut Wandke, HU Berlin
Eidesstattliche Erklärung
2
Eidesstattliche Erklärung
Eidesstattliche Erklärung
Die selbständige und eigenhändige Anfertigung der vorliegenden Diplomarbeit versichere
ich an Eides statt.
Berlin, den 31.07.2003
Unterschrift
Inhaltsverzeichnis
3
1 Inhaltsverzeichnis
EIDESSTATTLICHE ERKLÄRUNG ........................................................................................................ 2
1 INHALTSVERZEICHNIS............................................................................................................... 3
2 ZUSAMMENFASSUNG .................................................................................................................. 5
3 EINLEITUNG ................................................................................................................................... 6
4 THEORIEN / KONZEPTE.............................................................................................................. 7
4.1 MULTIMODALITÄT – EINE EINFÜHRUNG AM BEISPIEL DER EMBASSI-ANWENDUNGEN
(ELEKTRONISCHE MULTIMODALE BEDIEN- UND SERVICE- ASSISTENZ)....................................................... 7
4.2 SPRACHINTERAKTION ZWISCHEN MENSCH UND MASCHINE....................................................... 9
4.2.1 Sprachkodierung................................................................................................................... 9
4.2.2 Spracherkennung .................................................................................................................. 9
4.2.3 Sprachverstehen...................................................................................................................10
4.2.4 Sprachsynthese / Sprachausgabe.........................................................................................11
4.2.5 Sprechererkennung ..............................................................................................................11
4.2.6 Menschliche Sprachwahrnehmung versus maschinelle Spracherkennung ..........................12
4.2.7 Problemfelder der Spracherkennung...................................................................................12
4.2.8 Verbesserung der Spracherkennung durch Multimodalität und eingegrenztes Vokabular..16
4.3 DIE GESTALTUNG DER INTELLIGENTEN BENUTZUNGSSCHNITTSTELLE DURCH ADAPTIVE
DIALOGSYSTEME..........................................................................................................................................17
4.3.1 Die vier Seiten einer Nachricht............................................................................................17
4.3.2 Benutzermodellierung..........................................................................................................18
4.3.3 Überblick zu bestehenden Belief-Desire-Intention-Verfahren für die Benutzermodellierung
18
4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der Dialoggestaltung..................................19
4.3.5 Stereotypen ..........................................................................................................................21
4.3.6 Bayessche Netze...................................................................................................................23
4.4 INTERFACEAGENTEN ALS MULTIMODALE BENUTZUNGSSCHNITTSTELLE...................................26
4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum Anthropomorphismus in der
Mensch-Computer-Interaktion................................................................................................................26
4.4.2 Agenten als Avatare.............................................................................................................27
4.4.3 Erwartungen an Agenten .....................................................................................................27
4.4.4 Agentenrepräsentation.........................................................................................................28
4.4.5 Lerneffekt / Funktionalität ...................................................................................................29
4.4.6 Interaktion mit Nutzer..........................................................................................................29
4.4.7 Attribution von Persönlichkeitsmerkmalen..........................................................................30
4.4.8 Evaluation der vorgestellten Studien ...................................................................................32
4.4.9 Die Kombination von Agenten und Sprache im multimodalen Interface.............................33
Inhaltsverzeichnis
4
5 EXPLORATIVE STUDIE ZU SPRACHINTERAKTION UND ANTHROPOMORPHEN
INTERFACEAGENTEN IM RAHMEN DES MULTIMO-3D-PROJEKTES AM HEINRICH-
HERTZ-INSTITUT........................................................................................................................................34
5.1 PROJEKTRAHMEN ......................................................................................................................34
5.2 SYSTEMBESCHREIBUNG.............................................................................................................34
5.2.1 Das 3D-Display ...................................................................................................................35
5.2.2 Spracherkennung .................................................................................................................36
5.2.3 Technische Anordnung des Systems.....................................................................................36
5.2.4 Die Testapplikation CAD-Raum ..........................................................................................37
5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum....................................................37
5.2.6 Die Testapplikation Avatar..................................................................................................38
5.3 METHODE..................................................................................................................................38
5.3.1 Einbettung der vorliegenden Fragestellung in die Gesamtuntersuchung............................38
5.3.2 Variablen .............................................................................................................................39
5.3.3 Explorative Fragestellungen zur Sprachinteraktion............................................................40
5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion............................................................41
5.3.5 Explorative Fragestellungen zum Avatar ............................................................................41
5.3.6 Theoriegeleitete Hypothesen zum Avatar ............................................................................42
5.3.7 Stichprobe des Logfileexperiments ......................................................................................43
5.3.8 Versuchsdurchlauf des Logfileexperimemts.........................................................................44
5.3.9 Stichprobe des Simulationsexperiments...............................................................................45
5.3.10 Versuchsdurchlauf des Simulationsexperimentes ...........................................................45
5.4 AUSWERTUNG ...........................................................................................................................47
5.4.1 Die Untersuchungsmethoden und das Datenniveau ............................................................47
5.4.2 Ergebnisse............................................................................................................................48
5.5 DISKUSSION...............................................................................................................................72
5.5.1 Interpretation der Ergebnisse..............................................................................................72
5.5.2 Kritik an der Untersuchung .................................................................................................77
5.5.3 Integration der Ergebnisse in die Forschung und Ableitung von Fragestellungen für die
Gestaltung einer intelligenten Benutzungsschnittstelle mit Sprache und Agenten..................................79
5.5.4 Ausblick................................................................................................................................81
6 LITERATURVERZEICHNIS ........................................................................................................83
7 ANHANG..........................................................................................................................................90
7.1 DATEN AUS SPSS......................................................................................................................90
7.2 ABBILDUNGSVERZEICHNIS ......................................................................................................104
7.3 TABELLENVERZEICHNIS ..........................................................................................................105
8 DANKSAGUNG.............................................................................................................................107
Zusammenfassung
5
2 Zusammenfassung
Die vorliegende Untersuchung befasst sich mit zwei Bestandteilen einer multimodalen
Schnittstelle – den anthropomorphen Interfaceagenten und der Sprachinteraktion. Der
Avatar soll hinsichtlich Ansprache und Bewertung der hedonistischen Qualität durch den
Benutzer in Beziehung zu allgemeinen Vorstellungen über Avatare untersucht werden.
Dabei handelt es sich um eine explorative Studie in Form eines Simulationsexperimentes.
In einem weiteren Experiment geht es um die Sprachinteraktion in einem prototypischen
multimodalen System zur Konstruktion von 3D-Objekten. Neben Spracheingabe war hier
Interaktion mit Blick und Maus möglich. Die Interaktion mit Sprache im Vergleich zu den
anderen Modalitäten über die Zeit und die Auswirkung der Sprachinteraktion auf die
Leistung der Versuchspersonen sollte hierbei näher untersucht werden. Der theoretische
Rahmen besteht aus multimodaler Interaktion, Besonderheiten der Sprachinteraktion
zwischen Mensch und Maschine, psychologischen Grundlagen zur Gestaltung von
adaptiven Dialogsystemen und bestehenden Forschungsergebnissen zu anthropomorphen
Interfaceagenten, die im Rahmen von Multimodalität zur Gestaltung einer intelligenten
Benutzungsschnittstelle betrachtet werden.
Die Ergebnisse können die aufgestellten Hypothesen nur teilweise stützen. So zeigt sich
wie erwartet, dass die überwiegende Zahl der Versuchsteilnehmer den Avatar
personifiziert ansprechen. Die Bewertung der hedonistischen Qualität fällt allerdings zu
gleichen Teilen entgegen der Erwartung gut und schlecht aus. Eine Aussage über
Geschlechter- oder Altersunterschiede kann auf Grund der Stichprobengröße nicht
getroffen werden. Statistisch gesicherte Aussagen über Unterschiede in den Antworten auf
allgemeine Fragen zum Avatar konnten auf Grund der diskutierten methodischen Probleme
ebenfalls nicht getroffen werden. Der Versuch einer Interpretation wird trotzdem
vorgenommen. Für die Interaktion mit Sprache zeigen sich entgegen der Erwartung keine
Zusammenhänge zur Leistung der Versuchspersonen. Sie ist entgegen den Erwartungen
insgesamt auch nicht die herausragende Modalität, was offensichtlich mit der starken
Gewöhnung des Nutzers an Maus und Tastatur und technischen Schwierigkeiten
zusammenhängt. Der Anteil der Sprachinteraktion nimmt im Laufe der Zeit ab, was auf
Grund von Motivationsverlusten und Schwierigkeiten bei der Spracherkennung erwartet
wurde. Eine Diskussion der Ergebnisse zeigt weiteren Forschungsbedarf auf dem Gebiet
der multimodalen Schnittstellen und der besseren Gestaltung und Integration der
Modalitäten auf.
Einleitung
6
3 Einleitung
Die meisten Menschen unterscheiden heute noch klar zwischen den Robotern aus der
Science-Fiction-Welt und den Maschinen in ihrem täglichen Leben. In Filmen wie „Krieg
der Sterne“, „Raumschiff Enterprise“ und „2001: Odyssee im Weltraum“ sehen wir
intelligente Maschinen, die Namen wie C3PO, R2D2, Commander Data und HAL tragen.
Aber unsere Rasenmäher, Autos oder Textverarbeitungssysteme können ihnen nicht
entfernt das Wasser reichen. Die Science-Fiction-Konstrukte und die Maschinen, mit
denen wir leben, gehören zwei völlig verschiedenen Welten an. Die Fantasiemaschinen
verfügen über Sprachvermögen und Technologie, äußern Gefühle, Wünsche, Ängste, sie
lieben und sind stolz. Für unsere realen Maschinen gilt das - noch - nicht. Aber wie wird
das in hundert Jahren sein?
Die Grenze zwischen Fantasie und Realität wird schon sehr bald innerhalb der nächsten
Jahre fallen, auch wenn das so schwer vorstellbar ist wie vor zehn Jahren die tägliche
Benutzung des World Wide Web. Wir stehen kurz vor der „Roboterrevolution“. Das jahr-
hundertealte Projekt der Menschheit, künstliche Wesen zu schaffen, fängt an, Früchte zu
tragen. Maschinen fällen Urteile, die die Menschen in den letzten 200 Jahren seit der in-
dustriellen Revolution auf Trab gehalten haben. Aber diese Roboter sind nicht einfach
Roboter - es sind künstliche Lebewesen. Unsere Beziehung zu diesen Maschinen wird sich
sehr von unseren Verhältnissen zu allen vorangehenden unterscheiden. [BROOKS02]
Die Forschung befasst sich deshalb verstärkt mit der multimodalen Schnittstelle
zwischen Mensch und Computer. Ist es vom Benutzer gewünscht, dass der Computer wie
ein Mensch reagiert? Wollen wir mit dem Computer wie mit einem Menschen
kommunizieren? Was heißt überhaupt Kommunikation mit dem Computer - welche Kanäle
spielen dabei eine Rolle?
Diese Arbeit beschäftigt sich speziell mit Spracheingabe und anthropomorphen
Interfaceagenten als Teile einer multimodalen Benutzungsschnittstelle. Andere
Publikationen, die im Rahmen des im empirischen Teil vorgestellten mUltimo3D-Projektes
am Heinrich-Hertz-Institut angefertigt wurden, beschäftigen sich des Weiteren mit der
Haptik [BRIEST02], der Blickinteraktion [BAUMGARTEN02] und mit der Integration
aller Modalitäten [SEIFERT02].
Theorien / Konzepte
7
4 Theorien / Konzepte
Im Folgenden werden einige psychologische Grundlagen und bestehende Forschungs-
ergebnisse zu den Themen Multimodalität als Oberkategorie, anthropomorphe Interface-
agenten und Sprachinteraktion als Teilgebiete und zum Thema adaptive Dialogsysteme als
relevante Aspekte der Gestaltung einer intelligenten Benutzungsschnittstelle zwischen
Mensch und Computer vorgestellt und diskutiert. Diese Betrachtung bietet einen groben
Überblick über ein stark umforschtes, aber noch relativ diffiziles Gebiet der künstlichen
Intelligenz. Theoriegeleitete Hypothesen für die Empirie im zweiten Teil sind deshalb nur
bedingt zu erwarten.
4.1 Multimodalität – eine Einführung am Beispiel der
Embassi-Anwendungen (Elektronische Multimodale
Bedien- und Service- ASSIstenz)
Multimodale Systeme können natürliche Eingabeformen wie Sprache, Gestik, Blick-
bewegungen etc. mit multimodalen Ausgabemöglichkeiten kombinieren. Sie ermöglichen
es dem Nutzer, abhängig von der jeweiligen Intention, die passende Modalität für die
Interaktion mit dem vorhandenen technischen System zu nutzen. [OVIATT99]
Die nachfolgende Abbildung 1 stellt die technischen Komponenten eines multimodalen
Interfaces dar.
Abbildung 1 - Multimodales Interface
!"#$%&'()*+(
,-.%/0'1(23+'+(
Ausgabe von(4565(
2'781(9.%:;<(
Ausgabe von
Vibration, Kraft
='$;#8.;'."+$()*+(
23+'+1(,-.%/0'(
='$;#8.;'."+$()*+(
9'#8;<1(>;?;<(
='$;#8.;'."+$()*+(
.%:81(!;&.%8;*+(
!"";8;)'#(#+8'.:%/'((
!;#"'$$'#(#+8'.:%/'(
%%-8;#/0'#(#+8'.:%/'(
&$:%<8*.;#/0'#(
#+8'.:%/'(
Theorien / Konzepte
8
Das System sollte in der Lage sein, aus dem Strom von Äußerungen mit Hilfe von
Spracherkennung, Gestenanalyse etc. das abstrakte Ziel des Nutzers zu rekonstruieren.
Ein wichtiges Szenario im Bereich Privathaushalt des Embassi-Projektes [EMBASSI01]
ist das „Wohnzimmerszenario“. Es soll eine Medienauswahl auf der Grundlage eines
Nutzerkonzepts realisiert werden. Der Nutzer äußert etwa „Ich will Nachrichten sehen /
den Film aufnehmen.“ und das erwartete Resultat wird durch das System komplett bis zur
Programmierung des Videorekorders realisiert. Innerhalb des Projektes wurden natürlich-
sprachliche In- und Outputmodalitäten entwickelt. Dabei werden Spracheingabe, eine
Vielzahl grafischer Navigations- und Hinweiswerkzeuge sowie Sprachsynthese und an-
thropomorphe Interfaceagenten auf der Ausgabeseite verwendet.
Die Vorteile multimodaler Interaktion liegen in einer flexibleren Handhabung tech-
nischer Systeme und in der gleichzeitigen Entlastung des Benutzers durch die Verteilung
der Informationsübertragung auf mehrere Sinne [HEDICKE02].
Konkret können Fehler in der Aufgabenbearbeitung bis zu 50% während multimodaler
Interaktion reduziert werden. Die Flexibilität von multimodalen Systemen zahlt sich
besonders in wechselnden Umgebungen oder bei Einschränkungen auf Grund von Behin-
derungen aus. In einer im Rahmen des Anwendungsbereiches „Öffentliche Terminal-
systeme“ des Embassi-Projektes mit 90 Personen durchgeführten Studie zur Ermittlung des
Unterstützungsbedarfs behinderter und nicht-behinderter Personen bei der Bedienung von
Automaten [ENGE00] stellte sich heraus, dass Sehbehinderte Sprachausgabe vor der
Ausgabe in Braille-Schrift oder in taktiler Form präferierten.
Mit dem Embassi-Anwendungsbereich Kraftfahrzeug sind spezielle Einschränkungen
verbunden, die sich durch die Fahrsituation ergeben. So soll etwa der Fahrer seine Augen
möglichst nicht von dem Verkehrsgeschehen abwenden und seine Hände am Steuerrad
behalten. Aus diesem Grund sind konventionelle Nutzerschnittstellen (Displays, Knöpfe,
Schieberegler etc.) in diesem Kontext nicht sonderlich geeignet. Daher müssen insbe-
sondere Sprachein- und -ausgabe eingesetzt werden.
Ein Mythos der Multimodalität [OVIATT99] besagt, dass Sprache die primäre
Modalität ist, sofern sie im multimodalen System enthalten ist..Im Folgenden wird deshalb
näher auf diese Modalität und ihre Bersonderheiten in der Mensch-Maschine-Kom-
munikation eingegangen.
Theorien / Konzepte
9
4.2 Sprachinteraktion zwischen Mensch und Maschine
In diesem Kapitel wird auf die einzelnen Bestandteile der Sprachinteraktion als
wichtiges Teilgebiet der in Kapitel 4.1 dargestellten multimodalen Interaktion zwischen
Mensch und Maschine eingegangen. Abbildung 2 zeigt die die Gliederung der Bestandteile
in einer Baumstruktur nach [VARY98].
Abbildung 2 - Sprachinteraktion zwischen Mensch und Maschine nach Vary et al. ,1998
4.2.1 Sprachkodierung
Die Sprachkodierung ist eine unerlässliche technische Voraussetzung für Sprach-
erkennung und Sprechererkennung. Das durch ein Mikrofon auf den Computer übertragene
akustische Signal wird durch Auswertung der durch die Lautfolge der Sprache ausgelösten
Luftdruckschwankungen mittels eines Analog/Digital-Wandlers in elektrische Impulse um-
gewandelt. [SUSEN99] Die entstandenen Frequenzbereiche müssen zur weiteren Daten-
bearbeitung beschnitten werden, um die Übermittlung, besonders im Telekom-
munikationsbereich, zu gewährleisten.
4.2.2 Spracherkennung
In der Spracherkennungskomponente wird versucht, die eingehende Sprachsequenz
meistens bis auf Wort- oder Phonemebene zu zerlegen. Ein Phonem ist die kleinste
eigenständige Einheit im akustischen System einer Sprache. Dann versucht man anhand
,-.%/0;+8'.%<8;*+(
4';#/0'+(>'+#/0("+"(
>%#/0;+'(
,-.%/0%"#$%&'(
(,-.%/0#)+80'#'*(
,-.%/0<*";'."+$(
,-.%/0'.<'++"+$( ,-.'/0'.'.<'++"+$(
,-.%/0)'.#8'0'+(
+;%$*$#)#8'?'(
Theorien / Konzepte
10
von vorher erhaltenen Sprachdaten das wahrscheinlichste Wort zu ermitteln. Eine Hilfe
dabei ist das Wissen der Menschen über die Häufigkeit beziehungsweise die
Auftretenswahrscheinlichkeit von Wörtern, Phonemen und anderen Einheiten sowie über
das mögliche und wahrscheinliche Aufeinanderfolgen dieser Einheiten beziehungsweise
die Übergangswahrscheinlichkeiten. Mit welchen Verfahren ist dies zu bewerkstelligen ?
Die etablierten psycholinguistischen Verfahren zur Anwendung dieser Wahrschein-
lichkeiten sind Hidden-Markov-Modelle und die in Kapitel 4.3.6 näher beschriebenen
dynamischen Bayessche Netze (DBN).
Hidden-Markov-Modelle (HMM) sind ein stochastischer Ansatz zur ASR (Automatic
Speech Recognition), der die ursprünglichen Methoden der dynamischen Programmierung
weiterentwickelt. HMM nutzen Informationen über die statistische Wahrscheinlichkeit
einzelner Phoneme und bestimmen das Ergebnis aus ganzen Sequenzen, was die Ge-
nauigkeit der Erkennung des einzelnen Phonems drastisch erhöht. Da die zugrunde-
liegenden Tabellen nicht fest verankert sind, können sie relativ leicht trainiert werden
[PICONE90].
Die Anwendung dynamischer Bayesscher Netze auf die Spracherkennung erweitert das
zugrundeliegende Konzept um die Anwendung zweier Wahrscheinlichkeitsparameter für
die Worterkennung. Zusätzlich zur normalen Bewertung phonetischer Sequenzen wird der
artikulatorische Ablauf zur Bestimmung herangezogen. Diese Adaption an unterschied-
liche Ausspracheformen ist auch mit klassischen HMM möglich, verursacht dort aber eine
wesentlich höhere Komplexität auf Grund der zusätzlichen, versteckten Knoten und der
daraus resultierenden Abfolgemöglichkeiten. Die Modellierung des artikulatorischen Kon-
textes in dynamischen Bayesschen Netzen hingegen hat nur eine Verdopplung des
Suchraumes zu Folge.
Im Vergleich zu herkömmlichen BN-Modellen erhöht sich die Erkennungsrate um 12
bis 29%. Die direkte Bedeutung der zusätzlichen Kontextinformation ist nicht klar abzu-
leiten. In einigen Fällen zeigt sich aber eine starke Korrelation mit der Aussprache der
Vokale [ZWEIG99].
4.2.3 Sprachverstehen
Hier verwendet man oft eine syntaktische und eine semantische Analyse, um den
strukturellen Aufbau der erkannten Wortkette (Satzbau) zu erhalten und daraus die Bedeu-
tung der einzelnen Wörter zu erkennen. Hierzu benötigt man ein Lexikon und eine
Theorien / Konzepte
11
Grammatik. Das Lexikon besteht in der Regel aus komplexen Strukturen, um alle
relevanten syntaktischen Charakteristiken eines Wortes zu beschreiben, zum Beispiel, ob
es sich um Singular oder Plural handelt oder welcher Tempus benutzt wird. Die
Grammatik besteht aus Regeln für Satz- und Phrasenstrukturen und gibt an, wie die Wörter
miteinander kombiniert werden können und welcher Schluss sich aus der jeweiligen
Kombination ziehen lässt [TUR02].
4.2.4 Sprachsynthese / Sprachausgabe
Die Konstruktion der auszugebenden Wortkette besteht aus zwei Punkten:
• Welche Information soll ausgegeben werden?
• Wie soll die Information strukturiert sein?
Dazu kann man einfache vorgefertigte Muster verwenden oder komplexe Methoden, die
natürliche Sprachgenerierungstechniken verwenden, wie zum Beispiel Text-To-Speech-
Systeme. [VARY98] Sie erlauben es, fließende Sprache mit unbegrenztem Vokabular
lediglich aus einem Satz sprachlicher Regeln über die Produktion von Phonemen zu
synthetisieren.
Die Sprachausgabe besteht aus symbolischer Verarbeitung, der Prosodiengenerierung
(Sprachmelodie) und der Signalgenerierung. In der symbolischen Verarbeitung wird zu-
nächst die Wortkette in Einheiten zerlegt und anschließend normalisiert, das heißt umge-
wandelt in eine Form, die später gesprochen werden kann. In der morphologischen
Analyse wird dann jedes Wort in Stamm und Endung zerlegt. In der grammatikalischen
Analyse werden Daten für die Betonung und der Satzfokus ermittelt. In der phonetischen
Zerlegung wird der Übergang von der Rechtsschrift zur Lautschrift durchgeführt. Die
Prosodiegenerierung erzeugt die individuelle Intensität, Grundfrequenz und Segmentdauer
eines einzelnen Abschnitts und die Signalgenerierung beinhaltet lediglich einen
Synthetisator, welcher die eingehenden Daten in eine akustische Ausgabe verwandelt.
4.2.5 Sprechererkennung
Hiermit wird die Identifikation oder Verifikation eines bestimmten Sprechers vorge-
nommen. Bestehende Sprachmuster der betreffenden Person werden nach sprachlichen
Charakteristika beschrieben, abgespeichert und eingehende Sprachsignale hinsichtlich ihrer
Charakteristika damit verglichen [RABINER95].
Theorien / Konzepte
12
4.2.6 Menschliche Sprachwahrnehmung versus maschinelle
Spracherkennung
Zunächst stellt sich die Frage, welches die grundlegenden Wahrnehmungseinheiten
sind: Phoneme, Wörter oder sonstige Einheiten wie zum Beispiel Silben. Gegen Wörter als
kleinste relevante Einheiten spricht, dass Menschen auch unbekannte Wörter und Neo-
logismen korrekt erkennen können. Es ist ebenfalls unwahrscheinlich, dass die Sprach-
wahrnehmung ausschließlich auf Phonemen beruht, da keine 1 : 1 Übereinstimmung
zwischen akustischen Signalen und erkannten Phonemen besteht: je nach Kontext wird
dasselbe Sprachsignal unterschiedlich interpretiert. Außerdem werden auch solche Pho-
neme als spontan richtig erkannt, die zum Beispiel wegen eines Störgeräusches gar nicht
hörbar waren, die sich aber aus dem vorausgehenden Kontext ergeben. Dies deutet darauf
hin, dass bei der Sprachwahrnehmung nicht isolierte Phoneme aneinandergereiht werden,
sondern dass von Anfang an auch höhere Verarbeitungsstufen beteiligt sind (Wort-
erkennung, syntaktische Analyse, semantische Analyse), die parallel ablaufen und deren
Ergebnisse berücksichtigt werden können.
Bei der Sprachwahrnehmung sind also bottom-up und top-down-Prozesse kombiniert.
Für die maschinelle Spracherkennung ergibt sich somit: Bezüglich der Wahrnehmungs-
einheiten kommen diejenigen Systeme den menschlichen Prozessen am nächsten, die auf
mehreren Ebenen arbeiten und sich nicht zum Beispiel auf den Mustervergleich ganzer
Wörter oder die Erkennung anhand akustischer Signale von Phonemen beschränken
[GREENBERG98].
4.2.7 Problemfelder der Spracherkennung
Es gibt einige Besonderheiten gesprochener Sprache, die bei der Gestaltung der
benutzerzentrierten Sprachinteraktion beachtet werden müssen. Der alineare Ablauf (Stot-
tern, Selbstkorrektur), Bestätigungsanfragen („Sind Sie sicher“) oder Feedback („Jaja,
kann ich verstehen“), prosodische und nicht-verbale Modulation der Sprache und Beein-
flussung wechselseitiger Kommunikation durch Unterbrechungen sind einige davon. Wie
in Abbildung 3 verdeutlicht, kommt es dadurch zu einer Störungen im
Kommunikationsprozess und eventuellen Fehlinterpretationen der Aussagen des
Kommunikationspartners. Im Folgenden wird auf einige dieser Phänomene und mögliche
Lösungsansätze in der maschinellen Spracherkennung näher eingegangen.
Theorien / Konzepte
13
Abbildung 3 - Kommunikation / technnisches Modell
4.2.7.1 Linguistische Unterschiede
Identische Phoneme können unterschiedlich akustisch realisiert werden. Daher funk-
tionieren Spracherkennungssysteme dann am besten, wenn sie von jedem Benutzer selbst
trainiert werden. Ist dies nicht möglich oder nicht erwünscht (sprecherunabhängige
Spracherkennung), so sollte das System von möglichst vielen Sprechern trainiert werden.
Als Muster wird dann ein Mittelwert gespeichert. Manche Systeme passen sich zusätzlich
während der Bedienung an den jeweiligen Benutzer an.
4.2.7.2 Individuelle Sprecherfaktoren
Die Form des Vokaltraktes, Alter, Geschlecht, regionale Zuordnung beeinflussen die
akustisch-phonetischen Parameter ebenso wie Müdigkeit und mentale Verfassung. Auch
muss auf Satzbau und Betonung der einzelnen Worte geachtet werden [DESHMUKH02].
Für Einzelplatzsysteme kann ein sprecherspezifisches Training des Sprachmodells die
Sicherheit so weit erhöhen, dass praktisch keine Fehler mehr auftreten. Weitere positive
Faktoren sind hier die Konstanz der Umgebung und die hohe Qualität der Eingangssignale
in Abhängigkeit des verwendeten Mikrophons. Dedizierte Headsets verbessern die
Erkennung so stark, dass sie bei den ersten Breitenanwendungen der bestimmende Faktor
für die Sicherheit waren. Auch bei Systemen, die auf einzelne Sprecher trainiert sind,
müssen aber weitere Faktoren, wie emotionaler Zustand und Hintergrundgeräusche,
berücksichtigt werden. Insbesondere im öffentlichen Bereich sind jedoch weder
sprecherabhängige Sprachmodelle noch aufwändige Headsets realisierbar. Verschärfende
Faktoren sind die stark variierenden Modulationen und die typisch gravierenderen
Nebengeräusche [YOON]. Auf diese unterschiedlichen Übertragungskanäle bezieht sich
der nächste Abschnitt.
Verstehen
Übersetzung
Empfangen
Störung
Idee
Übersetzung
Senden
Sender Empfänger
Theorien / Konzepte
14
4.2.7.3 Unterschiedliche Übertragungskanäle
Diese Einflüsse wirken sich primär auf die erste Stufe der Spracherkennung, die
Identifikation einzelner Phoneme aus. Dabei wirken im wesentlichen drei Faktoren:
• Statische Hintergrundgeräusche (Rauschen, Umgebung) können Teile des Sprach-
signals überdecken
• Akustische Einzelereignisse, die nicht der Sprache zuzuordnen sind
• Begrenzung und Verfälschung der eingehenden Audiodaten durch den Über-
tragungskanal (Grenzfrequenzen insbesondere bei Mobiltelefonen, Artefakte bei
psychoakustischer Kompression)
Diesen Faktoren wird mit unterschiedlichen Verfahren begegnet. Zur Kompensation
statischer Störfaktoren werden Spracherkennungssysteme manchmal mit Störvermin-
derungssystemen kombiniert. [FELLBAUM91] J. Droppo et. al. [DROPPO02] haben ein
Verfahren entwickelt, das die Isolation der Nutzinformation deutlich verbessert.
Verfälschende Einzelereignisse beeinträchtigen meist nur die Erkennung einzelner
Phoneme. Die Heranziehung linguistischer Kontextinformationen in den in Kapitel 4.2.2
erläuterten hierarchischen HMM und dynamischen Bayesschen Netzen kann diese Fehler
deutlich minimieren.
Die dritte Störform ist stark applikationsabhängig und wird durch entsprechende
Kalibrierung der Aufnahmetechnik oder spezifische Modellierung des Übertragungskanals
ausgeglichen [BLOMBERG94].
4.2.7.4 Unflüssige Sprechweise:
Unflüssigkeiten wie Selbstkorrektur, Fehlstarts, spontane Wiederholungen und Füll-
silben beziehungsweise -wörter stellen eine große Hürde für sprachgesteuerte Systeme dar.
Es wird bisher noch nach zuverlässigen Möglichkeiten gesucht, sie anhand von
prosodischen, syntaktischen oder semantischen Mustern zu erkennen. Tabelle 1
verdeutlicht, wie oft solche Fehler im Mensch-Mensch-Dialog im Gegensatz zum Mensch-
Maschine-Dialog vorkommen.
Theorien / Konzepte
15
Mensch-Mensch-Dialog
2-Personen-Telefonat 8,83
3-Personen-Telefonat 6,25
2-Personen-Gespräch 5,50
Monolog 3,60
Mensch-Maschine-Dialog
Unbeschränkter Dialog 1,74-2,14
Strukturierter Dialog 0,78-1,70
Tabelle 1 - Fehlerhäufigkeiten pro 100 Wörter
4.2.7.5 Lange Sätze = Fehler?
Komplizierte und lange Satzkonstruktionen sind sehr fehleranfällig. Sätze mit ein bis
sechs Wörtern bergen 0,66 Fehler und Sätze mit sieben bis 18 Wörtern 2,81 Fehler. Man
könnte mit der Frage schon eine kurze Antwort implizieren und damit die Fehler um 30 bis
40 Prozent reduzieren. Forschung im Auftrag von Telefongesellschaften hat dies gezeigt.
Systeme können durch die Art und Weise, in der Anfragen an den Benutzer gestellt
werden, beeinflussen, in welcher Weise er antworten wird (offene, kurze Antworten
werden unterstützt). [OVIATT95]
4.2.7.6 Hyperartikulation
Hyperartikulation ist der Versuch des Benutzers, betont deutlich zu sprechen, um dem
System die Spracherkennung zu erleichtern [FISCHER99]. Sie tritt meistens auf, nachdem
das System signalisiert hat, dass es eine Eingabe nicht verstanden hat. Dadurch werden
weitere Fehler provoziert (Spiral Errors) und die Frustrationsgefahr steigt [KARAT99]. In
der Praxis führt das oft dazu, dass ein Benutzer die Arbeit abbricht.
Bekannte Kompensationsverfahren sind die Anpassung der Frequenzebene, die breite
Modellierung der Vokale in den Referenzdaten und die Nutzung spezieller Erkennungs-
modelle bei Hyperartikulation [OVIATT89], [SOLTAU98].
Versuche haben gezeigt, dass Hyperartikulation meist eine direkte Erhöhung der
Sprechfrequenz und Variation der Sprachmelodie zur Folge hat. Dies kann zum einen
durch entsprechende Anpassung der Eingangsfilter an Tonhöhe und Lautstärke ausge-
glichen werden. Zum anderen erleichtert es vor allem die Erkennung von Hyper-
artikulation, da sich die üblichen Frequenzmuster stark verändern.
Theorien / Konzepte
16
Die gleichen Versuche haben auch eine deutliche Veränderung im Zeitverhalten der
Sprecher ergeben. Im Durchschnitt stieg die Dauer einer Sprachprobe bei Hyperarti-
kulation um 20% an. Diese Erhöhung tritt jedoch nicht gleichmäßig auf, sondern wird
besonders bei stimmhaften Konsonanten und Zischlauten sichtbar.
Mittels Erkennung von Hyperartikulation, Modellierung der veränderten Sprachform
und Einbeziehung spezifischer Basisdaten kann der jeweils wahrscheinlichste Fall ermittelt
und verfolgt werden. Allein diese Maßnahmen erhöhen die Erkennungsrate um zwei bis
fünf Prozent [SOLTAU00].
4.2.8 Verbesserung der Spracherkennung durch Multimodalität
und eingegrenztes Vokabular
Die Anwendung der Spracherkennung bestimmt, welche Störfaktoren einzubeziehen
sind und mit welchen Methoden die Erkennungsrate erhöht werden kann. Sind die oben
erläuterten Verfahren nicht ausreichend, sind korrigierende Benutzereingriffe über andere
Eingabemodi erforderlich. Es ist nämlich sehr natürlich, nach einer fehlgeschlagenen
Eingabe das Medium zu wechseln und zwar dreimal mehr als sonst. Benutzer erfassen
recht schnell, welche Eingabemethode am einfachsten ist. Walker [WALKER89] und
Cohen [COHEN89] schlagen deshalb vor, die Anwendung natürlicher Sprache mit
grafischen Interfaces zu kombinieren. Gerade im Zusammenspiel mit anderen Ein- und
Ausgabekanälen kann durch zusätzliche kontextabhängige Eingrenzung des Vokabulars
die Spracherkennung deutlich verbessert werden. Dazu müssen verschiedene Formen der
Sprachgestaltung abgewogen werden. Grundsätzlich kann zwischen freien, natürlichen und
künstlichen, restriktiven Sprachen unterschieden werden. Letztere erfordern eine
Einlernphase beim Benutzer oder sehr klare und eindeutige Benutzerführung durch andere
Interfaceelemente [TENNANT83]. Trotzdem zeigen sich domänenspezifische künstliche
Sprachen als deutlich robuster und effizienter, wobei Variationen und Redundanz in
Vokabular und Syntax sogar die Nutzerakzeptanz erhöhen können. Es bleibt also offen, ob
der Nutzer die natürliche oder künstliche Sprachen präferiert. Es kommt anscheinend auf
die Qualität der Erkennung, den Kontext der Anwendung und die noch vorhandenen
Modalitäten an.
Theorien / Konzepte
17
4.3 Die Gestaltung der intelligenten Benutzungsschnittstelle
durch adaptive Dialogsysteme
Im letzten Abschnitt wurde Sprachinteraktion als wichtiger Teil eines multimodalen
Interfaces behandelt. Wie bereits erwähnt, dient Multimodalität dazu, die für das Ziel des
Nutzers passende Interaktionsform zu wählen. Im Gegensatz zu einer funktionsbasierten
Interaktion, bei der das Vokabular durch das System definiert wird, führt eine zielbasierte
Interaktion in natürlicher Weise zu einer konversationalen Schnittstelle, da es für das
System in bestimmten Fällen notwendig werden kann, für die präzise Bestimmung des
Ziels fehlende Informationen beim Nutzer nachzufragen. Um konversationale Interaktion
zu unterstützen, bedient sich das System auch non-verbaler Interaktionstechniken (z. B.
Gestik, Mimik), die zum Beispiel durch anthropomorphe Interfaceagenten, auf die im
Kapitel 4.4 näher eingegangen wird, realisiert werden können. In diesem Kapitel geht es
zunächst um die Konzepte, die der adaptiven Dialoggestaltung zwischen Mensch und
Maschine zugrunde liegen.
4.3.1 Die vier Seiten einer Nachricht
Menschen nehmen nicht nur das gesprochene Wort, sondern viele Ebenen eines
Dialoges wahr. Dazu gehören beispielsweise der Tonfall, die Schnelligkeit des Sprechens,
Pausen, Lachen, Seufzen und nonverbale Kommunikation wie Körperhaltung oder Aus-
drucksbewegungen. „Man kann nicht nicht kommunizieren“, wie schon Paul Watzlawik
treffend bemerkte. Schulz von Thun [SCHULZ00] formulierte die in Abbildung 4
dargestellten vier Seiten einer Nachricht: Sachinhalt („Worüber möchte ich informieren“),
Selbstoffenbarung („Was ich von mir selbst kundgebe“), Beziehungsaspekt („Was ich von
dir halte und wie wir zueinander stehen.“).
Abbildung 4 - Kommunikation nach Schulz von Thun
,'+"'.( ,%/0.;/08( -?-:.+$'.(
,%/0;+0%$8(
6'4;'0"+$(
!--'$$(
,'$&#8*::'+/
&%0."+$(
Theorien / Konzepte
18
Die Forschung in der künstlichen Intelligenz hat sich lange Zeit nur mit dem Erkennen
des Sachinhaltes befasst. Erst neuere Projekte - wie zum Beispiel adaptive Dialogsysteme
und intelligente Benutzeroberflächen - richten ihr Augenmerk auch auf die anderen Ebenen
der Kommunikation.
4.3.2 Benutzermodellierung
Es gibt zwei Arten von Modellen, die bei der Mensch-Computer-Kommunikation eine
Rolle spielen:
Mentales Modell/ Benutzermodell: Dieses Modell bildet der Benutzer bewußt oder
unbewußt über den Aufgabenbereich und das Computersystem.
Systemmodell/ Anwendungsmodell: Das ist ein Modell über den Anwendungsbereich
seitens eines Computersystems.
Die Voraussetzung mentaler Modelle ist das gemeinsame Wissen beider Kom-
munikationspartner. Die Aufgabe des Interfaces ist es, das mentale Modell des Benutzers
wiederzugeben und sich auf den Benutzer einzustellen.
Die Entwicklung von intelligenten Benutzungsschnittstellen erfordert also eine explizite
Modellierung des Benutzers (user modelling). Das bedeutet, das System sollte die Fähig-
keiten (abilities), die Ziele (goals), das Wissen (knowledge beziehungsweise beliefs) sowie
den emotionalen Zustand des Benutzers erkennen und in geeigneter Weise modellieren.
[RICH89] Üblicherweise spricht man beim Wissen eher von „beliefs“ als von „know-
ledge“, da der Begriff impliziert, dass die Ansichten des Benutzer auch durchaus falsch
sein können.
Das Erkennen des emotionalen Zustandes ist wichtig, um beispielsweise zu erkennen,
wann der Benutzer gelangweilt, über- oder unterfordert oder schlicht gestresst ist. Das Ziel
einer intelligenten Benutzeroberfläche soll es sein, sich den aktuellen Bedürfnissen des
Nutzers optimal anzupassen, also zum Beispiel im richtigen Moment Hilfestellungen
anzubieten. Ebenso sollte es je nach Vorwissen des Benutzers knappe oder ausführliche
Anweisungen geben und somit der Mensch-Mensch-Kommunikation näher kommen.
4.3.3 Überblick zu bestehenden Belief-Desire-Intention-
Verfahren für die Benutzermodellierung
Bestehende BDI-Verfahren (Belief, Desire, Intention) modellieren den Nutzer auf den
bereits oben genannten Ebenen. Die erste Ebene „Belief“ repräsentiert das vermutliche
Theorien / Konzepte
19
Wissen des Anwenders bezüglich der Problemdomäne. Üblicherweise teilt der Nutzer sein
Wissen nicht direkt mit, es muss indirekt aus der Interaktion geschlossen werden.
[KOBSA90]. Basierend auf sinnvollen Vorgaben für verschiedene Stereotypen, auf die im
Kapitel 4.3.5 näher eingegangen wird, kann dieses Bild im Laufe der Interaktion weiter
verfeinert werden.
Die konzeptionelle Trennung der beiden Elemente „Desire“ und „Intention“ trägt der
Tatsache Rechnung, dass der Nutzer zwar genaue Vorstellungen über das gewünschte
Vorgehen haben kann, diese aber nicht zwingend für sein tatsächliches Ziel sinnvoll sind.
Im günstigsten Fall erweitert die Interaktion die Wissensbasis des Nutzers und unterstützt
ihn bei der Annäherung seiner kurzfristigen Absichten an seine realen Ziele. Horvitz und
Paek [HORVITZ01] gehen speziell auf die gezielte Beeinflussung des Nutzers ein und
analysieren die akustische Charakteristik aufgenommener Sprache in Hinblick auf
Zustimmung, Ablehnung und Reflektion.
Für die Pflege des Nutzermodells gibt es verschiedene Techniken, die auch kombiniert
werden können. Das gebräuchlichste Verfahren ist das ständige Abgleichen des internen
Modells auf Grund der direkten Handlungen und Eingaben. Dies hat den Vorteil, dass
Fehlschlüsse des Systems nur begrenzte Auswirkungen haben, es kann abstraktere Ziele
aber nur schwer abbilden.
Ein anderes Verfahren, das Allen et al. verfolgten [ALLEN80], schließt hingegen
unwahrscheinliche Modellierungen aus und verbessert so die Interpretation der Nutzer-
absichten. Rich leitet ein abstraktes Persönlichkeitsprofil aus den Aktionen des Nutzers ab.
Dies bietet zwar ein stabileres Modell, hat aber gleichzeitig auch den Nachteil, kaum
dynamisch auf offensichtliche Fehlbeurteilungen reagieren zu können. [RICH89]
4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der
Dialoggestaltung
Wie oben erwähnt,müssen nicht nur die Ebenen „Belief“, „Desire“ und „Intention“
sondern auch die je nach Situation vorhanden Ressourcen des Dialogpartners bei der
Gestaltung der Schnittstelle berücksichtigt werden. Wie kann eine Überlastung des
Dialogpartners zustande kommen? Die Kapazität des menschlichen Arbeitsgedächtnisses
ist begrenzt.
Theorien / Konzepte
20
Extern gewonnene Informationen werden in „drei Stufen“ verarbeitet [ATKINSON68]:
• Aufnahme in das Arbeitsgedächtnis („Kurzzeitgedächtnis“)
• Abgleich mit langfristig gespeicherten Strukturen
• Integration in die langfristig gespeicherten Strukturen
Das Arbeitsgedächtnis ist der aktive Teil des menschlichen Gedächtnisses
[EYSENCK94] und limitiert auf durchschnittlich 7 ± 2 voneinander unabhängige seman-
tische Einheiten (chunks). Diese magische Zahl hat sich bis heute gehalten, wird aber
differenziert betrachtet. [SHIFFRIN94]
Diese Limitierung muss bei der Dialoggestaltung beachtet werden, um eine
Informationsüberflutung zu vermeiden. Belastung oder Nebenbeschäftigungen können
diese Kapazität noch weiter einschränken. Mit anderen Worten: ein Benutzer, der eine
komplizierte Aufgabe lösen muss oder ein Dialogpartner, der sich einer schwierigen
Situation gegenüber sieht, ist weniger aufnahmefähig als üblich. Das System muss diesen
Umstand erkennen und sich dem anpassen, zum Beispiel, indem es langsamer
kommuniziert, einfachere Satzkonstruktionen benutzt, knappere Anweisungen gibt, mehr
Pausen macht oder Ähnliches.
Es können viele Aspekte des Sprechens auf die Arbeitsgedächtnisbelastung des
Dialogpartners hindeuten. In einer explorativen Studie von Schäfer und Weyrath 1996
[SCHÄFER96] wurde als Domäne eine Feuerwehrnotrufzentrale (FNZ) gewählt. Elf
Mitarbeiter der FNZ, die regelmäßig Notrufe entgegennehmen, dienten dabei als
Versuchspersonen, da sie besonders viel Erfahrung im Umgang mit solchen Ressourcen-
beschränkungen haben. Notrufe werden nämlich meist in großer Eile geführt. Die
wenigsten Anrufer bereiten sich auf das Gespräch vor. Daher ist mit einem hohen Grad an
Spontansprache zu rechnen. Da die Anrufer zusätzlich durch die Vorfälle, die um sie
herum passieren, abgelenkt sind, können selbst einfache Fragen hohe Anforderungen an
das Arbeitsgedächtnis des Anrufers stellen. Aufregung, Ablenkung, Geschwindigkeit und
Qualität der Antwort zeigten sich hier als Ursachen und Folgen von Arbeitsge-
dächtnisbelastung.
Ein wichtiger Aspekt der ressourcenadaptiven Dialogführung zwischen Mensch und
System ist also die richtige Auswahl von Äußerungen und damit verbunden die richtige
Einschätzung der Anforderungen, die die Äußerung an das Arbeitsgedächtnis des
Dialogpartners stellt. Aber oft ist es nicht möglich, sich ein vollständiges Bild über die
Theorien / Konzepte
21
Situation zu machen, in der sich der Dialogpartner befindet. Neue Informationen, die von
der getroffenen Einschätzung abweichen, führen zu einer Veränderung des Bildes über die
Arbeitsgedächtnisbelastung des Dialogpartners. Die Einschätzungen und Schluss-
folgerungen, die das Dialogsystem dazu ziehen muss, sind also unsicher und
zeitveränderlich. Eine Technik der Benutzermodellierung sollte also idealer Weise mit
unsicherem und zeitveränderlichem Wissen umgehen und auf dieser Basis Schluss-
folgerungen ziehen können. Wie wird das nun realisiert? Welche Prinzipien aus der
Mensch-zu-Mensch-Kommunikation machen sie sich zunutze? Im Folgenden werden die
Ansätze der Stereotypen und der Bayesschen Netze vorgestellt.
4.3.5 Stereotypen
Menschen neigen dazu, Gesprächspartner auf Grund weniger Wahrnehmungen und
Informationen zu kategorisieren. Stereotypen dienen hier als soziale Schemata. Eine ähn-
liche Technik kann man sich auch für künstlich intelligente Dialogsysteme zu Nutze
machen. [RICH89]
Es geht dabei um die leichtere Identifikation von häufig vorkommenden Eigenschaften
und die Übernahme gewohnheitsmäßiger Handlungen der Nutzer. Ein Stereotyp ist eine
Sammlung von Eigenschaften, die unter einem gemeinsamen Namen zusammengefasst
sind.
Stereotypen lassen sich hierarchisch in einer Baumstruktur ordnen. Die Wurzel des
Baumes der allgemeinste Stereotyp, über den relativ wenig bekannt ist. Jeder Knoten des
Baumes kann eine beliebige Anzahl von Kindknoten haben. Die Kindknoten erben die
Eigenschaften des Elternknotens, können sie jedoch erweitern und verfeinern. Die
Kindknoten bilden dadurch Unterklassen der übergeordneten Stereotypen.
Beispielsweise könnte man den allgemeinsten Stereotypen „Mensch“ in die Kindknoten
„männlich“ und „weiblich“ unterteilen. Den Männern schreiben wir die Eigenschaften
„guckt gern Fußball“ und „trinkt gern Bier“ zu. Frauen hingegen „gehen gern ins Ballet“
und „trinken gern Wein“.
Auf Grund seiner Wahrnehmungen über den Dialogpartner kann das System denjenigen
Stereotypen ermitteln, auf den diese Wahrnehmungen am besten zutreffen. Alle Eigen-
schaften dieses Stereotypen werden dem Partner zugeschrieben. Wenn das System
beispielsweise erfährt, dass der Dialogpartner gern Fußball sieht, kann es die Schluss-
Theorien / Konzepte
22
folgerung ziehen, dass es sich um einen Mann handelt und er dann wohl auch gern Bier
trinkt.
Selbstverständlich muss das System mit jeder neu gewonnenen Information seine
bisherige Kategorisierung des Partners neu bewerten und gegebenenfalls einen anderen
Stereotypen als Modell wählen, so wie wir bei unseren Gesprächspartnern immer neue
Informationen sammeln und gegebenenfalls unsere Meinung revidieren.
Dabei können auch Konflikte auftreten - beispielsweise könnte man an eine Person
geraten, die gern Fußball schaut und gern Wein trinkt beziehungsweise nicht gern Bier
trinkt.
Solche Konflikte müssen vom System aufgelöst werden. Üblicherweise wird zu jeder
dem Nutzer zugeschriebenen Eigenschaft ein Confidence-Wert ermittelt und gespeichert,
der angibt, wie sicher sich das System ist, dass diese Eigenschaft tatsächlich zutrifft. Auf
diese Weise lassen sich mit relativ wenigen Informationen brauchbare Schlussfolgerungen
über das Gegenüber ziehen. Genau diese Eigenschaft ist der größte Vorteil dieses An-
satzes. Ein Nachteil ist, dass die Kategorisierung unter Umständen von außen schlecht
nachvollziehbar ist.
Ein bekanntes Beispiel ist das stereotypbasierte Bibliotheksauskunftssystem Grundy
von [RICH79, RICH89]. Grundy ist ein Dialogsystem, das ein Beratungsgespräch in einer
Bibliothek simuliert. Grundy übernimmt dabei die Rolle eines Bibliothekars, der dem Be-
nutzer bei der Auswahl seiner Lektüre behilflich ist. Um zu entscheiden, welche Bücher
der Benutzer gerne liest, verwendet Grundy stereotypisches Wissen über den Benutzer, das
im Laufe eines Dialogs zu einem individuellen Benutzermodell verfeinert wird.
Der dargestellte Stereotypenansatz könnte auch gut in der sprachcomputerbasierten
Anrufbeantwortung und -weiterleitung etwa bei der Pannenhilfe genutzt werden. Wenn
zum Beispiel jemand laut atmet oder stöhnt (Bedingung a) und schnell oder abgehackt
spricht (Bedingung b) ist zu schlussfolgern, dass eine schnelle Handlung beziehungsweise
Weiterleitung des Anrufes an die entsprechende Stelle UND die Beruhigung des Anrufers
erforderlich ist. Der Sprachcomputer könnte die Eckdaten erfragen (wie bei anderen
Anliegen auch) UND etwas Beruhigendes antworten („Es wird so schnell wie möglich
jemand bei Ihnen sein. Bitte bleiben Sie ruhig!“), damit sich der Anrufer verstanden und
betreut fühlt. Natürlich sind hierbei wie oben bereits erwähnt Fehlinterpretationen möglich.
Theorien / Konzepte
23
Deshalb wäre es zum Beispiel ethisch bedenklich, einen Sprachcomputer in der Feuer-
wehrnotrufzentrale einzusetzen.
4.3.6 Bayessche Netze
Eine weitere Technik der Benutzernodellierung, die schon im den Kapiteln 4.2 und 4.3
kurz vorgestellt wurde, sind die Bayesschen Netze. Sie beruhen auf dem Satz von Bayes,
der Aussagen über die Wahrscheinlichkeiten voneinander abhängiger Ereignisse trifft.
Bayessche Netze sind gerichtete, azyklische Graphen. Jeder Knoten des Graphen entspricht
einem Ereignis. Eine Kante von A nach B bedeutet, dass Ereignis B (zum Beispiel Alarm)
von Ereignis A (zum Beispiel Einbruch) abhängig ist. Für Ereignisse, die keine
Vorgängerknoten im Netz, das heißt, keine eingehenden Kanten, haben, sind sogenannte a
- priori - Wahrscheinlichkeiten gegeben. Das Ereignis tritt mit einer bestimmten Wahr-
scheinlichkeit ein und ist von allen anderen Ereignissen unabhängig. Für abhängige Ereig-
nisse (solche mit Vorgängerknoten) ist eine Wahrscheinlichkeitsmatrix gegeben, die die
Wahrscheinlichkeit des Eintretens in Abhängigkeit vom Eintreten der Vorgängerereignisse
beschreibt. [CHARNIAK91] In Abbildung 5 sieht man die einzelnen Wahrscheinlichkeiten
für das Auftreten der beiden Ereignisse „Einbruch“ und „Alarm“ in wechselseitiger
Abhängigkeit.
Abbildung 5 - Bayessche Netze / Wahrscheinlichkeiten
Inwiefern ist das nun für die Benutzermodellierung relevant ? Durch die Vorhersage der
Wahrscheinlichkeiten können Annahmen über Benutzereigenschaften formuliert werden,
die für die Interaktion mit dem Anwender nützlich sind. Nach erfolgter Evidenz durch
• Azyklischer, gerichteter Graph
• P(Einbruch|Alarm) = 0,00095
Einbruch Pa priori = 0,001 Alarm
Einbruch Kein
0,010,95Alarm
0,990,05Kein Alarm
Theorien / Konzepte
24
beobachtete Symptome werden die Einschätzungen der Knoten entsprechend der
vorliegenden Situation angepasst. Ein Beispiel dafür ist Dialogsystem PRACMA.
[JAMESON95] Es modelliert bewertungsorientierte Dialoge am Beispiel von
Verkaufsgesprächen. Die Domäne ist der Gebrauchtautomarkt. Dabei wird von einer nicht
ausschließlich kooperativen Dialogsituation ausgegangen: Der Käufer möchte dem
Verkäufer möglichst detaillierte Informationen entlocken und das Auto zu einem möglichst
geringen Preis erwerben. Der Verkäufer möchte negative Fakten über das Auto
verschweigen und das Auto dem Kaufinteressenten möglichst positiv darbieten. PRACMA
kann jeweils eine der Dialogrollen (Käufer/Verkäufer) übernehmen.
In der bisher betrachteten Form sind Bayessche Netze nur für die Modellierung nicht-
zeitabhängigen Wissens geeignet. Eine Erweiterung dieses Konzeptes, die so genannten
dynamischen Bayesschen Netze, erlaubt genau das. [DAGUM92, GHARAMANI98]
Dynamische Bayessche Netze teilen den zu modellierenden Zeitraum in Zeitscheiben
von endlicher Dauer ein, diskretisieren also den kontinuierlichen Zeitverlauf. Es wird nun
zwischen drei Arten von Knoten unterschieden: statische Knoten sind zeitunabhängig und
existieren außerhalb der Zeitscheiben. Somit sind die bisher betrachteten Netze ein Spe-
zialfall der dynamischen Bayesschen Netze, wobei alle Knoten statisch sind. Temporäre
Knoten existieren nur in einer einzigen Zeitscheibe, typischerweise sind das Knoten von
Beobachtungen. Die zu modellierende zeitveränderliche Eigenschaft wird durch dyna-
mische Knoten dargestellt. Das sind Knoten, die in jeder Zeitscheibe existieren und über
die Zeitscheiben hinweg miteinander verknüpft sind. Die Wahrscheinlichkeit der Eigen-
schaft in einer Zeitscheibe ist dadurch immer abhängig von ihrer Wahrscheinlichkeit in der
letzten Zeitscheibe.
Bayessche Netze sind also in der Lage, unsicheres und zeitabhängiges Wissen
darzustellen und daraus Schlüsse zu ziehen. Sie sind durch Computer verhältnismäßig
leicht und effizient berechenbar. Der größte Nachteil ist, dass das Netz als solches – in-
klusive der Wahrscheinlichkeitsmatrizen - von einem Menschen modelliert werden muss.
Die Qualität dieser Modellierung ist wesentlich für die Qualität der Vorhersagen.
Wofür werden nun die Bayesschen Netze in der Mensch-Computer-Kommunikation
noch angewendet ? Wie wir weiter oben gesehen haben, sind sie einerseits wichtig für die
Modellierung der Sprachinteraktion. Des Weiteren funktionieren viele Agenten, auf die im
nächsten Kapitel näher eingegangen wird, auf der Basis von Bayesschen Netzen.
Theorien / Konzepte
25
Das multimodale Präsentationssystem PPP benutzt Bayessche Netze in seiner
Benutzermodellierungskomponente PEDRO um die Verständlichkeit der Präsentation
technischer Anleitungen vorherzusagen. [MULKEN96], Auf diesen Versuch wird später
eingegangen.
Ein weiteres Beispiel ist das Lumiere-Projekt [HORVITZ98]. In diesem Projekt wird
ein Assistent entwickelt, der den Benutzer bei der Benutzung seiner Software unterstützt.
Der Prototyp dieses Assistenten dient als Basis für den Office Assistent im Microsoft
Office Paket.
Abbildung 6 - Agent im Microsoft Office : Karl Klammer
Der MS-Office-Assistent versucht, aus dem Verhalten des Benutzers dessen Absichten
zu schlussfolgern und bei Bedarf Hilfe anzubieten. Beim Benutzer wird dadurch der
Eindruck erweckt, dass der Agent „mitdenkt“. Der Prototyp verwendete dazu die beschrie-
benen Bayesschen Netze. Für die Verkaufsversion wurden die Bayesschen Netze durch
einen zwar einfacheren, aber ähnlichen Algorithmus ersetzt. [ECONO01]
Im Folgenden wird näher auf den Agentenbegriff eingegangen und verschiedene
Studien zur Gestaltung von solchen Agenten als Teil einer intelligenten Benutzungs-
schnittstelle vorgestellt.
Theorien / Konzepte
26
4.4 Interfaceagenten als multimodale Benutzungsschnittstelle
Der Begriff des „Agenten“ ist facettenreich. Speziell ein Software- oder Interfaceagent
bezeichnet in der Regel ein Programm, dessen Funktion als das eigenständige Erledigen
von Aufträgen oder Verfolgen von Zielen in Interaktion mit einer Umwelt beschrieben
werden kann. Interface-Agenten fungieren als Bindeglied in der Mensch-Computer-Inter-
aktion. Dazu müssen Agenten Fähigkeiten der Wahrnehmung, des Handelns und der
Kommunikation miteinander verbinden und, bezogen auf eine zu erfüllende Aufgabe,
situationsangemessen ein- und umsetzen können. Technisches System und Interface-
Agenten verbinden sich dabei zu einem teilautonomen System (siehe Abbildung 7),
welches Anteile seiner Funktion unabhängig von direkter Steuerung durch Benutzer
erbringen kann („indirektes Management“).
Abbildung 7 - Agenten als Bindeglied in der Mensch-Maschine-Kommunikation (Wachsmuth)
Wie sollten solche Agenten beschaffen sein, damit der Benutzer sie akzeptiert und
entsprechend mit ihnen interagiert?
4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum
Anthropomorphismus in der Mensch-Computer-
Interaktion
Bereits im Jahre 1950 schlug Alan M. Turing [TURING50] seinen viel diskutierten Test
vor. Es ist dabei die Aufgabe der Versuchsperson, die sich in einem seperaten Raum
aufhält, anhand eines textbasierten Frage-Antwort-Spiels festzustellen, bei welchem ihrer
Gesprächspartner es sich um eine Frau handelt. Die Aufgabe der männlichen Versuchs-
person ist es, die Versuchsperson zu täuschen, indem sie vorgibt, eine Frau zu sein. In
einer zweiten Phase wird die weibliche Gesprächspartnerin gegen eine Maschine
ausgetauscht und das Spiel wiederholt. Wenn sich der Fragesteller nun ebenso oft falsch
Interface-
agenten
Technisches
System
Mensch
Teilautonomes System
Theorien / Konzepte
27
entscheidet, wie in der ersten Phase des Tests, kann der Maschine Intelligenz zugesprochen
werden. Im Jahre 1966 entwarf Josef Weizenbaum [WEIZENBAUM66] ein Computer-
programm, das eine therapeutische „Unterhaltung“ lediglich durch Wiederholung von
Schlüsselwörtern führen konnte. Die Personen, die sich mit Eliza unterhielten, stellten eine
emotionale Beziehung zum Computer her und wiesen ihm menschliche Eigenschaften zu.
Weizenbaum formulierte daraus, dass das Vorhandensein von menschlichen Eigenschaften
bei Schnittstellen einen nicht unwesentlichen Einfluss auf das Verhalten des Benutzers hat.
Es geht also darum, die Schnittstelle so anthropomorph wie möglich zu gestalten. Unter
Anthropomorphismus versteht man die Übertragung von menschlichen Eigenschaften auf
Nichtmenschliches. [BROCKHAUS] Im Folgenden werden einige Studien zum
Anthropomorphismus von Mensch-Computer-Schnittstellen in Form von Agenten
vorgestellt.
4.4.2 Agenten als Avatare
Agenten können Avatare sein. In der Mythologie sind Avatare wiedergeborene Wesen,
die auf die Erde herabsteigen, um die bedrohte Weltordnung zu schützen. Als Avatare
bezeichnet man heute virtuelle Figuren, die meist einem Menschen (anthropomorph) oder
einfach einem bestimmten Körper (embodied) nachgebildet sind und sich dabei so
„natürlich“ wie möglich bewegen. Der Begriff ist nicht ganz klar definiert. Avatare können
nämlich auch virtuelle Repräsentanten von real existierenden Personen im 3D- Raum,
meist in einer verteilten Umgebung, sogenannten Communities, sein. Dabei können sie
entweder „eigenständig“ agieren und untereinander in Interaktion treten oder aber vom
Benutzer gesteuert werden [HOFBAUER00, FOLDOC]. Im Weiteren wird die
Verwendung des Begriffes „Avatar“ auf einen anthropomorphen Agenten bezogen.
4.4.3 Erwartungen an Agenten
Das Erscheinungsbild solcher Agenten reicht von einfachen cartoonartigen 2D-Figuren
bis hin zu animierten Agenten, die auf komplexen 3D-Modellen basieren und im Ansatz
kaum noch von Aufnahmen realer Personen (oder anderen realen Lebewesen) zu unter-
scheiden sind. In der Anwendung dienen solche Agenten zum Beispiel als Führer durch
virtuelle Welten oder sie demonstrieren Handlungsabläufe einer Gerätereparatur. Im
Bereich Lernsoftware übernehmen sie die Rolle virtueller Tutoren, erklären Sachverhalte,
erteilen auf Nachfragen Auskunft oder stellen selbst Fragen an den Schüler.
Theorien / Konzepte
28
Die Realisierung animierter Figuren ist nicht nur eine Herausforderung aus Sicht der
Computergrafik und -animation, sondern auch im Hinblick auf die glaubwürdige Ver-
haltensausstattung. Hier werden unter anderem folgende Anforderungen diskutiert: Model-
lierung von Persönlichkeit, Integration von Emotionsmodellen, Koordinierung unterschied-
licher Ausdrucksmittel wie Gesichtsausdrücke, Körpergesten und gesprochene Sprache.
Die Erwartungen an Agenten sind hoch. Durch höheren Unterhaltungswert, verbesserte
Aufmerksamkeit, intelligentes Feedback etc. sollen sie Lernerfolge maximieren. Die
Interaktion zwischen Nutzer und Computer soll mit ihrer Hilfe vereinfacht, verbessert und
intuitiver gestaltet werden. Computerspielen sollen sie zu besserem Unterhaltungswert
verhelfen. Mit den Agenten sollen neue zusätzliche und bessere Möglichkeiten zur
gezielten Beeinflussung des Nutzerverhaltens zur Verfügung stehen. Aber halten
Embodied Conversational Agents bisher was wir uns von ihnen versprechen?
4.4.4 Agentenrepräsentation
King und Ohya [KING96] verglichen Agentenrepräsentationen. Die Autoren fragten
sich, wie die Repräsentation von Agenten die von Nutzern wahrgenommenen Eigen-
schaften beeinflussen. Die 18 Probanden bewerteten die dreidimensionale menschen-
ähnlichste Form signifikant häufiger als „Agenten“ als andere anthropomorphe und nicht-
anthropomorphe Formen. Die Versuchspersonen schätzten die Gruppe der anthropo-
morphen Formen als intelligenter und „agentenhafter“ ein als den Rest der Stimuli. Am
intelligentesten und „agentenhaftesten“ schätzten sie die menschlichen Formen mit
zufälligem Lidschlag ein.
Takeuchi und Naito [TAKEUCHI95]) ließen in ihrer Untersuchung zwei menschliche
Gegner ein Memory-ähnliches Kartenspiel am Computer spielen. Auf dem Display war
einmal ein Gesicht, ein anderes Mal ein dreidimensionaler Pfeil zu sehen. Das Display mit
dem Gesicht erzeugte mehr Augenkontakt als das Display mit dem Pfeil, fanden die
Autoren. Dies lässt darauf schließen, dass das Gesicht mehr Aufmerksamkeit der Pro-
banden auf sich zog. Andererseits lenkte es auch eher von der Hauptaufgabe ab. Die
Probanden empfanden das Display mit dem animierten Gesicht als unterhaltsamer als das
Display mit Pfeil. Andererseits empfanden die Versuchspersonen das Display mit dem
Pfeil als nützlicher, verglichen mit dem Display, auf dem das Gesicht abgebildet war.
Koda und Maes [KODA96] wollten herausfinden, ob es eher vorteilhaft ist, einen
Agenten mit einem Gesicht zu repräsentieren. Sie nutzten ein Poker-Spiel als Test-
Theorien / Konzepte
29
umgebung für ihre Studie. Die zehn Probanden spielten 18 Runden Poker gegen vier
Agenten. Die Probanden versuchten, die Gesichter und Gesichtsausdrücke zu deuten, was
sie von ihrer Aufgabe abhielt. Gesichter wurden als sympathisch - im Gegensatz zu
unsichtbaren Gegnern - und einnehmend im Pokerspiel angesehen. Je realistischer das
menschliche Gesicht, desto eher wurde es als intelligent, sympathisch und komfortabel
angesehen. Koda und Maes empfehlen deshalb, Agenten mit Gesichtern im Entertain-
mentbereich einzusetzen. Auch für Aufgaben, bei denen der Nutzer Engagement zeigen
muss (zum Beispiel bei Bildung und Training), sei ein solcher Agent von Vorteil.
4.4.5 Lerneffekt / Funktionalität
Van Mulken, André und Müller [MULKEN98] führten ein Experiment mit ihrem PPP
(„Personalized, Plan-based Presenter“) genannten System an 28 Versuchspersonen durch.
Bei der Darstellung eines technischen Systems (Flaschenzüge) fanden die Probanden die
Erklärungen leichter verständlich, wenn sie von dem animierten Agenten mit Zeigestock
anstatt nur mit Hilfe eines Zeigestocks gegeben wurden. Auch wurde der animierte Agent
als hilfreicher und unterhaltender angesehen als der Zeigestock. 50% der Probanden
würden eine Präsentation mit einem animierten Agenten bevorzugen, 43% würden dies
von dem zu präsentierenden Material abhängig machen und 7% wünschten sich Prä-
sentationen ohne animierten Agenten.
4.4.6 Interaktion mit Nutzer
Cassell und Vilhjálmsson [CASSELL99] beschäftigten sich damit, wie man das
kommunikative Verhalten von Avataren in grafischen Chats verbessern kann. Ist der
Nutzer damit beschäftigt, Nachrichten einzutippen, ständen die Avatare nur bewegungslos
herum. Dies liefe der natürlichen Kommunikation zuwider, denn hier ist ein beachtlicher
Teil non-verbale Kommunikation im Spiel. Zwar könnten die Nutzer in den neuesten Sys-
temen verschiedene Animationen oder emotionale Zustände aus einem Menü wählen, aber
non-verbale Kommunikation sei oft spontan und der Nutzer zu beschäftigt, um das Ver-
halten seines Avatars zu kontrollieren. Wäre es nicht wünschenswert, wenn Avatare au-
tonom kommunikatives Verhalten zeigen würden, fragten sich Cassell und Vilhjálmsson.
Hier stellt sich die Frage, was der Nutzer bevorzugt: direkte Manipulation oder Autonomie
des Agenten. Sie fragten die 24 Probanden, wie natürlich sie das Verhalten des Avatars
und die Interaktion fanden und stellten fest, dass die Nutzer des autonomen Systems dieses
Theorien / Konzepte
30
als natürlicher beurteilten als die anderen Systeme. Dies konnte man auch in der Inter-
aktion beobachten (höhere Aufmerksamkeit, längere Gespräche).
Die Autoren sehen sich in ihrer Schlussfolgerung unterstützt, dass die Nutzer Kontrolle
und Spaß primär dem Gespräch selbst entnehmen und sich durch die Kontrolle des Ver-
haltens ihres Avatars abgelenkt fühlen.
Dietz & Lang [DIETZ99] beschlossen, ihren Agenten mit selbst-generierten Emotionen
auszustatten. Mit dem Experiment versuchten sie herauszufinden, welchen Einfluss dies
auf die Benutzer hat. Die ca. 80 Probanden berichteten von mehr Gefühlen in der emo-
tionalen Bedingung. Andere signifikante Ergebnisse konnten nicht erzielt werden. Die
Tendenzen stimmen vorsichtig optimistisch.
Cassell und Thórisson [CASSELL98] präsentieren in ihrer Arbeit einen perso-
nifizierten, animierten Agenten mit der Fähigkeit, multimodale Konversation mit einem
Nutzer in Echtzeit durchzuführen. Mit diesem Agenten untersuchten sie zwei menschliche
Eigenschaften, die als besonders nützlich für konversationale Systeme herausgestellt
werden: emotional feedback und envelope feedback. Emotional feedback bezeichnet die
Technik, eine bestimmte Emotion durch einen bestimmten Gesichtsausdruck darzustellen.
Envelope feedback meint non-verbales Verhalten während eines Gesprächs von An-
gesichts zu Angesicht, die der animierte Agent als Antwort auf die kommunikativen
Aktionen des Nutzers generiert. Insgesamt unterstützen die Ergebnisse die Signifikanz von
envelope feedback über emotional feedback und rein inhaltliche Rückmeldungen. Manch-
mal redete der Nutzer zeitgleich mit dem Agenten. Das Ins-Wort-Fallen ist typisch für
Mensch-zu-Mensch Kommunikation. Der Agent hatte aber Probleme mit dem Ins-Wort-
Fallen, was wiederum der Grund für Zögern des Nutzers sein könnte.
4.4.7 Attribution von Persönlichkeitsmerkmalen
Sproull et al. [SPROULL96] haben die Verhaltensunterschiede des Nutzers bezüglich.
eines textuellen Interfaces versus eines Interfaces mit einem realistischen Gesicht und
verbaler Sprachausgabe in einer Studie mit 130 Versuchspersonen untersucht. Als
Anwendungsgebiet wurde die Karriereberatung gewählt. Hierzu wurde eine Modifikation
von J. Weizenbaums „Eliza“ herangezogen. Die Probanden attribuierten Persönlichkeits-
merkmale des Gesichtsinterfaces, die mit dem Aussehen verknüpft werden (soziale
Bewertung, Geselligkeit, intellektuelle Bewertung), anders als die des Textinterfaces. Der
Unterschied bei Persönlichkeitsmerkmalen, die nicht mit dem Aussehen verknüpft werden
Theorien / Konzepte
31
(Potenz, Aktivität, Emotionalität), fiel geringer aus. Bei den Gesichtsinterfaces beschrieben
sich die Probanden weniger entspannt und weniger selbstsicher. Probanden, die mit den
Gesichtsinterfaces arbeiteten, brauchten mehr Zeit zum Beantworten der Fragen der
psychologischen Tests, als die Probanden mit den Textinterfaces. Die Probanden, die das
Gesichtsinterface benutzten, stellten sich selbst positiver bezüglich Altruismus und sozialer
Erwünschtheit dar. Basierend auf der Hypothese, dass Frauen und Männer unterschiedlich
empfänglich für soziale Signale wie Gesichtsausdrücke sind, vermuteten die Autoren, dass
sich Männer und Frauen in ihren Antworten auf das Gesichtsdisplay mehr unterscheiden
werden als in Antworten auf das Textdisplay. Eine Unterscheidung gab es aber zwischen
den Applikationen. Männer reagierten positiver auf das Gesichtsdisplay und Frauen eher
auf das Textdisplay. Das könnte bei den Frauen auf die Unnatürlichkeit der Darstellung
des Gesichtes und bei den Männern auf die Neugier an der Technik zurückzuführen sein.
Was bedeutet Adaptivität für die Persönlichkeit? Moon und Nass [MOON96] haben
dies untersucht. 44 als dominant und 44 als unterwürfig eingeschätzte Probanden wurden
zufällig auf vier Versuchsbedingungen mit Agenten aufgeteilt. Die Autoren sprechen von
drei Ergebnissen.
1. Nutzer mögen Computer mit ihrem Persönlichkeitstyp.
2. Nutzer ziehen adaptive Computer denen vor, die über die Zeit konstant gleich
bleiben.
3. Die bevorzugte Richtung der adaptiven Änderung ist die des Persönlichkeitstyps
des Nutzers.
Reeves & Nass [REEVES96] fanden in der generellen Mensch-Computer (nicht speziell
Agenten-) Interaktion viele sozialpsychologische Aspekte bestätigt. Versuchspersonen, die
nach einer Lehreinheit zu ihrer Meinung über die Leistung des Computers befragt wurden,
formulierten eine positivere Antwort, wenn der Computer selbst die Frage stellte, als wenn
es ein anderer Computer oder eine schriftliche Befragung war. Alle Versuchspersonen
wiesen jedoch die Vermutung von sich, sie könnten ihre Bewertungen aus Höflichkeit
gegenüber dem Computer ändern. Die Versuchspersonen waren davon überzeugt, sie
hätten mehr geleistet, wenn der Computer ihre Leistung positiv bewertete. Unter diesen
Umständen mochten sie den Computer auch lieber und trauten ihm größere Leistungen zu.
Dies gilt unabhängig davon, ob das erfahrene Lob gerechtfertigt war oder nicht. Die
Autoren formulieren daraus, dass Computer oder Agenten so programmiert werden sollten,
Theorien / Konzepte
32
dass sie ihren Benutzern positive Rückmeldungen geben. Auch andere
sozialwissenschaftliche Erkenntnisse bezüglich Selbst- und Fremdurteil und
Persönlichkeitsstruktur aus der Mensch-Mensch-Kommunikation konnten in der Mensch-
Computer-Kommunikation bereits repliziert werden. Man könnte damit zu dem Schluss
kommen: Intelligente Maschinen werden von Menschen wie ihresgleichen behandelt.
[REEVES96, S. 251]
4.4.8 Evaluation der vorgestellten Studien
Die dargestellten Studien unterscheiden sich in der Art der untersuchten Animationen,
in der Art der Maße, mit denen die Effekte gemessen wurden und in der Art der An-
wendungsumgebung. Die Ergebnisse sind nicht immer statistisch signifikant. Dennoch
konnten einige Vermutungen erhärtet werden. So führte der Einsatz von animierten Agen-
ten bei Takeuchi und Naito, aber auch bei van Mulken et al. zu höheren Unterhaltungs-
werten. Und bei Sproull et al. zeigte sich, dass sich die Probanden tatsächlich in Anwe-
senheit eines Gesichtes eher so verhalten, wie es sozial erwartet wird. Für andere Vermu-
tungen konnten noch nicht einmal Hinweise gefunden werden: Zum Beispiel gab es in
Bezug auf den Lernerfolg und das Erinnerungsvermögen keinen Hinweis auf positive
Effekte durch den Einsatz von animierten Agenten. Es kristallisieren sich jedoch drei
wichtige Faktoren heraus, die die Wirkung von animierten Agenten ganz wesentlich mit zu
beeinflussen scheinen [DEHN00]:
• Domäne, Aufgabenstellung
• mögliche Informationsquellen (gibt es neben dem Gesicht noch weitere Quellen
wie etwa gesprochene Sprache oder eine Textausgabe?)
• Persönlichkeit und Eigenschaften des Agenten (sind uns Stimme und Gesicht
sympathisch?).
Diese Einflussfaktoren wurden jedoch in keiner Studie umfassend berücksichtigt. Die
Schwierigkeiten sind sicherlich unter anderem bedingt durch noch zu geringe Erkenntnisse
nicht nur im speziellen Gebiet der animierten Agenten, sondern auch in den involvierten
Wissenschaften. So sind zum Beispiel insbesondere die sozio-emotionalen Funktionen der
nonverbalen Kommunikation wenig erforscht [BENTE00]. Deshalb können in den Studien
nicht einfach die Bedeutung und die Effekte von einzelnen Einflussgrößen gemessen
werden. Diese müssen selbst erst noch bestimmt werden, um dann die erforderlichen
Instrumentarien und relevanten Variablen ermitteln zu können. Bente und Krämer
Theorien / Konzepte
33
[BENTE02] schlagen unter anderem einen „Bottom-Up-Ansatz“ vor. Dieser Ansatz basiert
auf dem in Kapitel 4.3.5 dargestellten Stereotypenprinzip. Verhaltensmuster sollen, ohne
sie bis ins Detail zu verstehen, in Datenbanken abgelegt werden, um bei Bedarf auf diese
„Verhaltenskonserven“ zurückgreifen zu können. Hierbei wird bewusst eine (zu Beginn
deutlich) eingeschränkte Interaktivität und Flexibilität in Kauf genommen. Über mehrere
Zwischenschritte sollen die feinen Regeln der Kommunikation herausgearbeitet werden,
um später dann regelbasierte Agenten implementieren zu können. Bisher mangelnde
Forschungsergebnisse macht auch die Evaluation von animierten Agenten schwierig:
Bisher sind die richtigen Variablen und Methoden um die Effekte der Agenten messen zu
können noch nicht gefunden.
4.4.9 Die Kombination von Agenten und Sprache im
multimodalen Interface
Die Kombination von Automatic Speech Recognition (ASR), Natural Language Pro-
cessing (NLP) und Agententechnologie ermöglicht die Implementation anwendungsspe-
zifischer Programme, die dem Benutzer nicht nur die Steuerung durch Sprache erlauben,
sondern auch aktiv Hilfe anbieten. Eine Weiterentwicklung dieses Systems nutzt
Sprachsynthese zur Ausgabe und ermöglicht den sinnvollen Einsatz in mobilen Systemen,
wie z.B. Fahrzeugen (vgl. Embassi-Projekt), bei denen Interaktion mit einem Bildschirm
nicht möglich oder wünschenswert ist. Durch weitere Kopplung mit Avatar-Techniken
werden in Echtzeit geführte audiovisuelle Dialoge mit natürlichsprachlichen Systemen
realisierbar [XUEDONG]. Der Einsatz von Agenten und Sprache als Teile von
multimodalen Interfaces scheint also sehr sinnvoll für den Benutzer zu sein. Im Folgenden
wird deshalb eine explorative Studie zu Sprachinteraktion und anthropomorphen
Intefaceagenten in einem prototypischen multimodalen System vorgestellt.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
34
5 Explorative Studie zu Sprachinteraktion und
anthropomorphen Interfaceagenten im Rahmen des
mUltimo-3D-Projektes am Heinrich-Hertz-Institut
In der Studie ging es vor allem um die explorative Untersuchung des Benutzer-
verhaltens auf diesem relativ neuen Forschungsgebiet. Basierend auf den im Theorieteil
vorgestellten Vorerfahrungen wurde speziell die Sprachinteraktion mit dem System und
einem anthropomorphen Interfaceagenten beobachtet und ausgewertet. Am Ende werden
die Ergebnisse vor dem Hintergrund bestehender Forschung diskutiert und weiterer
Forschungsbedarf abgeleitet.
5.1 Projektrahmen
Das Projekt mUltimo-3D ist ein vom Bundesministerium für Bildung und Forschung
(BMBF) finanziertes Projekt. Während einer Laufzeit von zwei Jahren (01/99 bis 12/01)
wurden neue Möglichkeiten der multimodalen Interaktion entwickelt. Ermöglicht wurden
diese neuen Interaktionsformen durch die Verbindung einer Anwendungsschnittstelle mit
einem 3D-Display und Systemen zur Erkennung von Augen- und Blickbewegungen und
Sprache sowie in späteren Versuchen Handgesten. Im Rahmen der Evaluation dieser
Systeme wurden Nutzertests durchgeführt. Ein ausführliches Evaluationskonzept für eine
multimodale Schnittstelle im Rahmen dieses Projektes findet sich bei Katharina Seifert
(2002). Der Schwerpunkt der vorliegenden Untersuchungsauswertung liegt auf der
sprachbasierten Interaktion.
5.2 Systembeschreibung
Die multimodale Bedienschnittstelle des mUltimo-3D-Systems für den Versuch bestand
aus Maus und Tastatur, einer sprecherunabhängigen Spracherkennung und einer Blick-
orterkennung. Die Spracherkennung basierte auf Viavoice Software Developers Kit von
IBM. Ca. 90 Wörter wurden pro Testanwendung relativ gut erkannt. Die Blickort-
erkennung ist eine Eigenentwicklung des Heinrich-Hertz-Instituts für Nachrichtentechnik
GmbH und basiert auf der Cornea-Reflex-Methode [LIU99]. Der Benutzer konnte wählen,
ob er eine Funktion durch Sprache, Tastatur, Maus oder Blick oder über die Kombination
dieser Modalitäten auslöste. Nicht alle Funktionen konnten über die Modalitäten Blick und
Sprache auf Grund ihrer Besonderheiten ausgelöst werden. Es wurden zwei Test-
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
35
anwendungen mit multimodaler Interaktion entwickelt. Der erste Prototyp zur Kon-
struktion von 3D-Körpern heißt CAD-Raum und der zweite zur Suche und Betrachtung
von räumlichen und textuellen Informationen heißt Info-Browser. Der Hauptversuch wurde
mit beiden Testapplikationen im Vergleich durchgeführt. Diese Darstellung konzentriert
sich auf den dreidimensionalen CAD-Raum und den Prototypen eines dreidimensional
dargestellten Avatars.
Abbildung 8 - mUltimo3D
5.2.1 Das 3D-Display
Für die vorliegende Untersuchung wurde ein 3D-Display eingesetzt, das vom Heinrich-
Hertz-Institut entwickelt wurde und eine freie Betrachtung des Objektes ermöglicht. Diese
Displays basieren auf dem Prinzip des Richtungs-Multiplexing, das heißt die unterschied-
lichen perspektivischen Ansichten der Teilbilder sind nur aus bestimmten Richtungen zu
sehen [LIU99].
Sitzt der Betrachter in einer bestimmten Position vor dem Display, verschmelzen diese
beiden getrennten räumlichen Wahrnehmungen zu einem Bild. Das hat den Vorteil, dass
der Nutzer keine Spezialbrille tragen muss, um Dreidimensionalität wahrzunehmen.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
36
Abbildung 9 - 3D-Display
5.2.2 Spracherkennung
Die Spracheingabe erfolgt über ein Headset. Die Auswertung erfolgt auf einem PC, auf
dem das IBM-Programm ViaVoice Pro - Millenium-Edition installiert ist. Die Wahl von
Via Voice bestimmt die Charakteristik der Spracherkennung. In dem Versuch war das
System schon relativ benutzerunabhängig, es musste kein vorheriges Training erfolgen.
Der Output von ViaVoice an das System ist ein fortlaufender ASCII-Text, der vom
Sprachtreiber des Systems nach interaktionsrelevanten Schlüsselbegriffen durchsucht wird
(keyword-spotting technique). Dabei ist es möglich, mehrere Schlüsselbegriffe für ein
Kommando zu definieren. Jedes einzelne zu erkennende Wort musste in einer Trainings-
phase dem System durch mehrere Nutzer vorgesprochen werden, um durch den Muster-
vergleich einen Mittelwert zu erzielen und damit eine relativ sprecherunabhängige
Spracherkennung der vorgegebenen Kommandos zu erreichen. Der Nachteil ist, dass der
Nutzer nach jedem Satz eine Pause machen muss, damit Aktionen und Objekte richtig
zugeordnet und nicht mit dem nächsten Satz vermischt werden.
5.2.3 Technische Anordnung des Systems
Dieses System ist technisch betrachtet ein Zusammenschluss von vier Rechnern mit
klarer Funktionsteilung, die ihre jeweiligen Teilaufgaben parallel verarbeiten. Teilauf-
gaben bestehen hauptsächlich in der Bereitstellung der multimodalen Ein- und Ausgabe-
kanäle. Als zentrale Verarbeitungseinheit dient eine Onyx2 von Silicon Graphics. Auf ihr
laufen alle parallel verarbeiteten Prozesse zusammen und werden dort verrechnet. Die
Ausgaben werden von der Onyx2 gesteuert und über Lautsprecher und über das auto-
stereoskopisches Display multimedial vermittelt.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
37
5.2.4 Die Testapplikation CAD-Raum
Mit dem CAD-Raum besteht die Möglichkeit der Konstruktion von komplexen
Objekten aus einfachen geometrischen Grundkörpern durch verschiedenste Bearbeitungs-
funktionen (Verschieben, Drehen, Skalieren, Farb- und Texturauswahl). Die Grundkörper
Würfel, Kugel, Zylinder, Ring, Kegel, Hohlzylinder und Pyramide werden aus einem
Objektregal in die 3D-Szene geholt und entsprechend bearbeitet. Es können alle Objekte
aus- und wieder abgewählt werden. Die Szene kann in x- und y-Richtung der Ebene
gedreht werden, um bessere Anschauung zu gewährleisten. Die obere Menüleiste enthält
die vier Hauptmenüs Verwaltung, Objekte, Werkzeuge und Hilfe. Diese werden bei
Aktivierung transparent und öffnen sich mit einer Bewegung in den Raum. Die einzelnen
enthaltenen Funktionen werden so für den Benutzer durch Icons und Text sichtbar. Wird
eine Funktion gewählt, schließt sich das Menü wieder. In der unteren Menüleiste findet
sich ein Werkzeug zur Achsen- und Ebenen-Auswahl und eines zur stufenlosen Rotation
der Szene.
Abbildung 10- Screenshot des CAD-Raumes
5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum
Bei der Gestaltung des CAD-Raumes wurde festgelegt, welche Funktion in welcher
Form durch welche Modalität ausgewählt werden kann. Dabei entstanden Gruppen von
Funktionen, die zwei oder drei Auslösemöglichkeiten hatten. Zur letzten Gruppe gehören
die Hauptmenüs, die mit Maus, Sprache und Blick aktiviert werden konnten. Jede einzelne
Funktion in den Menüs gehört zur der Gruppe Maus und Sprache. Eine Ausnahme bildet
die Rotationskugel, die nur mit der Maus bewegt werden kann. Wie oben bereits erwähnt,
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
38
können nicht alle Funktionen mit den einzelnen Modalitäten auf Grund ihrer Beson-
derheiten ausgelöst werden. Mit der linken Maustaste kann jede Funktion ausgelöst
werden, mit Sprache, wenn die zugehörigen Kommandos von der Spracherkennung
erkannt werden. Blick kann nur von Sprache oder Maus (rechte Maustaste) unterstützt
werden, um eine Funktion auszulösen.
5.2.6 Die Testapplikation Avatar
Die Testapplikation für den Avatar besteht aus einer 3D-Szene, in der sich eine Treppe
mit einem Tor, ein Kugellager, das sich öffnet, ein Bild, das näher zum Betrachter rückt
und ein Computerbildschirm, der sich dreht, befinden. Der Avatar kann in die Szene
geladen werden und folgt einem vorprogrammierten Bewegungsablauf vom Startpunkt auf
der Treppe zu den drei animierten Elementen und zurück zum Ausgangspunkt. Die
multimodale Interaktion ist hier zum Zeitpunkt der Untersuchung noch nicht vollständig
gestaltet. Sprach-, Blick- oder Gestikinteraktion mit dem Avatar ist noch nicht möglich.
5.3 Methode
5.3.1 Einbettung der vorliegenden Fragestellung in die
Gesamtuntersuchung
Die Fragestellung der Gesamtuntersuchung war, welchen Effekt die multimodale Inter-
aktion auf die Leistung und die subjektive Qualitätsbewertung durch den Benutzer hat. Die
hier untersuchte Fragestellung beschäftigt sich konkret mit der Sprachinteraktion als einem
Teilgebiet der multimodalen Interaktion in zwei verschiedenen Applikationen des Systems
und mit den Vorstellungen und Bewertungen des Benutzers hinsichtlich dieser beiden
prototypischen Applikationen, der Modalität Sprache und der Mensch-Computer-Inter-
aktion allgemein. Im Folgenden wird der Teil zur Modalität Sprache Logfileexperiment
und der Teil zum anthropomorphen Interfaceagenten Simulationsexperiment gennant.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
39
5.3.2 Variablen
5.3.2.1 Unabhängige Variable im Logfileexperiment
Aufgaben in verschiedenem Schwierigkeitsgrad
Die Versuchsteilnehmer bekamen eine Übungsaufgabe und drei Experimentalaufgaben
mit unterschiedlichem Schwierigkeitsgrad vorgelegt, der nach einem Permutationsplan in
der Reihenfolge der Bearbeitung variierte. Die Aufgaben bestanden in der Konstruktion
dreidimensionaler Modelle anhand einer Vorlage.
Die Aufgabenschwierigkeit ergab sich aus der Anzahl der einzelnen Grundobjekte, die
zur Konstruktion des Gesamtobjektes erforderlich war. Die leichteste Aufgabe (Fisch)
enthielt sieben Grundobjekte, die mittlere (Pinocchio) 15 und die schwierigste (Eisenbahn)
30.
5.3.2.2 Abhängige Variablen im Logfileexperiment
Leistung der Versuchspersonen
Die Leistungsdaten wurden anhand der Anzahl der bearbeiteten Elemente, der Form-
ähnlichkeit und der Position der Teile zueinander und der Oberflächenbearbeitung durch
Farbe und Textur anhand von Bildschirmfotos aus drei verschiedenen Perspektiven ermit-
telt. Die Bewertung der Einzelleistungen erfolgte nach einer vordefinierten Bewertungs-
vorschrift und wurde im Konsensverfahren von vier Beurteilern als Expertenrating
getroffen.
Die Häufigkeit der Sprachinteraktion als Teil der multimodalen
Interaktionshäufigkeit
Die Häufigkeit der Sprachinteraktion wurde anhand der Logfiledaten festgestellt. Wenn
ein Kommando von der Spracherkennungssoftware erkannt wurde, erfolgte ein Eintrag im
Logfile.
Wahrnehmung der Sprachinteraktion aus Benutzerperspektive
Hierzu erfolgte eine Befragung der Versuchspersonen nach dem Versuch in
halbstrukturierter Form.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
40
5.3.2.3 Unabhängige Variablen im Simulationsexperiment
Im Simulationsexperiment waren das Verhalten und das Aussehen des Avatars und das
Geschlecht und das Alter der Versuchspersonen die unabhängigen Variablen. Es gab keine
Aufgabe, die in einem Versuchplan variiert werden konnte. Eine Vergleichsapplikation gab
es auch nicht.
5.3.2.4 Abhängige Variablen im Simulationsexperiment
Die Art der Ansprache des Avatars durch die Versuchspersonen
Die Art der Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video
dokumentiert.
Die Wahrnehmung der Applikation aus Benutzerperspektive
Hierzu erfolgte eine schriftliche Befragung der Versuchspersonen in Form eines
Fragebogens.
5.3.3 Explorative Fragestellungen zur Sprachinteraktion
Wie bereits erwähnt, ging es in der Studie vor allem darum, den Umgang des Benutzers
mit der neuen Technik zu beobachten. Daraus ergaben sich für den untersuchten Teil
folgende explorative Fragestellungen:
• Wird Sprache überhaupt benutzt?
• Wie wirkt sich die Voreinstellung des Nutzers zur Kommunikation mit dem einem
Computersystem auf die Benutzung von Sprache aus?
• Wie wird Sprache im Vergleich zwischen den Versuchspersonen benutzt?
• Wie wird Sprache im Vergleich zu den anderen Modalitäten Maus und Blick
benutzt?
• Wie verhält sich die Benutzung von Sprache über die einzelnen
Aufgabenschwierigkeiten?
• Wie verhält sich die Benutzung von Sprache über die Zeit?
• Steht die Benutzung von Sprache mit der Leistung über alle Aufgaben in
Beziehung?
• Wie wird die Sprachinteraktion mit dem System vom Benutzer bewertet?
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
41
5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion
Zu einigen dieser explorativen Fragestellungen wurden aus der bisherigen Forschung
konkrete Hypothesen gebildet:
• Der Mythos der Multimodalität, dass Sprache in einem multimodalen System
die herausragende Interaktionsform sei, wurde schon einige Male wider-
legt.[OVIATT99] Es kommt immer auf die Anwendungsform an. Im
untersuchten System stellte Sprache vor allem eine Zeitersparnis gegenüber der
Mausinteraktion dar und ein besonderes Training und damit Einstellen auf die
Modalität musste nicht erfolgen. Es wird deshalb vermutet, dass Sprache im
Sinne des Mythos die am häufigsten gewählte Interaktionsform ist.
H1 : Sprache > Maus > Blick
H0 : Sprache = Maus = Blick
• Die dargestellten Problemfelder der Spracherkennung (Hyperartikulation,
individuelle Sprecherfaktoren) existierten auch in unserem Versuch. Es wird
deshalb vermutet, dass die Sprachinteraktion über die Zeit abnimmt, weil
Frustrationseffekte durch Fehleingaben einsetzen.
H1 : Sprachbenutzung in Aufgabe 1 > Sprachbenutzung in Aufgabe 3
H0 : Sprachbenutzung in Aufgabe 1 = Sprachbenutzung in Aufgabe 3
• Die Zeitersparnis durch die Spracheingabe gegenüber der Eingabe per Maus und
die Natürlichkeit der Eingabeform könnte Auswirkung auf die Leistung bei der
Aufgabenbearbeitung haben. Es wird deshalb ein positiver Zusammenhang
zwischen Leistung und Sprachinteraktionshäufigkeit vermutet.
H1 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben=) > 0
H0 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben) = 0
5.3.5 Explorative Fragestellungen zum Avatar
• Wie verhält sich der Benutzer in der Interaktion mit dem Avatar?
• Unter welchen Bedingungen wird die Anwesenheit des Avatars gewünscht?
• Was wünscht sich der Benutzer vom Avatar?
• Wie hedonistisch wird die Interaktion mit dem Avatar empfunden?
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
42
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
Ansprache des vorgestellten Avatars zueinander?
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
empfundene hedonistische Qualität dieses speziellen Avatars zueinander?
• Lassen sich Unterschiede für den Avatar in Bezug auf Alter und Geschlecht
feststellen?
5.3.6 Theoriegeleitete Hypothesen zum Avatar
• Die erläuterten Studien zur Repräsentation eines Avatars zeigten, dass eine
menschenähnliche Gestalt vom Benutzer ein natürliches Kommunikations-
verhalten verstärkt. Es wird deshalb vermutet, dass der Grossteil der Versuchs-
personen den Avatar personifiziert ansprechen wird.
H1= G 1 (personifiziert ) > G 2 (unpersonifiziert)
H0= G 1 (personifiziert) = G 2 (unpersonifiziert)
Dabei wird speziell aus der Forschung von Sproull et al. [SPROULL96]
vermutet, dass mehr Frauen als Männer den Avatar personifiziert ansprechen,
da Frauen empfänglicher auf soziale Signale wie Gesichtsausdrücke reagieren.
• Die bisherigen Studien belegen ebenfalls, dass ein menschliches Erscheinungs-
bild und Verhalten des Avatars als sympathisch empfunden wird. Es wird
deshalb vermutet, dass positive Einschätzungen zur hedonistischen Qualität des
Avatars überwiegen.
H1= G 3 (hatten Spaß) > G 4 (hatten keinen Spaß)
H0= G 3 (hatten Spaß) = G 4 (hatten keinen Spaß)
Diesbezüglich wird speziell aus der Forschung von [SPROULL96] vermutet,
dass Männer eher Spaß mit dem Avatar haben als Frauen, da sie interessierter
an neuer Technik sind.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
43
5.3.7 Stichprobe des Logfileexperiments
Teilnehmer der Untersuchung waren 22 Männer und fünf Frauen. Das durchschnitt-
liche Alter war 27 (Minimum 13, Maximum 42 Jahre). Die durchschnittliche Com-
putererfahrung betrug 8,6 Jahre und die durchschnittliche Computernutzung 24 Stunden
pro Woche für Anwenderprogramme wie MS-Word, 3D-Programme, Datenbanken,
WWW, Spielen und Programmieren. Anwendungsprogramme und WWW standen beim
Ranking an erster Stelle. 50 Prozent der Versuchsteilnehmer hatte bereits Erfahrung mit
3D-Anwendungen, wobei die Erfahrung mit Spracherkennungssoftware gering war. 18
Personen hatten keine und eine Person wenig Erfahrung. Von den übrigen acht Versuchs-
teilnehmern werteten sechs ihre Erfahrung als schlecht und zwei als gut. Die meisten
Personen gaben an, durch Ausprobieren am besten zu lernen und vor allem aus Neugier
und Interesse an Wissenschaft und Technik, an dem Versuch teilzunehmen.
Als Kontrollvariablen dienten Subtests aus HAWIE [WECHSLER91] und LPS
[HORN62] zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis. Alle
Teilnehmer erzielten hier durchschnittliche Ergebnisse, ein Zusammenhang mit den
Leistungsdaten konnte nicht nachgewiesen werden.
Mit dem Zeiss Nahprüfgerät wurde sichergestellt, dass alle Versuchsteilnehmer über ein
gutes Stereosehen verfügen, was für die beanspruchte Arbeit mit dem stereoskopischen
Display vorauszusetzen ist.
In der Vorbefragung wurde ebenfalls erfragt, wie sich die Teilnehmer Kommunikation
mit dem Computer vorstellen. Dabei wurden Spracherkennung und Sprachausgabe am
häufigsten angekreuzt, wie aus Grafik 11 ersichtlich ist.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
44
0 5 10 15 20 25
herkömmlich (Maus / Tastatur)
Sprachausgabe
Spracherkennung
Assistent
Blickinteraktion
Pop up
Tamagochi
Emotions- / Motivationserkennung
Emotionsäußerung
Abbildung 11 - Wunsch Kommunikation mit Computer N=27
5.3.8 Versuchsdurchlauf des Logfileexperimemts
Vor der Einführung in das System wurden der Fragebogen zur Person und die Tests
zum stereoskopischen Sehen vorgelegt und unmittelbar ausgewertet. Außerdem wurden die
Tests zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis durchgeführt und
ausgewertet. Nach der Kalibrierung des Systems erfolgte eine Einführung in den CAD-
Raum mit einer Übungsaufgabe. Sie diente dazu, sich mit der Applikation vertraut zu
machen; dabei konnten auch Fragen an den Versuchsleiter gestellt werden, um mehr
Sicherheit im Umgang mit dem System zu erlangen. In der Übungsaufgabe zur Kon-
struktion modellierten die Probanden eine nur aus drei Grundobjekten bestehende Hantel,
um die Manipulationsmöglichkeiten auszuprobieren und zu üben. Diese Einführungsphase
dauerte ungefähr 45 Minuten. Für die folgenden drei Konstruktionsaufgaben (siehe
Abbildung 12) hatten die Versuchsteilnehmer jeweils maximal zehn Minuten Zeit, die zur
vollständigen Bearbeitung nicht ausreichten, um Deckeneffekte zu vermeiden. Im
Anschluss an jede Aufgabe sollte auf der SEA-Skala [EILERS86] die Höhe der
Beanspruchung durch die Aufgabe selbst eingeschätzt werden und am Ende des Versuches
wurde das semantische Differential zur Einschätzung der hedonistischen und
pragmatischen Qualität sowie der Attraktivität der Applikation vorgelegt
[HASSENZAHL00]. Des weiteren sollte der Aufgabenschwierigkeitsgrad der einzelnen
Aufgaben selbst eingeschätzt und in eine Rangreihe gebracht werden. In einer
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
45
Nachbefragung in Form eines halbstrukturierten Interviews hatten die Versuchsteilnehmer
die Möglichkeit, sich über das System zu äußern. Dieses Interview wurde mit der
Videokamera aufgezeichnet.
Abbildung 12 - Screenshots der Konstruktionsaufgaben
5.3.9 Stichprobe des Simulationsexperiments
Die Stichprobe für das Simulationsexperiment bestand zu einem Teil aus der Stichprobe
des Logfileexperiments und zum anderen Teil aus einer Nachuntersuchung, um die Anzahl
der Versuchspersonen für diesen Teil der Untersuchung auf Grund der Kürze des Ver-
suches und wegen Datenausfällen auf 43 zu erhöhen. Damit bestand die Stichprobe aus 27
Männern und 16 Frauen mit einem durchschnittlichen Alter von 28,1 Jahren, wobei die
jüngste Person 13 und die älteste 42 war. Von den zusätzlichen 16 Personen, die nicht am
Logfileexperiment teilgenommen haben, liegen keine weiteren Daten über Vorerfahrungen
und Präferenzen in der Computerinteraktion vor.
5.3.10 Versuchsdurchlauf des Simulationsexperimentes
Dieser Teil der Untersuchung erfolgte vor oder nach dem Hauptversuch im CAD-Raum
für einen Teil der Stichprobe und für den anderen Teil nach dem Versuch zur Haptik Die
Versuchspersonen bekamen ein Headset aufgesetzt, um zu simulieren, dass Spracheingabe
erfolgen kann, was in diesem Experiment in Wahrheit nicht möglich war. Auf dem 3D-
Display erschien die Demoversion des Avatars mit Gesicht, in Menschengestalt und ohne
Bekleidung. Die Darstellung des Avatars ähnelte der in Abbildung 13. Die Versuchsperson
erhielt die Instruktion, dass der Avatar auf Sprache reagiere und das Kugellager öffnen,
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
46
den Bildschirm bewegen werden und das Bild näher betrachten könne. Danach wurde die
Versuchsperson aufgefordert, den Avatar zu starten und ihn zu animieren, etwas zu tun.
Dabei startete der Versuchsleiter unbemerkt selbst die ca. zwei Minuten lange Sequenz.
Die Bewegungsabläufe waren vorgegeben und erfolgten im günstigsten Fall gemäss den
Anweisungen der Versuchsperson, so dass der Eindruck, der Avatar reagiere auf Sprache,
zum großen Teil bis zum Ende der sehr kurzen Sequenz aufrechterhalten werden konnte.
Die Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video aufgezeichnet.
Danach wurde die Versuchsperson über die Simulation aufgeklärt, sofern sie sie nicht von
Anfang an bemerkt hatte. Ein kurzer Fragebogen zur hedonistischen Qualität der
Applikation und den gewünschten Eigenschaften eines Avatars sollte anschließend
ausgefüllt werden.
Abbildung 13 - Darstellung eines Avatars
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
47
5.4 Auswertung
In diesem Teil der Arbeit wird genauer auf die Art der Untersuchungsmethoden, das
Datenniveau und die daraus folgenden Ergebnisse eingegangen. Weitere Auswertungen
der Daten mit den im Versuchsdurchlauf des Logfileexperimentes genannten
Messinstrumenten finden sich bei Seifert [SEIFERT02] und Baumgarten
[BAUMGARTEN02].
5.4.1 Die Untersuchungsmethoden und das Datenniveau
In der Untersuchung wurden quantitative und qualitative Daten genutzt, um aus ihnen
neue Ideen und Hypothesen explorativ abzuleiten. Das theoretische Vorverständnis auf
dem Gebiet der Multimodalität ist noch nicht soweit elaboriert und fokussiert, dass sich
viele operationale und statistische Hypothesen formulieren lassen, die einer Signifikanz-
prüfung unterzogen werden könnten. Es ging in der Untersuchung vorrangig darum, den
Umgang mit neuer Technik zu testen und darüber Daten zu sammeln und diese ent-
sprechend aufzubereiten. Auf die Problematiken der vorliegenden Daten wird in der
methodischen Kritik zur Untersuchung noch genauer eingegangen.
Das Simulationsexperiment wurde im eingeschränkten Stil der Wizard-of-Oz-
Experimente durchgeführt. Bei diesen Experimenten geht es darum, Funktionen noch nicht
fertig gestellter Systeme zu untersuchen. Simulation ist billiger und schneller als
Abänderung eines Prototypen, man hat unbeschränktere Möglichkeiten und erkannte
Probleme können leichter isoliert werden. Wizard-of-Oz-Eperimente simulieren ein
natürlichsprachliches System, indem sie einen Menschen zur Interpretation der
Kommandos der Versuchsteilnehmer benutzen. In einem typischen Experiment erteilt der
Versuchsteilnehmer ein Kommando auf einen Bildschirm, das an einem anderen Ort von
dem Wizard interpretiert und im Sinne eines realen Systems beantwortet wird. Im
Simulationsexperiment wurde den Versuchspersonen vermittelt, dass der Computer
beziehungsweise der Avatar auf Spracheingabe reagiere, was aber tatsächlich nicht der
Fall, sondern erst in der Weiterentwicklung vorgesehen war. Die Interaktion mit dem
System erfolgte daher einseitig.
Die aufgezeichneten Videodaten aus dem Simulationsexperiment wurden per Hand
ausgewertet, indem die Antworten der Versuchspersonen zunächst wörtlich nieder-
geschrieben wurden. Die Menge der Informationen wurde durch selbst aufgestellte
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
48
Kategorien reduziert. Fragebogendaten aus der kurzen Nachbefragung standen auch zur
Verfügung. Bei der Auswertung der Fragebogendaten musste beachtet werden, dass
Mehrfachnennungen möglich waren.
Die Logdateien aus dem Logfileexperiment sind einfache Textdateien. Die Rohdaten
aus den Logfiles wurden in eine für SPSS lesbare Datei exportiert und ausgewertet.
5.4.2 Ergebnisse
Hier werden die deskriptiven, inferenzstatistischen, Post-Hoc- und Interviewergebnisse
zunächst zur Sprachinteraktion und anschließend in derselben Reihenfolge zum Avatar
vorgestellt. Die Ergebnisse zu den anderen Fragestellungen des Logfileexperiments sind
hier nicht berücksichtigt. Zur besseren Übersicht wurde größtenteils die Darstellung in
Form von Grafiken verwendet. Die Ergebnistabellen aus SPSS zu den einzelnen
Abschnitten und den dazugehörigen Grafiken finden sich im Anhang.
5.4.2.1 Deskriptive Ergebnisse zur Spracheingabe
Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen
Um darzustellen, wie häufig Sprache überhaupt im Vergleich zwischen den
Versuchspersonen benutzt wurde, wurden die Interaktionshäufigkeiten über alle Aufgaben
zusammengefasst und anhand des Mittelwertes in vier Bereiche unterteilt:
• 0 - 9 gering
• 10 – 19 mittel
• 20 – 29 häufig
• ab 30 sehr häufig
Aus Abbildung 14 ist ersichtlich, dass Sprache im Vergleich zwischen den
Versuchspersonen eher weniger benutzt wurde.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
49
0
10
20
30
40
50
60
70
80
90
100
gering mittel häufig sehr
häufig
Prozente
Sprachinteraktionshäufig
keit zwischen VP
Abbildung 14 - Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen
Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen
Als nächstes werden die drei Bedingungen leicht, mittel und schwer nach der Häufigkeit
der Sprachinteraktion betrachtet. Es zeigt sich, dass in der schweren Aufgabe durch-
schnittlich am häufigsten interagiert wurde. Grafik 15 soll dies verdeutlichen.
0
2
4
6
8
10
12
14
16
Sprachinteraktion in
der leichten
Aufgabe-CAD-raum
Sprachinteraktion in
der mittleren
Aufgabe-CAD-
Raum
Sprachinteraktion in
der schweren
Aufgabe-CAD-raum
Mittelwert
Standardabweichung
Abbildung 15 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen
5.4.2.2 Inferenzstatistik zur Sprachinteraktion / Hypothesenprüfung
Zur Überprüfung der theoriegeleiteten Hypothesen zur Sprachinteraktion wurden die
nicht - parametrischen Verfahren Rangvarianzanalyse nach Friedman und Korrelation
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
50
nach Kendalls Tau für ordinal skalierte Daten verwendet. Im Folgenden wird sich auf ein
Signifikanzniveau von "=0,05 bezogen.
Sprachinteraktion im Vergleich zu den anderen Modalitäten
Im Vergleich zwischen den Modalitäten Blick, Sprache und Maus lässt sich mit der
Rangvarianzanalyse nach Friedman und Chi-Quadrat (df=2, p=0,000) zur Prüfung auf
Signifikanz zeigen, dass es einen signifikanten Unterschied in den drei Interaktions-
häufigkeiten gibt, wobei der größte Unterschied zwischen den Bedingungen Blick und
Maus zu finden ist. Sprache wird am zweithäufigsten benutzt. Somit konnte die Hypothese,
dass Sprache die anderen Modalitäten in ihrer Benutzung überwiegt, nicht bestätigt
werden.
Sprachinteraktion über die Zeit
Um einen eventuellen Reihenfolgeeffekt in der Sprachinteraktionshäufigkeit über die
einzelnen Aufgaben unabhängig von der Schwierigkeit festzustellen, wurde ebenfalls der
Friedman – Test gerechnet. Auch hier ergeben sich im Signifikanztest mit Chi-Quadrat
signifikante Unterschiede (df = 2, p= 0,015). Der Unterschied besteht hier zwischen den
ersten beiden Aufgaben und der dritten Aufgabe, in der die Benutzung von Sprache
deutlich abgenommen hat. Damit konnte die Hypothese bestätigt werden, dass die
Sprachinteraktion über die Zeit abnimmt.
Zusammenhang zwischen Sprachinteraktion und Leistung
Um zu überprüfen, ob es einen Zusammenhang zwischen der Leistung in den Aufgaben
und der Sprachinteraktionshäufigkeit gibt, wurde eine Korrelation nach Kendall-Tau für
ordinalskalierte Daten gerechnet . Es lässt sich zeigen, dass es keinen signifikanten Zusam-
menhang zwischen Sprachinteraktionshäufigkeit und der Leistung der Versuchspersonen
gibt (! = 0,114; p=.0,423) Somit konnte die Hypothese, dass es einen positiven Zu-
sammenhang zwischen Leistung und Sprachinteraktionshäufigkeit gibt, nicht bestätigt
werden.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
51
5.4.2.3 Post Hoc Testergebnisse zur Sprachinteraktion
In diesem Abschnitt werden post hoc interessant erscheinende deskriptive Ergebnisse
aus dem Datenmaterial zu Sprachinteraktion und Vorbefragung, zu denen keine konkreten
Hypothesen formuliert werden konnten, inferenzstatistisch überprüft.
Sprachinteraktion über die vorgegebene Aufgabenschwierigkeit
Um zu überprüfen, ob sich unter den drei Versuchsbedingungen „leicht“, „mittel“ und
„schwer“ Unterschiede in den Interaktionshäufigkeiten zeigen lassen, wurde wieder eine
Friedman - Rangvarianzanalyse gerechnet. Es lässt sich zeigen, dass zwischen den drei
Versuchsbedingungen signifikante Unterschiede bestehen (df=2, p=0,025), die mit einem
Chi-Quadrat-Test ermittelt wurden.
Diese Unterschiede bestehen zwischen der leichten und mittleren und der leichten und
schweren Aufgabe. Die mittlere und die schwere Bedingung unterscheiden sich nicht
signifikant in der Häufigkeit der Sprachinteraktion.
Sprachinteraktionshäufigkeit zwischen den Versuchspersonen
In der Sprachinteraktionshäufigkeit gering, mittel, häufig und sehr häufig zwischen den
Versuchspersonen gibt es im Chi-Quadrat-Test einen signifikanten Unterschied (df=3,
p=0,004).
Sprachinteraktionshäufigkeit im Bezug zur Vorbefragung
In der Vorbefragung wurde erfragt, ob sich die Versuchspersonen den Computer eher
als Kommunikationsmöglichkeit oder nur als Werkzeug, das auf Befehle reagiert, vor-
stellen. Zehn Personen entschieden sich für die Kommunikationsmöglichkeit und 17 für
das Werkzeug. Diese Wahlmöglichkeit kann man in Beziehung zur Häufigkeit der
Sprachinteraktion in einer Kreuztabelle setzen. Anscheinend wurde Sprache sehr viel
häufiger benutzt wurde, wenn der Computer als Werkzeug gesehen wurde. Dieses
Ergebnis ist im exakten Test nach Fisher für geringe Zellenbesetzung signifikant
(p=0,032).
5.4.2.4 Interviewergebnisse zur Sprachinteraktion
In diesem Abschnitt werden die deskriptiven Ergebnisse des Interviews dargestellt, das
mit den Teilnehmern nach dem Hauptversuch durchgeführt wurde. Hierbei ging es im
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
52
Wesentlichen um die generelle Präferenz eines Systems sowie die Begründungen der
Testpersonen. Hier wird sich auf die Darstellung der Äußerungen zur Sprachinteraktion
beschränkt.
25 Personen fanden die Sprachinteraktion hilfreich und nur eine Person wenig funk-
tional. 17 Teilnehmer waren mit der Qualität der Spracherkennung zufrieden, neun fanden
sie eher schlecht. Genau umgekehrt war es bei den empfundenen Reaktionszeiten zwischen
Eingabe und Erkennungssignal. Das wurde 17 Mal als zu langsam empfunden, nur neun
fanden es in der vorliegenden Art gut. Bei der Frage, welche Interaktion generell bevorzugt
wurde, wurde neben „alles kombiniert“ die Kombination Sprache und Maus am
zweithäufigsten genannt, wie aus der Grafik Nr. 16 ersichtlich ist.
0
5
10
15
20
25
30
35
Blick &
Maus
Maus alles
kombiniert
Sprache &
Maus
Interaktion_bevorzugt
Häufigkeit
Interaktion_bevorzugt
Prozent
Abbildung 16 - Bevorzugte Interaktion
5.4.2.5 Deskriptive Ergebnisse zum Avatar
In diesem Abschnitt findet sich die Darstellung der deskriptiven Ergebnisse aus den
Fragebögen und den Videodaten zum Simulationsexperiment.
Anwesenheit
Eine Frage an die Versuchspersonen bestand darin, ob der Avatar überhaupt anwesend
sein soll und wenn ja, unter welchen Bedingungen. Dabei konnte zwischen „nein,
überflüssig“, „ja, hilfreich“, „ja, nette Abwechslung“ und „ja, wenn er bestimmte Dinge
kann“ gewählt werden. Grafik 17 zeigt die Verteilung. Die fehlenden Prozentangaben
stammen aus den fehlenden Fragebogendaten.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
53
Angaben in Prozent
14
7
21
51
nein, überflüssig
ja, hilfreich
ja, nette Abwechslung
ja, wenn er bestimmte
Dinge kann
Abbildung 17 - Vorstellungen zum Avatar: Anwesenheit
Es zeigt sich, dass der überwiegende Teil der Versuchspersonen die Anwesenheit des
Avatars an bestimmte Eigenschaften und Funktionen knüpft. Dazu zählen unter anderem
die in der Tabelle 2 dargestellten Antwortmöglichkeiten, die ohne Limitierung angekreuzt
werden konnten. Diese Antwortmöglichkeiten wurden nach den in Tabelle 2 dargestellten
Gesichtspunkten zunächst kategorisiert. Die vorgenommene Zuordnung ist zum größten
Teil selbsterklärend. Das Eigenleben wurde den Emotionen zugeordnet, da ein Tamagochi
in den Augen des Autors Emotionen (Freude, Ärger, Traurigkeit, Angst) zeigt und auch
die Emotionen des Benutzers anspricht.
Antwortmöglichkeit Kategorie
Sprachausgabe Sprache
Spracherkennung Sprache
Mundbewegung menschliche Züge
zum Geburtstag gratulieren menschliche Züge
unterschiedliches Erscheinungsbild menschliche Züge
Antworten auf Fragen Funktionalität
an Aufgaben/Termine erinnern Funktionalität
Emotionsäußerung/ -erkennung Emotion
Eigenleben (Tamagochi) Emotion
Tabelle 2 - Kategorienbildung Fragebogenantworten
Nach der Kategorisierung der Antworten der Versuchspersonen wurden die Antworten
getrennt nach den einzelnen Kategorien ausgewertet.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
54
Hier ist noch anzumerken, dass sich die prozentualen Anteile auf die Anzahl von 39
Versuchspersonen (=100%) beziehen, von denen Fragebogendaten zum Avatar vorliegen.
Vorstellungen zum Avatar
Beginnend mit der Kategorie „Sprache“ zeigte sich, dass Spracherkennung und Sprach-
ausgabe relativ häufig genannt wurden, wobei Spracherkennung noch wichtiger als
Sprachausgabe zu sein scheint, wie in Abbildung 18 zu erkennen ist.
0
10
20
30
40
50
60
70
80
90
100
Spracherkennung Sprachausgabe
Anzahl angekreuzter
Antworten
Prozent
Abbildung 18 - Vorstellungen zum Avatar: Sprache
In der nächsten Kategorie „menschliche Züge“ lässt sich anhand der Grafik 19
erkennen, dass sie zum einen deutlich weniger angekreuzt wurden und sich zum anderen
kaum Unterschiede in der Auswahl der verschiedenen Antwortalternativen zeigen lassen.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
55
0
10
20
30
40
50
60
70
80
90
100
Mundbewegung Gratulieren Erscheinunbgsbild
Anzahl angekreuzter Antworten
Prozent
Abbildung 19 - Vorstellungen zum Avatar: Gesichtszüge
Die nächste Kategorie „Funktionalität“ wurde wieder relativ oft gewählt, wobei es, wie
Grafik 20 zeigt, den Probanden wichtiger erscheint, Antworten auf Fragen zu bekommen,
als an Aufgaben oder Termine erinnert zu werden.
0
10
20
30
40
50
60
70
80
90
100
Anworten auf
Fragen
an Aufgaben
/Termine erinnern
Anzahl angekreuzter
Antworten
Prozent
Abbildung 20 - Vorstellungen zum Avatar: Funktionalität
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
56
Die letzte Kategorie „Emotionalität“ scheint, wie man in Abbildung 21 erkennen kann,
relativ unwichtig zu sein. Nur sehr wenige wünschen sich von einem Avatar Emotions-
äußerung oder –erkennung und dass er ein Eigenleben wie ein Tamagochi aufweist.
0
10
20
30
40
50
60
70
80
90
100
Eigenleben Emotionsäußerung/Erkennung
Anzahl
Prozent
Abbildung 21 - Vorstellungen zum Avatar: Emotionalität
Hedonistische Qualität des Avatars
Die hedonistische Qualität wurde operationalisiert über den Begriff Spaß. Wenn man
die Antworten der Versuchspersonen auf die Frage, ob sie Spaß an der Kommunikation mit
dem Avatar hatten, betrachtet, zeigt sich, wie in Grafik 22 ersichtlich, dass der etwas
größere Anteil bei denen liegt, die eher Spaß mit dem Avatar hatten. Die fehlenden Pro-
zente entstehen durch die fehlenden Fragebogenwerte.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
57
Angaben in Prozent
16
3319
23
sehr
eher ja
eher nicht
gar nicht
Abbildung 22 - Antworten, auf die Frage, ob die VP Spaß an der Kommunikation mit dem Avatar
hatten
Gruppenvergleiche zum Avatar in Bezug auf den Spaßfaktor
Im Folgenden wurden die vier Unterkategorien („hatten keinen Spaß“, „hatten eher
keinen Spaß“, „hatten eher Spaß“, „hatten Spaß“) zu „hatten keinen Spaß“ und „hatten
Spaß“ zusammengefasst und damit zwei fast gleich große Gruppen gebildet. 21 Versuchs-
personen (davon 14 männliche und sieben weibliche) hatten Spaß, 18 Personen (davon elf
männliche und sieben weibliche) hatten keinen Spaß an der „Kommunikation“ mit dem
Avatar.
Bezogen auf die oben gebildeten Kategorien zeigten sich in den speziellen Kreuz-
tabellen für Mehrfachantworten unten dargestellte Ergebnisse bei der Verteilung auf die
beiden Gruppen. Es geht darum, eventuelle Gruppenunterschiede aufzuzeigen. Auch hier
erfolgt eine prozentuale Darstellung der Antworten diesmal in Relation zur Gruppengröße.
Zum Beispiel lag die Anzahl der Personen in der Gruppe "hatten Spaß" bei 14
beziehungsweise 70%, die sich Antworten auf Fragen wünschten. In der Gruppe "hatten
keinen Spaß" lag diese Anzahl bei 77,8%. Des Weiteren ist die ohnehin geringe Anzahl der
Nennungen in den Kategorien „menschliche Züge“ und „Emotion“ zu beachten.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
58
• Sprache
0
10
20
30
40
50
60
70
80
90
100
hatten Spaß hatten keinen Spaß
Spracherkennung
Sprachausgabe
Abbildung 23 - Spaßfaktor und Sprache (Angaben in Prozent)
Wie Grafik 23 zeigt, wird Spracherkennung offensichtlich unabhängig vom Spaßfaktor
gewünscht. Sprachausgabe scheint sogar von Teilnehmern, die keinen Spaß hatten, mehr
gewünscht zu werden.
• Menschliche Züge
0
10
20
30
40
50
60
70
80
90
100
Mundbewegungen Erscheinungsbild
hatten Spaß
hatten keinen Spaß
Abbildung 24 - Spaßfaktor und menschliche Züge (Angaben in Prozent)
Es scheint bei den Nennungen in der Kategorie „menschliche Züge“ keine nennens-
werten Unterschiede zwischen den beiden Gruppen zu geben, wie aus Abbildung 24
ersichtlich ist.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
59
• Funktionalität
0
10
20
30
40
50
60
70
80
90
100
hatten Spaß hatten keinen Spaß
Antworten auf Fragen
An Aufgabe/Termine
erinnern
Abbildung 25 - Spaßfaktor und Funktionalität (Angaben in Prozent)
Laut Abbildung 25 scheint es auch in der Kategorie „Funktionalität“ keine Unterschiede
zwischen den Gruppen zu geben.
• Emotion
0
10
20
30
40
50
60
70
80
90
100
hatten Spaß hatten keinen Spaß
Eigenleben
Emotionserkennung/Äußeru
ng
Abbildung 26 - Spaßfaktor und Emotionalität (Angaben in Prozent)
Es zeigt sich in Abbildung 26, dass anscheinend mehr Versuchspersonen, die Spaß an
der Kommunikation mit dem Avatar hatten, als die, die keinen hatten, auch Emotionen in
der Interaktion mit dem Avatar wünschten.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
60
Gruppenvergleiche zum Avatar in Bezug auf die Ansprache
Zusätzlich zur Unterteilung in die Gruppen von Versuchspersonen, die Spaß be-
ziehungsweise keinen Spaß hatten, wurde eine Unterteilung bezüglich der Ansprache des
Avatars (personifiziert / unpersonifiziert) vorgenommen. Dazu wurden die Videodaten zur
Ansprache des Avatars ausgewertet. Da die Sequenz sehr kurz war, konnte nur eine sehr
grobe Einteilung anhand weniger Merkmale aus der Kommunikation vorgenommen
werden. Sowohl in der personifizierten als auch in der unpersonifizierten Form erfolgte
eine Aufforderung zur Handlung, aber in der ersten Form im Imperativ („Geh durch die
Tür!“) und in der zweiten Form im Infinitiv („Durch die Tür gehen!“). Personifizierte
Aufforderungen wurden oft durch „bitte“ ergänzt. Dies erfolgte auch manchmal in einer
unpersonifizierten Form („Bitte Start!“), aber meist, wenn die Person zwischen
personifizierter und unpersonifizierter Ansprache wechselte. Diese Personen wurden
ebenfalls der ersten Gruppe zugeordnet, da der am meisten aussagende Initialsatz immer
personifiziert war. Ebenfalls charakteristisch für die personifizierte Ansprache war eine
nachdringliche Aufforderung durch Wechsel des Vokabulars („Du sollst Dir das Bild
angucken!“), um endlich „erhört“ zu werden und die direkte Begrüßung und Ansprache
(„Hallo Avatar“). Manche Probanden wurden auch umgangssprachlich wie mit einem
guten Freund („Dann geh mal!“). Eine Zusammenfassung der häufigsten Äußerungen
findet sich in der nachstehenden Tabelle 3.
Personifizierte Ansprache Unpersonifizierte Ansprache
Lauf los!
Geh durch die Tür!
Öffne das Kugellager!
Bewege den Monitor!
Betrachte das Bild!
Dreh Dich um!
Start!
Durch die Tür gehen!
Kugellager öffnen!
Bildschirm bewegen!
Bild ansehen!
Stop! Zurück!
ergänzt durch die Höflichkeitsform „bitte“
Bitte geh durch die Tür und bewege bitte
den Bildschirm, dreh bitte das Kugellager
und betrachte das Bild näher!
Bitte Start!
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
61
Nachdringliche Aufforderung:
Versuche, das Bild anzugucken!
Du sollst Dir das Bild angucken!
Schaust Du Dir jetzt das Bild an!
Direkte Ansprache:
Hallo, jetzt geh bitte zum Bildschirm!
Avatar, geh mal los zum Start und geh
durch die Tür durch!
vertraut / umgangssprachlich:
Dann geh mal!
Na gut – jetzt das Kugellager!
Tabelle 3 - Formen der Ansprache
Hier ist die unterschiedliche Gruppengröße noch auffälliger, da nur sechs Versuchs-
personen (davon vier männliche und zwei weibliche) die unpersonifizierte Ansprache und
29 Versuchspersonen (davon 17 männliche und 12 weibliche) die personifizierte An-
sprache gewählt haben. Deshalb werden in den nachfolgenden Ergebnissen wieder die an
der jeweiligen Gruppengröße relativierten Prozente dargestellt. Dabei ist vor allem zu
beachten, dass die Antworten der sechs Personen sehr viel Gewicht bekommen. Von acht
Personen fehlen die Video-Daten. Bezogen auf die anfangs gebildeten Kategorien zeigen
sich die nun folgenden Ergebnisse.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
62
• Sprache
0
10
20
30
40
50
60
70
80
90
100
unpersonifiziert personifiziert
Spracherkennung
Sprachausgabe
Abbildung 27 - Personifizierung und Sprache (Angaben in Prozent)
In Abbildung 27 zeigt sich, dass Sprachausgabe in der Gruppe mit der personifizierten
Ansprache weniger gewünscht wurde als in der mit der unpersonifizierten Ansprache. In
der Spracherkennung gibt es keine Unterschiede.
• Menschliche Züge
0
10
20
30
40
50
60
70
80
90
100
Mundbewegung Gratulieren Erscheinungsbild
unpersonifiziert
personifiziert
Abbildung 28 - Personifizierung und menschliche Züge (Angaben in Prozent)
In der Kategorie „menschliche Züge“ gibt es einen offensichtlichen Unterschied
zwischen den beiden Gruppen, wie aus Grafik 28 ersichtlich ist. Die Gruppe mit
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
63
personifizierter Ansprache wünscht sich mehr menschliche Züge von einem Avatar als die
mit der unpersönlichen Ansprache.
• Funktionalität
0
10
20
30
40
50
60
70
80
90
100
unpersonifiziert personifiziert
Antworten auf Fragen
An Aufgaben/Termine
erinnern
Abbildung 29 - Personifikation und Funktionalität (Angaben in Prozent)
In Abbildung 29 zur Kategorie „Funktionalität“ zeigt sich, dass sich die Gruppe mit
unpersonifizierter Ansprache eher Antworten auf Fragen wünschte als die Gruppe mit
personifizierter Ansprache.
• Emotion
0
10
20
30
40
50
60
70
80
90
100
unpersonifiziert personifiziert
Eigenleben
Emotionsäußerung/Erken
nung
Abbildung 30 - Personifikation und Emotionalität (Angaben in Prozent)
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
64
In der Kategorie „Emotion“ werden laut Abbildung 30 mehr Wünsche in Bezug auf
Emotionserkennung und -äußerung von der Gruppe mit der personifizierten Ansprache,
die gar nichts diesbezüglich wünscht, geäußert.
Kreuztabellen zum Avatar in Bezug auf Spaßfaktor / Ansprache und Altersgruppen
In den Tabellen 4 und 5 findet sich die Aufteilung der beiden gebildeten Gruppen Spaß
und Ansprache auf die Altersgruppen. Dabei ist wieder zu beachten, dass die Anzahl der
Versuchspersonen in den Altersgruppen nicht gleich verteilt ist.
Altersgruppe Hatten Spaß Hatten keinen Spaß Gesamt
13-20 Jahre 2 3 5
21-28 Jahre 5 8 13
29-36 Jahre 11 4 15
37-43 Jahre 3 2 6
Gesamt 21 18 39
Tabelle 4 - Alter und Spaß
Es zeigt sich in Tabelle 4, dass sich offensichtlich die Leute, die eher Spaß an der
Applikation hatten gegenüber denen, die keinen Spaß hatten, vermehrt in der Altersgruppe
29-36 Jahre befinden.
Altersgruppe Unpersonifiziert Personifiziert Gesamt
13-20 Jahre 1 4 5
21-28 Jahre 3 9 12
29-36 Jahre 2 11 13
37-43 Jahre 5 5
Gesamt 6 29 35
Tabelle 5 - Alter und Ansprache
Aus Tabelle 5 ist ersichtlich, dass der größte Unterschied zwischen den Probanden, die
den Avatar personifiziert angesprochen haben gegenüber denen, die ihn unpersonifiziert
angesprochen haben, offensichtlich in der Altersgruppe 37-43 Jahre liegt. Keiner der
Teilnehmer dieser Altersgruppe wählte die unpersonifizierte Form der Ansprache.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
65
5.4.2.6 Inferenzstatistik zum Avatar / Hypothesenprüfung
Die Gruppenunterschiede aus den theoriegeleiteten Hypothesen zum Avatar wurden im
Chi- Quadrat-Verfahren getestet. Im Folgenden wird sich auf ein Signifikanzniveau von "
=0,05 bezogen.
Unterschied zwischen personifizierter und unpersonifizierter Ansprache
Der Unterschied zwischen den Gruppen personifizierte und unpersonifizierte Ansprache
wurde mit Chi-Quadrat getestet und als signifikant (df=1, p=0,000) erwiesen. Die
Hypothese, dass die Gruppe der Versuchsteilnehmer, die den Avatar personifiziert an-
spricht, die Gruppe derer, die ihn unpersonifiziert anspricht, überwiegt, wird damit als
bestätigt angesehen.
Im Hinblick auf Ansprache und Geschlecht (p=1,000) fand sich kein statistisch
belegbarer Unterschied. Die Hypothese der Unterschiede zwischen Männern und Frauen
bezüglich Ansprache konnte somit nicht bestätigt werden.
Unterschied in der Bewertung der hedonistischen Qualität
Die beiden Gruppen „hatten Spaß“ und „hatten keinen Spaß“ wurden im Chi Quadrat
getestet. Es konnte kein Unterschied festgestellt werden (df=1, p=0,631) Damit hat sich die
Hypothese, dass die überwiegende Anzahl der Teilnehmer Spaß mit der Applikation
haben, nicht bestätigt.
Im Hinblick auf Spaß und Geschlecht (p=0,750) fand sich ebenfalls kein statistisch
belegbarer Unterschied. Die Hypothese der Unterschiede zwischen Männern und Frauen
bezüglich Spaß konnte damit auch nicht bestätigt werden.
5.4.2.7 Post Hoc Testergebnisse zum Avatar
Hier werden post hoc interessant erscheinende deskriptive Ergebnisse aus dem Daten-
material zum Avatar, zu denen keine konkreten Hypothesen formuliert werden konnten,
inferenzstatistisch überprüft.
Gruppenunterschiede in Bezug auf die Fragebogendaten
Die deskriptiven Ergebnisse aus dem Fragebogen zum Avatar im Verhältnis zu den
gebildeten Gruppen wurden auf Signifikanz mit dem exakten Test nach Fisher überprüft.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
66
Nur in zwei Fällen konnte der Chi-Quadrat–Test angewendet werden, da dort die
Voraussetzungen (mehr als 20 Prozent erwartete Häufigkeiten größer fünf in den einzelnen
Zellen) erfüllt waren. Des Weiteren wurde der Mann-Whitney-Test für 2 unabhängige
Stichproben gerechnet. Dabei wurden die gebildeten Gruppen Ansprache und Spaß als
unabhängige Stichproben und die Fragebogendaten (angekreuzt / nicht angekreuzt) als
abhängige Variable mit Ranginformation betrachtet. Die Signifikanzen aus den Tests sind
den folgenden Tabellen 6 und 7 zu entnehmen.
Mehrfachantworten
in Beziehung zur
Gruppe Spaß
Exakte Signifikanz p (1-seitig)
aus Fisher / asymptotische
Signifikanz p (2-seitig) aus Chi
Quadrat
Asymptotische Signifikanz p (2-
seitig) aus Mann-Whitney
Spracherkennung 0,616 0,890
Sprachausgabe 0,239 / 0,299 (df = 1) 0,305
Mundbewegung 0,384 0,459
Gratulieren 0,173 0,190
Erscheinungsbild 0,432 0,592
Antworten auf
Fragen
0,432 0,592
An Aufgaben /
Termine erinnern
0,373 / 0,516 (df = 1) 0,521
Emotionen 0,205 0,194
Eigenleben 0,344 0,350
Tabelle 6 - Mehrfachantworten in Beziehung zur Gruppe Spaß
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
67
Mehrfachantworten
in Beziehung zur
Gruppe Ansprache
Exakte Signifikanz p (1-seitig)
aus Fisher
Asymptotische Signifikanz p (2-
seitig) aus Mann-Whitney
Spracherkennung 0,719 0,945
Sprachausgabe 0,190 0,185
Mundbewegung 0,280 0,218
Gratulieren 0,487 0,555
Erscheinungsbild 0,416 0,457
Antworten auf
Fragen
0,132 0,111
An Aufgaben /
Termine erinnern
0,672 1,000
Emotionen 0,353 0,270
Eigenleben 0,559 0,686
Tabelle 7 - Mehrfachantworten in Beziehung zur Gruppe Ansprache
Die scheinbaren Gruppenunterschiede aus der deskriptiven Darstellung bezüglich
Sprachausgabe und Spaß, Emotion und Spaß, Sprachausgabe und Ansprache, menschliche
Züge (Mundbewegung, Gratulieren, Erscheinungsbild) und Ansprache, Antworten auf
Fragen und Ansprache, Emotionserkennung / -äußerung und Ansprache konnten nicht
statistisch untermauert werden.
Altersgruppen eins bis vier und Spaß
Die scheinbaren Unterschiede in Bezug auf Spaß und Altersgruppen (p=0,287) und
Ansprache und Altersgruppen (p=0,804) konnten mit Chi-Quadrat statistisch nicht belegt
werden.
Altersgruppen eins bis vier, Alter im Mediansplit und Geschlecht in Kombination mit
den Mehrfachantworten
Für die Fragestellung, ob es in Bezug auf Alter und Geschlecht Unterschiede in den
Mehrfachantworten gab, wurde der Mann-Whitney-Test gerechnet. Es wurden dafür die
unabhängigen Variablen Geschlecht und Alter (gesplittet am Median) als unabhängige
Stichproben und die Fragebogendaten (angekreuzt / nicht angekreuzt) als abhängige
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
68
Variable mit Ranginformation betrachtet. Für die Altersgruppen 1-4 wurde der Kruskal-
Wallis- Test gerechnet. Die Signifikanzen aus den Tests sind der folgenden Tabelle 8 zu
entnehmen.
Mehrfachantworten Altersgruppen
Mediansplit
mit Mann-
Whitney-U
Altergruppen
1-4 mit Kruskal
-Wallis H
Geschlecht
mit Mann-Whitney-U
Spracherkennung 0,946 0,376 0,533
Sprachausgabe 0414 0,811 0,724
Mundbewegung 0,069 0,222 0,782
Gratulieren 0,644 0,823 0,235
Erscheinungsbild 0,801 0,252 0,579
Antworten auf
Fragen
0,528 0,863 0,109
Aufgaben 0,039* 0,073 0,841
Emotionen 0,534 0,808 0,295
Eigenleben 0,957 0,681 0,564
Tabelle 8 - Mehrfachantworten in Beziehung zu Altersgruppen und Geschlecht
Hier konnten in Bezug auf „an Aufgaben / Termine erinnern“ ein signifikanter
Unterschied zwischen den Altersgruppen im Mediansplit festgestellt werden. Die
Versuchspersonen bis 27 Jahre haben signifikant häufiger an „Aufgaben / Termine erinnert
werden“ angekreuzt als die Personen über 27 Jahre. Für Mundbewegung und
Altersgruppen im Mediansplit und „an Aufgaben / Termine erinnern“ und die
Altersgruppen eins bis vier gibt es einen fast signifikanten Unterschied. Bezüglich
Aufgaben / Termine ist das Ergebnis aus den Altersgruppen im Mediansplit enthalten. Die
Mundbewegung wird auch von den Personen bis 27 Jahre mehr angekreuzt.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
69
5.4.3 Zusammenfassung der Ergebnisse in Bezug auf die
explorativen Fragestellungen
• Wird Sprache überhaupt benutzt? Wie wird Sprache im Vergleich zu den
anderen Modalitäten Blick und Maus / Tastatur benutzt?
Sprache wird als zweithäufigste Modalität im System benutzt.
• Wie wirkt sich die Voreinstellung des Nutzers zur Kommunikation mit dem
Computersystem auf die Benutzung von Sprache aus?
Wenn der Computer als Werkzeug gesehen wurde, wurde Sprache häufiger
benutzt, als wenn er als Kommunikationsmittel gesehen wurde.
• Wie wird Sprache im Vergleich zwischen den Versuchspersonen benutzt?
Sprache wird im Vergleich zwischen den Versuchspersonen eher weniger
benutzt.
• Wie verhält sich die Benutzung von Sprache über die Zeit?
Sprache wird über die Zeit weniger benutzt.
• Steht die Benutzung von Sprache mit der Leistung über alle Aufgaben in
Beziehung?
Die Häufigkeit der Sprachinteraktion korreliert nicht mit den Leistungen der
Versuchspersonen.
• Wie wird die Sprachinteraktion vom Benutzer bewertet?
Der Grossteil empfand Sprachinteraktion als hilfreich. Die Qualität der
Spracherkennung wurde eher positiv bewertet.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
70
• Wie verhält sich der Benutzer in der Interaktion mit dem Avatar?
Die überwiegende Zahl der Versuchspersonen spricht den Avatar personifiziert
an.
• Unter welchen Bedingungen ist die Anwesenheit des Avatars gewünscht?
Die überwiegende Anzahl von Versuchspersonen erwarten von ihm, dass er
bestimmte Dinge kann, wie z.B. als Terminkalender fungieren oder Antworten
auf Fragen geben. Sie wünschen sich für Interaktion zum großen Teil
Spracherkennung.
• Wie hedonistisch wird die Interaktion mit dem Avatar empfunden?
Die Einschätzung der hedonistischen Qualität der Applikation erfolgte zu
gleichen Teilen als gut und schlecht.
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
Ansprache des vorgestellten Avatars zueinander?
Hier sind lediglich Tendenzen zu erkennen besonders in Bezug auf
menschliche Züge und Emotionen, die bei der personifizierten Form der
Ansprache offensichtlich mehr gewünscht werden.
• Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die
empfundene hedonistische Qualität des vorgestellten Avatars zueinander?
Hier sind auch wieder lediglich Tendenzen zu erkennen in Bezug auf
menschliche Züge und Emotionen, die von der Gruppe, die Spaß hatte, mehr
gewünscht werden.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
71
• Lassen sich Unterschiede für den Avatar in Bezug auf Alter und Geschlecht
feststellen?
In Bezug auf Alter und Geschlecht lassen sich keine signifikanten Unterschiede
feststellen bis auf dass der Avatar als Terminkalender von Leuten unter 27
Jahren mehr gewünscht wurde als von Probanden über 27 Jahren.
Mundbewegung als Teil von menschlichen Zügen wird tendenziell von Leuten
unter 27 mehr gewünscht als von den "Älteren". Tendeziell ist ebenfalls das
Ergebnis zu sehen, dass "Ältere" offensichtlich mehr Spass (29-36 Jahre) an
der Applikation hatten und sie eher personifiziert (37-43 Jahre) angesprochen
haben.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
72
5.5 Diskussion
5.5.1 Interpretation der Ergebnisse
Dieser Abschnitt nimmt Bezug auf die explorativen Fragestellungen und theorie-
geleiteten Hypothesen zur Sprachinteraktion und zum Avatar und versucht, eine
Interpretation der Ergebnisse vorzunehmen, die auf Grund der nicht vorhandenen
Signifikanzen für die Mehrfachantworten beim Avatar sehr schwierig ist. Es können
lediglich Tendenzen dargestellt werden, die sich in dem Versuch gezeigt haben.
Anschließend erfolgt eine Integration der Ergebnisse in die bisherige Forschung und die
Ableitung von Schlussfolgerungen für die Gestaltung einer sprachbasierten
konversationalen Benutzungsschnittstelle.
5.5.1.1 Interpretation der Ergebnisse zur Sprachinteraktion
Im Vergleich der Sprachinteraktionshäufigkeit zwischen den Versuchspersonen ist der
Anteil derjenigen, die eher weniger Sprache benutzten, am höchsten. Es gibt aber auch
einen relativ hohen Anteil an Teilnehmern, die sie häufig benutzt haben. Das könnte daran
liegen, dass für die meisten diese Modalität neu war und sie sie deshalb zögerlicher
benutzten und andere sie schon kannten und sich schneller daran gewöhnt und die Vorteile
erkannt haben.
Das etwas paradox erscheinende Ergebnis aus der Kombination der Vorbefragung zum
Computer als Werkzeug oder Kommunikationsmittel mit der Sprachinteraktionshäufigkeit
könnte darin begründet liegen, dass die pragmatische Shortcutfunktion der Sprachbefehle
auch durchaus in das Schema „Computer als Werkzeug“ passt. Eine sauberere Begriffs-
definition wäre hilfreich gewesen.
Zur Fragestellung, wie sich die Benutzung von Sprache über die Aufgabenschwierigkeit
verhält, ist zu sagen, dass sich die Sprachinteraktion in der leichten Bedingung signifikant
von den anderen beiden Bedingungen unterscheidet. Das kann schlichtweg daran liegen,
dass in der leichten Versuchsbedingung sehr viel weniger Grundobjekte in weniger
Schritten zu bearbeiten waren. Deshalb wurden auch weniger Operationen per Sprache
ausgeführt.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
73
In der Benutzung von Sprache über die Zeit ist eine signifikante Abnahme der
Sprachinteraktion in der dritten Aufgabe zu verzeichnen. Das bestätigt die Hypothese, dass
die Interaktion mit Sprache über die Zeit abnimmt, weil die Versuchsteilnehmer müde
werden oder frustriert über Fehleingaben oder nicht erkannte Befehle sind. Letzteres kann
dazu führen, dass andere Modalitäten präferiert werden, um die Aufgaben zu erledigen, so
dass in manchen Fällen gar keine Aussage darüber möglich ist, ob der Proband vielleicht
gern weiter mit Spracheingabe gearbeitet hätte, wenn die Technik dies ermöglicht hätte.
Die erste Hypothese, dass Sprache die herausragende Modalität gegenüber Maus und
Blick ist, hat sich nicht bestätigt. Im Vergleich zwischen den einzelnen Modalitäten liegt
die Sprachinteraktion im Mittelfeld zwischen Blick (am wenigsten) und Maus (am
häufigsten). Das verwundert nicht, insofern, als die Besonderheiten der Modalität Blick
ihre Funktionalität per se einschränkten und sie schon deshalb seltener benutzbar war.
Außerdem musste sie durch Maus oder Sprache unterstützt werden. Dass die
Mausinteraktion der Sprachinteraktion überlegen ist, liegt wohl in der starken Gewöhnung
begründet. Das scheint durch die Shortcutfunktion (ersparte den Griff zur Maus
beziehungsweise zwei Mausklicks) und die Natürlichkeit der Sprache als Modalität nicht
aufgewogen zu werden. Hinzu kommt, dass die Modalität nicht so natürlich war, da das
System nur einzelne Wörter und Synonyme erkannte und deshalb die Interaktion nicht im
natürlichen Fluss erfolgen konnte.
Es konnte kein Zusammenhang zwischen der Sprachinteraktionshäufigkeit mit der
Leistung in den Aufgaben festgestellt werden. Das bedeutet, dass die durch die Shortcut-
Funktion eingesparte Zeit und die Modalität Sprache allein nicht wie in der Hypothese
erwartet, zu einer Erhöhung der Leistung führte. Dagegen gab es einen Effekt, wenn alle
Modalitäten zusammen benutzt wurden. [SEIFERT02]
Die Interviewergebnisse zeigen, dass der Grossteil der Nutzer die Sprachinteraktion als
hilfreich empfand, was die anderen Ergebnisse stützt. Etwas weniger, aber immer noch die
Mehrheit, fand die Qualität der Spracherkennung gut, was bedeuten kann, dass sie sich
durch gelegentliche Fehleingaben nicht von der Nutzung von Sprache haben abhalten
lassen. Die Reaktionszeit zwischen Erkennung und Signal wurde von der Mehrheit als zu
langsam empfunden. Wenn dies schneller gegangen wäre, hätten vielleicht noch mehr
Probanden öfter die Sprache benutzt. Verzögerungen zwischen Signalsendung und
Antwort durch den Empfänger sind auch in der Mensch-zu-Mensch-Kommunikation
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
74
hemmend. „Sprache und Maus“ wurden neben „alles kombiniert“ als die ideale Form der
Interaktion betrachtet. Die Mausinteraktion allein steht sogar hinter „Blick und Maus“
zurück. Das unterstützt die generelle Hypothese, dass Multimodalität vom Benutzer
durchaus gewünscht ist.
5.5.1.2 Interpretation der Ergebnisse zum Avatar
Die Vorstellungen über den Avatar zeigen, dass sehr viel Wert auf die Kategorien
Sprache und Funktionalität gelegt wird. Offensichtlich findet der Nutzer eine Interaktion
per Sprache mit dem Avatar sehr sinnvoll. Die Funktionalität steht dabei im Vordergrund.
Offenbar scheint es im Verhältnis dazu nicht so wichtig zu sein, dass der Avatar mensch-
liche Züge hat oder Emotionen zeigt oder erkennt.
Das deckt sich mit der Frage danach, ob die Anwesenheit des Avatars gewünscht ist.
Präferiert wird hier eindeutig „ja, wenn er bestimmte Dinge kann“. Es geht also primär
darum, den Nutzer bei der Aufgabenlösung zu unterstützen mit Antworten auf Fragen und
als Terminkalender. Dabei scheint die Spracherkennung für den Nutzer noch wichtiger zu
sein als die Sprachausgabe.
Menschliche Züge wurden vielleicht weniger oft angekreuzt, da die Beispiele zu
speziell (zum Geburtstag gratulieren) waren. Die Begriffe Emotionsäußerung
beziehungsweise -erkennung waren wiederum vielleicht zu abstrakt. Eventuell wären
„Ärger“ oder „Freude“ eher angekreuzt worden. Es bleibt die Frage, ob die
Versuchspersonen solche in ihren Augen vielleicht eher unwichtigen gestalterischen
Aspekte explizit benennen oder nur implizit darauf reagieren würden.
Die hedonistische Qualität der Interaktion mit dem Avatar operationalisiert durch Spaß
wird zu gleichen Teilen als gut und schlecht eingeschätzt. Damit hat sich die Hypothese,
dass die Gruppe, die Spaß an der Applikation hatte, größer ist als die Gruppe, die keinen
Spaß hatte, nicht bestätigt. Das könnte zum großen Teil daran liegen, dass einige
Versuchspersonen relativ schnell durchschaut haben, dass der Avatar nicht wie vom
Versuchsleiter vorgegeben auf Sprache reagiert hat und die Frage „Hatten Sie Spaß an der
Kommunikation mit dem Avatar?“ primär in Bezug auf die nicht wirklich funktionierende
Kommunikation bezogen wurde. Dies ist auch aus den Zusatzbemerkungen zu erkennen.
Es könnte aber auch daran liegen, dass den Teilnehmern aus der Gruppe „hatten keinen
Spaß“ die Applikation wirklich nicht gefallen hat. Hatten die Versuchspersonen Freude an
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
75
dem embodied Agent lag das wohl zum einen an der Art der Darstellung, aber auch an der
Neuheit der Applikation. Genauere Aspekte wurden hierbei nicht erfragt.
Kaum zu interpretieren sind die Gruppenunterschiede im Spaßfaktor in Bezug auf die
angekreuzten Vorstellungen zum Avatar, da hier aus der in Abschnitt 5.5.2.2 diskutierten
methodischen Problematik heraus keine signifikanten Ergebnisse vorliegen. Deshalb sind
dies hier lediglich Tendenzen, die einer weiteren Überprüfung in einer größeren Stichprobe
unterzogen werden müssten.
Der unterschiedliche Spaßfaktor berührte offensichtlich nicht den Wunsch nach
Spracherkennung und -ausgabe. Der war sogar bei weniger oder keinem Spaß nach
Sprachausgabe höher, vielleicht, um eine Rückmeldung über die Spracheingabe zu
bekommen. Es scheint keinen nennenswerten Unterschied zwischen den beiden Gruppen
in Bezug auf den Wunsch nach menschlichen Zügen zu geben. Die scheinen für die
hedonistische Qualität nicht so entscheidend zu sein. Dasselbe gilt für die Funktionalität,
da diese per se ja wenig mit dem Spaßfaktor zu tun hat. Dagegen scheint eine größere
Anzahl von Versuchspersonen, die Spaß an der Kommunikation mit dem Avatar hatten,
Emotionserkennung und -äußerung von ihrem Avatar zu wünschen, als die Personen, die
wenig oder keinen Spaß hatten. Dadurch wird die Kommunikation vielleicht noch
lebendiger und anregender empfunden. Die Probanden, die keinen oder weniger Spaß an
der Kommunikation mit dem Avatar hatten, scheinen auch kein weiteres Interesse an
lebendigerer Darstellung zu haben.
Es haben signifikant mehr Versuchspersonen den Avatar personifiziert als unper-
sonifiziert angesprochen. Damit hat sich Hypothese bestätigt, dass die personifizierte Form
der Ansprache überwiegt. Das mag an der anthropomorphen Form des Agenten liegen. Sie
sahen ihn dadurch offensichtlich mehr als menschenähnlichen Interaktionspartner.
Wirklich zu interpretieren wäre dieser Unterschied aber eher noch im Vergleich mit einer
anderen Darstellungsform. Bente und Krämer [BENTE02] schlagen zwar vor, wie in
unserem Experiment geschehen, nur das Aussehen und die Darstellung des Avatars als
unabhängige Variable zu betrachten, aber man könnte den Gruppenunterschied in der
Ansprache mit der Ansprache einer weniger anthropomorphen Applikation validieren.
Die Interpretation der Gruppenunterschiede zwischen personifizierter und unper-
sonifizierter Ansprache in Bezug auf die angekreuzten Vorstellungen zum Avatar muss
noch vorsichtiger zu verstehen sein als die zum Spaßfaktor, da hier durch die kleine
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
76
Zellenbesetzung in der unpersonifizierten Form jede gegebene oder nicht gegebene
Antwort ein starkes Gewicht bekommt.
Von beiden Gruppen wurde Spracherkennung gleichermaßen und Sprachausgabe sogar
in der unpersonifizierten Bedingung häufiger gewünscht. Die Art der Ansprache scheint
also nicht damit in Zusammenhang zu stehen, ob Sprachinteraktion mit dem Avatar
generell gewünscht wird. Es scheint aber einen Unterschied in den Gruppen in Bezug auf
menschliche Züge zu geben. Die Teilnehmer, die die personifizierte Art der Ansprache
wählten, wünschten sich auffallend mehr menschliche Züge von einem Avatar. Das
unterstützt die Annahme, dass die Kommunikation mit dem Avatar viel natürlicher ist, je
menschlicher er aussieht. Funktionalitäten sind von beiden Gruppen gewünscht, aber von
Probanden, die die unpersonifizierte Form der Ansprache wählten, wurden noch eher
Anworten auf Fragen gewünscht als von denen mit personifizierter Ansprache. Die Art der
Ansprache scheint also nicht mit der gewünschten Funktionalität in Zusammenhang zu
stehen. Das ist auch nicht anders zu erwarten, da Funktionalität ja generell gewünscht ist.
Bei der Kategorie der Emotionen zeigt sich wieder der zu erwartende Effekt, dass
Versuchspersonen, die den Avatar personifiziert angesprochen haben, sich eher
Emotionsäußerung und –erkennung von einem Avatar wünschen als die mit
unpersonifizierter Ansprache, die so etwas gar nicht wünschen. Dieses Ergebnis scheint
verständlich, da Emotionen den Anthropomorphismus des Avatars unterstreichen und
damit noch mehr zu natürlichsprachiger Kommunikation anregen.
Dass Versuchspersonen im Alter zwischen 29 und 36 Jahren tendenziell eher Spaß an
der Applikation hatten und Alter zwischen 37 und 43 Jahren sie eher personifiziert
angesprochen haben, könnte daran liegen, dass die „ältere“ Generation vielleicht
vorurteilsfreier und „naiver“ mit neuer Technik umgeht. Die jüngere Generation erwartet
zu viel beziehungsweise ist verwöhnter. Diesbezüglich könnte auch das Ergebnis
interpretiert werden, dass sich Versuchspersonen bis 27 Jahre eher die Funktionalität
„Terminkalender“ von einem Avatar wünschen als die „Älteren“, für die Funktionalität
vielleicht nicht so vordergründig ist. Weitere Forschung in Bezug auf die Altersstrukturen
ist notwendig.
Dass keine signifikanten Unterschiede zwischen Männern und Frauen in der Interaktion
mit dem Avatar festgestellt werden konnten, wird an der zu kleinen Stichprobe
festgemacht. Vielleicht gibt es aber tatsächlich keine Unterschiede. Sproull et al hatten
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
77
auch nicht das zu erwartende Ergebnis erzielt. Offensichtlich ist die Interaktionsform und
der Spaßfaktor sowohl bei Männern als auch bei Frauen sehr von der Art der Applikation
abhängig.
Ob sich die angedeuteten Unterschiede aus den Fragebogedaten in weiterer Forschung
mit größeren Stichproben untermauern lassen, bleibt abzuwarten.
5.5.2 Kritik an der Untersuchung
Der folgende Abschnitt befasst sich mit der kritischen Betrachtung der vorliegenden
Untersuchung. Es soll hier einerseits auf technische Probleme in der Untersuchungs-
vorbereitung und Durchführung und andererseits auf methodische Mängel eingegangen
werden.
5.5.2.1 Technische Probleme
Die Prototypenprogrammierung war zum Untersuchungszeitpunkt noch nicht ganz
ausgereift und abgeschlossen, so dass oft technische Probleme auftraten, die aber meist mit
einem Neustart des Systems behoben werden konnten.
Die per Sprache erteilten Befehle im Logfileexperiment wurden nicht immer sofort
erkannt, so dass nach ein bis drei Wiederholungen oft die Modalität gewechselt wurde.
Desweiteren wurden auch keine Fehlversuche bei der Eingabe gelogt. Die nicht
funktionierenden Versuche mit Sprache sind unzureichend (nur durch Notizen des
Versuchsleiters oder aus der Nachbefragung ableitbar) dokumentiert, so dass diesbezüglich
nur ungenaue Aussagen getroffen werden können, ob eventuell Sprache lieber und länger
benutzt worden wäre, wenn das System es zugelassen hätte.
5.5.2.2 Methodische Probleme
Methodische Kritik am Simulationsexperiment
Im Simulationsexperiment gibt es keine Aufgabe, die in einem Versuchplan variiert
werden könnte. Eine Vergleichsapplikation gab es auch nicht. Eine Animation mit einem
anders, weniger menschlich gestalteten Avatar wäre notwendig, um wirkliche Vergleiche
in Bezug auf die Ansprache und hedonistische Bewertung des Avatars anstellen zu können.
Die Anzahl der Versuchspersonen war zu gering, um statistisch bedeutsame Aussagen
treffen zu können. Sie wurde durch Nachversuche von 27 auf 43 erhöht, wovon aber 9
Datenausfälle durch fehlende Videoaufzeichnungen und / oder Fragebogenantworten zu
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
78
beklagen waren. Aber auch wenn die Daten vollständig vorgelegen hätten, müsste eine
noch größere Stichprobe untersucht werden, um die Effektstärke zu erhöhen.
Der Begriff „Spaß“ zur Operationalisierung der hedonistischen Qualität des Avatars ist
vermutlich zu indifferent. Außerdem wurde nach dem Spaß an der Kommunikation mit
dem Avatar gefragt. Die Interaktion mit dem System erfolgte aber einseitig, was einigen
Versuchspersonen nicht verborgen blieb und damit auch Auswirkungen auf die Be-
urteilung der hedonistischen Qualität der Applikation hatte. Des Weiteren ist die Vorgabe
der Antwortmöglichkeiten, Einteilung in die Antwort-Kategorien, ebenso wie die Zu-
ordnung der Teilnehmer in die Anspracheformen subjektiv. Hier erfolgte kein
Expertenrating, sondern eine Einschätzung des Autors.
Die Fragestellung und die Ergebnisse der Untersuchung zum Avatar sind demzufolge
nur sehr explorativ und tendenziell zu sehen. In weiterer Forschung könnten die tendenziell
gezeigten Ergebnisse mit einem richtigen Versuchsdesign und einer sehr viel höheren
Anzahl von Versuchspersonen statistisch bedeutsam werden.
Methodische Kritik am Logfileexperiment
Im Logfileexperiment gab es weniger methodische Probleme, da hier ein
Versuchsdesign existierte und der Versuch sehr viel länger dauerte, was die Datenmenge
und deren Aussagekraft steigerte. Allerdings enthalten Logfiledaten keine Information über
das individuelle Benutzerprofil in Bezug auf zum Beispiel Müdigkeitserscheinungen,
Frustrationsschwelle bei technischen Fehlleistungen und Erfahrung mit beziehungsweise
Ängsten vor Umgang mit einem neuen System.
Durch die lange Zeit, die die Versuchspersonen vor dem System verbrachten (von drei
bis zu fünf Stunden), traten Konzentrations- und Motivationsverluste auf, so dass deshalb
vielleicht weniger mit Sprache interagiert wurde.
Zum anderen könnte durch die Zeitvorgabe eine Art Stresssituation entstanden sein, die
dazu geführt hat, dass die Probanden möglichst schnell sein wollten. Diese Stresssituation
wurde durch die Neuartigkeit der Systeme und die Anwesenheit des Versuchsleiters
[BORTZ95] gefördert. Es ist anzunehmen, dass dadurch zusätzlich weniger Sprache
benutzt wurde, um sich nicht zu blamieren.
Das führt eventuell zu falschen Interpretationen in der Auswertung. Logfiles enthalten
keine Wahrheiten, sondern nur Interpretationshinweise.
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
79
Ein weiteres Problem war die Restriktion der Spracherkennung. Es konnten auch nur
einzelne Begriffe und die am besten ohne Kontextinformation vom System erkannt
werden, was die Teilnehmer in Kommandosprache verfallen ließ. Eine bessere Sprach-
erkennung in fließenden Sätzen wäre deshalb für die nächste Untersuchung wünschens-
wert.
Methodische Besonderheiten für Fragebogen- und Interviewdaten
Für Fragebogendaten gibt es die bekannten Probleme der Verständlichkeit der Items, da
keine mündlichen Erläuterungen erfolgten, der sozialen Erwünschtheit in den Antworten,
der Motivation der Probanden und der Besonderheiten in der Auswertung und
Interpretation.
Beim mündlichen halbstrukturierten Interview in der Nachbefragung gilt zu beachten,
dass zwischen den beiden Personen eine Beziehung entsteht, die sich auf die Beantwortung
der Fragen auswirken könnte. Freie Äußerungen sind schwer quantifizierbar und vor-
gegebene Antwortmöglichkeiten schränken den Informationsgehalt ein.
5.5.3 Integration der Ergebnisse in die Forschung und Ableitung
von Fragestellungen für die Gestaltung einer intelligenten
Benutzungsschnittstelle mit Sprache und Agenten
Die Ergebnisse aus der vorliegenden Untersuchung decken sich zum Teil mit den bisher
noch nicht besonders gut evaluierten Erkenntnissen bezüglich dessen, was Benutzer von
einem Agenten erwarten und wie sie sich in der Interaktion mit ihm verhalten. Die
menschliche Darstellung durch die 3D-animierte Gestalt, Mimik und Bewegung führte
offensichtlich vermehrt zu personifizierter Ansprache und damit zu natürlicher Kom-
munikation wie mit einem menschlichen Gegenüber. Das passt zu den Ergebnissen von
Koda und Maes, die fanden, dass ein menschliches Gesicht als Partner im Spiel versucht
wurde zu deuten und je menschlicher, desto eher wurden ihm menschliche Attribute wie
Intelligenz zugeschrieben. Bei Takeuchi und Naito [TAKEUCHI95] erzeugte ein Gesicht
mehr Augenkontakt und Aufmerksamkeit als eine andere Darstellungsform. Bei Sproull et
al [SPROULL96] zeigten sich weitere Attribute der Mensch-zu-Mensch-Kommunikation
bezüglich Bewertung von Persönlichkeitsmerkmalen und eigener Darstellung in Inter-
aktion mit dem Gesichtsinterface im Gegensatz zum Textinterface. Es lassen sich aus der
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
80
vorliegenden Untersuchung nur Aussagen über das Verhalten der Probanden im Vergleich
mit Untersuchungsergebnissen zur äußeren Erscheinung eines Agenten treffen, da der
Agent aus dem Simulationsexperiment nur eingebildet in Interaktion mit dem Nutzer treten
konnte. Eine reale multimodale Interaktion per Sprache, Blick oder Gestik war nicht
möglich. Es bliebe in einem Folgeexperiment zu zeigen, welche Effekte diese Form der
Interaktion und ob der Benutzer daraus Vorteile hat. Aus den Fragebogendaten ergab sich
tendenziell, dass Benutzer die Anwesenheit des Agenten hauptsächlich an bestimmte
Funktionen wie Antworten auf Fragen oder an Aufgaben / Termine erinnern koppeln. Das
deckt sich mit Erkenntnissen von van Mulken et al [MULKEN98], die zeigten, dass zwar
die Präsentation von Lehrmaterial mit Hilfe eines animierten Agenten gegenüber einer
anderen Applikation bevorzugt wurde, aber dies wurde von vielen auch von der Art des
Lehrmaterials abhängig gemacht. Die Funktionalität wird also vom Benutzer nicht aus den
Augen verloren. Spracherkennung und Sprachausgabe wurden in der vorliegenden
Untersuchung besonders für die Interaktion mit dem Avatar gewünscht. Das spricht dafür,
in weiteren Untersuchungen Spracherkennung und Sprachausgabe zu implementieren und
zu optimieren.
Die Modalität Sprache wurde im Logfileexperiment näher untersucht. Die
Untersuchungsergebnisse haben gezeigt, dass Sprache die am zweithäufigsten benutzte
Modalität war und möglicherweise auf Grund von Frustrationen durch Fehleingaben, der
Restriktion auf Kommandos und der Verzögerung zwischen Erkennung und Feedback über
die Zeit weniger benutzt wurde. Bei einer verbesserten Erkennungsleistung der
Spracheingabe mit den in Kapitel 4.2.7 beschriebenen Methoden und höherer
Verarbeitungsgeschwindigkeit könnte man prüfen, ob die bisher als hilfreich eingeschätzte
akustische Rückmeldung der Erkennung einer Spracheingabe noch notwendig ist und sich
die Benutzung von Sprache erhöht. [SEIFERT02]
Für den Versuch fällt es schwer, eine differenzierte Aussage darüber zu treffen, warum
Sprache überhaupt als Modalität gewählt wurde. Vielleicht war es nur die Shortcut –
Funktion, die die Probanden dazu brachte, Sprache zu benutzen und nicht die
„Natürlichkeit“ der Modalität. Vielleicht war es den Probanden aber auch eher angenehm,
ein eingegrenztes Vokabular zur Verfügung zu haben und dem System Befehle zu erteilen
anstatt im Fluss mit ihm zu reden. Das würde die Annahme von Walker und Cohen
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
81
[COHEN89] stützen, dass restringierte Sprache in multimodalen Interfaces je nach
Anwendungsform durchaus nützlicher sein kann als natürliche Sprache.
Da sich durch Integration verschiedener Modalitäten die Leistung und die Bewertung
des Systems durch den Benutzer generell verbessert, bleibt die Frage, welchen Platz die
Sprachinteraktion dabei einnimmt und wie man sie am „natürlichsten“ mit den anderen
Modalitäten kombinieren kann. Darauf wird im folgenden Ausblick noch näher
eingegangen.
5.5.4 Ausblick
Sicherlich werden komfortable Schnittstellen der Zukunft stark unterstützt einerseits
durch intuitive Eingabehilfsmittel, die den Gebrauch der natürlichen Ausdrucksformen des
Menschen (direkter Zugriff mit den Händen, Sprache, Gestik, Mimik) erlauben, und
andererseits durch intelligente, zum Teil auch personifizierte Helfer-Agenten, die über
Wissen der Anwendung verfügen und mit Hilfe von Expertensystemtechniken assistie-
rende Funktionen übernehmen.
Der noch in Entwicklungsstadium befindliche SMARTKOM demonstriert die Mensch-
Maschine-Schnittstelle der Zukunft. Das System schafft eine dialogische Mensch-Technik-
Interaktion durch koordinierte Analyse und Generierung multipler Modalitäten. Es wertet
sowohl Sprach-, als auch alphanumerische oder Handschrifteneingabe aus, analysiert
Gesten und den Gesichtsausdruck des Benutzers, charakterisiert den emotionalen Zustand
und kann beispielsweise auch Handabdrücke für die biometrische Identifikation
analysieren.
Es gibt aber bislang kaum Lösungsvorschläge dafür, wie die multimodalen Äußerungen
eines Systemnutzers - als zeitlich gesteuerte Perzepte auf getrennten Kanälen registriert - in
ihrem zeitlichen Zusammenhang zu rekonstruieren sind.
Besonders interessant für die weitere Forschung ist eine Integration der Modalitäten
Sprache und Gestik, die in natürlicher Kommunikation oft zusammen auftreten. Ver-
schiedene Befunde aus der psychologischen und phonetischen Forschung haben Hinweise
auf eine rhythmische Organisation des menschlichen Kommunikationsverhaltens erbracht,
und das sowohl im Hinblick auf die Produktion als auch die Rezeption von Äußerungen.
Wenn eine Person spricht, bewegen sich oft viele Teile des Körpers zur gleichen Zeit:
Arme, Finger, der Kopf etc. als so genannte koverbale Gesten. Die Informationen daraus
Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im
Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut
82
werden bisher als Sprach - und Gestenperzepte auf getrennten Kanälen technisch registriert
und müssen für die Steuerung von Anwendungen zusammengeführt und interpretiert
werden. Eine mögliche Fortsetzung betrifft die Frage, wie sich ein rhythmisch gesteuertes
Eingabesystem automatisch auf den individuellen kommunikativen Rhythmus unter-
schiedlicher Benutzer einstimmen lässt. Es ist leicht erkennbar, dass eine derartige Ein-
gabeform für Anwendungssysteme, wie sie heute schon im virtuellen Entwurf eingesetzt
werden, erheblichen Komfortgewinn erbringen könnte. [WACHS98]
Der aktuelle Forschungsstand bezüglich der Effekte von Agenetenrepräsentationen hat
Einfluss auf die weitere Vorgehensweise bei der Entwicklung von Embodied
Conversational Agents. Zur Systematisierung des Forschungsfeldes schlagen Bente und
Krämer [BENTE02] vor, zentrale Variable bei der Gestaltung und Evaluation von
anthropomorphen Interfaceagenten (AIA) zu benennen. Sie unterscheiden, am klassischen
experimentalpsychologischen Vorgehen orientiert, zwischen unabhängigen Variablen
(deren Effekte festgestellt werden sollen) wie Verhalten und Aussehen von AIA,
abhängigen Variablen (auf die sich potentielle Effekte auswirken) wie Einstellung und
Verhalten des Nutzers und moderierenden Variablen (die möglicherweise Einfluss nehmen
auf die Auswirkung der unabhängigen Variable auf die abhängige) wie Situations- und
Nutzermerkmale. „Erst wenn in diesen Bereichen der Evaluationsforschung genauere
Erkenntnisse vorliegen, kann vorhergesagt werden, welche Arten von AIAs unter welchen
Bedingungen auf welche Personengruppen welche Effekte verursachen. Ist ein solches
Wissen verfügbar, so kann insbesondere auch die Realisation sich daran orientieren – da
Wissen über spezifische Wirkungen zur Verfügung gestellt werden kann, das bei der
Implementierung berücksichtigt werden kann.“ [BENTE02].
Die Entwicklung und Erforschung von multimodalen Schnittstellen wie
Sprachinteraktion und AIA scheinen noch im Anfangsstadium zu sein, wobei die
Sprachinteraktion schon besser erforscht und implementiert ist.
Die KI-Forschung ist gefordert, erweiterte Techniken zu entwickeln, die auch das
zeitliche Kommunikationsverhalten des Menschen und die Erwartungen eines Nutzers an
einen Agenten besser berücksichtigen und damit zur Gestaltung von adaptiven
Dialogsystemen beziehungsweise intelligenten Benutzungsschnittstellen beitragen.
Auf die weiteren Fortschritte darf man gespannt sein.
Literaturverzeichnis
83
6 Literaturverzeichnis
[ALLEN80]
Allen, J. F., Perrault, C.R. (1980); Analyzing Intention in Utterances
in: Artificial Intelligence 15
[ATKINSON68]
Atkinson, R.C., Shiffrin, R.M. (1968); Human memory: A proposed system and its control
[BAUMGARTEN02]
Baumgarten, T. (2002); Ableitung eines noninvasiven Indikators von mental workload für
die Implementierung in einem adaptiven multimodalen System; Diplomarbeit; Technische
Universität; Berlin
[BENTE00]
Bente, G., Krämer, N.C. (2000); Psychologische Aspekte bei der Implementierung und
Evaluation von nonverbal agierenden Interface-Agenten
in: Proceedings Mensch und Computer 2001; S. 275-285
[BESNARD]
Besnard, P., Hanks, S. (Hrsg.); Proceedings of the Eleventh Conference on Uncertainty in
Artificial Intelligence; Morgan Kaufmann; San Francisco; S. 296-305
[BLOMBERG94]
Blomberg, M. (1994); A common phone model representation forspeech recognition and
synthesis
in: Proceedings of ICSLP94; Yokohama, 1994; S. 1875-1878
[BORTZ95]
Bortz, J., Döring, N. (1995); Forschungmethoden und Evaluation für Sozialwissenschaftler
(2. Aufl.); Berlin, Heidelberg; Springer
[BRIEST02]
Briest, S. (2002); Vergleich zweier gestischer Dialogsysteme in der Mensch-Maschine-
Interaktion; Diplomarbeit; Technische Universität; Berlin
[BROOKS02]
Brooks, R. (2002); Menschmaschinen; Campus Verlag; Frankfurt Main
[CASSELL98]
Cassell, J., Thórisson, K.R. (1998); The power of a nod and a glance: Envelope vs.
emotional feedback in animated conversational agents
in: Applied Artificial Intelligence
[CASSELL99]
Cassell, J., Vilhjálmsson, H. (1999); Fully embodied conversational agents: Making
communicative behaviors autonomous
in: Autonomous Agents and Multi-Agent Systems, 2; S. 45-64.
Literaturverzeichnis
84
[CHARNIAK91]
Charniak, E. (1991); Bayesian networks without tears; AI Magazine, 12(4); S. 50-63
[COHEN89]
Cohen, P.R., Sullivan, J.W., Dalrymple, M., Gargan, R.A., Moran, D.B., Schlossberg, J.L.,
Pereira, F.C.N., Tyler, S.W. (1989); Synergistic Use of Direct Manipulation and Natural
Language
in: Proceedings of CHI’89; New York; Association for Computing Machinery; S. 227-232
[DAGUM92]
Dagum, P., Galper, A., Horvitz, E. (1992); Dynamic network models for forecasting
in: Proceedings of the Eighth Conference on Uncertainty in Artificial Intelligence; Morgan
Kaufmann; San Meteo S. 41-48
[DEHN00]
Dehn, D., van Mulken, S. (2000); The impact of animated interface agents: a review of
empirical research
in: International Journal of Human-Computer Studies, Vol. 52; 2000; S. 1-22
[DESHMUKH02]
Deshmukh, O., Espy-Wilson, C., Juneja, A. (2002); Acoustic-phonetic Speech Parameters
for Speaker-independent Speech Recognition
in: International Conference on Acoustics, Speech and Signal Processing; ICASSP 2002;
Orlando; Florida
[DIETZ99]
Dietz, R.B., Lang, A. (1999); Affective agents: Effects of agent affect on arousal, attention,
liking and learning
in: Proceedings of international cognitive '99. San Francisco, CA
[DROPPO02]
Droppo, J., Acero, A., Deng, L. (2002); A Nonlinear Observation Model for Removing
Noise from Corrupted Speech Log Mel-Spectral Energies
in: Proceedings International Conference on Spoken Language Processing; Denver;
Colorado; Sep 2002
[ECONO01]
The Economist (2001); Son of paperclip; Print edition , 22. März 2001
[EILERS86]
Eilers, K., Nachreiner, F., Hänecke, K. (1986); Entwicklung und Überprüfung einer Skala
zur Erfassung subjektiv erlebter Anstrengung
in: Zeitschrift für Arbeitswissenschaft, 4(40); S. 215-224
[EMBASSI01]
Elektronische Multimediale Bedien- und Service-Assistenz, White Draft
http://www.embassi.de
Literaturverzeichnis
85
[ENGE00]
Enge, M., Massow, S. (2000); Needs for assistance of visually and physically disabled and
nondisabled persons when using money-/cash dispensers
in: (Hrsg.): de Waard, D.; Weikert, C.; Hoonhout, J.; Remekers, J.; Human-System
Interaction: Education, Research and Application in the 21st Century; Maastricht, NL,
Shaker Verlage; S. 263 – 266
[EYSENCK94]
Eysenck, M.W. (Hrsg.) (1994); The blackwell dictionary of cognitive psychology; Basil
Blackwell Ltd.; Oxford
[FELLBAUM91]
Fellbaum, K. (1991); Elektronische Sprachverarbeitung: Verfahren, Anwendungen,
Wirtschaftlichkeit; München
[FISCHER99]
Fischer, K. (1999); Repeats, Reformulations and Emotional Speech: Evidence for the
Design of Human-Computer Speech Interfaces
in: Proceedings of HCI, Volume 1; S. 560-565
[FOLDOC]
Free On-Line Dictionary of Computing; http://foldoc.doc.ic.ac.uk; Stichwort “Avatar”
[GHARAMANI98]
Ghahramani, Z. (1998); Learning Dynamic Bayesian Networks
in: Giles, C.L., Gori, M. (Hrsg.); Adaptive Processing of Sequences and Data Structures;
Lecture Notes in Artificial Intelligence; Springer-Verlag; Berlin; S. 168-197
ftp://ftp.cs.toronto.edu/pub/zoubin/vietri.ps.gz
[GREENBERG98]
Greenberg, S. (1998); Recognition in a New Key - Towards a Science of Spoken Language
in: ICASSP98, International Conference on Acoustics, Speech and Signal Processing;
Seattle; 1998
[HASSENZAHL00]
Hassenzahl, M., Platz, A., Burmester, M., Lehner, K. (2000); Hedonic and ergonomic
quality aspects determine a software's appeal
in: CHI 2000; S. 201-208
[HEDICKE02]
Hedicke, V. (2002); Multimodalität in Mensch-Maschine-Schnittstellen
in: Timpe, K.P., Jürgensohn, T. & Kolrep, H. (Hrsg.); Mensch-Maschine-Systemtecnik,
Konzepte, Modellierung, Gestaltung, Evaluation; Düsseldorf: Symposion; S. 205-233
[HOFB00]
Hofbauer, W.; Avatare
In: http://www.hfg-offenbach.de/div/daten7/gesiebtes/avatare/index.php
[HORN62]
Horn, W. (1962); Leistungsprüfsystem – (LPS); Göttingen; Hogrefe
Literaturverzeichnis
86
[HORVITZ95]
Horvitz, E., Barry, M. (1995); Display of information for time-critical decision making;
[HORVITZ98]
Horvitz, E., Breese, J., Heckerman, D., Hovel, D.; Rommelse, K. (1998); The lumiere
project: Bayesian user modeling for inferring the goals and needs of software users
in: Proceedings of the fourteenth conference on uncertainty in artificial intelligence;
Wisconsin; S. 256-265
[HORVITZ01]
Horvitz, E., Paek, T. (2001); Harnessing Models of Users' Goals to Mediate Clarification
Dialog in Spoken Language Systems
in: Proceedings of the Eighth Conference on User Modeling, Sonthofen, Germany, July
2001
[JAMESON95]
Jameson, A., Schäfer, R., Simons, J., Weis, T. (1995); Adaptive provision of evaluation-
oriented information: Tasks and techniques
in: Mellish, C. S. (Hrsg.), Proceedings of the Fourteenth International Joint Conference on
Artificial Intelligence; Morgan Kaufmann; San Meteo; S. 1886-1893
[KARAT99]
Karat, C.M., Halverson, C., Horn, D., Karat, J. (1999); Patterns of entry and correction in
large vocabulary continuous speech recognition systems
in: CHI 99 Conference Proceedings; S. 568-575
[KING96]
King, W.J., Ohya, J. (1996); The Representation of Agents: Anthropomorphism, Agency,
and Intelligence
in: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI),
1996, S. 289-290
[KOBSA90]
Kobsa, A. (1990); User Modeling in Dialog Systems: Potentials and Hazards
[KODA96]
Koda, T., Pattie, M. (1996); Agents with faces: The effect of personification
in: 5th IEEE International Workshop on Robot and Human Communication; Tsukuba;
Japan; November 1996
[BROCKHAUS]
Brockhaus online; www.xipolis.net
[LIU99]
Pastoor, S., Liu, J., Renault, S. (1999); An experimental multimedia system allowing 3D
visualization and eye-controlled interaction without user-worn devices
in: IEEE Transactions in Multimedia, 1(1).
Literaturverzeichnis
87
[MOON96]
Moon, Y., Nass, C.I. (1996); Adaptive agents and personality change: Complementarity
versus similarity as forms of adaptation
in: Bilger, R., Guest, S., Tauber, M.J. (Hrsg.); Human factors in computing systems:
Chi'96 electronic conference proceedings
[MSRSCG]
Microsoft Research, Social Computing Group; http://research.microsoft.com/vwg/
[MULKEN98]
van Mulken, S., André, E., Müller, J. (1998): The Persona Effect: How Substantial Is It?
in: Proceedings of the Human Computer Interaction Conference; Springer; Berlin; 1998; S.
53-66
[OVIATT89]
Oviatt, S.L. (1989); The CHAM model of hyperarticulate adaptation during human-
computer error resolution
in: Proceedings of the International Conference on Spoken Language Processing; Sydney;
Australia; 1998
[OVIATT99]
Oviatt, S.L. (1999); Ten Myths of Multimodal Interaction
in: Communications of the ACM, 42(11); S. 74-81.
[PICONE90]
Picone, J. (1990); Continuous Speech Recognition Using Hidden Markov Models
in: IEEE ASSP Magazine 7/90
[RABINER95]
Rabiner, R.R. (1995); Voice communication betweeen humans and machines - An
introduction.
in: Proceedings of the National Academy of Sciences of the United States of America, Bd.
92; Academy, Colloquium Paper; Washington D.C.; S. 9911-9913
[REEVES96]
Reeves, B., Nass, C. (1996); The media equation: How people treat computers, television
and new media like real people and places
in: CSLI publications & Cambridge university press; 1996
[RICH79]
Rich, E. (1979); User modeling via stereotypes
in: Cognitive Science, 3; S. 329-354
[RICH89]
Rich, E. (1989): Stereotypes and User Modeling
in: A. Kobsa and W. Wahlster, eds.: User Models in Dialog Systems. Heidelberg; Springer
Literaturverzeichnis
88
[SCHÄFER96]
Schäfer, R., Weyrath, T. (1996); Einschätzung von verfügbarer Arbeitsgedächtniskapazität
mit temporalen Bayesschen Netzen
in: Lindner, H.-G. (Hrsg.); 4. GI-Workshop: Adaptivität und Benutzermodellierung in
interaktiven Systemen: Workshop-Beiträge; VEW AG; Dortmund; S. 5.1-5.9
[SCHULZ00]
Schulz von Thun, F. (2000); Miteinander reden. Störungen und Klärungen 1. Allgemeine
Psychologie der Kommunikation; Reinbeck bei Hamburg; Rowohlt Taschenbuch Verlag
Gmbh (Original erschienen: 1981)
[SEIFERT02]
Seifert, K. (2002); Evaluation multimodaler Computer-Systeme in frühen
Entwicklungsphasen; Dissertation; Technische Universität; Berlin
[SHIFFRIN94]
Shiffrin, R.M., Nosofsky, R.M. (1994); Seven plus or minus two: A commentary on
capacity limitations
in: Psychological Review, 101; S. 357-361
[SOLTAU98]
Soltau, H., Waibel A. (1998); On the influence of hyperarticulated speech on the
recogniton performance
in: Proceedings of the International Conference on Spoken Language Processing; Sydney;
Australia; 1998
[SOLTAU00]
Soltau, H., Waibel, A. (2000); Specialized Acoustic Models for Hyperarticulated Speech
in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing; Istanbul; Jun 2000
[SPROULL96]
Sproull, L., Subramani, M., Kiesler, S., Walker, J.H., Waters, K. (1996); When the
interface is a face
in: Human-Computer Interaction, 11, S. 97-124
[SUSEN99]
Susen, A.; Spracherkennung. Kosten, Nutzen, Einsatzmöglichkeiten; VDE
[TAKEUCHI95]
Takeuchi, A., Naito, T.; Situated facial displays: Towards social interaction
in: Proceedings of CHI-95; 1995
[TENNANT83]
Tennant, H.R., Ross, K.M., Thompson, C.W. (1983); Usable natural language interfaces
through menu-based natural language understanding
in: Proceedings of CHI '83: Human Factors in Computing Systems
Literaturverzeichnis
89
[TUR02]
Tur, G., Wright, J., Gorin, A., Riccardi, G., Hakkani-Tür, D. (2002); Improving Spoken
Language Understanding Using Word Confusion Networks
in: Proceedings of International Con-ference on Spoken Language Processing (ICSLP);
2002
[TURING50]
Turing, A. (1650); Computing Machinery and Intelligence
in: Mind, Vol 59, No. 236; S. 433-460
[VARY98]
Vary P., Heute, U. (1998); Hess, W.; Digitale Sprachsignalverarbeitung; Stuttgart;
Teubner; 1998
[WACHS98]
Wachsmuth, I. (1998); Experten- und Agentensystemtechniken fürintuitivere
Benutzungsschnittstellen
in: Mester, J., Perl, J. (Hrsg.) (1998); Informatik im Sport; Köln: Sport und Buch Strauss;
1998; S. 181-191
[WALKER89]
Walker, M., Whittaker, S. (1989); When Natural Language is Better than Menus: A Field
Study; Technical Report, Hewlett Packard Laboratories; Bristol; England
[WECHSLER91]
Wechsler, D. (1991); Hamburg-Wechsler-Intelligenztest für Erwachsene – (HAWIE-R);
Bern, Stuttgart, Toronto; Huber
[WEIZENBAUM66]
Weizenbaum, J. (1966); Eliza: A Computer Program for the Study of Natural Language
Communication between Man and Machine
in: Communications of the ACM, Col 9, No. 1; 1966; S. 36-45
[XUEDONG]
Huang, X. et al; Speech-enabled Agents; http://research.microsoft.com/srg/slu.aspx
[YOON]
Yoon, S., Kim, J.; Evaluation of ASR Sensors;
http://imis.ncat.edu/Evaluation%20of%20ASR%20Sensors.htm
[ZWEIG99]
Zweig, G., Russel, S. (1999); Probabilistic Modeling with Bayesian Networks for
Automatic Speech Recognition
in: International Conference on Speech and Language Processing; 1999
Anhang
90
7 Anhang
7.1 Daten aus SPSS
Siehe Abschnitt 5.3.7
Wunsch Kommunikation mit Computer
Abbildung 11
Wunsch Kommunikation mit
Computer
Anzahl der Nennungen
von N=27
herkömmlich (Maus / Tastatur) 13
Sprachausgabe 25
Spracherkennung 13
Assistent 4
Blickinteraktion 9
Pop up 5
Tamagochi 1
Emotions- /
Motivationserkennung
6
Emotionsäußerung 3
Tabelle 9 – Wunsch Kommunikation
Computer
Sprachsoftwareerfahrung
Sprachsoftwareerfahrung
2 7,4
6 22,2
1 3,7
18 66,7
27 100,0
gute
schlechte
wenig
keine
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 10 - Sprachsoftwareerfahrung
siehe Abschnitt 5.4.2.1
Sprachinteraktionshäufigkeit zwischen den
Versuchspersonen
siehe Abbildung 14
Kategorisierung der Interaktionshäufigkeit Sprache
14 51,9
3 11,1
8 29,6
2 7,4
27 100,0
gering
mittel
häufig
aussergewöhnlich häufig
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 11 - Kategorisierung der
Interaktionshäufigkeit Sprache
Sprachinteraktionshäufigkeit in den drei
Schwierigkeitsstufen
siehe Abbildung 15
27 27 27
10,59 13,63 15,37
10,17 13,18 14,50
31 37 55
0 0 0
31 37 55
N
Mittelwert
Standardabweichung
Spannweite
Minimum
Maximum
Sprachinteraktion in der
leichten
Aufgabe-CAD-raum
Sprachinteraktion in
der mittleren
Aufgabe-CAD-Raum
Sprachinteraktion
in der schweren
Aufgabe-CAD-raum
Tabelle 12 - Sprachinteraktionshäufigkeit
in den drei Schwierigkeitsstufen
Siehe Abschnitt 5.4.2.2
Sprachinteraktion im Vergleich zu den anderen
Modalitäten
Ränge
1,37
1,74
2,89
cad alle
Blickinteraktionshäufigkeit
cad alle
Sprachinteraktionshäufigkeit
cad alle
Mausinteraktionshäufigkeit
Mittlerer Rang
Statistik für Testa
27
33,852
2
,000
N
Chi-Quadrat
df
Asymptotische Signifikanz
Friedman-Testa.
Tabelle 13 - Sprachinteraktion im
Vergleich zu den anderen Modalitäten
Anhang
91
Sprachinteraktion über die Zeit
Ränge
2,15
2,26
1,59
cad 1.Aufgabe
Sprachinteraktionshäufigkeit
cad 2.Aufgabe
Sprachinteraktionshäufigkeit
cad 3.Aufgabe
Sprachinteraktionshäufigkeit
Mittlerer Rang
Statistik für Testa
27
8,360
2
,015
N
Chi-Quadrat
df
Asymptotische Signifikanz
Friedman-Testa.
Tabelle 14 - Sprachinteraktion über die
Zeit
Zusammenhang zwischen Sprachinteraktion und Leistung
Korrelationen
1,000 ,114
, ,423
27 27
,114 1,000
,423 ,
27 27
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
cad alle
Sprachinteraktionshäufigkeit
cad alle Aufgaben Leistung
Kendall-Tau-b
cad alle
Sprachinterakti
onshäufigkeit
cad alle Aufgaben
Leistung
Tabelle 15 - Zusammenhang zwischen
Sprachinteraktion und Leistung
Siehe Abschnitt 5.4.2.3
Sprachinteraktion über die Aufgabenschwierigkeit
(Expertenrating)
Ränge
1,61
2,20
2,19
Sprachinteraktion in der
leichten Aufgabe-CAD-raum
Sprachinteraktion in der
mittleren Aufgabe-CAD-Raum
Sprachinteraktion in der
schweren Aufgabe-CAD-raum
Mittlerer Rang
Statistik für Testa
27
7,356
2
,025
N
Chi-Quadrat
df
Asymptotische Signifikanz
Friedman-Testa.
Tabelle 16 - Sprachinteraktion über die
Aufgabenschwierigkeit (Expertenrating)
Sprachinteraktionshäufigkeit zwischen Versuchspersonen
Kategorisierung der Interaktionshäufigkeit Sprache
14 6,8 7,3
3 6,8 -3,8
8 6,8 1,3
2 6,8 -4,8
27
gering
mittel
häufig
aussergewöhnlich häufig
Gesamt
Beobachtetes N
Erwartete
Anzahl Residuum
Statistik für Test
13,444
3
,004
Chi-Quadrat a
df
Asymptotische Signifikanz
Kategorisierung
der
Interaktionshäu
figkeit Sprache
Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten
erwartet. Die kleinste erwartete Zellenhäufigkeit ist 6,8.
a.
Tabelle 17 - Sprachinteraktionshäufigkeit
zwischen Versuchspersonen
Sprachinteraktionshäufigkeit im Bezug zur Vorbefragung
Cad_Spache_Gruppenbildung * Wunsch Computer Werkzeug oder
Kommunikation ? Kreuztabelle
Anzahl
7 7 14
2 1 3
8 8
1 1 2
10 17 27
gering
mittel
häufig
sehr häufig
Cad_Spache_Gruppenbildung
Gesamt
Kommunika
tionsmittel Werkzeug
Wunsch Computer
Werkzeug oder
Kommunikation ?
Gesamt
Anhang
92
Chi-Quadrat-Tests
6,988a
3 ,072 ,b
9,594 3 ,022 ,038
7,670 ,032
2,509
c
1 ,113 ,139 ,080 ,045
27
Chi-Quadrat nach Pearson
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Punkt-Wahrsc
heinlichkeit
5 Zellen (62,5%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,74.a.
Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b.
Die standardisierte Statistik ist 1,584.c.
Tabelle 18 - Sprachinteraktionshäufigkeit
und Wunsch Computer Werkzeug oder
Kommunikationsmittel?
Siehe Abschnitt 5.4.2.4
Funktionalität der Sprachinteraktion
Sprachinteraktion_Funktionalität
1 3,7
25 92,6
1 3,7
27 100,0
0
hilfreich
wenig funktional
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 19 - Funktionalität der
Sprachinteraktion
Reaktionszeiten der Sprachinteraktion
Sprachinteraktion_Reaktionszeiten
1 3,7
17 63,0
9 33,3
27 100,0
0
zu langsam
o.k.
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 20 - Reaktionszeiten der
Sprachinteraktion
Qualität der Sprachinteraktion
Sprachinteraktion_Qualität
1 3,7
17 63,0
9 33,3
27 100,0
0
gut
schlecht
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 21 - Qualität der Sprachinteraktion
Bevorzugte Interaktion
Siehe Abbildung 16.
Interaktion_bevorzugt
3 11,1
2 7,4
13 48,1
9 33,3
27 100,0
Blick&Maus
Maus
alles kombiniert
Sprache&Maus
Gesamt
Gültig
Häufigkeit Gültige Prozente
Tabelle 22 - Bevorzugte Interaktion
siehe Abschnitt 5.4.2.5.
Anwesenheit des Avatars gewünscht?
Siehe Abbildung 17.
Anwesenheit
6 14,0
3 7,0
9 20,9
22 51,2
40 93,0
3 7,0
43 100,0
nein, überflüssig
ja, hilfreich
ja, nette Abwechslung
ja, wenn er bestimmte
Dinge kann
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit Prozent
Tabelle 23 - Anwesenheit des Avatars
gewünscht?
Siehe Abbildungen 18-21.
Vorstellungen zum Avatar Anzahl der Nennungen
von N = 39
Spracherkennung 33
Sprachausgabe 22
Mundbewegung 6
Gratulieren 10
Unterschiedliches
Erscheinungsbild
12
Antworten auf Fragen 29
An Aufgaben / Termine erinnern 20
Emotionserkennung / -äußerung 5
Eigenleben / Tamagochi 4
Tabelle 24 - Vorstellungen zum Avatar –
Fragebogenantworten
Hedonistische Qualität des Avatars
Siehe Abbildung 22.
Anhang
93
Spass
7 16,3
14 32,6
8 18,6
10 23,3
39 90,7
4 9,3
43 100,0
sehr
eher ja
eher nicht
gar nicht
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit Prozent
Tabelle 25 - Hedonistische Qualität des
Avatars
Kreuztabellen zu den verschiedenen Kategorien in Bezug
auf Spaß
Siehe Abbildung 23.
Sprache Hatten
Spaß
Hatten
keinen
Spaß
Total
Spracherkennung 17
85,0
15
82,3
32
84,2
Sprachausgabe 10
50,0
12
66,7
22
57,9
Summenvariable 20
100,0
18
100,0
38
100,0
Total 20
52,6
18
47,4
38
100,0
Tabelle 26 - Spaß und Kategorie Sprache
Siehe Abbildung 24.
Menschliche
Züge
Hatten
Spaß
Hatten
keinen
Spaß
Total
Mundbewegung 4
20,0
2
11,1
6
15,8
Gratulieren 3
15,0
6
33,3
9
23,7
Erscheinungsbild 6
30,0
4
22,2
10
26,3
Summenvariable 20
100,0
18
100,0
38
100,0
Total 20
52,6
18
47,4
38
100,0
Tabelle 27 - Spaß und Kategorie
Menschliche Züge
Siehe Abbildung 25.
Funktionalität Hatten
Spaß
Hatten
keinen
Total
Spaß
Antworten 14
70,0
14
77,8
28
73,7
Aufgaben/Termine 9
45,0
10
55,6
19
50,0
Summenvariable 20
100,0
18
100,0
38
100,0
Total 20
52,6
18
47,4
38
100,0
Tabelle 28 - Spaß und Kategorie
Funktionalität
Siehe Abbildung 26
Emotion Hatten
Spaß
Hatten
keinen
Spaß
Total
Eigenleben 3
15,0
1
5,6
4
10,5
Emotionserkennung
/-äusserung
4
20,0
1
5,6
5
13,4
Summenvariable 20
100,0
18
100,0
38
100,0
Total 20
52,6
18
47,4
38
100,0
Tabelle 29 - Spaß und Kategorie Emotion
Prozentangaben und Summen nach Antwortenden
38 gültige Fälle; 5 fehlende Fälle
Kreuztabellen zu den verschiedenen Kategorien in Bezug
auf die Ansprache
Siehe Abbildung 27.
Sprache Unpersonifizi
ert
Personifizie
rt
Total
Spracherken
nung
5
83,3
23
82,1
28
82,4
Sprachausga
be
5
83,3
15
53,6
20
58,8
Summenvari
able
6
100,0
28
100,0
34
100,0
Total 6
17,6
28
82,4
34
100,0
Tabelle 30 - Ansprache und Kategorie
Sprache
Siehe Abbildung 28.
Anhang
94
Menschliche
Züge
Unpersonifizi
ert
Personifizie
rt
Total
Mundbeweg
ung
0
0,0
6
21,4
6
17,6
Gratulieren 1
16,7
8
28,6
9
26,5
Erscheinung
sbild
1
16,7
9
32,1
10
29,4
Summenvari
able
6
100,0
28
100,0
34
100,0
Total 6
17,6
28
82,4
34
100,0
Tabelle 31 - Ansprache und Kategorie
Menschliche Züge
Siehe Abbildung 29.
Funktionalit
ät
Unpersonifizi
ert
Personifizie
rt
Total
Antworten 6
100,0
19
67,9
25
73,5
Aufgaben/Te
rmine
3
50,0
14
50,0
17
50,0
Summenvari
able
6
100,0
28
100,0
34
100,0
Total 6
17,6
28
82,4
34
100,0
Tabelle 32 - Ansprache und Kategorie
Funktionalität
Siehe Abbildung 30.
Emotion Unpersonifiz
iert
Personifizier
t
Total
Eigenleben 1
16,7
3
10,7
4
11,8
Emotionserk
ennung / -
äußerung
0
0,0
5
17,9
5
14,7
Summenvari
able
6
100,0
28
100,0
34
100,0
Total 6
17,6
28
82,4
34
100,0
Tabelle 33 - Ansprache und Kategorie
Emotion
Prozentangaben und Summen nach Antwortenden
34 gültige Fälle; 9 fehlende Fälle
siehe Abschnitt 5.4.2.6.
Altersgruppe * spass<=2 (FILTER) Kreuztabelle
Anzahl
2 3 5
5 8 13
11 4 15
3 3 6
21 18 39
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Altersgruppe
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
3,952a
3 ,267 ,b
4,066 3 ,254 ,311
4,010 ,287
1,235
c
1 ,267 ,296 ,176 ,077
39
Chi-Quadrat nach Pearson
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Punkt-Wahrsc
heinlichkeit
4 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,31.a.
Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b.
Die standardisierte Statistik ist -1,111.c.
Tabelle 34 - Alter und Spaß am Avatar
Altersgruppe * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
1 4 5
3 9 12
2 11 13
5 5
6 29 35
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Altersgruppe
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
1,613a
3 ,656 ,b
2,408 3 ,492 ,650
1,508 ,804
1,035
c
1 ,309 ,342 ,222 ,118
35
Chi-Quadrat nach Pearson
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Punkt-Wahrsc
heinlichkeit
6 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,86.a.
Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b.
Die standardisierte Statistik ist 1,017.c.
Tabelle 35 - Alter und Ansprache Avatar
Ansprache des Avatars – Test auf Signifikanz
ansprach = 2 (FILTER)
6 17,0 -11,0
28 17,0 11,0
34
unpersonifiziert
personifiziert
Gesamt
Beobachtetes N
Erwartete
Anzahl Residuum
Anhang
95
Statistik für Test
14,235
1
,000
Chi-Quadrat a
df
Asymptotische Signifikanz
ansprach = 2
(FILTER)
Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten
erwartet. Die kleinste erwartete Zellenhäufigkeit ist 17,0.
a.
Tabelle 36 - Ansprache des Avatars – Test
auf Signifikanz
Spaß mit Avatar – Test auf Signifikanz
spass<=2 (FILTER)
21 19,5 1,5
18 19,5 -1,5
39
hatten Spass
hatten keinen Spass
Gesamt
Beobachtetes N
Erwartete
Anzahl Residuum
Statistik für Test
,231
1
,631
Chi-Quadrat a
df
Asymptotische Signifikanz
spass<=2
(FILTER)
Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten
erwartet. Die kleinste erwartete Zellenhäufigkeit ist 19,5.
a.
Tabelle 37 - Spaß mit Avatar - Test auf
Signifikanz
Gruppenvergleiche zum Avatar in Bezug auf den
Spaß/Ansprache & Geschlecht
Geschlecht * spass<=2 (FILTER) Kreuztabelle
Anzahl
14 11 25
7 7 14
21 18 39
männlich
weiblich
Geschlecht
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,130b
1 ,718 ,750 ,489
,001 1 ,979
,130 1 ,719 ,750 ,489
,750 ,489
,127
c
1 ,722 ,750 ,489 ,245
39
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Punkt-Wahrsc
heinlichkeit
Wird nur für eine 2x2-Tabelle berechneta.
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 6,46.b.
Die standardisierte Statistik ist ,356.c.
Tabelle 38 - Geschlecht und Spaß am
Avatar
Geschlecht * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
4 17 21
2 12 14
6 29 35
männlich
weiblich
Geschlecht
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,134b
1 ,714 1,000 ,544
,000 1 1,000
,137 1 ,712 1,000 ,544
1,000 ,544
,130
c
1 ,718 1,000 ,544 ,336
35
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Punkt-Wahrsc
heinlichkeit
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,40.b.
Die standardisierte Statistik ist ,361.c.
Tabelle 39 - Geschlecht und Ansprache
Avatar
siehe Abschnitt 5.4.2.7
Test auf Signifikanzen in den Fragebogendaten
Siehe Tabellen 6 und 7
Spracherkennung * spass<=2 (FILTER) Kreuztabelle
Anzahl
17 15 32
3 3 6
20 18 38
Spracherkennung
nichts angekreuzt
Spracherkennung
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,020b
1 ,888
,000 1 1,000
,020 1 ,888
1,000 ,616
,019 1 ,890
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,84.b.
Tabelle 40 - Spracherkennung und Spaß
am Avatar
Sprachausgabe * spass<=2 (FILTER) Kreuztabelle
Anzahl
10 12 22
10 6 16
20 18 38
Sprachausgabe
nichts angekreuzt
Sprachausgabe
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Anhang
96
Chi-Quadrat-Tests
1,080b
1 ,299
,504 1 ,478
1,087 1 ,297
,342 ,239
1,051 1 ,305
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 7,58.b.
Tabelle 41 - Sprachausgabe und Spaß am
Avatar
Ränge
20 19,65 393,00
18 19,33 348,00
38
20 18,00 360,00
18 21,17 381,00
38
spass<=2 (FILTER)
hatten Spass
hatten keinen Spass
Gesamt
hatten Spass
hatten keinen Spass
Gesamt
Spracherkennung
Sprachausgabe
N Mittlerer Rang Rangsumme
Statistik für Testb
177,000 150,000
348,000 360,000
-,139 -1,025
,890 ,305
,942
a
,393
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Spracherkennung Sprachausgabe
Nicht für Bindungen korrigiert.a.
Gruppenvariable: spass<=2 (FILTER)b.
Tabelle 42 - Sprache und Spaß im Mann-
Whitney-U-Test
Mundbewegung * spass<=2 (FILTER) Kreuztabelle
Anzahl
4 2 6
16 16 32
20 18 38
Mundbewegung
nichts angekreuzt
Mundbewegung
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,563b
1 ,453
,093 1 ,761
,574 1 ,449
,663 ,384
,548 1 ,459
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,84.b.
Tabelle 43 - Mundbewegung und Spaß am
Avatar
Erscheinungsbild * spass<=2 (FILTER) Kreuztabelle
Anzahl
6 4 10
14 14 28
20 18 38
Erscheinungsbild
nichts angekreuzt
Erscheinungsbild
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,296b
1 ,587
,031 1 ,861
,297 1 ,586
,719 ,432
,288 1 ,592
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
1 Zellen (25,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,74.b.
Tabelle 44 - Erscheinungsbild und Spaß am
Avatar
Gratulieren * spass<=2 (FILTER) Kreuztabelle
Anzahl
3 6 9
17 12 29
20 18 38
Gratulieren
nichts angekreuzt
Gratulieren
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
1,762b
1 ,184
,893 1 ,345
1,780 1 ,182
,260 ,173
1,715 1 ,190
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,26.b.
Tabelle 45 - Gratulieren und Spaß am
Avatar
Ränge
20 20,30 406,00
18 18,61 335,00
38
20 17,85 357,00
18 21,33 384,00
38
20 20,20 404,00
18 18,72 337,00
38
spass<=2 (FILTER)
hatten Spass
hatten keinen Spass
Gesamt
hatten Spass
hatten keinen Spass
Gesamt
hatten Spass
hatten keinen Spass
Gesamt
Mundbewegung
Gratulieren
Erscheinungsbild
N Mittlerer Rang Rangsumme
Anhang
97
Statistik für Testb
164,000 147,000 166,000
335,000 357,000 337,000
-,740 -1,310 -,536
,459 ,190 ,592
,654
a
,346
a
,696
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Mundbewegung Gratulieren Erscheinungsbild
Nicht für Bindungen korrigiert.a.
Gruppenvariable: spass<=2 (FILTER)b.
Tabelle 46 - Menschliche Züge und Spaß im
Mann-Whitney-U-Test
FUNKT_2 * spass<=2 (FILTER) Kreuztabelle
Anzahl
14 14 28
6 4 10
20 18 38
Antworten
nicht angekreuzt
FUNKT_2
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,296b
1 ,587
,031 1 ,861
,297 1 ,586
,719 ,432
,288 1 ,592
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
1 Zellen (25,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,74.b.
Tabelle 47 - Antworten und Spaß am
Avatar
FUNKT_3 * spass<=2 (FILTER) Kreuztabelle
Anzahl
9 10 19
11 8 19
20 18 38
Aufgaben / Termine
nicht angekreuzt
FUNKT_3
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,422b
1 ,516
,106 1 ,745
,423 1 ,515
,746 ,373
,411 1 ,521
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 9,00.b.
Tabelle 48 - An Aufgaben/Termine
erinnern und Spaß am Avatar
Ränge
20 18,80 376,00
18 20,28 365,00
38
20 18,55 371,00
18 20,56 370,00
38
spass<=2 (FILTER)
hatten Spass
hatten keinen Spass
Gesamt
hatten Spass
hatten keinen Spass
Gesamt
Antworten
Aufgaben / Termine
N Mittlerer Rang Rangsumme
Statistik für Testb
166,000 161,000
376,000 371,000
-,536 -,641
,592 ,521
,696
a
,593
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Antworten
Aufgaben /
Termine
Nicht für Bindungen korrigiert.a.
Gruppenvariable: spass<=2 (FILTER)b.
Tabelle 49 - Funktionalität und Spaß im
Mann-Whitney-U-Test
Emotionen * spass<=2 (FILTER) Kreuztabelle
Anzahl
4 1 5
16 17 33
20 18 38
Emotionen
nichts angekreuzt
Emotionen
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Chi-Quadrat-Tests
1,730b
1 ,188
,697 1 ,404
1,852 1 ,173
,344 ,205
1,684 1 ,194
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,37.b.
Tabelle 50 - Emotionsäußerung/-erkennung
und Spaß am Avatar
Eigenleben * spass<=2 (FILTER) Kreuztabelle
Anzahl
3 1 4
17 17 34
20 18 38
Eigenleben
nichts angekreuzt
Eigenleben
Gesamt
hatten Spass
hatten
keinen Spass
spass<=2 (FILTER)
Gesamt
Anhang
98
Chi-Quadrat-Tests
,897b
1 ,344
,175 1 ,676
,941 1 ,332
,606 ,344
,874 1 ,350
38
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,89.b.
Tabelle 51 - Eigenleben und Spaß am
Avatar
Ränge
20 20,35 407,00
18 18,56 334,00
38
20 20,80 416,00
18 18,06 325,00
38
spass<=2 (FILTER)
hatten Spass
hatten keinen Spass
Gesamt
hatten Spass
hatten keinen Spass
Gesamt
Eigenleben
Emotionen
N Mittlerer Rang Rangsumme
Statistik für Testb
163,000 154,000
334,000 325,000
-,935 -1,298
,350 ,194
,633
a
,460
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Eigenleben Emotionen
Nicht für Bindungen korrigiert.a.
Gruppenvariable: spass<=2 (FILTER)b.
Tabelle 52 - Emotionen und Spaß im Mann-
Whitney-U-Test
Spracherkennung * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
5 23 28
1 5 6
6 28 34
Spracherkennung
nichts angekreuzt
Spracherkennung
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,005b
1 ,945
,000 1 1,000
,005 1 ,944
1,000 ,719
,005 1 ,945
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
3 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,06.b.
Tabelle 53 - Spracherkennung und
Ansprache Avatar
Sprachausgabe * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
5 15 20
1 13 14
6 28 34
Sprachausgabe
nichts angekreuzt
Sprachausgabe
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
1,807b
1 ,179
,787 1 ,375
1,990 1 ,158
,364 ,190
1,754 1 ,185
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,47.b.
Tabelle 54 - Sprachausgabe und Ansprache
Avatar
Ränge
6 17,67 106,00
28 17,46 489,00
34
6 21,67 130,00
28 16,61 465,00
34
ansprach = 2 (FILTER)
unpersonifiziert
personifiziert
Gesamt
unpersonifiziert
personifiziert
Gesamt
Spracherkennung
Sprachausgabe
N Mittlerer Rang Rangsumme
Statistik für Testb
83,000 59,000
489,000 465,000
-,068 -1,324
,945 ,185
,982
a
,276
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Spracherkennung Sprachausgabe
Nicht für Bindungen korrigiert.a.
Gruppenvariable: ansprach = 2 (FILTER)b.
Tabelle 55 -Sprache und Ansprache im
Mann-Whitney-U-Test
Mundbewegung * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
6 6
6 22 28
6 28 34
Mundbewegung
nichts angekreuzt
Mundbewegung
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Anhang
99
Chi-Quadrat-Tests
1,561b
1 ,211
,435 1 ,510
2,591 1 ,107
,562 ,280
1,515 1 ,218
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
3 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,06.b.
Tabelle 56 - Mundbewegung und
Ansprache Avatar
Gratulieren * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
1 8 9
5 20 25
6 28 34
Gratulieren
nichts angekreuzt
Gratulieren
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,360b
1 ,549
,008 1 ,928
,389 1 ,533
1,000 ,487
,349 1 ,555
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,59.b.
Tabelle 57 - Gratulieren und Ansprache
Avatar
Erscheinungsbild * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
1 9 10
5 19 24
6 28 34
Erscheinungsbild
nichts angekreuzt
Erscheinungsbild
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,570b
1 ,450
,068 1 ,794
,623 1 ,430
,644 ,416
,553 1 ,457
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,76.b.
Tabelle 58 - Erscheinungsbild und
Ansprache Avatar
Ränge
6 14,50 87,00
28 18,14 508,00
34
6 15,83 95,00
28 17,86 500,00
34
6 15,33 92,00
28 17,96 503,00
34
ansprach = 2 (FILTER)
unpersonifiziert
personifiziert
Gesamt
unpersonifiziert
personifiziert
Gesamt
unpersonifiziert
personifiziert
Gesamt
Mundbewegung
Gratulieren
Erscheinungsbild
N Mittlerer Rang Rangsumme
Statistik für Testb
66,000 74,000 71,000
87,000 95,000 92,000
-1,231 -,591 -,744
,218 ,555 ,457
,439
a
,676
a
,581
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Mundbewegung Gratulieren Erscheinungsbild
Nicht für Bindungen korrigiert.a.
Gruppenvariable: ansprach = 2 (FILTER)b.
Tabelle 59 - Menschliche Züge und
Ansprache im Mann-Whitney-U-Test
FUNKT_2 * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
6 19 25
9 9
6 28 34
Antworten
nicht angekreuzt
FUNKT_2
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
2,623b
1 ,105
1,231 1 ,267
4,134 1 ,042
,162 ,132
2,546 1 ,111
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,59.b.
Tabelle 60 - Antworten und Ansprache
Avatar
FUNKT_3 * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
3 14 17
3 14 17
6 28 34
Aufgaben / Termine
nicht angekreuzt
FUNKT_3
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,000b
1 1,000
,000 1 1,000
,000 1 1,000
1,000 ,672
,000 1 1,000
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 3,00.b.
Tabelle 61 - An Aufgaben/Termine
erinnern und Ansprache Avatar
Anhang
100
Ränge
6 22,00 132,00
28 16,54 463,00
34
6 17,50 105,00
28 17,50 490,00
34
ansprach = 2 (FILTER)
unpersonifiziert
personifiziert
Gesamt
unpersonifiziert
personifiziert
Gesamt
Antworten
Aufgaben / Termine
N Mittlerer Rang Rangsumme
Statistik für Testb
57,000 84,000
463,000 490,000
-1,596 ,000
,111 1,000
,238
a
1,000
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Antworten
Aufgaben /
Termine
Nicht für Bindungen korrigiert.a.
Gruppenvariable: ansprach = 2 (FILTER)b.
Tabelle 62 - Funktionalität und Ansprache
im Mann-Whitney-U-Test
Emotionen * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
5 5
6 23 29
6 28 34
Emotionen
nichts angekreuzt
Emotionen
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
1,256b
1 ,262
,236 1 ,627
2,119 1 ,146
,559 ,353
1,219 1 ,270
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,88.b.
Tabelle 63 - Emotionserkennung/-äußerung
und Ansprache Avatar
Eigenleben * ansprach = 2 (FILTER) Kreuztabelle
Anzahl
1 3 4
5 25 30
6 28 34
Eigenleben
nichts angekreuzt
Eigenleben
Gesamt
unpersonifiziert personifiziert
ansprach = 2 (FILTER)
Gesamt
Chi-Quadrat-Tests
,169b
1 ,681
,000 1 1,000
,156 1 ,693
,559 ,559
,164 1 ,686
34
Chi-Quadrat nach Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische
Signifikanz
(2-seitig)
Exakte
Signifikanz
(2-seitig)
Exakte
Signifikanz
(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,71.b.
Tabelle 64 - Eigenleben und Ansprache
Avatar
Ränge
6 18,33 110,00
28 17,32 485,00
34
6 15,00 90,00
28 18,04 505,00
34
ansprach = 2 (FILTER)
unpersonifiziert
personifiziert
Gesamt
unpersonifiziert
personifiziert
Gesamt
Eigenleben
Emotionen
N Mittlerer Rang Rangsumme
Statistik für Testb
79,000 69,000
485,000 90,000
-,405 -1,104
,686 ,270
,843
a
,522
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Eigenleben Emotionen
Nicht für Bindungen korrigiert.a.
Gruppenvariable: ansprach = 2 (FILTER)b.
Tabelle 65 - Emotionen und Ansprache im
Mann-Whitney-U-Test
Ränge
19 19,92 378,50
20 20,08 401,50
39
19 21,32 405,00
20 18,75 375,00
39
alter_mediansplit
bis einsch. 27
über 27
Gesamt
bis einsch. 27
über 27
Gesamt
Spracherkennung
Sprachausgabe
N Mittlerer Rang Rangsumme
Statistik für Testb
188,500 165,000
378,500 375,000
-,067 -,818
,946 ,414
,967
a
,496
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Spracherkennung Sprachausgabe
Nicht für Bindungen korrigiert.a.
Gruppenvariable: alter_mediansplitb.
Tabelle 66 - Sprache und Altersgruppen im
Median-Split im Mann-Whitney-U
Anhang
101
Ränge
19 22,13 420,50
20 17,98 359,50
39
19 20,63 392,00
20 19,40 388,00
39
19 19,63 373,00
20 20,35 407,00
39
alter_mediansplit
bis einsch. 27
über 27
Gesamt
bis einsch. 27
über 27
Gesamt
bis einsch. 27
über 27
Gesamt
Mundbewegung
Gratulieren
Erscheinungsbild
N Mittlerer Rang Rangsumme
Statistik für Testb
149,500 178,000 183,000
359,500 388,000 373,000
-1,820 -,462 -,252
,069 ,644 ,801
,258
a
,749
a
,857
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Mundbewegung Gratulieren Erscheinungsbild
Nicht für Bindungen korrigiert.a.
Gruppenvariable: alter_mediansplitb.
Tabelle 67 - Menschliche Züge und
Altersgruppen im Median-Split im Mann-
Whitney-U
Ränge
19 20,89 397,00
20 19,15 383,00
39
19 23,34 443,50
20 16,83 336,50
39
alter_mediansplit
bis einsch. 27
über 27
Gesamt
bis einsch. 27
über 27
Gesamt
Antworten
Aufgaben / Termine
N Mittlerer Rang Rangsumme
Statistik für Testb
173,000 126,500
383,000 336,500
-,631 -2,060
,528 ,039
,647
a
,074
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Antworten
Aufgaben /
Termine
Nicht für Bindungen korrigiert.a.
Gruppenvariable: alter_mediansplitb.
Tabelle 68 - Funktionalität und
Altersgruppen im Median-Split im Mann-
Whitney-U
Ränge
19 20,05 381,00
20 19,95 399,00
39
19 20,58 391,00
20 19,45 389,00
39
alter_mediansplit
bis einsch. 27
über 27
Gesamt
bis einsch. 27
über 27
Gesamt
Eigenleben
Emotionen
N Mittlerer Rang Rangsumme
Statistik für Testb
189,000 179,000
399,000 389,000
-,053 -,534
,957 ,594
,989
a
,771
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Eigenleben Emotionen
Nicht für Bindungen korrigiert.a.
Gruppenvariable: alter_mediansplitb.
Tabelle 69 - Emotionen und Altersgruppen
im Median-Split im Mann-Whitney-U
Ränge
5 15,20
14 21,61
15 20,40
5 19,10
39
5 20,70
14 21,54
15 18,10
5 20,70
39
Altersgruppe
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
Spracherkennung
Sprachausgabe
N Mittlerer Rang
Statistik für Testa,b
3,106 ,959
3 3
,376 ,811
Chi-Quadrat
df
Asymptotische Signifikanz
Spracherkennung Sprachausgabe
Kruskal-Wallis-Testa.
Gruppenvariable: Altersgruppeb.
Tabelle 70 - Sprache und Altersgruppen 1-4
im Mann-Whitney-U
Ränge
5 24,80
14 21,18
15 18,30
5 17,00
39
5 23,30
14 19,68
15 19,40
5 19,40
39
5 26,20
14 17,29
15 21,00
5 18,40
39
Altersgruppe
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
Mundbewegung
Gratulieren
Erscheinungsbild
N Mittlerer Rang
Anhang
102
Statistik für Testa,b
4,389 ,911 4,089
3 3 3
,222 ,823 ,252
Chi-Quadrat
df
Asymptotische Signifikanz
Mundbewegung Gratulieren Erscheinungsbild
Kruskal-Wallis-Testa.
Gruppenvariable: Altersgruppeb.
Tabelle 71 - Menschliche Züge und
Altersgruppen 1-4 im Mann-Whitney-U
Ränge
5 21,10
14 20,82
15 18,50
5 21,10
39
5 17,80
14 25,32
15 17,80
5 13,90
39
Altersgruppe
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
Antworten
Aufgaben / Termine
N Mittlerer Rang
Statistik für Testa,b
,743 6,967
3 3
,863 ,073
Chi-Quadrat
df
Asymptotische Signifikanz
Antworten
Aufgaben /
Termine
Kruskal-Wallis-Testa.
Gruppenvariable: Altersgruppeb.
Tabelle 72 - Funktionalität und
Altersgruppen 1-4 im Mann-Whitney-U
Ränge
5 18,00
14 20,79
15 20,60
5 18,00
39
5 21,40
14 20,29
15 18,80
5 21,40
39
Altersgruppe
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
13-20 Jahre
21-28 Jahre
29-36 Jahre
37-43 Jahre
Gesamt
Eigenleben
Emotionen
N Mittlerer Rang
Statistik für Testa,b
1,504 ,971
3 3
,681 ,808
Chi-Quadrat
df
Asymptotische Signifikanz
Eigenleben Emotionen
Kruskal-Wallis-Testa.
Gruppenvariable: Altersgruppeb.
Tabelle 73 - Emotionen und Altersgruppen
1-4 im Mann-Whitney-U
Ränge
24 20,56 493,50
15 19,10 286,50
39
24 19,56 469,50
15 20,70 310,50
39
Geschlecht
männlich
weiblich
Gesamt
männlich
weiblich
Gesamt
Spracherkennung
Sprachausgabe
N Mittlerer Rang Rangsumme
Statistik für Testb
166,500 169,500
286,500 469,500
-,623 -,353
,533 ,724
,700
a
,765
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Spracherkennung Sprachausgabe
Nicht für Bindungen korrigiert.a.
Gruppenvariable: Geschlechtb.
Tabelle 74 - Sprache und Geschlecht im
Mann-Whitney-U
Ränge
24 20,25 486,00
15 19,60 294,00
39
24 18,75 450,00
15 22,00 330,00
39
24 19,38 465,00
15 21,00 315,00
39
Geschlecht
männlich
weiblich
Gesamt
männlich
weiblich
Gesamt
männlich
weiblich
Gesamt
Mundbewegung
Gratulieren
Erscheinungsbild
N Mittlerer Rang Rangsumme
Statistik für Testb
174,000 150,000 165,000
294,000 450,000 465,000
-,277 -1,186 -,555
,782 ,235 ,579
,875
a
,399
a
,679
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Mundbewegung Gratulieren Erscheinungsbild
Nicht für Bindungen korrigiert.a.
Gruppenvariable: Geschlechtb.
Tabelle 75 – Menschliche Züge und
Geschlecht im Mann-Whitney-U
Ränge
24 21,75 522,00
15 17,20 258,00
39
24 19,75 474,00
15 20,40 306,00
39
Geschlecht
männlich
weiblich
Gesamt
männlich
weiblich
Gesamt
Antworten
Aufgaben / Termine
N Mittlerer Rang Rangsumme
Anhang
103
Statistik für Testb
138,000 174,000
258,000 474,000
-1,603 -,200
,109 ,841
,234
a
,875
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Antworten
Aufgaben /
Termine
Nicht für Bindungen korrigiert.a.
Gruppenvariable: Geschlechtb.
Tabelle 76 - Funktionalität und Geschlecht
im Mann-Whitney-U
Ränge
24 20,44 490,50
15 19,30 289,50
39
24 19,13 459,00
15 21,40 321,00
39
Geschlecht
männlich
weiblich
Gesamt
männlich
weiblich
Gesamt
Eigenleben
Emotionen
N Mittlerer Rang Rangsumme
Statistik für Testb
169,500 159,000
289,500 459,000
-,577 -1,047
,564 ,295
,765
a
,558
a
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
Eigenleben Emotionen
Nicht für Bindungen korrigiert.a.
Gruppenvariable: Geschlechtb.
Tabelle 77 - Emotionen und Geschlecht im
Mann-Whitney-U
Anhang
104
7.2 Abbildungsverzeichnis
Abbildung 1 - Multimodales Interface................................................................................7
Abbildung 2 - Sprachinteraktion zwischen Mensch und Maschine nach Vary et al. ,1998 ..9
Abbildung 3 - Kommunikation / technnisches Modell......................................................13
Abbildung 4 - Kommunikation nach Schulz von Thun.....................................................17
Abbildung 5 - Bayessche Netze / Wahrscheinlichkeiten...................................................23
Abbildung 6 - Agent im Microsoft Office : Karl Klammer...............................................25
Abbildung 7 - Agenten als Bindeglied in der Mensch-Maschine-Kommunikation
(Wachsmuth)......................................................................................................26
Abbildung 8 - mUltimo3D ...............................................................................................35
Abbildung 9 - 3D-Display................................................................................................36
Abbildung 10- Screenshot des CAD-Raumes...................................................................37
Abbildung 11 - Wunsch Kommunikation mit Computer N=27.........................................44
Abbildung 12 - Screenshots der Konstruktionsaufgaben...................................................45
Abbildung 13 - Darstellung eines Avatars........................................................................46
Abbildung 14 - Sprachinteraktionshäufigkeit im Vergleich zwischen den
Versuchspersonen ..............................................................................................49
Abbildung 15 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen.................49
Abbildung 16 - Bevorzugte Interaktion ............................................................................52
Abbildung 17 - Vorstellungen zum Avatar: Anwesenheit.................................................53
Abbildung 18 - Vorstellungen zum Avatar: Sprache.........................................................54
Abbildung 19 - Vorstellungen zum Avatar: Gesichtszüge ................................................55
Abbildung 20 - Vorstellungen zum Avatar: Funktionalität ...............................................55
Abbildung 21 - Vorstellungen zum Avatar: Emotionalität................................................56
Abbildung 22 - Antworten, auf die Frage, ob die VP Spaß an der Kommunikation mit dem
Avatar hatten......................................................................................................57
Abbildung 23 - Spaßfaktor und Sprache (Angaben in Prozent).........................................58
Abbildung 24 - Spaßfaktor und menschliche Züge (Angaben in Prozent).........................58
Abbildung 25 - Spaßfaktor und Funktionalität (Angaben in Prozent)................................59
Abbildung 26 - Spaßfaktor und Emotionalität (Angaben in Prozent) ................................59
Abbildung 27 - Personifizierung und Sprache (Angaben in Prozent) ................................62
Abbildung 28 - Personifizierung und menschliche Züge (Angaben in Prozent).................62
Abbildung 29 - Personifikation und Funktionalität (Angaben in Prozent).........................63
Abbildung 30 - Personifikation und Emotionalität (Angaben in Prozent)..........................63
Anhang
105
7.3 Tabellenverzeichnis
Tabelle 1 - Fehlerhäufigkeiten pro 100 Wörter.................................................................15
Tabelle 2 - Kategorienbildung Fragebogenantworten .......................................................53
Tabelle 3 - Formen der Ansprache ...................................................................................61
Tabelle 4 - Alter und Spaß ...............................................................................................64
Tabelle 5 - Alter und Ansprache.......................................................................................64
Tabelle 6 - Mehrfachantworten in Beziehung zur Gruppe Spaß........................................66
Tabelle 7 - Mehrfachantworten in Beziehung zur Gruppe Ansprache ..............................67
Tabelle 8 - Mehrfachantworten in Beziehung zu Altersgruppen und Geschlecht...............68
Tabelle 9 – Wunsch Kommunikation Computer...............................................................90
Tabelle 10 - Sprachsoftwareerfahrung..............................................................................90
Tabelle 11 - Kategorisierung der Interaktionshäufigkeit Sprache......................................90
Tabelle 12 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen......................90
Tabelle 13 - Sprachinteraktion im Vergleich zu den anderen Modalitäten ........................90
Tabelle 14 - Sprachinteraktion über die Zeit.....................................................................91
Tabelle 15 - Zusammenhang zwischen Sprachinteraktion und Leistung ...........................91
Tabelle 16 - Sprachinteraktion über die Aufgabenschwierigkeit (Expertenrating).............91
Tabelle 17 - Sprachinteraktionshäufigkeit zwischen Versuchspersonen............................91
Tabelle 18 - Sprachinteraktionshäufigkeit und Wunsch Computer Werkzeug oder
Kommunikationsmittel? .....................................................................................92
Tabelle 19 - Funktionalität der Sprachinteraktion.............................................................92
Tabelle 20 - Reaktionszeiten der Sprachinteraktion..........................................................92
Tabelle 21 - Qualität der Sprachinteraktion......................................................................92
Tabelle 22 - Bevorzugte Interaktion .................................................................................92
Tabelle 23 - Anwesenheit des Avatars gewünscht?...........................................................92
Tabelle 24 - Vorstellungen zum Avatar – Fragebogenantworten.......................................92
Tabelle 25 - Hedonistische Qualität des Avatars...............................................................93
Tabelle 26 - Spaß und Kategorie Sprache.........................................................................93
Tabelle 27 - Spaß und Kategorie Menschliche Züge.........................................................93
Tabelle 28 - Spaß und Kategorie Funktionalität................................................................93
Tabelle 29 - Spaß und Kategorie Emotion........................................................................93
Tabelle 30 - Ansprache und Kategorie Sprache................................................................93
Tabelle 31 - Ansprache und Kategorie Menschliche Züge................................................94
Tabelle 32 - Ansprache und Kategorie Funktionalität.......................................................94
Tabelle 33 - Ansprache und Kategorie Emotion ...............................................................94
Tabelle 34 - Alter und Spaß am Avatar ............................................................................94
Tabelle 35 - Alter und Ansprache Avatar .........................................................................94
Tabelle 36 - Ansprache des Avatars – Test auf Signifikanz ..............................................95
Tabelle 37 - Spaß mit Avatar - Test auf Signifikanz.........................................................95
Tabelle 38 - Geschlecht und Spaß am Avatar ...................................................................95
Tabelle 39 - Geschlecht und Ansprache Avatar................................................................95
Tabelle 40 - Spracherkennung und Spaß am Avatar .........................................................95
Tabelle 41 - Sprachausgabe und Spaß am Avatar .............................................................96
Tabelle 42 - Sprache und Spaß im Mann-Whitney-U-Test ...............................................96
Tabelle 43 - Mundbewegung und Spaß am Avatar ...........................................................96
Tabelle 44 - Erscheinungsbild und Spaß am Avatar..........................................................96
Tabelle 45 - Gratulieren und Spaß am Avatar...................................................................96
Tabelle 46 - Menschliche Züge und Spaß im Mann-Whitney-U-Test ...............................97
Tabelle 47 - Antworten und Spaß am Avatar....................................................................97
Anhang
106
Tabelle 48 - An Aufgaben/Termine erinnern und Spaß am Avatar....................................97
Tabelle 49 - Funktionalität und Spaß im Mann-Whitney-U-Test ......................................97
Tabelle 50 - Emotionsäußerung/-erkennung und Spaß am Avatar.....................................97
Tabelle 51 - Eigenleben und Spaß am Avatar...................................................................98
Tabelle 52 - Emotionen und Spaß im Mann-Whitney-U-Test...........................................98
Tabelle 53 - Spracherkennung und Ansprache Avatar ......................................................98
Tabelle 54 - Sprachausgabe und Ansprache Avatar..........................................................98
Tabelle 55 -Sprache und Ansprache im Mann-Whitney-U-Test........................................98
Tabelle 56 - Mundbewegung und Ansprache Avatar ........................................................99
Tabelle 57 - Gratulieren und Ansprache Avatar................................................................99
Tabelle 58 - Erscheinungsbild und Ansprache Avatar ......................................................99
Tabelle 59 - Menschliche Züge und Ansprache im Mann-Whitney-U-Test.......................99
Tabelle 60 - Antworten und Ansprache Avatar.................................................................99
Tabelle 61 - An Aufgaben/Termine erinnern und Ansprache Avatar ................................99
Tabelle 62 - Funktionalität und Ansprache im Mann-Whitney-U-Test............................100
Tabelle 63 - Emotionserkennung/-äußerung und Ansprache Avatar................................100
Tabelle 64 - Eigenleben und Ansprache Avatar..............................................................100
Tabelle 65 - Emotionen und Ansprache im Mann-Whitney-U-Test ................................100
Tabelle 66 - Sprache und Altersgruppen im Median-Split im Mann-Whitney-U.............100
Tabelle 67 - Menschliche Züge und Altersgruppen im Median-Split im Mann-Whitney-U
.........................................................................................................................101
Tabelle 68 - Funktionalität und Altersgruppen im Median-Split im Mann-Whitney-U....101
Tabelle 69 - Emotionen und Altersgruppen im Median-Split im Mann-Whitney-U ........101
Tabelle 70 - Sprache und Altersgruppen 1-4 im Mann-Whitney-U................................101
Tabelle 71 - Menschliche Züge und Altersgruppen 1-4 im Mann-Whitney-U.................102
Tabelle 72 - Funktionalität und Altersgruppen 1-4 im Mann-Whitney-U........................102
Tabelle 73 - Emotionen und Altersgruppen 1-4 im Mann-Whitney-U ............................102
Tabelle 74 - Sprache und Geschlecht im Mann-Whitney-U............................................102
Tabelle 75 – Menschliche Züge und Geschlecht im Mann-Whitney-U ...........................102
Tabelle 76 - Funktionalität und Geschlecht im Mann-Whitney-U...................................103
Tabelle 77 - Emotionen und Geschlecht im Mann-Whitney-U........................................103
Danksagung
107
8 Danksagung
Ich möchte mich bei Professor Hartmut Wandke und bei Dr.Ing. Katharina Seifert für
die Betreuung meiner Diplomarbeit bedanken. Des Weiteren danke ich Carsten Orthbandt
für die fachlichen Anregungen im theoretischen Teil und die Hilfe beim Layout und
Susanne Briest für die Unterstützung bei den erforderlichen Nachversuchen zum Avatar.
Mein Dank gilt außerdem den folgenden Personen: Alexander Laurich, Marlies Fritsch,
Martin Schwarz, Nadine Böhmer, David Salz und meinen Eltern.

Thesis "Speech interaction and anthropomorphic interface agents in multimodal interactive systems"

  • 1.
    Sprachinteraktion und anthropomorpheInterfaceagenten in multimodalen interaktiven Systemen Eine explorative Studie im Rahmen des mUltimo3D-Projektes am Heinrich-Hertz-Institut Diplomarbeit Vorgelegt zur Erlangung des akademischen Grades einer Diplom-Psychologin (Dipl.-Psych.) Eingereicht am Institut für Psychologie Mathematisch-Naturwissenschaftliche Fakultät an der HU Berlin Nicole Kelling Matrikelnummer 116586 Angefertigt unter der Leitung von Dr. Katharina Seifert, Volkswagen AG, Wolfsburg Prof. Hartmut Wandke, HU Berlin
  • 2.
    Eidesstattliche Erklärung 2 Eidesstattliche Erklärung EidesstattlicheErklärung Die selbständige und eigenhändige Anfertigung der vorliegenden Diplomarbeit versichere ich an Eides statt. Berlin, den 31.07.2003 Unterschrift
  • 3.
    Inhaltsverzeichnis 3 1 Inhaltsverzeichnis EIDESSTATTLICHE ERKLÄRUNG........................................................................................................ 2 1 INHALTSVERZEICHNIS............................................................................................................... 3 2 ZUSAMMENFASSUNG .................................................................................................................. 5 3 EINLEITUNG ................................................................................................................................... 6 4 THEORIEN / KONZEPTE.............................................................................................................. 7 4.1 MULTIMODALITÄT – EINE EINFÜHRUNG AM BEISPIEL DER EMBASSI-ANWENDUNGEN (ELEKTRONISCHE MULTIMODALE BEDIEN- UND SERVICE- ASSISTENZ)....................................................... 7 4.2 SPRACHINTERAKTION ZWISCHEN MENSCH UND MASCHINE....................................................... 9 4.2.1 Sprachkodierung................................................................................................................... 9 4.2.2 Spracherkennung .................................................................................................................. 9 4.2.3 Sprachverstehen...................................................................................................................10 4.2.4 Sprachsynthese / Sprachausgabe.........................................................................................11 4.2.5 Sprechererkennung ..............................................................................................................11 4.2.6 Menschliche Sprachwahrnehmung versus maschinelle Spracherkennung ..........................12 4.2.7 Problemfelder der Spracherkennung...................................................................................12 4.2.8 Verbesserung der Spracherkennung durch Multimodalität und eingegrenztes Vokabular..16 4.3 DIE GESTALTUNG DER INTELLIGENTEN BENUTZUNGSSCHNITTSTELLE DURCH ADAPTIVE DIALOGSYSTEME..........................................................................................................................................17 4.3.1 Die vier Seiten einer Nachricht............................................................................................17 4.3.2 Benutzermodellierung..........................................................................................................18 4.3.3 Überblick zu bestehenden Belief-Desire-Intention-Verfahren für die Benutzermodellierung 18 4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der Dialoggestaltung..................................19 4.3.5 Stereotypen ..........................................................................................................................21 4.3.6 Bayessche Netze...................................................................................................................23 4.4 INTERFACEAGENTEN ALS MULTIMODALE BENUTZUNGSSCHNITTSTELLE...................................26 4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum Anthropomorphismus in der Mensch-Computer-Interaktion................................................................................................................26 4.4.2 Agenten als Avatare.............................................................................................................27 4.4.3 Erwartungen an Agenten .....................................................................................................27 4.4.4 Agentenrepräsentation.........................................................................................................28 4.4.5 Lerneffekt / Funktionalität ...................................................................................................29 4.4.6 Interaktion mit Nutzer..........................................................................................................29 4.4.7 Attribution von Persönlichkeitsmerkmalen..........................................................................30 4.4.8 Evaluation der vorgestellten Studien ...................................................................................32 4.4.9 Die Kombination von Agenten und Sprache im multimodalen Interface.............................33
  • 4.
    Inhaltsverzeichnis 4 5 EXPLORATIVE STUDIEZU SPRACHINTERAKTION UND ANTHROPOMORPHEN INTERFACEAGENTEN IM RAHMEN DES MULTIMO-3D-PROJEKTES AM HEINRICH- HERTZ-INSTITUT........................................................................................................................................34 5.1 PROJEKTRAHMEN ......................................................................................................................34 5.2 SYSTEMBESCHREIBUNG.............................................................................................................34 5.2.1 Das 3D-Display ...................................................................................................................35 5.2.2 Spracherkennung .................................................................................................................36 5.2.3 Technische Anordnung des Systems.....................................................................................36 5.2.4 Die Testapplikation CAD-Raum ..........................................................................................37 5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum....................................................37 5.2.6 Die Testapplikation Avatar..................................................................................................38 5.3 METHODE..................................................................................................................................38 5.3.1 Einbettung der vorliegenden Fragestellung in die Gesamtuntersuchung............................38 5.3.2 Variablen .............................................................................................................................39 5.3.3 Explorative Fragestellungen zur Sprachinteraktion............................................................40 5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion............................................................41 5.3.5 Explorative Fragestellungen zum Avatar ............................................................................41 5.3.6 Theoriegeleitete Hypothesen zum Avatar ............................................................................42 5.3.7 Stichprobe des Logfileexperiments ......................................................................................43 5.3.8 Versuchsdurchlauf des Logfileexperimemts.........................................................................44 5.3.9 Stichprobe des Simulationsexperiments...............................................................................45 5.3.10 Versuchsdurchlauf des Simulationsexperimentes ...........................................................45 5.4 AUSWERTUNG ...........................................................................................................................47 5.4.1 Die Untersuchungsmethoden und das Datenniveau ............................................................47 5.4.2 Ergebnisse............................................................................................................................48 5.5 DISKUSSION...............................................................................................................................72 5.5.1 Interpretation der Ergebnisse..............................................................................................72 5.5.2 Kritik an der Untersuchung .................................................................................................77 5.5.3 Integration der Ergebnisse in die Forschung und Ableitung von Fragestellungen für die Gestaltung einer intelligenten Benutzungsschnittstelle mit Sprache und Agenten..................................79 5.5.4 Ausblick................................................................................................................................81 6 LITERATURVERZEICHNIS ........................................................................................................83 7 ANHANG..........................................................................................................................................90 7.1 DATEN AUS SPSS......................................................................................................................90 7.2 ABBILDUNGSVERZEICHNIS ......................................................................................................104 7.3 TABELLENVERZEICHNIS ..........................................................................................................105 8 DANKSAGUNG.............................................................................................................................107
  • 5.
    Zusammenfassung 5 2 Zusammenfassung Die vorliegendeUntersuchung befasst sich mit zwei Bestandteilen einer multimodalen Schnittstelle – den anthropomorphen Interfaceagenten und der Sprachinteraktion. Der Avatar soll hinsichtlich Ansprache und Bewertung der hedonistischen Qualität durch den Benutzer in Beziehung zu allgemeinen Vorstellungen über Avatare untersucht werden. Dabei handelt es sich um eine explorative Studie in Form eines Simulationsexperimentes. In einem weiteren Experiment geht es um die Sprachinteraktion in einem prototypischen multimodalen System zur Konstruktion von 3D-Objekten. Neben Spracheingabe war hier Interaktion mit Blick und Maus möglich. Die Interaktion mit Sprache im Vergleich zu den anderen Modalitäten über die Zeit und die Auswirkung der Sprachinteraktion auf die Leistung der Versuchspersonen sollte hierbei näher untersucht werden. Der theoretische Rahmen besteht aus multimodaler Interaktion, Besonderheiten der Sprachinteraktion zwischen Mensch und Maschine, psychologischen Grundlagen zur Gestaltung von adaptiven Dialogsystemen und bestehenden Forschungsergebnissen zu anthropomorphen Interfaceagenten, die im Rahmen von Multimodalität zur Gestaltung einer intelligenten Benutzungsschnittstelle betrachtet werden. Die Ergebnisse können die aufgestellten Hypothesen nur teilweise stützen. So zeigt sich wie erwartet, dass die überwiegende Zahl der Versuchsteilnehmer den Avatar personifiziert ansprechen. Die Bewertung der hedonistischen Qualität fällt allerdings zu gleichen Teilen entgegen der Erwartung gut und schlecht aus. Eine Aussage über Geschlechter- oder Altersunterschiede kann auf Grund der Stichprobengröße nicht getroffen werden. Statistisch gesicherte Aussagen über Unterschiede in den Antworten auf allgemeine Fragen zum Avatar konnten auf Grund der diskutierten methodischen Probleme ebenfalls nicht getroffen werden. Der Versuch einer Interpretation wird trotzdem vorgenommen. Für die Interaktion mit Sprache zeigen sich entgegen der Erwartung keine Zusammenhänge zur Leistung der Versuchspersonen. Sie ist entgegen den Erwartungen insgesamt auch nicht die herausragende Modalität, was offensichtlich mit der starken Gewöhnung des Nutzers an Maus und Tastatur und technischen Schwierigkeiten zusammenhängt. Der Anteil der Sprachinteraktion nimmt im Laufe der Zeit ab, was auf Grund von Motivationsverlusten und Schwierigkeiten bei der Spracherkennung erwartet wurde. Eine Diskussion der Ergebnisse zeigt weiteren Forschungsbedarf auf dem Gebiet der multimodalen Schnittstellen und der besseren Gestaltung und Integration der Modalitäten auf.
  • 6.
    Einleitung 6 3 Einleitung Die meistenMenschen unterscheiden heute noch klar zwischen den Robotern aus der Science-Fiction-Welt und den Maschinen in ihrem täglichen Leben. In Filmen wie „Krieg der Sterne“, „Raumschiff Enterprise“ und „2001: Odyssee im Weltraum“ sehen wir intelligente Maschinen, die Namen wie C3PO, R2D2, Commander Data und HAL tragen. Aber unsere Rasenmäher, Autos oder Textverarbeitungssysteme können ihnen nicht entfernt das Wasser reichen. Die Science-Fiction-Konstrukte und die Maschinen, mit denen wir leben, gehören zwei völlig verschiedenen Welten an. Die Fantasiemaschinen verfügen über Sprachvermögen und Technologie, äußern Gefühle, Wünsche, Ängste, sie lieben und sind stolz. Für unsere realen Maschinen gilt das - noch - nicht. Aber wie wird das in hundert Jahren sein? Die Grenze zwischen Fantasie und Realität wird schon sehr bald innerhalb der nächsten Jahre fallen, auch wenn das so schwer vorstellbar ist wie vor zehn Jahren die tägliche Benutzung des World Wide Web. Wir stehen kurz vor der „Roboterrevolution“. Das jahr- hundertealte Projekt der Menschheit, künstliche Wesen zu schaffen, fängt an, Früchte zu tragen. Maschinen fällen Urteile, die die Menschen in den letzten 200 Jahren seit der in- dustriellen Revolution auf Trab gehalten haben. Aber diese Roboter sind nicht einfach Roboter - es sind künstliche Lebewesen. Unsere Beziehung zu diesen Maschinen wird sich sehr von unseren Verhältnissen zu allen vorangehenden unterscheiden. [BROOKS02] Die Forschung befasst sich deshalb verstärkt mit der multimodalen Schnittstelle zwischen Mensch und Computer. Ist es vom Benutzer gewünscht, dass der Computer wie ein Mensch reagiert? Wollen wir mit dem Computer wie mit einem Menschen kommunizieren? Was heißt überhaupt Kommunikation mit dem Computer - welche Kanäle spielen dabei eine Rolle? Diese Arbeit beschäftigt sich speziell mit Spracheingabe und anthropomorphen Interfaceagenten als Teile einer multimodalen Benutzungsschnittstelle. Andere Publikationen, die im Rahmen des im empirischen Teil vorgestellten mUltimo3D-Projektes am Heinrich-Hertz-Institut angefertigt wurden, beschäftigen sich des Weiteren mit der Haptik [BRIEST02], der Blickinteraktion [BAUMGARTEN02] und mit der Integration aller Modalitäten [SEIFERT02].
  • 7.
    Theorien / Konzepte 7 4Theorien / Konzepte Im Folgenden werden einige psychologische Grundlagen und bestehende Forschungs- ergebnisse zu den Themen Multimodalität als Oberkategorie, anthropomorphe Interface- agenten und Sprachinteraktion als Teilgebiete und zum Thema adaptive Dialogsysteme als relevante Aspekte der Gestaltung einer intelligenten Benutzungsschnittstelle zwischen Mensch und Computer vorgestellt und diskutiert. Diese Betrachtung bietet einen groben Überblick über ein stark umforschtes, aber noch relativ diffiziles Gebiet der künstlichen Intelligenz. Theoriegeleitete Hypothesen für die Empirie im zweiten Teil sind deshalb nur bedingt zu erwarten. 4.1 Multimodalität – eine Einführung am Beispiel der Embassi-Anwendungen (Elektronische Multimodale Bedien- und Service- ASSIstenz) Multimodale Systeme können natürliche Eingabeformen wie Sprache, Gestik, Blick- bewegungen etc. mit multimodalen Ausgabemöglichkeiten kombinieren. Sie ermöglichen es dem Nutzer, abhängig von der jeweiligen Intention, die passende Modalität für die Interaktion mit dem vorhandenen technischen System zu nutzen. [OVIATT99] Die nachfolgende Abbildung 1 stellt die technischen Komponenten eines multimodalen Interfaces dar. Abbildung 1 - Multimodales Interface !"#$%&'()*+( ,-.%/0'1(23+'+( Ausgabe von(4565( 2'781(9.%:;<( Ausgabe von Vibration, Kraft ='$;#8.;'."+$()*+( 23+'+1(,-.%/0'( ='$;#8.;'."+$()*+( 9'#8;<1(>;?;<( ='$;#8.;'."+$()*+( .%:81(!;&.%8;*+( !"";8;)'#(#+8'.:%/'(( !;#"'$$'#(#+8'.:%/'( %%-8;#/0'#(#+8'.:%/'( &$:%<8*.;#/0'#( #+8'.:%/'(
  • 8.
    Theorien / Konzepte 8 DasSystem sollte in der Lage sein, aus dem Strom von Äußerungen mit Hilfe von Spracherkennung, Gestenanalyse etc. das abstrakte Ziel des Nutzers zu rekonstruieren. Ein wichtiges Szenario im Bereich Privathaushalt des Embassi-Projektes [EMBASSI01] ist das „Wohnzimmerszenario“. Es soll eine Medienauswahl auf der Grundlage eines Nutzerkonzepts realisiert werden. Der Nutzer äußert etwa „Ich will Nachrichten sehen / den Film aufnehmen.“ und das erwartete Resultat wird durch das System komplett bis zur Programmierung des Videorekorders realisiert. Innerhalb des Projektes wurden natürlich- sprachliche In- und Outputmodalitäten entwickelt. Dabei werden Spracheingabe, eine Vielzahl grafischer Navigations- und Hinweiswerkzeuge sowie Sprachsynthese und an- thropomorphe Interfaceagenten auf der Ausgabeseite verwendet. Die Vorteile multimodaler Interaktion liegen in einer flexibleren Handhabung tech- nischer Systeme und in der gleichzeitigen Entlastung des Benutzers durch die Verteilung der Informationsübertragung auf mehrere Sinne [HEDICKE02]. Konkret können Fehler in der Aufgabenbearbeitung bis zu 50% während multimodaler Interaktion reduziert werden. Die Flexibilität von multimodalen Systemen zahlt sich besonders in wechselnden Umgebungen oder bei Einschränkungen auf Grund von Behin- derungen aus. In einer im Rahmen des Anwendungsbereiches „Öffentliche Terminal- systeme“ des Embassi-Projektes mit 90 Personen durchgeführten Studie zur Ermittlung des Unterstützungsbedarfs behinderter und nicht-behinderter Personen bei der Bedienung von Automaten [ENGE00] stellte sich heraus, dass Sehbehinderte Sprachausgabe vor der Ausgabe in Braille-Schrift oder in taktiler Form präferierten. Mit dem Embassi-Anwendungsbereich Kraftfahrzeug sind spezielle Einschränkungen verbunden, die sich durch die Fahrsituation ergeben. So soll etwa der Fahrer seine Augen möglichst nicht von dem Verkehrsgeschehen abwenden und seine Hände am Steuerrad behalten. Aus diesem Grund sind konventionelle Nutzerschnittstellen (Displays, Knöpfe, Schieberegler etc.) in diesem Kontext nicht sonderlich geeignet. Daher müssen insbe- sondere Sprachein- und -ausgabe eingesetzt werden. Ein Mythos der Multimodalität [OVIATT99] besagt, dass Sprache die primäre Modalität ist, sofern sie im multimodalen System enthalten ist..Im Folgenden wird deshalb näher auf diese Modalität und ihre Bersonderheiten in der Mensch-Maschine-Kom- munikation eingegangen.
  • 9.
    Theorien / Konzepte 9 4.2Sprachinteraktion zwischen Mensch und Maschine In diesem Kapitel wird auf die einzelnen Bestandteile der Sprachinteraktion als wichtiges Teilgebiet der in Kapitel 4.1 dargestellten multimodalen Interaktion zwischen Mensch und Maschine eingegangen. Abbildung 2 zeigt die die Gliederung der Bestandteile in einer Baumstruktur nach [VARY98]. Abbildung 2 - Sprachinteraktion zwischen Mensch und Maschine nach Vary et al. ,1998 4.2.1 Sprachkodierung Die Sprachkodierung ist eine unerlässliche technische Voraussetzung für Sprach- erkennung und Sprechererkennung. Das durch ein Mikrofon auf den Computer übertragene akustische Signal wird durch Auswertung der durch die Lautfolge der Sprache ausgelösten Luftdruckschwankungen mittels eines Analog/Digital-Wandlers in elektrische Impulse um- gewandelt. [SUSEN99] Die entstandenen Frequenzbereiche müssen zur weiteren Daten- bearbeitung beschnitten werden, um die Übermittlung, besonders im Telekom- munikationsbereich, zu gewährleisten. 4.2.2 Spracherkennung In der Spracherkennungskomponente wird versucht, die eingehende Sprachsequenz meistens bis auf Wort- oder Phonemebene zu zerlegen. Ein Phonem ist die kleinste eigenständige Einheit im akustischen System einer Sprache. Dann versucht man anhand ,-.%/0;+8'.%<8;*+( 4';#/0'+(>'+#/0("+"( >%#/0;+'( ,-.%/0%"#$%&'( (,-.%/0#)+80'#'*( ,-.%/0<*";'."+$( ,-.%/0'.<'++"+$( ,-.'/0'.'.<'++"+$( ,-.%/0)'.#8'0'+( +;%$*$#)#8'?'(
  • 10.
    Theorien / Konzepte 10 vonvorher erhaltenen Sprachdaten das wahrscheinlichste Wort zu ermitteln. Eine Hilfe dabei ist das Wissen der Menschen über die Häufigkeit beziehungsweise die Auftretenswahrscheinlichkeit von Wörtern, Phonemen und anderen Einheiten sowie über das mögliche und wahrscheinliche Aufeinanderfolgen dieser Einheiten beziehungsweise die Übergangswahrscheinlichkeiten. Mit welchen Verfahren ist dies zu bewerkstelligen ? Die etablierten psycholinguistischen Verfahren zur Anwendung dieser Wahrschein- lichkeiten sind Hidden-Markov-Modelle und die in Kapitel 4.3.6 näher beschriebenen dynamischen Bayessche Netze (DBN). Hidden-Markov-Modelle (HMM) sind ein stochastischer Ansatz zur ASR (Automatic Speech Recognition), der die ursprünglichen Methoden der dynamischen Programmierung weiterentwickelt. HMM nutzen Informationen über die statistische Wahrscheinlichkeit einzelner Phoneme und bestimmen das Ergebnis aus ganzen Sequenzen, was die Ge- nauigkeit der Erkennung des einzelnen Phonems drastisch erhöht. Da die zugrunde- liegenden Tabellen nicht fest verankert sind, können sie relativ leicht trainiert werden [PICONE90]. Die Anwendung dynamischer Bayesscher Netze auf die Spracherkennung erweitert das zugrundeliegende Konzept um die Anwendung zweier Wahrscheinlichkeitsparameter für die Worterkennung. Zusätzlich zur normalen Bewertung phonetischer Sequenzen wird der artikulatorische Ablauf zur Bestimmung herangezogen. Diese Adaption an unterschied- liche Ausspracheformen ist auch mit klassischen HMM möglich, verursacht dort aber eine wesentlich höhere Komplexität auf Grund der zusätzlichen, versteckten Knoten und der daraus resultierenden Abfolgemöglichkeiten. Die Modellierung des artikulatorischen Kon- textes in dynamischen Bayesschen Netzen hingegen hat nur eine Verdopplung des Suchraumes zu Folge. Im Vergleich zu herkömmlichen BN-Modellen erhöht sich die Erkennungsrate um 12 bis 29%. Die direkte Bedeutung der zusätzlichen Kontextinformation ist nicht klar abzu- leiten. In einigen Fällen zeigt sich aber eine starke Korrelation mit der Aussprache der Vokale [ZWEIG99]. 4.2.3 Sprachverstehen Hier verwendet man oft eine syntaktische und eine semantische Analyse, um den strukturellen Aufbau der erkannten Wortkette (Satzbau) zu erhalten und daraus die Bedeu- tung der einzelnen Wörter zu erkennen. Hierzu benötigt man ein Lexikon und eine
  • 11.
    Theorien / Konzepte 11 Grammatik.Das Lexikon besteht in der Regel aus komplexen Strukturen, um alle relevanten syntaktischen Charakteristiken eines Wortes zu beschreiben, zum Beispiel, ob es sich um Singular oder Plural handelt oder welcher Tempus benutzt wird. Die Grammatik besteht aus Regeln für Satz- und Phrasenstrukturen und gibt an, wie die Wörter miteinander kombiniert werden können und welcher Schluss sich aus der jeweiligen Kombination ziehen lässt [TUR02]. 4.2.4 Sprachsynthese / Sprachausgabe Die Konstruktion der auszugebenden Wortkette besteht aus zwei Punkten: • Welche Information soll ausgegeben werden? • Wie soll die Information strukturiert sein? Dazu kann man einfache vorgefertigte Muster verwenden oder komplexe Methoden, die natürliche Sprachgenerierungstechniken verwenden, wie zum Beispiel Text-To-Speech- Systeme. [VARY98] Sie erlauben es, fließende Sprache mit unbegrenztem Vokabular lediglich aus einem Satz sprachlicher Regeln über die Produktion von Phonemen zu synthetisieren. Die Sprachausgabe besteht aus symbolischer Verarbeitung, der Prosodiengenerierung (Sprachmelodie) und der Signalgenerierung. In der symbolischen Verarbeitung wird zu- nächst die Wortkette in Einheiten zerlegt und anschließend normalisiert, das heißt umge- wandelt in eine Form, die später gesprochen werden kann. In der morphologischen Analyse wird dann jedes Wort in Stamm und Endung zerlegt. In der grammatikalischen Analyse werden Daten für die Betonung und der Satzfokus ermittelt. In der phonetischen Zerlegung wird der Übergang von der Rechtsschrift zur Lautschrift durchgeführt. Die Prosodiegenerierung erzeugt die individuelle Intensität, Grundfrequenz und Segmentdauer eines einzelnen Abschnitts und die Signalgenerierung beinhaltet lediglich einen Synthetisator, welcher die eingehenden Daten in eine akustische Ausgabe verwandelt. 4.2.5 Sprechererkennung Hiermit wird die Identifikation oder Verifikation eines bestimmten Sprechers vorge- nommen. Bestehende Sprachmuster der betreffenden Person werden nach sprachlichen Charakteristika beschrieben, abgespeichert und eingehende Sprachsignale hinsichtlich ihrer Charakteristika damit verglichen [RABINER95].
  • 12.
    Theorien / Konzepte 12 4.2.6Menschliche Sprachwahrnehmung versus maschinelle Spracherkennung Zunächst stellt sich die Frage, welches die grundlegenden Wahrnehmungseinheiten sind: Phoneme, Wörter oder sonstige Einheiten wie zum Beispiel Silben. Gegen Wörter als kleinste relevante Einheiten spricht, dass Menschen auch unbekannte Wörter und Neo- logismen korrekt erkennen können. Es ist ebenfalls unwahrscheinlich, dass die Sprach- wahrnehmung ausschließlich auf Phonemen beruht, da keine 1 : 1 Übereinstimmung zwischen akustischen Signalen und erkannten Phonemen besteht: je nach Kontext wird dasselbe Sprachsignal unterschiedlich interpretiert. Außerdem werden auch solche Pho- neme als spontan richtig erkannt, die zum Beispiel wegen eines Störgeräusches gar nicht hörbar waren, die sich aber aus dem vorausgehenden Kontext ergeben. Dies deutet darauf hin, dass bei der Sprachwahrnehmung nicht isolierte Phoneme aneinandergereiht werden, sondern dass von Anfang an auch höhere Verarbeitungsstufen beteiligt sind (Wort- erkennung, syntaktische Analyse, semantische Analyse), die parallel ablaufen und deren Ergebnisse berücksichtigt werden können. Bei der Sprachwahrnehmung sind also bottom-up und top-down-Prozesse kombiniert. Für die maschinelle Spracherkennung ergibt sich somit: Bezüglich der Wahrnehmungs- einheiten kommen diejenigen Systeme den menschlichen Prozessen am nächsten, die auf mehreren Ebenen arbeiten und sich nicht zum Beispiel auf den Mustervergleich ganzer Wörter oder die Erkennung anhand akustischer Signale von Phonemen beschränken [GREENBERG98]. 4.2.7 Problemfelder der Spracherkennung Es gibt einige Besonderheiten gesprochener Sprache, die bei der Gestaltung der benutzerzentrierten Sprachinteraktion beachtet werden müssen. Der alineare Ablauf (Stot- tern, Selbstkorrektur), Bestätigungsanfragen („Sind Sie sicher“) oder Feedback („Jaja, kann ich verstehen“), prosodische und nicht-verbale Modulation der Sprache und Beein- flussung wechselseitiger Kommunikation durch Unterbrechungen sind einige davon. Wie in Abbildung 3 verdeutlicht, kommt es dadurch zu einer Störungen im Kommunikationsprozess und eventuellen Fehlinterpretationen der Aussagen des Kommunikationspartners. Im Folgenden wird auf einige dieser Phänomene und mögliche Lösungsansätze in der maschinellen Spracherkennung näher eingegangen.
  • 13.
    Theorien / Konzepte 13 Abbildung3 - Kommunikation / technnisches Modell 4.2.7.1 Linguistische Unterschiede Identische Phoneme können unterschiedlich akustisch realisiert werden. Daher funk- tionieren Spracherkennungssysteme dann am besten, wenn sie von jedem Benutzer selbst trainiert werden. Ist dies nicht möglich oder nicht erwünscht (sprecherunabhängige Spracherkennung), so sollte das System von möglichst vielen Sprechern trainiert werden. Als Muster wird dann ein Mittelwert gespeichert. Manche Systeme passen sich zusätzlich während der Bedienung an den jeweiligen Benutzer an. 4.2.7.2 Individuelle Sprecherfaktoren Die Form des Vokaltraktes, Alter, Geschlecht, regionale Zuordnung beeinflussen die akustisch-phonetischen Parameter ebenso wie Müdigkeit und mentale Verfassung. Auch muss auf Satzbau und Betonung der einzelnen Worte geachtet werden [DESHMUKH02]. Für Einzelplatzsysteme kann ein sprecherspezifisches Training des Sprachmodells die Sicherheit so weit erhöhen, dass praktisch keine Fehler mehr auftreten. Weitere positive Faktoren sind hier die Konstanz der Umgebung und die hohe Qualität der Eingangssignale in Abhängigkeit des verwendeten Mikrophons. Dedizierte Headsets verbessern die Erkennung so stark, dass sie bei den ersten Breitenanwendungen der bestimmende Faktor für die Sicherheit waren. Auch bei Systemen, die auf einzelne Sprecher trainiert sind, müssen aber weitere Faktoren, wie emotionaler Zustand und Hintergrundgeräusche, berücksichtigt werden. Insbesondere im öffentlichen Bereich sind jedoch weder sprecherabhängige Sprachmodelle noch aufwändige Headsets realisierbar. Verschärfende Faktoren sind die stark variierenden Modulationen und die typisch gravierenderen Nebengeräusche [YOON]. Auf diese unterschiedlichen Übertragungskanäle bezieht sich der nächste Abschnitt. Verstehen Übersetzung Empfangen Störung Idee Übersetzung Senden Sender Empfänger
  • 14.
    Theorien / Konzepte 14 4.2.7.3Unterschiedliche Übertragungskanäle Diese Einflüsse wirken sich primär auf die erste Stufe der Spracherkennung, die Identifikation einzelner Phoneme aus. Dabei wirken im wesentlichen drei Faktoren: • Statische Hintergrundgeräusche (Rauschen, Umgebung) können Teile des Sprach- signals überdecken • Akustische Einzelereignisse, die nicht der Sprache zuzuordnen sind • Begrenzung und Verfälschung der eingehenden Audiodaten durch den Über- tragungskanal (Grenzfrequenzen insbesondere bei Mobiltelefonen, Artefakte bei psychoakustischer Kompression) Diesen Faktoren wird mit unterschiedlichen Verfahren begegnet. Zur Kompensation statischer Störfaktoren werden Spracherkennungssysteme manchmal mit Störvermin- derungssystemen kombiniert. [FELLBAUM91] J. Droppo et. al. [DROPPO02] haben ein Verfahren entwickelt, das die Isolation der Nutzinformation deutlich verbessert. Verfälschende Einzelereignisse beeinträchtigen meist nur die Erkennung einzelner Phoneme. Die Heranziehung linguistischer Kontextinformationen in den in Kapitel 4.2.2 erläuterten hierarchischen HMM und dynamischen Bayesschen Netzen kann diese Fehler deutlich minimieren. Die dritte Störform ist stark applikationsabhängig und wird durch entsprechende Kalibrierung der Aufnahmetechnik oder spezifische Modellierung des Übertragungskanals ausgeglichen [BLOMBERG94]. 4.2.7.4 Unflüssige Sprechweise: Unflüssigkeiten wie Selbstkorrektur, Fehlstarts, spontane Wiederholungen und Füll- silben beziehungsweise -wörter stellen eine große Hürde für sprachgesteuerte Systeme dar. Es wird bisher noch nach zuverlässigen Möglichkeiten gesucht, sie anhand von prosodischen, syntaktischen oder semantischen Mustern zu erkennen. Tabelle 1 verdeutlicht, wie oft solche Fehler im Mensch-Mensch-Dialog im Gegensatz zum Mensch- Maschine-Dialog vorkommen.
  • 15.
    Theorien / Konzepte 15 Mensch-Mensch-Dialog 2-Personen-Telefonat8,83 3-Personen-Telefonat 6,25 2-Personen-Gespräch 5,50 Monolog 3,60 Mensch-Maschine-Dialog Unbeschränkter Dialog 1,74-2,14 Strukturierter Dialog 0,78-1,70 Tabelle 1 - Fehlerhäufigkeiten pro 100 Wörter 4.2.7.5 Lange Sätze = Fehler? Komplizierte und lange Satzkonstruktionen sind sehr fehleranfällig. Sätze mit ein bis sechs Wörtern bergen 0,66 Fehler und Sätze mit sieben bis 18 Wörtern 2,81 Fehler. Man könnte mit der Frage schon eine kurze Antwort implizieren und damit die Fehler um 30 bis 40 Prozent reduzieren. Forschung im Auftrag von Telefongesellschaften hat dies gezeigt. Systeme können durch die Art und Weise, in der Anfragen an den Benutzer gestellt werden, beeinflussen, in welcher Weise er antworten wird (offene, kurze Antworten werden unterstützt). [OVIATT95] 4.2.7.6 Hyperartikulation Hyperartikulation ist der Versuch des Benutzers, betont deutlich zu sprechen, um dem System die Spracherkennung zu erleichtern [FISCHER99]. Sie tritt meistens auf, nachdem das System signalisiert hat, dass es eine Eingabe nicht verstanden hat. Dadurch werden weitere Fehler provoziert (Spiral Errors) und die Frustrationsgefahr steigt [KARAT99]. In der Praxis führt das oft dazu, dass ein Benutzer die Arbeit abbricht. Bekannte Kompensationsverfahren sind die Anpassung der Frequenzebene, die breite Modellierung der Vokale in den Referenzdaten und die Nutzung spezieller Erkennungs- modelle bei Hyperartikulation [OVIATT89], [SOLTAU98]. Versuche haben gezeigt, dass Hyperartikulation meist eine direkte Erhöhung der Sprechfrequenz und Variation der Sprachmelodie zur Folge hat. Dies kann zum einen durch entsprechende Anpassung der Eingangsfilter an Tonhöhe und Lautstärke ausge- glichen werden. Zum anderen erleichtert es vor allem die Erkennung von Hyper- artikulation, da sich die üblichen Frequenzmuster stark verändern.
  • 16.
    Theorien / Konzepte 16 Diegleichen Versuche haben auch eine deutliche Veränderung im Zeitverhalten der Sprecher ergeben. Im Durchschnitt stieg die Dauer einer Sprachprobe bei Hyperarti- kulation um 20% an. Diese Erhöhung tritt jedoch nicht gleichmäßig auf, sondern wird besonders bei stimmhaften Konsonanten und Zischlauten sichtbar. Mittels Erkennung von Hyperartikulation, Modellierung der veränderten Sprachform und Einbeziehung spezifischer Basisdaten kann der jeweils wahrscheinlichste Fall ermittelt und verfolgt werden. Allein diese Maßnahmen erhöhen die Erkennungsrate um zwei bis fünf Prozent [SOLTAU00]. 4.2.8 Verbesserung der Spracherkennung durch Multimodalität und eingegrenztes Vokabular Die Anwendung der Spracherkennung bestimmt, welche Störfaktoren einzubeziehen sind und mit welchen Methoden die Erkennungsrate erhöht werden kann. Sind die oben erläuterten Verfahren nicht ausreichend, sind korrigierende Benutzereingriffe über andere Eingabemodi erforderlich. Es ist nämlich sehr natürlich, nach einer fehlgeschlagenen Eingabe das Medium zu wechseln und zwar dreimal mehr als sonst. Benutzer erfassen recht schnell, welche Eingabemethode am einfachsten ist. Walker [WALKER89] und Cohen [COHEN89] schlagen deshalb vor, die Anwendung natürlicher Sprache mit grafischen Interfaces zu kombinieren. Gerade im Zusammenspiel mit anderen Ein- und Ausgabekanälen kann durch zusätzliche kontextabhängige Eingrenzung des Vokabulars die Spracherkennung deutlich verbessert werden. Dazu müssen verschiedene Formen der Sprachgestaltung abgewogen werden. Grundsätzlich kann zwischen freien, natürlichen und künstlichen, restriktiven Sprachen unterschieden werden. Letztere erfordern eine Einlernphase beim Benutzer oder sehr klare und eindeutige Benutzerführung durch andere Interfaceelemente [TENNANT83]. Trotzdem zeigen sich domänenspezifische künstliche Sprachen als deutlich robuster und effizienter, wobei Variationen und Redundanz in Vokabular und Syntax sogar die Nutzerakzeptanz erhöhen können. Es bleibt also offen, ob der Nutzer die natürliche oder künstliche Sprachen präferiert. Es kommt anscheinend auf die Qualität der Erkennung, den Kontext der Anwendung und die noch vorhandenen Modalitäten an.
  • 17.
    Theorien / Konzepte 17 4.3Die Gestaltung der intelligenten Benutzungsschnittstelle durch adaptive Dialogsysteme Im letzten Abschnitt wurde Sprachinteraktion als wichtiger Teil eines multimodalen Interfaces behandelt. Wie bereits erwähnt, dient Multimodalität dazu, die für das Ziel des Nutzers passende Interaktionsform zu wählen. Im Gegensatz zu einer funktionsbasierten Interaktion, bei der das Vokabular durch das System definiert wird, führt eine zielbasierte Interaktion in natürlicher Weise zu einer konversationalen Schnittstelle, da es für das System in bestimmten Fällen notwendig werden kann, für die präzise Bestimmung des Ziels fehlende Informationen beim Nutzer nachzufragen. Um konversationale Interaktion zu unterstützen, bedient sich das System auch non-verbaler Interaktionstechniken (z. B. Gestik, Mimik), die zum Beispiel durch anthropomorphe Interfaceagenten, auf die im Kapitel 4.4 näher eingegangen wird, realisiert werden können. In diesem Kapitel geht es zunächst um die Konzepte, die der adaptiven Dialoggestaltung zwischen Mensch und Maschine zugrunde liegen. 4.3.1 Die vier Seiten einer Nachricht Menschen nehmen nicht nur das gesprochene Wort, sondern viele Ebenen eines Dialoges wahr. Dazu gehören beispielsweise der Tonfall, die Schnelligkeit des Sprechens, Pausen, Lachen, Seufzen und nonverbale Kommunikation wie Körperhaltung oder Aus- drucksbewegungen. „Man kann nicht nicht kommunizieren“, wie schon Paul Watzlawik treffend bemerkte. Schulz von Thun [SCHULZ00] formulierte die in Abbildung 4 dargestellten vier Seiten einer Nachricht: Sachinhalt („Worüber möchte ich informieren“), Selbstoffenbarung („Was ich von mir selbst kundgebe“), Beziehungsaspekt („Was ich von dir halte und wie wir zueinander stehen.“). Abbildung 4 - Kommunikation nach Schulz von Thun ,'+"'.( ,%/0.;/08( -?-:.+$'.( ,%/0;+0%$8( 6'4;'0"+$( !--'$$( ,'$&#8*::'+/ &%0."+$(
  • 18.
    Theorien / Konzepte 18 DieForschung in der künstlichen Intelligenz hat sich lange Zeit nur mit dem Erkennen des Sachinhaltes befasst. Erst neuere Projekte - wie zum Beispiel adaptive Dialogsysteme und intelligente Benutzeroberflächen - richten ihr Augenmerk auch auf die anderen Ebenen der Kommunikation. 4.3.2 Benutzermodellierung Es gibt zwei Arten von Modellen, die bei der Mensch-Computer-Kommunikation eine Rolle spielen: Mentales Modell/ Benutzermodell: Dieses Modell bildet der Benutzer bewußt oder unbewußt über den Aufgabenbereich und das Computersystem. Systemmodell/ Anwendungsmodell: Das ist ein Modell über den Anwendungsbereich seitens eines Computersystems. Die Voraussetzung mentaler Modelle ist das gemeinsame Wissen beider Kom- munikationspartner. Die Aufgabe des Interfaces ist es, das mentale Modell des Benutzers wiederzugeben und sich auf den Benutzer einzustellen. Die Entwicklung von intelligenten Benutzungsschnittstellen erfordert also eine explizite Modellierung des Benutzers (user modelling). Das bedeutet, das System sollte die Fähig- keiten (abilities), die Ziele (goals), das Wissen (knowledge beziehungsweise beliefs) sowie den emotionalen Zustand des Benutzers erkennen und in geeigneter Weise modellieren. [RICH89] Üblicherweise spricht man beim Wissen eher von „beliefs“ als von „know- ledge“, da der Begriff impliziert, dass die Ansichten des Benutzer auch durchaus falsch sein können. Das Erkennen des emotionalen Zustandes ist wichtig, um beispielsweise zu erkennen, wann der Benutzer gelangweilt, über- oder unterfordert oder schlicht gestresst ist. Das Ziel einer intelligenten Benutzeroberfläche soll es sein, sich den aktuellen Bedürfnissen des Nutzers optimal anzupassen, also zum Beispiel im richtigen Moment Hilfestellungen anzubieten. Ebenso sollte es je nach Vorwissen des Benutzers knappe oder ausführliche Anweisungen geben und somit der Mensch-Mensch-Kommunikation näher kommen. 4.3.3 Überblick zu bestehenden Belief-Desire-Intention- Verfahren für die Benutzermodellierung Bestehende BDI-Verfahren (Belief, Desire, Intention) modellieren den Nutzer auf den bereits oben genannten Ebenen. Die erste Ebene „Belief“ repräsentiert das vermutliche
  • 19.
    Theorien / Konzepte 19 Wissendes Anwenders bezüglich der Problemdomäne. Üblicherweise teilt der Nutzer sein Wissen nicht direkt mit, es muss indirekt aus der Interaktion geschlossen werden. [KOBSA90]. Basierend auf sinnvollen Vorgaben für verschiedene Stereotypen, auf die im Kapitel 4.3.5 näher eingegangen wird, kann dieses Bild im Laufe der Interaktion weiter verfeinert werden. Die konzeptionelle Trennung der beiden Elemente „Desire“ und „Intention“ trägt der Tatsache Rechnung, dass der Nutzer zwar genaue Vorstellungen über das gewünschte Vorgehen haben kann, diese aber nicht zwingend für sein tatsächliches Ziel sinnvoll sind. Im günstigsten Fall erweitert die Interaktion die Wissensbasis des Nutzers und unterstützt ihn bei der Annäherung seiner kurzfristigen Absichten an seine realen Ziele. Horvitz und Paek [HORVITZ01] gehen speziell auf die gezielte Beeinflussung des Nutzers ein und analysieren die akustische Charakteristik aufgenommener Sprache in Hinblick auf Zustimmung, Ablehnung und Reflektion. Für die Pflege des Nutzermodells gibt es verschiedene Techniken, die auch kombiniert werden können. Das gebräuchlichste Verfahren ist das ständige Abgleichen des internen Modells auf Grund der direkten Handlungen und Eingaben. Dies hat den Vorteil, dass Fehlschlüsse des Systems nur begrenzte Auswirkungen haben, es kann abstraktere Ziele aber nur schwer abbilden. Ein anderes Verfahren, das Allen et al. verfolgten [ALLEN80], schließt hingegen unwahrscheinliche Modellierungen aus und verbessert so die Interpretation der Nutzer- absichten. Rich leitet ein abstraktes Persönlichkeitsprofil aus den Aktionen des Nutzers ab. Dies bietet zwar ein stabileres Modell, hat aber gleichzeitig auch den Nachteil, kaum dynamisch auf offensichtliche Fehlbeurteilungen reagieren zu können. [RICH89] 4.3.4 Berücksichtigung des Arbeitsgedächtnisses in der Dialoggestaltung Wie oben erwähnt,müssen nicht nur die Ebenen „Belief“, „Desire“ und „Intention“ sondern auch die je nach Situation vorhanden Ressourcen des Dialogpartners bei der Gestaltung der Schnittstelle berücksichtigt werden. Wie kann eine Überlastung des Dialogpartners zustande kommen? Die Kapazität des menschlichen Arbeitsgedächtnisses ist begrenzt.
  • 20.
    Theorien / Konzepte 20 Externgewonnene Informationen werden in „drei Stufen“ verarbeitet [ATKINSON68]: • Aufnahme in das Arbeitsgedächtnis („Kurzzeitgedächtnis“) • Abgleich mit langfristig gespeicherten Strukturen • Integration in die langfristig gespeicherten Strukturen Das Arbeitsgedächtnis ist der aktive Teil des menschlichen Gedächtnisses [EYSENCK94] und limitiert auf durchschnittlich 7 ± 2 voneinander unabhängige seman- tische Einheiten (chunks). Diese magische Zahl hat sich bis heute gehalten, wird aber differenziert betrachtet. [SHIFFRIN94] Diese Limitierung muss bei der Dialoggestaltung beachtet werden, um eine Informationsüberflutung zu vermeiden. Belastung oder Nebenbeschäftigungen können diese Kapazität noch weiter einschränken. Mit anderen Worten: ein Benutzer, der eine komplizierte Aufgabe lösen muss oder ein Dialogpartner, der sich einer schwierigen Situation gegenüber sieht, ist weniger aufnahmefähig als üblich. Das System muss diesen Umstand erkennen und sich dem anpassen, zum Beispiel, indem es langsamer kommuniziert, einfachere Satzkonstruktionen benutzt, knappere Anweisungen gibt, mehr Pausen macht oder Ähnliches. Es können viele Aspekte des Sprechens auf die Arbeitsgedächtnisbelastung des Dialogpartners hindeuten. In einer explorativen Studie von Schäfer und Weyrath 1996 [SCHÄFER96] wurde als Domäne eine Feuerwehrnotrufzentrale (FNZ) gewählt. Elf Mitarbeiter der FNZ, die regelmäßig Notrufe entgegennehmen, dienten dabei als Versuchspersonen, da sie besonders viel Erfahrung im Umgang mit solchen Ressourcen- beschränkungen haben. Notrufe werden nämlich meist in großer Eile geführt. Die wenigsten Anrufer bereiten sich auf das Gespräch vor. Daher ist mit einem hohen Grad an Spontansprache zu rechnen. Da die Anrufer zusätzlich durch die Vorfälle, die um sie herum passieren, abgelenkt sind, können selbst einfache Fragen hohe Anforderungen an das Arbeitsgedächtnis des Anrufers stellen. Aufregung, Ablenkung, Geschwindigkeit und Qualität der Antwort zeigten sich hier als Ursachen und Folgen von Arbeitsge- dächtnisbelastung. Ein wichtiger Aspekt der ressourcenadaptiven Dialogführung zwischen Mensch und System ist also die richtige Auswahl von Äußerungen und damit verbunden die richtige Einschätzung der Anforderungen, die die Äußerung an das Arbeitsgedächtnis des Dialogpartners stellt. Aber oft ist es nicht möglich, sich ein vollständiges Bild über die
  • 21.
    Theorien / Konzepte 21 Situationzu machen, in der sich der Dialogpartner befindet. Neue Informationen, die von der getroffenen Einschätzung abweichen, führen zu einer Veränderung des Bildes über die Arbeitsgedächtnisbelastung des Dialogpartners. Die Einschätzungen und Schluss- folgerungen, die das Dialogsystem dazu ziehen muss, sind also unsicher und zeitveränderlich. Eine Technik der Benutzermodellierung sollte also idealer Weise mit unsicherem und zeitveränderlichem Wissen umgehen und auf dieser Basis Schluss- folgerungen ziehen können. Wie wird das nun realisiert? Welche Prinzipien aus der Mensch-zu-Mensch-Kommunikation machen sie sich zunutze? Im Folgenden werden die Ansätze der Stereotypen und der Bayesschen Netze vorgestellt. 4.3.5 Stereotypen Menschen neigen dazu, Gesprächspartner auf Grund weniger Wahrnehmungen und Informationen zu kategorisieren. Stereotypen dienen hier als soziale Schemata. Eine ähn- liche Technik kann man sich auch für künstlich intelligente Dialogsysteme zu Nutze machen. [RICH89] Es geht dabei um die leichtere Identifikation von häufig vorkommenden Eigenschaften und die Übernahme gewohnheitsmäßiger Handlungen der Nutzer. Ein Stereotyp ist eine Sammlung von Eigenschaften, die unter einem gemeinsamen Namen zusammengefasst sind. Stereotypen lassen sich hierarchisch in einer Baumstruktur ordnen. Die Wurzel des Baumes der allgemeinste Stereotyp, über den relativ wenig bekannt ist. Jeder Knoten des Baumes kann eine beliebige Anzahl von Kindknoten haben. Die Kindknoten erben die Eigenschaften des Elternknotens, können sie jedoch erweitern und verfeinern. Die Kindknoten bilden dadurch Unterklassen der übergeordneten Stereotypen. Beispielsweise könnte man den allgemeinsten Stereotypen „Mensch“ in die Kindknoten „männlich“ und „weiblich“ unterteilen. Den Männern schreiben wir die Eigenschaften „guckt gern Fußball“ und „trinkt gern Bier“ zu. Frauen hingegen „gehen gern ins Ballet“ und „trinken gern Wein“. Auf Grund seiner Wahrnehmungen über den Dialogpartner kann das System denjenigen Stereotypen ermitteln, auf den diese Wahrnehmungen am besten zutreffen. Alle Eigen- schaften dieses Stereotypen werden dem Partner zugeschrieben. Wenn das System beispielsweise erfährt, dass der Dialogpartner gern Fußball sieht, kann es die Schluss-
  • 22.
    Theorien / Konzepte 22 folgerungziehen, dass es sich um einen Mann handelt und er dann wohl auch gern Bier trinkt. Selbstverständlich muss das System mit jeder neu gewonnenen Information seine bisherige Kategorisierung des Partners neu bewerten und gegebenenfalls einen anderen Stereotypen als Modell wählen, so wie wir bei unseren Gesprächspartnern immer neue Informationen sammeln und gegebenenfalls unsere Meinung revidieren. Dabei können auch Konflikte auftreten - beispielsweise könnte man an eine Person geraten, die gern Fußball schaut und gern Wein trinkt beziehungsweise nicht gern Bier trinkt. Solche Konflikte müssen vom System aufgelöst werden. Üblicherweise wird zu jeder dem Nutzer zugeschriebenen Eigenschaft ein Confidence-Wert ermittelt und gespeichert, der angibt, wie sicher sich das System ist, dass diese Eigenschaft tatsächlich zutrifft. Auf diese Weise lassen sich mit relativ wenigen Informationen brauchbare Schlussfolgerungen über das Gegenüber ziehen. Genau diese Eigenschaft ist der größte Vorteil dieses An- satzes. Ein Nachteil ist, dass die Kategorisierung unter Umständen von außen schlecht nachvollziehbar ist. Ein bekanntes Beispiel ist das stereotypbasierte Bibliotheksauskunftssystem Grundy von [RICH79, RICH89]. Grundy ist ein Dialogsystem, das ein Beratungsgespräch in einer Bibliothek simuliert. Grundy übernimmt dabei die Rolle eines Bibliothekars, der dem Be- nutzer bei der Auswahl seiner Lektüre behilflich ist. Um zu entscheiden, welche Bücher der Benutzer gerne liest, verwendet Grundy stereotypisches Wissen über den Benutzer, das im Laufe eines Dialogs zu einem individuellen Benutzermodell verfeinert wird. Der dargestellte Stereotypenansatz könnte auch gut in der sprachcomputerbasierten Anrufbeantwortung und -weiterleitung etwa bei der Pannenhilfe genutzt werden. Wenn zum Beispiel jemand laut atmet oder stöhnt (Bedingung a) und schnell oder abgehackt spricht (Bedingung b) ist zu schlussfolgern, dass eine schnelle Handlung beziehungsweise Weiterleitung des Anrufes an die entsprechende Stelle UND die Beruhigung des Anrufers erforderlich ist. Der Sprachcomputer könnte die Eckdaten erfragen (wie bei anderen Anliegen auch) UND etwas Beruhigendes antworten („Es wird so schnell wie möglich jemand bei Ihnen sein. Bitte bleiben Sie ruhig!“), damit sich der Anrufer verstanden und betreut fühlt. Natürlich sind hierbei wie oben bereits erwähnt Fehlinterpretationen möglich.
  • 23.
    Theorien / Konzepte 23 Deshalbwäre es zum Beispiel ethisch bedenklich, einen Sprachcomputer in der Feuer- wehrnotrufzentrale einzusetzen. 4.3.6 Bayessche Netze Eine weitere Technik der Benutzernodellierung, die schon im den Kapiteln 4.2 und 4.3 kurz vorgestellt wurde, sind die Bayesschen Netze. Sie beruhen auf dem Satz von Bayes, der Aussagen über die Wahrscheinlichkeiten voneinander abhängiger Ereignisse trifft. Bayessche Netze sind gerichtete, azyklische Graphen. Jeder Knoten des Graphen entspricht einem Ereignis. Eine Kante von A nach B bedeutet, dass Ereignis B (zum Beispiel Alarm) von Ereignis A (zum Beispiel Einbruch) abhängig ist. Für Ereignisse, die keine Vorgängerknoten im Netz, das heißt, keine eingehenden Kanten, haben, sind sogenannte a - priori - Wahrscheinlichkeiten gegeben. Das Ereignis tritt mit einer bestimmten Wahr- scheinlichkeit ein und ist von allen anderen Ereignissen unabhängig. Für abhängige Ereig- nisse (solche mit Vorgängerknoten) ist eine Wahrscheinlichkeitsmatrix gegeben, die die Wahrscheinlichkeit des Eintretens in Abhängigkeit vom Eintreten der Vorgängerereignisse beschreibt. [CHARNIAK91] In Abbildung 5 sieht man die einzelnen Wahrscheinlichkeiten für das Auftreten der beiden Ereignisse „Einbruch“ und „Alarm“ in wechselseitiger Abhängigkeit. Abbildung 5 - Bayessche Netze / Wahrscheinlichkeiten Inwiefern ist das nun für die Benutzermodellierung relevant ? Durch die Vorhersage der Wahrscheinlichkeiten können Annahmen über Benutzereigenschaften formuliert werden, die für die Interaktion mit dem Anwender nützlich sind. Nach erfolgter Evidenz durch • Azyklischer, gerichteter Graph • P(Einbruch|Alarm) = 0,00095 Einbruch Pa priori = 0,001 Alarm Einbruch Kein 0,010,95Alarm 0,990,05Kein Alarm
  • 24.
    Theorien / Konzepte 24 beobachteteSymptome werden die Einschätzungen der Knoten entsprechend der vorliegenden Situation angepasst. Ein Beispiel dafür ist Dialogsystem PRACMA. [JAMESON95] Es modelliert bewertungsorientierte Dialoge am Beispiel von Verkaufsgesprächen. Die Domäne ist der Gebrauchtautomarkt. Dabei wird von einer nicht ausschließlich kooperativen Dialogsituation ausgegangen: Der Käufer möchte dem Verkäufer möglichst detaillierte Informationen entlocken und das Auto zu einem möglichst geringen Preis erwerben. Der Verkäufer möchte negative Fakten über das Auto verschweigen und das Auto dem Kaufinteressenten möglichst positiv darbieten. PRACMA kann jeweils eine der Dialogrollen (Käufer/Verkäufer) übernehmen. In der bisher betrachteten Form sind Bayessche Netze nur für die Modellierung nicht- zeitabhängigen Wissens geeignet. Eine Erweiterung dieses Konzeptes, die so genannten dynamischen Bayesschen Netze, erlaubt genau das. [DAGUM92, GHARAMANI98] Dynamische Bayessche Netze teilen den zu modellierenden Zeitraum in Zeitscheiben von endlicher Dauer ein, diskretisieren also den kontinuierlichen Zeitverlauf. Es wird nun zwischen drei Arten von Knoten unterschieden: statische Knoten sind zeitunabhängig und existieren außerhalb der Zeitscheiben. Somit sind die bisher betrachteten Netze ein Spe- zialfall der dynamischen Bayesschen Netze, wobei alle Knoten statisch sind. Temporäre Knoten existieren nur in einer einzigen Zeitscheibe, typischerweise sind das Knoten von Beobachtungen. Die zu modellierende zeitveränderliche Eigenschaft wird durch dyna- mische Knoten dargestellt. Das sind Knoten, die in jeder Zeitscheibe existieren und über die Zeitscheiben hinweg miteinander verknüpft sind. Die Wahrscheinlichkeit der Eigen- schaft in einer Zeitscheibe ist dadurch immer abhängig von ihrer Wahrscheinlichkeit in der letzten Zeitscheibe. Bayessche Netze sind also in der Lage, unsicheres und zeitabhängiges Wissen darzustellen und daraus Schlüsse zu ziehen. Sie sind durch Computer verhältnismäßig leicht und effizient berechenbar. Der größte Nachteil ist, dass das Netz als solches – in- klusive der Wahrscheinlichkeitsmatrizen - von einem Menschen modelliert werden muss. Die Qualität dieser Modellierung ist wesentlich für die Qualität der Vorhersagen. Wofür werden nun die Bayesschen Netze in der Mensch-Computer-Kommunikation noch angewendet ? Wie wir weiter oben gesehen haben, sind sie einerseits wichtig für die Modellierung der Sprachinteraktion. Des Weiteren funktionieren viele Agenten, auf die im nächsten Kapitel näher eingegangen wird, auf der Basis von Bayesschen Netzen.
  • 25.
    Theorien / Konzepte 25 Dasmultimodale Präsentationssystem PPP benutzt Bayessche Netze in seiner Benutzermodellierungskomponente PEDRO um die Verständlichkeit der Präsentation technischer Anleitungen vorherzusagen. [MULKEN96], Auf diesen Versuch wird später eingegangen. Ein weiteres Beispiel ist das Lumiere-Projekt [HORVITZ98]. In diesem Projekt wird ein Assistent entwickelt, der den Benutzer bei der Benutzung seiner Software unterstützt. Der Prototyp dieses Assistenten dient als Basis für den Office Assistent im Microsoft Office Paket. Abbildung 6 - Agent im Microsoft Office : Karl Klammer Der MS-Office-Assistent versucht, aus dem Verhalten des Benutzers dessen Absichten zu schlussfolgern und bei Bedarf Hilfe anzubieten. Beim Benutzer wird dadurch der Eindruck erweckt, dass der Agent „mitdenkt“. Der Prototyp verwendete dazu die beschrie- benen Bayesschen Netze. Für die Verkaufsversion wurden die Bayesschen Netze durch einen zwar einfacheren, aber ähnlichen Algorithmus ersetzt. [ECONO01] Im Folgenden wird näher auf den Agentenbegriff eingegangen und verschiedene Studien zur Gestaltung von solchen Agenten als Teil einer intelligenten Benutzungs- schnittstelle vorgestellt.
  • 26.
    Theorien / Konzepte 26 4.4Interfaceagenten als multimodale Benutzungsschnittstelle Der Begriff des „Agenten“ ist facettenreich. Speziell ein Software- oder Interfaceagent bezeichnet in der Regel ein Programm, dessen Funktion als das eigenständige Erledigen von Aufträgen oder Verfolgen von Zielen in Interaktion mit einer Umwelt beschrieben werden kann. Interface-Agenten fungieren als Bindeglied in der Mensch-Computer-Inter- aktion. Dazu müssen Agenten Fähigkeiten der Wahrnehmung, des Handelns und der Kommunikation miteinander verbinden und, bezogen auf eine zu erfüllende Aufgabe, situationsangemessen ein- und umsetzen können. Technisches System und Interface- Agenten verbinden sich dabei zu einem teilautonomen System (siehe Abbildung 7), welches Anteile seiner Funktion unabhängig von direkter Steuerung durch Benutzer erbringen kann („indirektes Management“). Abbildung 7 - Agenten als Bindeglied in der Mensch-Maschine-Kommunikation (Wachsmuth) Wie sollten solche Agenten beschaffen sein, damit der Benutzer sie akzeptiert und entsprechend mit ihnen interagiert? 4.4.1 Der Turing – Test und Eliza als Beginn der Forschung zum Anthropomorphismus in der Mensch-Computer- Interaktion Bereits im Jahre 1950 schlug Alan M. Turing [TURING50] seinen viel diskutierten Test vor. Es ist dabei die Aufgabe der Versuchsperson, die sich in einem seperaten Raum aufhält, anhand eines textbasierten Frage-Antwort-Spiels festzustellen, bei welchem ihrer Gesprächspartner es sich um eine Frau handelt. Die Aufgabe der männlichen Versuchs- person ist es, die Versuchsperson zu täuschen, indem sie vorgibt, eine Frau zu sein. In einer zweiten Phase wird die weibliche Gesprächspartnerin gegen eine Maschine ausgetauscht und das Spiel wiederholt. Wenn sich der Fragesteller nun ebenso oft falsch Interface- agenten Technisches System Mensch Teilautonomes System
  • 27.
    Theorien / Konzepte 27 entscheidet,wie in der ersten Phase des Tests, kann der Maschine Intelligenz zugesprochen werden. Im Jahre 1966 entwarf Josef Weizenbaum [WEIZENBAUM66] ein Computer- programm, das eine therapeutische „Unterhaltung“ lediglich durch Wiederholung von Schlüsselwörtern führen konnte. Die Personen, die sich mit Eliza unterhielten, stellten eine emotionale Beziehung zum Computer her und wiesen ihm menschliche Eigenschaften zu. Weizenbaum formulierte daraus, dass das Vorhandensein von menschlichen Eigenschaften bei Schnittstellen einen nicht unwesentlichen Einfluss auf das Verhalten des Benutzers hat. Es geht also darum, die Schnittstelle so anthropomorph wie möglich zu gestalten. Unter Anthropomorphismus versteht man die Übertragung von menschlichen Eigenschaften auf Nichtmenschliches. [BROCKHAUS] Im Folgenden werden einige Studien zum Anthropomorphismus von Mensch-Computer-Schnittstellen in Form von Agenten vorgestellt. 4.4.2 Agenten als Avatare Agenten können Avatare sein. In der Mythologie sind Avatare wiedergeborene Wesen, die auf die Erde herabsteigen, um die bedrohte Weltordnung zu schützen. Als Avatare bezeichnet man heute virtuelle Figuren, die meist einem Menschen (anthropomorph) oder einfach einem bestimmten Körper (embodied) nachgebildet sind und sich dabei so „natürlich“ wie möglich bewegen. Der Begriff ist nicht ganz klar definiert. Avatare können nämlich auch virtuelle Repräsentanten von real existierenden Personen im 3D- Raum, meist in einer verteilten Umgebung, sogenannten Communities, sein. Dabei können sie entweder „eigenständig“ agieren und untereinander in Interaktion treten oder aber vom Benutzer gesteuert werden [HOFBAUER00, FOLDOC]. Im Weiteren wird die Verwendung des Begriffes „Avatar“ auf einen anthropomorphen Agenten bezogen. 4.4.3 Erwartungen an Agenten Das Erscheinungsbild solcher Agenten reicht von einfachen cartoonartigen 2D-Figuren bis hin zu animierten Agenten, die auf komplexen 3D-Modellen basieren und im Ansatz kaum noch von Aufnahmen realer Personen (oder anderen realen Lebewesen) zu unter- scheiden sind. In der Anwendung dienen solche Agenten zum Beispiel als Führer durch virtuelle Welten oder sie demonstrieren Handlungsabläufe einer Gerätereparatur. Im Bereich Lernsoftware übernehmen sie die Rolle virtueller Tutoren, erklären Sachverhalte, erteilen auf Nachfragen Auskunft oder stellen selbst Fragen an den Schüler.
  • 28.
    Theorien / Konzepte 28 DieRealisierung animierter Figuren ist nicht nur eine Herausforderung aus Sicht der Computergrafik und -animation, sondern auch im Hinblick auf die glaubwürdige Ver- haltensausstattung. Hier werden unter anderem folgende Anforderungen diskutiert: Model- lierung von Persönlichkeit, Integration von Emotionsmodellen, Koordinierung unterschied- licher Ausdrucksmittel wie Gesichtsausdrücke, Körpergesten und gesprochene Sprache. Die Erwartungen an Agenten sind hoch. Durch höheren Unterhaltungswert, verbesserte Aufmerksamkeit, intelligentes Feedback etc. sollen sie Lernerfolge maximieren. Die Interaktion zwischen Nutzer und Computer soll mit ihrer Hilfe vereinfacht, verbessert und intuitiver gestaltet werden. Computerspielen sollen sie zu besserem Unterhaltungswert verhelfen. Mit den Agenten sollen neue zusätzliche und bessere Möglichkeiten zur gezielten Beeinflussung des Nutzerverhaltens zur Verfügung stehen. Aber halten Embodied Conversational Agents bisher was wir uns von ihnen versprechen? 4.4.4 Agentenrepräsentation King und Ohya [KING96] verglichen Agentenrepräsentationen. Die Autoren fragten sich, wie die Repräsentation von Agenten die von Nutzern wahrgenommenen Eigen- schaften beeinflussen. Die 18 Probanden bewerteten die dreidimensionale menschen- ähnlichste Form signifikant häufiger als „Agenten“ als andere anthropomorphe und nicht- anthropomorphe Formen. Die Versuchspersonen schätzten die Gruppe der anthropo- morphen Formen als intelligenter und „agentenhafter“ ein als den Rest der Stimuli. Am intelligentesten und „agentenhaftesten“ schätzten sie die menschlichen Formen mit zufälligem Lidschlag ein. Takeuchi und Naito [TAKEUCHI95]) ließen in ihrer Untersuchung zwei menschliche Gegner ein Memory-ähnliches Kartenspiel am Computer spielen. Auf dem Display war einmal ein Gesicht, ein anderes Mal ein dreidimensionaler Pfeil zu sehen. Das Display mit dem Gesicht erzeugte mehr Augenkontakt als das Display mit dem Pfeil, fanden die Autoren. Dies lässt darauf schließen, dass das Gesicht mehr Aufmerksamkeit der Pro- banden auf sich zog. Andererseits lenkte es auch eher von der Hauptaufgabe ab. Die Probanden empfanden das Display mit dem animierten Gesicht als unterhaltsamer als das Display mit Pfeil. Andererseits empfanden die Versuchspersonen das Display mit dem Pfeil als nützlicher, verglichen mit dem Display, auf dem das Gesicht abgebildet war. Koda und Maes [KODA96] wollten herausfinden, ob es eher vorteilhaft ist, einen Agenten mit einem Gesicht zu repräsentieren. Sie nutzten ein Poker-Spiel als Test-
  • 29.
    Theorien / Konzepte 29 umgebungfür ihre Studie. Die zehn Probanden spielten 18 Runden Poker gegen vier Agenten. Die Probanden versuchten, die Gesichter und Gesichtsausdrücke zu deuten, was sie von ihrer Aufgabe abhielt. Gesichter wurden als sympathisch - im Gegensatz zu unsichtbaren Gegnern - und einnehmend im Pokerspiel angesehen. Je realistischer das menschliche Gesicht, desto eher wurde es als intelligent, sympathisch und komfortabel angesehen. Koda und Maes empfehlen deshalb, Agenten mit Gesichtern im Entertain- mentbereich einzusetzen. Auch für Aufgaben, bei denen der Nutzer Engagement zeigen muss (zum Beispiel bei Bildung und Training), sei ein solcher Agent von Vorteil. 4.4.5 Lerneffekt / Funktionalität Van Mulken, André und Müller [MULKEN98] führten ein Experiment mit ihrem PPP („Personalized, Plan-based Presenter“) genannten System an 28 Versuchspersonen durch. Bei der Darstellung eines technischen Systems (Flaschenzüge) fanden die Probanden die Erklärungen leichter verständlich, wenn sie von dem animierten Agenten mit Zeigestock anstatt nur mit Hilfe eines Zeigestocks gegeben wurden. Auch wurde der animierte Agent als hilfreicher und unterhaltender angesehen als der Zeigestock. 50% der Probanden würden eine Präsentation mit einem animierten Agenten bevorzugen, 43% würden dies von dem zu präsentierenden Material abhängig machen und 7% wünschten sich Prä- sentationen ohne animierten Agenten. 4.4.6 Interaktion mit Nutzer Cassell und Vilhjálmsson [CASSELL99] beschäftigten sich damit, wie man das kommunikative Verhalten von Avataren in grafischen Chats verbessern kann. Ist der Nutzer damit beschäftigt, Nachrichten einzutippen, ständen die Avatare nur bewegungslos herum. Dies liefe der natürlichen Kommunikation zuwider, denn hier ist ein beachtlicher Teil non-verbale Kommunikation im Spiel. Zwar könnten die Nutzer in den neuesten Sys- temen verschiedene Animationen oder emotionale Zustände aus einem Menü wählen, aber non-verbale Kommunikation sei oft spontan und der Nutzer zu beschäftigt, um das Ver- halten seines Avatars zu kontrollieren. Wäre es nicht wünschenswert, wenn Avatare au- tonom kommunikatives Verhalten zeigen würden, fragten sich Cassell und Vilhjálmsson. Hier stellt sich die Frage, was der Nutzer bevorzugt: direkte Manipulation oder Autonomie des Agenten. Sie fragten die 24 Probanden, wie natürlich sie das Verhalten des Avatars und die Interaktion fanden und stellten fest, dass die Nutzer des autonomen Systems dieses
  • 30.
    Theorien / Konzepte 30 alsnatürlicher beurteilten als die anderen Systeme. Dies konnte man auch in der Inter- aktion beobachten (höhere Aufmerksamkeit, längere Gespräche). Die Autoren sehen sich in ihrer Schlussfolgerung unterstützt, dass die Nutzer Kontrolle und Spaß primär dem Gespräch selbst entnehmen und sich durch die Kontrolle des Ver- haltens ihres Avatars abgelenkt fühlen. Dietz & Lang [DIETZ99] beschlossen, ihren Agenten mit selbst-generierten Emotionen auszustatten. Mit dem Experiment versuchten sie herauszufinden, welchen Einfluss dies auf die Benutzer hat. Die ca. 80 Probanden berichteten von mehr Gefühlen in der emo- tionalen Bedingung. Andere signifikante Ergebnisse konnten nicht erzielt werden. Die Tendenzen stimmen vorsichtig optimistisch. Cassell und Thórisson [CASSELL98] präsentieren in ihrer Arbeit einen perso- nifizierten, animierten Agenten mit der Fähigkeit, multimodale Konversation mit einem Nutzer in Echtzeit durchzuführen. Mit diesem Agenten untersuchten sie zwei menschliche Eigenschaften, die als besonders nützlich für konversationale Systeme herausgestellt werden: emotional feedback und envelope feedback. Emotional feedback bezeichnet die Technik, eine bestimmte Emotion durch einen bestimmten Gesichtsausdruck darzustellen. Envelope feedback meint non-verbales Verhalten während eines Gesprächs von An- gesichts zu Angesicht, die der animierte Agent als Antwort auf die kommunikativen Aktionen des Nutzers generiert. Insgesamt unterstützen die Ergebnisse die Signifikanz von envelope feedback über emotional feedback und rein inhaltliche Rückmeldungen. Manch- mal redete der Nutzer zeitgleich mit dem Agenten. Das Ins-Wort-Fallen ist typisch für Mensch-zu-Mensch Kommunikation. Der Agent hatte aber Probleme mit dem Ins-Wort- Fallen, was wiederum der Grund für Zögern des Nutzers sein könnte. 4.4.7 Attribution von Persönlichkeitsmerkmalen Sproull et al. [SPROULL96] haben die Verhaltensunterschiede des Nutzers bezüglich. eines textuellen Interfaces versus eines Interfaces mit einem realistischen Gesicht und verbaler Sprachausgabe in einer Studie mit 130 Versuchspersonen untersucht. Als Anwendungsgebiet wurde die Karriereberatung gewählt. Hierzu wurde eine Modifikation von J. Weizenbaums „Eliza“ herangezogen. Die Probanden attribuierten Persönlichkeits- merkmale des Gesichtsinterfaces, die mit dem Aussehen verknüpft werden (soziale Bewertung, Geselligkeit, intellektuelle Bewertung), anders als die des Textinterfaces. Der Unterschied bei Persönlichkeitsmerkmalen, die nicht mit dem Aussehen verknüpft werden
  • 31.
    Theorien / Konzepte 31 (Potenz,Aktivität, Emotionalität), fiel geringer aus. Bei den Gesichtsinterfaces beschrieben sich die Probanden weniger entspannt und weniger selbstsicher. Probanden, die mit den Gesichtsinterfaces arbeiteten, brauchten mehr Zeit zum Beantworten der Fragen der psychologischen Tests, als die Probanden mit den Textinterfaces. Die Probanden, die das Gesichtsinterface benutzten, stellten sich selbst positiver bezüglich Altruismus und sozialer Erwünschtheit dar. Basierend auf der Hypothese, dass Frauen und Männer unterschiedlich empfänglich für soziale Signale wie Gesichtsausdrücke sind, vermuteten die Autoren, dass sich Männer und Frauen in ihren Antworten auf das Gesichtsdisplay mehr unterscheiden werden als in Antworten auf das Textdisplay. Eine Unterscheidung gab es aber zwischen den Applikationen. Männer reagierten positiver auf das Gesichtsdisplay und Frauen eher auf das Textdisplay. Das könnte bei den Frauen auf die Unnatürlichkeit der Darstellung des Gesichtes und bei den Männern auf die Neugier an der Technik zurückzuführen sein. Was bedeutet Adaptivität für die Persönlichkeit? Moon und Nass [MOON96] haben dies untersucht. 44 als dominant und 44 als unterwürfig eingeschätzte Probanden wurden zufällig auf vier Versuchsbedingungen mit Agenten aufgeteilt. Die Autoren sprechen von drei Ergebnissen. 1. Nutzer mögen Computer mit ihrem Persönlichkeitstyp. 2. Nutzer ziehen adaptive Computer denen vor, die über die Zeit konstant gleich bleiben. 3. Die bevorzugte Richtung der adaptiven Änderung ist die des Persönlichkeitstyps des Nutzers. Reeves & Nass [REEVES96] fanden in der generellen Mensch-Computer (nicht speziell Agenten-) Interaktion viele sozialpsychologische Aspekte bestätigt. Versuchspersonen, die nach einer Lehreinheit zu ihrer Meinung über die Leistung des Computers befragt wurden, formulierten eine positivere Antwort, wenn der Computer selbst die Frage stellte, als wenn es ein anderer Computer oder eine schriftliche Befragung war. Alle Versuchspersonen wiesen jedoch die Vermutung von sich, sie könnten ihre Bewertungen aus Höflichkeit gegenüber dem Computer ändern. Die Versuchspersonen waren davon überzeugt, sie hätten mehr geleistet, wenn der Computer ihre Leistung positiv bewertete. Unter diesen Umständen mochten sie den Computer auch lieber und trauten ihm größere Leistungen zu. Dies gilt unabhängig davon, ob das erfahrene Lob gerechtfertigt war oder nicht. Die Autoren formulieren daraus, dass Computer oder Agenten so programmiert werden sollten,
  • 32.
    Theorien / Konzepte 32 dasssie ihren Benutzern positive Rückmeldungen geben. Auch andere sozialwissenschaftliche Erkenntnisse bezüglich Selbst- und Fremdurteil und Persönlichkeitsstruktur aus der Mensch-Mensch-Kommunikation konnten in der Mensch- Computer-Kommunikation bereits repliziert werden. Man könnte damit zu dem Schluss kommen: Intelligente Maschinen werden von Menschen wie ihresgleichen behandelt. [REEVES96, S. 251] 4.4.8 Evaluation der vorgestellten Studien Die dargestellten Studien unterscheiden sich in der Art der untersuchten Animationen, in der Art der Maße, mit denen die Effekte gemessen wurden und in der Art der An- wendungsumgebung. Die Ergebnisse sind nicht immer statistisch signifikant. Dennoch konnten einige Vermutungen erhärtet werden. So führte der Einsatz von animierten Agen- ten bei Takeuchi und Naito, aber auch bei van Mulken et al. zu höheren Unterhaltungs- werten. Und bei Sproull et al. zeigte sich, dass sich die Probanden tatsächlich in Anwe- senheit eines Gesichtes eher so verhalten, wie es sozial erwartet wird. Für andere Vermu- tungen konnten noch nicht einmal Hinweise gefunden werden: Zum Beispiel gab es in Bezug auf den Lernerfolg und das Erinnerungsvermögen keinen Hinweis auf positive Effekte durch den Einsatz von animierten Agenten. Es kristallisieren sich jedoch drei wichtige Faktoren heraus, die die Wirkung von animierten Agenten ganz wesentlich mit zu beeinflussen scheinen [DEHN00]: • Domäne, Aufgabenstellung • mögliche Informationsquellen (gibt es neben dem Gesicht noch weitere Quellen wie etwa gesprochene Sprache oder eine Textausgabe?) • Persönlichkeit und Eigenschaften des Agenten (sind uns Stimme und Gesicht sympathisch?). Diese Einflussfaktoren wurden jedoch in keiner Studie umfassend berücksichtigt. Die Schwierigkeiten sind sicherlich unter anderem bedingt durch noch zu geringe Erkenntnisse nicht nur im speziellen Gebiet der animierten Agenten, sondern auch in den involvierten Wissenschaften. So sind zum Beispiel insbesondere die sozio-emotionalen Funktionen der nonverbalen Kommunikation wenig erforscht [BENTE00]. Deshalb können in den Studien nicht einfach die Bedeutung und die Effekte von einzelnen Einflussgrößen gemessen werden. Diese müssen selbst erst noch bestimmt werden, um dann die erforderlichen Instrumentarien und relevanten Variablen ermitteln zu können. Bente und Krämer
  • 33.
    Theorien / Konzepte 33 [BENTE02]schlagen unter anderem einen „Bottom-Up-Ansatz“ vor. Dieser Ansatz basiert auf dem in Kapitel 4.3.5 dargestellten Stereotypenprinzip. Verhaltensmuster sollen, ohne sie bis ins Detail zu verstehen, in Datenbanken abgelegt werden, um bei Bedarf auf diese „Verhaltenskonserven“ zurückgreifen zu können. Hierbei wird bewusst eine (zu Beginn deutlich) eingeschränkte Interaktivität und Flexibilität in Kauf genommen. Über mehrere Zwischenschritte sollen die feinen Regeln der Kommunikation herausgearbeitet werden, um später dann regelbasierte Agenten implementieren zu können. Bisher mangelnde Forschungsergebnisse macht auch die Evaluation von animierten Agenten schwierig: Bisher sind die richtigen Variablen und Methoden um die Effekte der Agenten messen zu können noch nicht gefunden. 4.4.9 Die Kombination von Agenten und Sprache im multimodalen Interface Die Kombination von Automatic Speech Recognition (ASR), Natural Language Pro- cessing (NLP) und Agententechnologie ermöglicht die Implementation anwendungsspe- zifischer Programme, die dem Benutzer nicht nur die Steuerung durch Sprache erlauben, sondern auch aktiv Hilfe anbieten. Eine Weiterentwicklung dieses Systems nutzt Sprachsynthese zur Ausgabe und ermöglicht den sinnvollen Einsatz in mobilen Systemen, wie z.B. Fahrzeugen (vgl. Embassi-Projekt), bei denen Interaktion mit einem Bildschirm nicht möglich oder wünschenswert ist. Durch weitere Kopplung mit Avatar-Techniken werden in Echtzeit geführte audiovisuelle Dialoge mit natürlichsprachlichen Systemen realisierbar [XUEDONG]. Der Einsatz von Agenten und Sprache als Teile von multimodalen Interfaces scheint also sehr sinnvoll für den Benutzer zu sein. Im Folgenden wird deshalb eine explorative Studie zu Sprachinteraktion und anthropomorphen Intefaceagenten in einem prototypischen multimodalen System vorgestellt.
  • 34.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 34 5 Explorative Studie zu Sprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut In der Studie ging es vor allem um die explorative Untersuchung des Benutzer- verhaltens auf diesem relativ neuen Forschungsgebiet. Basierend auf den im Theorieteil vorgestellten Vorerfahrungen wurde speziell die Sprachinteraktion mit dem System und einem anthropomorphen Interfaceagenten beobachtet und ausgewertet. Am Ende werden die Ergebnisse vor dem Hintergrund bestehender Forschung diskutiert und weiterer Forschungsbedarf abgeleitet. 5.1 Projektrahmen Das Projekt mUltimo-3D ist ein vom Bundesministerium für Bildung und Forschung (BMBF) finanziertes Projekt. Während einer Laufzeit von zwei Jahren (01/99 bis 12/01) wurden neue Möglichkeiten der multimodalen Interaktion entwickelt. Ermöglicht wurden diese neuen Interaktionsformen durch die Verbindung einer Anwendungsschnittstelle mit einem 3D-Display und Systemen zur Erkennung von Augen- und Blickbewegungen und Sprache sowie in späteren Versuchen Handgesten. Im Rahmen der Evaluation dieser Systeme wurden Nutzertests durchgeführt. Ein ausführliches Evaluationskonzept für eine multimodale Schnittstelle im Rahmen dieses Projektes findet sich bei Katharina Seifert (2002). Der Schwerpunkt der vorliegenden Untersuchungsauswertung liegt auf der sprachbasierten Interaktion. 5.2 Systembeschreibung Die multimodale Bedienschnittstelle des mUltimo-3D-Systems für den Versuch bestand aus Maus und Tastatur, einer sprecherunabhängigen Spracherkennung und einer Blick- orterkennung. Die Spracherkennung basierte auf Viavoice Software Developers Kit von IBM. Ca. 90 Wörter wurden pro Testanwendung relativ gut erkannt. Die Blickort- erkennung ist eine Eigenentwicklung des Heinrich-Hertz-Instituts für Nachrichtentechnik GmbH und basiert auf der Cornea-Reflex-Methode [LIU99]. Der Benutzer konnte wählen, ob er eine Funktion durch Sprache, Tastatur, Maus oder Blick oder über die Kombination dieser Modalitäten auslöste. Nicht alle Funktionen konnten über die Modalitäten Blick und Sprache auf Grund ihrer Besonderheiten ausgelöst werden. Es wurden zwei Test-
  • 35.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 35 anwendungen mit multimodaler Interaktion entwickelt. Der erste Prototyp zur Kon- struktion von 3D-Körpern heißt CAD-Raum und der zweite zur Suche und Betrachtung von räumlichen und textuellen Informationen heißt Info-Browser. Der Hauptversuch wurde mit beiden Testapplikationen im Vergleich durchgeführt. Diese Darstellung konzentriert sich auf den dreidimensionalen CAD-Raum und den Prototypen eines dreidimensional dargestellten Avatars. Abbildung 8 - mUltimo3D 5.2.1 Das 3D-Display Für die vorliegende Untersuchung wurde ein 3D-Display eingesetzt, das vom Heinrich- Hertz-Institut entwickelt wurde und eine freie Betrachtung des Objektes ermöglicht. Diese Displays basieren auf dem Prinzip des Richtungs-Multiplexing, das heißt die unterschied- lichen perspektivischen Ansichten der Teilbilder sind nur aus bestimmten Richtungen zu sehen [LIU99]. Sitzt der Betrachter in einer bestimmten Position vor dem Display, verschmelzen diese beiden getrennten räumlichen Wahrnehmungen zu einem Bild. Das hat den Vorteil, dass der Nutzer keine Spezialbrille tragen muss, um Dreidimensionalität wahrzunehmen.
  • 36.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 36 Abbildung 9 - 3D-Display 5.2.2 Spracherkennung Die Spracheingabe erfolgt über ein Headset. Die Auswertung erfolgt auf einem PC, auf dem das IBM-Programm ViaVoice Pro - Millenium-Edition installiert ist. Die Wahl von Via Voice bestimmt die Charakteristik der Spracherkennung. In dem Versuch war das System schon relativ benutzerunabhängig, es musste kein vorheriges Training erfolgen. Der Output von ViaVoice an das System ist ein fortlaufender ASCII-Text, der vom Sprachtreiber des Systems nach interaktionsrelevanten Schlüsselbegriffen durchsucht wird (keyword-spotting technique). Dabei ist es möglich, mehrere Schlüsselbegriffe für ein Kommando zu definieren. Jedes einzelne zu erkennende Wort musste in einer Trainings- phase dem System durch mehrere Nutzer vorgesprochen werden, um durch den Muster- vergleich einen Mittelwert zu erzielen und damit eine relativ sprecherunabhängige Spracherkennung der vorgegebenen Kommandos zu erreichen. Der Nachteil ist, dass der Nutzer nach jedem Satz eine Pause machen muss, damit Aktionen und Objekte richtig zugeordnet und nicht mit dem nächsten Satz vermischt werden. 5.2.3 Technische Anordnung des Systems Dieses System ist technisch betrachtet ein Zusammenschluss von vier Rechnern mit klarer Funktionsteilung, die ihre jeweiligen Teilaufgaben parallel verarbeiten. Teilauf- gaben bestehen hauptsächlich in der Bereitstellung der multimodalen Ein- und Ausgabe- kanäle. Als zentrale Verarbeitungseinheit dient eine Onyx2 von Silicon Graphics. Auf ihr laufen alle parallel verarbeiteten Prozesse zusammen und werden dort verrechnet. Die Ausgaben werden von der Onyx2 gesteuert und über Lautsprecher und über das auto- stereoskopisches Display multimedial vermittelt.
  • 37.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 37 5.2.4 Die Testapplikation CAD-Raum Mit dem CAD-Raum besteht die Möglichkeit der Konstruktion von komplexen Objekten aus einfachen geometrischen Grundkörpern durch verschiedenste Bearbeitungs- funktionen (Verschieben, Drehen, Skalieren, Farb- und Texturauswahl). Die Grundkörper Würfel, Kugel, Zylinder, Ring, Kegel, Hohlzylinder und Pyramide werden aus einem Objektregal in die 3D-Szene geholt und entsprechend bearbeitet. Es können alle Objekte aus- und wieder abgewählt werden. Die Szene kann in x- und y-Richtung der Ebene gedreht werden, um bessere Anschauung zu gewährleisten. Die obere Menüleiste enthält die vier Hauptmenüs Verwaltung, Objekte, Werkzeuge und Hilfe. Diese werden bei Aktivierung transparent und öffnen sich mit einer Bewegung in den Raum. Die einzelnen enthaltenen Funktionen werden so für den Benutzer durch Icons und Text sichtbar. Wird eine Funktion gewählt, schließt sich das Menü wieder. In der unteren Menüleiste findet sich ein Werkzeug zur Achsen- und Ebenen-Auswahl und eines zur stufenlosen Rotation der Szene. Abbildung 10- Screenshot des CAD-Raumes 5.2.5 Gestaltung der multimodalen Interaktion im CAD-Raum Bei der Gestaltung des CAD-Raumes wurde festgelegt, welche Funktion in welcher Form durch welche Modalität ausgewählt werden kann. Dabei entstanden Gruppen von Funktionen, die zwei oder drei Auslösemöglichkeiten hatten. Zur letzten Gruppe gehören die Hauptmenüs, die mit Maus, Sprache und Blick aktiviert werden konnten. Jede einzelne Funktion in den Menüs gehört zur der Gruppe Maus und Sprache. Eine Ausnahme bildet die Rotationskugel, die nur mit der Maus bewegt werden kann. Wie oben bereits erwähnt,
  • 38.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 38 können nicht alle Funktionen mit den einzelnen Modalitäten auf Grund ihrer Beson- derheiten ausgelöst werden. Mit der linken Maustaste kann jede Funktion ausgelöst werden, mit Sprache, wenn die zugehörigen Kommandos von der Spracherkennung erkannt werden. Blick kann nur von Sprache oder Maus (rechte Maustaste) unterstützt werden, um eine Funktion auszulösen. 5.2.6 Die Testapplikation Avatar Die Testapplikation für den Avatar besteht aus einer 3D-Szene, in der sich eine Treppe mit einem Tor, ein Kugellager, das sich öffnet, ein Bild, das näher zum Betrachter rückt und ein Computerbildschirm, der sich dreht, befinden. Der Avatar kann in die Szene geladen werden und folgt einem vorprogrammierten Bewegungsablauf vom Startpunkt auf der Treppe zu den drei animierten Elementen und zurück zum Ausgangspunkt. Die multimodale Interaktion ist hier zum Zeitpunkt der Untersuchung noch nicht vollständig gestaltet. Sprach-, Blick- oder Gestikinteraktion mit dem Avatar ist noch nicht möglich. 5.3 Methode 5.3.1 Einbettung der vorliegenden Fragestellung in die Gesamtuntersuchung Die Fragestellung der Gesamtuntersuchung war, welchen Effekt die multimodale Inter- aktion auf die Leistung und die subjektive Qualitätsbewertung durch den Benutzer hat. Die hier untersuchte Fragestellung beschäftigt sich konkret mit der Sprachinteraktion als einem Teilgebiet der multimodalen Interaktion in zwei verschiedenen Applikationen des Systems und mit den Vorstellungen und Bewertungen des Benutzers hinsichtlich dieser beiden prototypischen Applikationen, der Modalität Sprache und der Mensch-Computer-Inter- aktion allgemein. Im Folgenden wird der Teil zur Modalität Sprache Logfileexperiment und der Teil zum anthropomorphen Interfaceagenten Simulationsexperiment gennant.
  • 39.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 39 5.3.2 Variablen 5.3.2.1 Unabhängige Variable im Logfileexperiment Aufgaben in verschiedenem Schwierigkeitsgrad Die Versuchsteilnehmer bekamen eine Übungsaufgabe und drei Experimentalaufgaben mit unterschiedlichem Schwierigkeitsgrad vorgelegt, der nach einem Permutationsplan in der Reihenfolge der Bearbeitung variierte. Die Aufgaben bestanden in der Konstruktion dreidimensionaler Modelle anhand einer Vorlage. Die Aufgabenschwierigkeit ergab sich aus der Anzahl der einzelnen Grundobjekte, die zur Konstruktion des Gesamtobjektes erforderlich war. Die leichteste Aufgabe (Fisch) enthielt sieben Grundobjekte, die mittlere (Pinocchio) 15 und die schwierigste (Eisenbahn) 30. 5.3.2.2 Abhängige Variablen im Logfileexperiment Leistung der Versuchspersonen Die Leistungsdaten wurden anhand der Anzahl der bearbeiteten Elemente, der Form- ähnlichkeit und der Position der Teile zueinander und der Oberflächenbearbeitung durch Farbe und Textur anhand von Bildschirmfotos aus drei verschiedenen Perspektiven ermit- telt. Die Bewertung der Einzelleistungen erfolgte nach einer vordefinierten Bewertungs- vorschrift und wurde im Konsensverfahren von vier Beurteilern als Expertenrating getroffen. Die Häufigkeit der Sprachinteraktion als Teil der multimodalen Interaktionshäufigkeit Die Häufigkeit der Sprachinteraktion wurde anhand der Logfiledaten festgestellt. Wenn ein Kommando von der Spracherkennungssoftware erkannt wurde, erfolgte ein Eintrag im Logfile. Wahrnehmung der Sprachinteraktion aus Benutzerperspektive Hierzu erfolgte eine Befragung der Versuchspersonen nach dem Versuch in halbstrukturierter Form.
  • 40.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 40 5.3.2.3 Unabhängige Variablen im Simulationsexperiment Im Simulationsexperiment waren das Verhalten und das Aussehen des Avatars und das Geschlecht und das Alter der Versuchspersonen die unabhängigen Variablen. Es gab keine Aufgabe, die in einem Versuchplan variiert werden konnte. Eine Vergleichsapplikation gab es auch nicht. 5.3.2.4 Abhängige Variablen im Simulationsexperiment Die Art der Ansprache des Avatars durch die Versuchspersonen Die Art der Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video dokumentiert. Die Wahrnehmung der Applikation aus Benutzerperspektive Hierzu erfolgte eine schriftliche Befragung der Versuchspersonen in Form eines Fragebogens. 5.3.3 Explorative Fragestellungen zur Sprachinteraktion Wie bereits erwähnt, ging es in der Studie vor allem darum, den Umgang des Benutzers mit der neuen Technik zu beobachten. Daraus ergaben sich für den untersuchten Teil folgende explorative Fragestellungen: • Wird Sprache überhaupt benutzt? • Wie wirkt sich die Voreinstellung des Nutzers zur Kommunikation mit dem einem Computersystem auf die Benutzung von Sprache aus? • Wie wird Sprache im Vergleich zwischen den Versuchspersonen benutzt? • Wie wird Sprache im Vergleich zu den anderen Modalitäten Maus und Blick benutzt? • Wie verhält sich die Benutzung von Sprache über die einzelnen Aufgabenschwierigkeiten? • Wie verhält sich die Benutzung von Sprache über die Zeit? • Steht die Benutzung von Sprache mit der Leistung über alle Aufgaben in Beziehung? • Wie wird die Sprachinteraktion mit dem System vom Benutzer bewertet?
  • 41.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 41 5.3.4 Theoriegeleitete Hypothesen zur Sprachinteraktion Zu einigen dieser explorativen Fragestellungen wurden aus der bisherigen Forschung konkrete Hypothesen gebildet: • Der Mythos der Multimodalität, dass Sprache in einem multimodalen System die herausragende Interaktionsform sei, wurde schon einige Male wider- legt.[OVIATT99] Es kommt immer auf die Anwendungsform an. Im untersuchten System stellte Sprache vor allem eine Zeitersparnis gegenüber der Mausinteraktion dar und ein besonderes Training und damit Einstellen auf die Modalität musste nicht erfolgen. Es wird deshalb vermutet, dass Sprache im Sinne des Mythos die am häufigsten gewählte Interaktionsform ist. H1 : Sprache > Maus > Blick H0 : Sprache = Maus = Blick • Die dargestellten Problemfelder der Spracherkennung (Hyperartikulation, individuelle Sprecherfaktoren) existierten auch in unserem Versuch. Es wird deshalb vermutet, dass die Sprachinteraktion über die Zeit abnimmt, weil Frustrationseffekte durch Fehleingaben einsetzen. H1 : Sprachbenutzung in Aufgabe 1 > Sprachbenutzung in Aufgabe 3 H0 : Sprachbenutzung in Aufgabe 1 = Sprachbenutzung in Aufgabe 3 • Die Zeitersparnis durch die Spracheingabe gegenüber der Eingabe per Maus und die Natürlichkeit der Eingabeform könnte Auswirkung auf die Leistung bei der Aufgabenbearbeitung haben. Es wird deshalb ein positiver Zusammenhang zwischen Leistung und Sprachinteraktionshäufigkeit vermutet. H1 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben=) > 0 H0 : ! (Sprachbenutzung über alle Aufgaben mit Leistung über alle Aufgaben) = 0 5.3.5 Explorative Fragestellungen zum Avatar • Wie verhält sich der Benutzer in der Interaktion mit dem Avatar? • Unter welchen Bedingungen wird die Anwesenheit des Avatars gewünscht? • Was wünscht sich der Benutzer vom Avatar? • Wie hedonistisch wird die Interaktion mit dem Avatar empfunden?
  • 42.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 42 • Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die Ansprache des vorgestellten Avatars zueinander? • Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die empfundene hedonistische Qualität dieses speziellen Avatars zueinander? • Lassen sich Unterschiede für den Avatar in Bezug auf Alter und Geschlecht feststellen? 5.3.6 Theoriegeleitete Hypothesen zum Avatar • Die erläuterten Studien zur Repräsentation eines Avatars zeigten, dass eine menschenähnliche Gestalt vom Benutzer ein natürliches Kommunikations- verhalten verstärkt. Es wird deshalb vermutet, dass der Grossteil der Versuchs- personen den Avatar personifiziert ansprechen wird. H1= G 1 (personifiziert ) > G 2 (unpersonifiziert) H0= G 1 (personifiziert) = G 2 (unpersonifiziert) Dabei wird speziell aus der Forschung von Sproull et al. [SPROULL96] vermutet, dass mehr Frauen als Männer den Avatar personifiziert ansprechen, da Frauen empfänglicher auf soziale Signale wie Gesichtsausdrücke reagieren. • Die bisherigen Studien belegen ebenfalls, dass ein menschliches Erscheinungs- bild und Verhalten des Avatars als sympathisch empfunden wird. Es wird deshalb vermutet, dass positive Einschätzungen zur hedonistischen Qualität des Avatars überwiegen. H1= G 3 (hatten Spaß) > G 4 (hatten keinen Spaß) H0= G 3 (hatten Spaß) = G 4 (hatten keinen Spaß) Diesbezüglich wird speziell aus der Forschung von [SPROULL96] vermutet, dass Männer eher Spaß mit dem Avatar haben als Frauen, da sie interessierter an neuer Technik sind.
  • 43.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 43 5.3.7 Stichprobe des Logfileexperiments Teilnehmer der Untersuchung waren 22 Männer und fünf Frauen. Das durchschnitt- liche Alter war 27 (Minimum 13, Maximum 42 Jahre). Die durchschnittliche Com- putererfahrung betrug 8,6 Jahre und die durchschnittliche Computernutzung 24 Stunden pro Woche für Anwenderprogramme wie MS-Word, 3D-Programme, Datenbanken, WWW, Spielen und Programmieren. Anwendungsprogramme und WWW standen beim Ranking an erster Stelle. 50 Prozent der Versuchsteilnehmer hatte bereits Erfahrung mit 3D-Anwendungen, wobei die Erfahrung mit Spracherkennungssoftware gering war. 18 Personen hatten keine und eine Person wenig Erfahrung. Von den übrigen acht Versuchs- teilnehmern werteten sechs ihre Erfahrung als schlecht und zwei als gut. Die meisten Personen gaben an, durch Ausprobieren am besten zu lernen und vor allem aus Neugier und Interesse an Wissenschaft und Technik, an dem Versuch teilzunehmen. Als Kontrollvariablen dienten Subtests aus HAWIE [WECHSLER91] und LPS [HORN62] zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis. Alle Teilnehmer erzielten hier durchschnittliche Ergebnisse, ein Zusammenhang mit den Leistungsdaten konnte nicht nachgewiesen werden. Mit dem Zeiss Nahprüfgerät wurde sichergestellt, dass alle Versuchsteilnehmer über ein gutes Stereosehen verfügen, was für die beanspruchte Arbeit mit dem stereoskopischen Display vorauszusetzen ist. In der Vorbefragung wurde ebenfalls erfragt, wie sich die Teilnehmer Kommunikation mit dem Computer vorstellen. Dabei wurden Spracherkennung und Sprachausgabe am häufigsten angekreuzt, wie aus Grafik 11 ersichtlich ist.
  • 44.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 44 0 5 10 15 20 25 herkömmlich (Maus / Tastatur) Sprachausgabe Spracherkennung Assistent Blickinteraktion Pop up Tamagochi Emotions- / Motivationserkennung Emotionsäußerung Abbildung 11 - Wunsch Kommunikation mit Computer N=27 5.3.8 Versuchsdurchlauf des Logfileexperimemts Vor der Einführung in das System wurden der Fragebogen zur Person und die Tests zum stereoskopischen Sehen vorgelegt und unmittelbar ausgewertet. Außerdem wurden die Tests zum räumlichen Vorstellungsvermögen und zum Arbeitsgedächtnis durchgeführt und ausgewertet. Nach der Kalibrierung des Systems erfolgte eine Einführung in den CAD- Raum mit einer Übungsaufgabe. Sie diente dazu, sich mit der Applikation vertraut zu machen; dabei konnten auch Fragen an den Versuchsleiter gestellt werden, um mehr Sicherheit im Umgang mit dem System zu erlangen. In der Übungsaufgabe zur Kon- struktion modellierten die Probanden eine nur aus drei Grundobjekten bestehende Hantel, um die Manipulationsmöglichkeiten auszuprobieren und zu üben. Diese Einführungsphase dauerte ungefähr 45 Minuten. Für die folgenden drei Konstruktionsaufgaben (siehe Abbildung 12) hatten die Versuchsteilnehmer jeweils maximal zehn Minuten Zeit, die zur vollständigen Bearbeitung nicht ausreichten, um Deckeneffekte zu vermeiden. Im Anschluss an jede Aufgabe sollte auf der SEA-Skala [EILERS86] die Höhe der Beanspruchung durch die Aufgabe selbst eingeschätzt werden und am Ende des Versuches wurde das semantische Differential zur Einschätzung der hedonistischen und pragmatischen Qualität sowie der Attraktivität der Applikation vorgelegt [HASSENZAHL00]. Des weiteren sollte der Aufgabenschwierigkeitsgrad der einzelnen Aufgaben selbst eingeschätzt und in eine Rangreihe gebracht werden. In einer
  • 45.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 45 Nachbefragung in Form eines halbstrukturierten Interviews hatten die Versuchsteilnehmer die Möglichkeit, sich über das System zu äußern. Dieses Interview wurde mit der Videokamera aufgezeichnet. Abbildung 12 - Screenshots der Konstruktionsaufgaben 5.3.9 Stichprobe des Simulationsexperiments Die Stichprobe für das Simulationsexperiment bestand zu einem Teil aus der Stichprobe des Logfileexperiments und zum anderen Teil aus einer Nachuntersuchung, um die Anzahl der Versuchspersonen für diesen Teil der Untersuchung auf Grund der Kürze des Ver- suches und wegen Datenausfällen auf 43 zu erhöhen. Damit bestand die Stichprobe aus 27 Männern und 16 Frauen mit einem durchschnittlichen Alter von 28,1 Jahren, wobei die jüngste Person 13 und die älteste 42 war. Von den zusätzlichen 16 Personen, die nicht am Logfileexperiment teilgenommen haben, liegen keine weiteren Daten über Vorerfahrungen und Präferenzen in der Computerinteraktion vor. 5.3.10 Versuchsdurchlauf des Simulationsexperimentes Dieser Teil der Untersuchung erfolgte vor oder nach dem Hauptversuch im CAD-Raum für einen Teil der Stichprobe und für den anderen Teil nach dem Versuch zur Haptik Die Versuchspersonen bekamen ein Headset aufgesetzt, um zu simulieren, dass Spracheingabe erfolgen kann, was in diesem Experiment in Wahrheit nicht möglich war. Auf dem 3D- Display erschien die Demoversion des Avatars mit Gesicht, in Menschengestalt und ohne Bekleidung. Die Darstellung des Avatars ähnelte der in Abbildung 13. Die Versuchsperson erhielt die Instruktion, dass der Avatar auf Sprache reagiere und das Kugellager öffnen,
  • 46.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 46 den Bildschirm bewegen werden und das Bild näher betrachten könne. Danach wurde die Versuchsperson aufgefordert, den Avatar zu starten und ihn zu animieren, etwas zu tun. Dabei startete der Versuchsleiter unbemerkt selbst die ca. zwei Minuten lange Sequenz. Die Bewegungsabläufe waren vorgegeben und erfolgten im günstigsten Fall gemäss den Anweisungen der Versuchsperson, so dass der Eindruck, der Avatar reagiere auf Sprache, zum großen Teil bis zum Ende der sehr kurzen Sequenz aufrechterhalten werden konnte. Die Ansprache des Avatars durch die Versuchsteilnehmer wurde auf Video aufgezeichnet. Danach wurde die Versuchsperson über die Simulation aufgeklärt, sofern sie sie nicht von Anfang an bemerkt hatte. Ein kurzer Fragebogen zur hedonistischen Qualität der Applikation und den gewünschten Eigenschaften eines Avatars sollte anschließend ausgefüllt werden. Abbildung 13 - Darstellung eines Avatars
  • 47.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 47 5.4 Auswertung In diesem Teil der Arbeit wird genauer auf die Art der Untersuchungsmethoden, das Datenniveau und die daraus folgenden Ergebnisse eingegangen. Weitere Auswertungen der Daten mit den im Versuchsdurchlauf des Logfileexperimentes genannten Messinstrumenten finden sich bei Seifert [SEIFERT02] und Baumgarten [BAUMGARTEN02]. 5.4.1 Die Untersuchungsmethoden und das Datenniveau In der Untersuchung wurden quantitative und qualitative Daten genutzt, um aus ihnen neue Ideen und Hypothesen explorativ abzuleiten. Das theoretische Vorverständnis auf dem Gebiet der Multimodalität ist noch nicht soweit elaboriert und fokussiert, dass sich viele operationale und statistische Hypothesen formulieren lassen, die einer Signifikanz- prüfung unterzogen werden könnten. Es ging in der Untersuchung vorrangig darum, den Umgang mit neuer Technik zu testen und darüber Daten zu sammeln und diese ent- sprechend aufzubereiten. Auf die Problematiken der vorliegenden Daten wird in der methodischen Kritik zur Untersuchung noch genauer eingegangen. Das Simulationsexperiment wurde im eingeschränkten Stil der Wizard-of-Oz- Experimente durchgeführt. Bei diesen Experimenten geht es darum, Funktionen noch nicht fertig gestellter Systeme zu untersuchen. Simulation ist billiger und schneller als Abänderung eines Prototypen, man hat unbeschränktere Möglichkeiten und erkannte Probleme können leichter isoliert werden. Wizard-of-Oz-Eperimente simulieren ein natürlichsprachliches System, indem sie einen Menschen zur Interpretation der Kommandos der Versuchsteilnehmer benutzen. In einem typischen Experiment erteilt der Versuchsteilnehmer ein Kommando auf einen Bildschirm, das an einem anderen Ort von dem Wizard interpretiert und im Sinne eines realen Systems beantwortet wird. Im Simulationsexperiment wurde den Versuchspersonen vermittelt, dass der Computer beziehungsweise der Avatar auf Spracheingabe reagiere, was aber tatsächlich nicht der Fall, sondern erst in der Weiterentwicklung vorgesehen war. Die Interaktion mit dem System erfolgte daher einseitig. Die aufgezeichneten Videodaten aus dem Simulationsexperiment wurden per Hand ausgewertet, indem die Antworten der Versuchspersonen zunächst wörtlich nieder- geschrieben wurden. Die Menge der Informationen wurde durch selbst aufgestellte
  • 48.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 48 Kategorien reduziert. Fragebogendaten aus der kurzen Nachbefragung standen auch zur Verfügung. Bei der Auswertung der Fragebogendaten musste beachtet werden, dass Mehrfachnennungen möglich waren. Die Logdateien aus dem Logfileexperiment sind einfache Textdateien. Die Rohdaten aus den Logfiles wurden in eine für SPSS lesbare Datei exportiert und ausgewertet. 5.4.2 Ergebnisse Hier werden die deskriptiven, inferenzstatistischen, Post-Hoc- und Interviewergebnisse zunächst zur Sprachinteraktion und anschließend in derselben Reihenfolge zum Avatar vorgestellt. Die Ergebnisse zu den anderen Fragestellungen des Logfileexperiments sind hier nicht berücksichtigt. Zur besseren Übersicht wurde größtenteils die Darstellung in Form von Grafiken verwendet. Die Ergebnistabellen aus SPSS zu den einzelnen Abschnitten und den dazugehörigen Grafiken finden sich im Anhang. 5.4.2.1 Deskriptive Ergebnisse zur Spracheingabe Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen Um darzustellen, wie häufig Sprache überhaupt im Vergleich zwischen den Versuchspersonen benutzt wurde, wurden die Interaktionshäufigkeiten über alle Aufgaben zusammengefasst und anhand des Mittelwertes in vier Bereiche unterteilt: • 0 - 9 gering • 10 – 19 mittel • 20 – 29 häufig • ab 30 sehr häufig Aus Abbildung 14 ist ersichtlich, dass Sprache im Vergleich zwischen den Versuchspersonen eher weniger benutzt wurde.
  • 49.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 49 0 10 20 30 40 50 60 70 80 90 100 gering mittel häufig sehr häufig Prozente Sprachinteraktionshäufig keit zwischen VP Abbildung 14 - Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen Als nächstes werden die drei Bedingungen leicht, mittel und schwer nach der Häufigkeit der Sprachinteraktion betrachtet. Es zeigt sich, dass in der schweren Aufgabe durch- schnittlich am häufigsten interagiert wurde. Grafik 15 soll dies verdeutlichen. 0 2 4 6 8 10 12 14 16 Sprachinteraktion in der leichten Aufgabe-CAD-raum Sprachinteraktion in der mittleren Aufgabe-CAD- Raum Sprachinteraktion in der schweren Aufgabe-CAD-raum Mittelwert Standardabweichung Abbildung 15 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen 5.4.2.2 Inferenzstatistik zur Sprachinteraktion / Hypothesenprüfung Zur Überprüfung der theoriegeleiteten Hypothesen zur Sprachinteraktion wurden die nicht - parametrischen Verfahren Rangvarianzanalyse nach Friedman und Korrelation
  • 50.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 50 nach Kendalls Tau für ordinal skalierte Daten verwendet. Im Folgenden wird sich auf ein Signifikanzniveau von "=0,05 bezogen. Sprachinteraktion im Vergleich zu den anderen Modalitäten Im Vergleich zwischen den Modalitäten Blick, Sprache und Maus lässt sich mit der Rangvarianzanalyse nach Friedman und Chi-Quadrat (df=2, p=0,000) zur Prüfung auf Signifikanz zeigen, dass es einen signifikanten Unterschied in den drei Interaktions- häufigkeiten gibt, wobei der größte Unterschied zwischen den Bedingungen Blick und Maus zu finden ist. Sprache wird am zweithäufigsten benutzt. Somit konnte die Hypothese, dass Sprache die anderen Modalitäten in ihrer Benutzung überwiegt, nicht bestätigt werden. Sprachinteraktion über die Zeit Um einen eventuellen Reihenfolgeeffekt in der Sprachinteraktionshäufigkeit über die einzelnen Aufgaben unabhängig von der Schwierigkeit festzustellen, wurde ebenfalls der Friedman – Test gerechnet. Auch hier ergeben sich im Signifikanztest mit Chi-Quadrat signifikante Unterschiede (df = 2, p= 0,015). Der Unterschied besteht hier zwischen den ersten beiden Aufgaben und der dritten Aufgabe, in der die Benutzung von Sprache deutlich abgenommen hat. Damit konnte die Hypothese bestätigt werden, dass die Sprachinteraktion über die Zeit abnimmt. Zusammenhang zwischen Sprachinteraktion und Leistung Um zu überprüfen, ob es einen Zusammenhang zwischen der Leistung in den Aufgaben und der Sprachinteraktionshäufigkeit gibt, wurde eine Korrelation nach Kendall-Tau für ordinalskalierte Daten gerechnet . Es lässt sich zeigen, dass es keinen signifikanten Zusam- menhang zwischen Sprachinteraktionshäufigkeit und der Leistung der Versuchspersonen gibt (! = 0,114; p=.0,423) Somit konnte die Hypothese, dass es einen positiven Zu- sammenhang zwischen Leistung und Sprachinteraktionshäufigkeit gibt, nicht bestätigt werden.
  • 51.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 51 5.4.2.3 Post Hoc Testergebnisse zur Sprachinteraktion In diesem Abschnitt werden post hoc interessant erscheinende deskriptive Ergebnisse aus dem Datenmaterial zu Sprachinteraktion und Vorbefragung, zu denen keine konkreten Hypothesen formuliert werden konnten, inferenzstatistisch überprüft. Sprachinteraktion über die vorgegebene Aufgabenschwierigkeit Um zu überprüfen, ob sich unter den drei Versuchsbedingungen „leicht“, „mittel“ und „schwer“ Unterschiede in den Interaktionshäufigkeiten zeigen lassen, wurde wieder eine Friedman - Rangvarianzanalyse gerechnet. Es lässt sich zeigen, dass zwischen den drei Versuchsbedingungen signifikante Unterschiede bestehen (df=2, p=0,025), die mit einem Chi-Quadrat-Test ermittelt wurden. Diese Unterschiede bestehen zwischen der leichten und mittleren und der leichten und schweren Aufgabe. Die mittlere und die schwere Bedingung unterscheiden sich nicht signifikant in der Häufigkeit der Sprachinteraktion. Sprachinteraktionshäufigkeit zwischen den Versuchspersonen In der Sprachinteraktionshäufigkeit gering, mittel, häufig und sehr häufig zwischen den Versuchspersonen gibt es im Chi-Quadrat-Test einen signifikanten Unterschied (df=3, p=0,004). Sprachinteraktionshäufigkeit im Bezug zur Vorbefragung In der Vorbefragung wurde erfragt, ob sich die Versuchspersonen den Computer eher als Kommunikationsmöglichkeit oder nur als Werkzeug, das auf Befehle reagiert, vor- stellen. Zehn Personen entschieden sich für die Kommunikationsmöglichkeit und 17 für das Werkzeug. Diese Wahlmöglichkeit kann man in Beziehung zur Häufigkeit der Sprachinteraktion in einer Kreuztabelle setzen. Anscheinend wurde Sprache sehr viel häufiger benutzt wurde, wenn der Computer als Werkzeug gesehen wurde. Dieses Ergebnis ist im exakten Test nach Fisher für geringe Zellenbesetzung signifikant (p=0,032). 5.4.2.4 Interviewergebnisse zur Sprachinteraktion In diesem Abschnitt werden die deskriptiven Ergebnisse des Interviews dargestellt, das mit den Teilnehmern nach dem Hauptversuch durchgeführt wurde. Hierbei ging es im
  • 52.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 52 Wesentlichen um die generelle Präferenz eines Systems sowie die Begründungen der Testpersonen. Hier wird sich auf die Darstellung der Äußerungen zur Sprachinteraktion beschränkt. 25 Personen fanden die Sprachinteraktion hilfreich und nur eine Person wenig funk- tional. 17 Teilnehmer waren mit der Qualität der Spracherkennung zufrieden, neun fanden sie eher schlecht. Genau umgekehrt war es bei den empfundenen Reaktionszeiten zwischen Eingabe und Erkennungssignal. Das wurde 17 Mal als zu langsam empfunden, nur neun fanden es in der vorliegenden Art gut. Bei der Frage, welche Interaktion generell bevorzugt wurde, wurde neben „alles kombiniert“ die Kombination Sprache und Maus am zweithäufigsten genannt, wie aus der Grafik Nr. 16 ersichtlich ist. 0 5 10 15 20 25 30 35 Blick & Maus Maus alles kombiniert Sprache & Maus Interaktion_bevorzugt Häufigkeit Interaktion_bevorzugt Prozent Abbildung 16 - Bevorzugte Interaktion 5.4.2.5 Deskriptive Ergebnisse zum Avatar In diesem Abschnitt findet sich die Darstellung der deskriptiven Ergebnisse aus den Fragebögen und den Videodaten zum Simulationsexperiment. Anwesenheit Eine Frage an die Versuchspersonen bestand darin, ob der Avatar überhaupt anwesend sein soll und wenn ja, unter welchen Bedingungen. Dabei konnte zwischen „nein, überflüssig“, „ja, hilfreich“, „ja, nette Abwechslung“ und „ja, wenn er bestimmte Dinge kann“ gewählt werden. Grafik 17 zeigt die Verteilung. Die fehlenden Prozentangaben stammen aus den fehlenden Fragebogendaten.
  • 53.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 53 Angaben in Prozent 14 7 21 51 nein, überflüssig ja, hilfreich ja, nette Abwechslung ja, wenn er bestimmte Dinge kann Abbildung 17 - Vorstellungen zum Avatar: Anwesenheit Es zeigt sich, dass der überwiegende Teil der Versuchspersonen die Anwesenheit des Avatars an bestimmte Eigenschaften und Funktionen knüpft. Dazu zählen unter anderem die in der Tabelle 2 dargestellten Antwortmöglichkeiten, die ohne Limitierung angekreuzt werden konnten. Diese Antwortmöglichkeiten wurden nach den in Tabelle 2 dargestellten Gesichtspunkten zunächst kategorisiert. Die vorgenommene Zuordnung ist zum größten Teil selbsterklärend. Das Eigenleben wurde den Emotionen zugeordnet, da ein Tamagochi in den Augen des Autors Emotionen (Freude, Ärger, Traurigkeit, Angst) zeigt und auch die Emotionen des Benutzers anspricht. Antwortmöglichkeit Kategorie Sprachausgabe Sprache Spracherkennung Sprache Mundbewegung menschliche Züge zum Geburtstag gratulieren menschliche Züge unterschiedliches Erscheinungsbild menschliche Züge Antworten auf Fragen Funktionalität an Aufgaben/Termine erinnern Funktionalität Emotionsäußerung/ -erkennung Emotion Eigenleben (Tamagochi) Emotion Tabelle 2 - Kategorienbildung Fragebogenantworten Nach der Kategorisierung der Antworten der Versuchspersonen wurden die Antworten getrennt nach den einzelnen Kategorien ausgewertet.
  • 54.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 54 Hier ist noch anzumerken, dass sich die prozentualen Anteile auf die Anzahl von 39 Versuchspersonen (=100%) beziehen, von denen Fragebogendaten zum Avatar vorliegen. Vorstellungen zum Avatar Beginnend mit der Kategorie „Sprache“ zeigte sich, dass Spracherkennung und Sprach- ausgabe relativ häufig genannt wurden, wobei Spracherkennung noch wichtiger als Sprachausgabe zu sein scheint, wie in Abbildung 18 zu erkennen ist. 0 10 20 30 40 50 60 70 80 90 100 Spracherkennung Sprachausgabe Anzahl angekreuzter Antworten Prozent Abbildung 18 - Vorstellungen zum Avatar: Sprache In der nächsten Kategorie „menschliche Züge“ lässt sich anhand der Grafik 19 erkennen, dass sie zum einen deutlich weniger angekreuzt wurden und sich zum anderen kaum Unterschiede in der Auswahl der verschiedenen Antwortalternativen zeigen lassen.
  • 55.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 55 0 10 20 30 40 50 60 70 80 90 100 Mundbewegung Gratulieren Erscheinunbgsbild Anzahl angekreuzter Antworten Prozent Abbildung 19 - Vorstellungen zum Avatar: Gesichtszüge Die nächste Kategorie „Funktionalität“ wurde wieder relativ oft gewählt, wobei es, wie Grafik 20 zeigt, den Probanden wichtiger erscheint, Antworten auf Fragen zu bekommen, als an Aufgaben oder Termine erinnert zu werden. 0 10 20 30 40 50 60 70 80 90 100 Anworten auf Fragen an Aufgaben /Termine erinnern Anzahl angekreuzter Antworten Prozent Abbildung 20 - Vorstellungen zum Avatar: Funktionalität
  • 56.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 56 Die letzte Kategorie „Emotionalität“ scheint, wie man in Abbildung 21 erkennen kann, relativ unwichtig zu sein. Nur sehr wenige wünschen sich von einem Avatar Emotions- äußerung oder –erkennung und dass er ein Eigenleben wie ein Tamagochi aufweist. 0 10 20 30 40 50 60 70 80 90 100 Eigenleben Emotionsäußerung/Erkennung Anzahl Prozent Abbildung 21 - Vorstellungen zum Avatar: Emotionalität Hedonistische Qualität des Avatars Die hedonistische Qualität wurde operationalisiert über den Begriff Spaß. Wenn man die Antworten der Versuchspersonen auf die Frage, ob sie Spaß an der Kommunikation mit dem Avatar hatten, betrachtet, zeigt sich, wie in Grafik 22 ersichtlich, dass der etwas größere Anteil bei denen liegt, die eher Spaß mit dem Avatar hatten. Die fehlenden Pro- zente entstehen durch die fehlenden Fragebogenwerte.
  • 57.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 57 Angaben in Prozent 16 3319 23 sehr eher ja eher nicht gar nicht Abbildung 22 - Antworten, auf die Frage, ob die VP Spaß an der Kommunikation mit dem Avatar hatten Gruppenvergleiche zum Avatar in Bezug auf den Spaßfaktor Im Folgenden wurden die vier Unterkategorien („hatten keinen Spaß“, „hatten eher keinen Spaß“, „hatten eher Spaß“, „hatten Spaß“) zu „hatten keinen Spaß“ und „hatten Spaß“ zusammengefasst und damit zwei fast gleich große Gruppen gebildet. 21 Versuchs- personen (davon 14 männliche und sieben weibliche) hatten Spaß, 18 Personen (davon elf männliche und sieben weibliche) hatten keinen Spaß an der „Kommunikation“ mit dem Avatar. Bezogen auf die oben gebildeten Kategorien zeigten sich in den speziellen Kreuz- tabellen für Mehrfachantworten unten dargestellte Ergebnisse bei der Verteilung auf die beiden Gruppen. Es geht darum, eventuelle Gruppenunterschiede aufzuzeigen. Auch hier erfolgt eine prozentuale Darstellung der Antworten diesmal in Relation zur Gruppengröße. Zum Beispiel lag die Anzahl der Personen in der Gruppe "hatten Spaß" bei 14 beziehungsweise 70%, die sich Antworten auf Fragen wünschten. In der Gruppe "hatten keinen Spaß" lag diese Anzahl bei 77,8%. Des Weiteren ist die ohnehin geringe Anzahl der Nennungen in den Kategorien „menschliche Züge“ und „Emotion“ zu beachten.
  • 58.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 58 • Sprache 0 10 20 30 40 50 60 70 80 90 100 hatten Spaß hatten keinen Spaß Spracherkennung Sprachausgabe Abbildung 23 - Spaßfaktor und Sprache (Angaben in Prozent) Wie Grafik 23 zeigt, wird Spracherkennung offensichtlich unabhängig vom Spaßfaktor gewünscht. Sprachausgabe scheint sogar von Teilnehmern, die keinen Spaß hatten, mehr gewünscht zu werden. • Menschliche Züge 0 10 20 30 40 50 60 70 80 90 100 Mundbewegungen Erscheinungsbild hatten Spaß hatten keinen Spaß Abbildung 24 - Spaßfaktor und menschliche Züge (Angaben in Prozent) Es scheint bei den Nennungen in der Kategorie „menschliche Züge“ keine nennens- werten Unterschiede zwischen den beiden Gruppen zu geben, wie aus Abbildung 24 ersichtlich ist.
  • 59.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 59 • Funktionalität 0 10 20 30 40 50 60 70 80 90 100 hatten Spaß hatten keinen Spaß Antworten auf Fragen An Aufgabe/Termine erinnern Abbildung 25 - Spaßfaktor und Funktionalität (Angaben in Prozent) Laut Abbildung 25 scheint es auch in der Kategorie „Funktionalität“ keine Unterschiede zwischen den Gruppen zu geben. • Emotion 0 10 20 30 40 50 60 70 80 90 100 hatten Spaß hatten keinen Spaß Eigenleben Emotionserkennung/Äußeru ng Abbildung 26 - Spaßfaktor und Emotionalität (Angaben in Prozent) Es zeigt sich in Abbildung 26, dass anscheinend mehr Versuchspersonen, die Spaß an der Kommunikation mit dem Avatar hatten, als die, die keinen hatten, auch Emotionen in der Interaktion mit dem Avatar wünschten.
  • 60.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 60 Gruppenvergleiche zum Avatar in Bezug auf die Ansprache Zusätzlich zur Unterteilung in die Gruppen von Versuchspersonen, die Spaß be- ziehungsweise keinen Spaß hatten, wurde eine Unterteilung bezüglich der Ansprache des Avatars (personifiziert / unpersonifiziert) vorgenommen. Dazu wurden die Videodaten zur Ansprache des Avatars ausgewertet. Da die Sequenz sehr kurz war, konnte nur eine sehr grobe Einteilung anhand weniger Merkmale aus der Kommunikation vorgenommen werden. Sowohl in der personifizierten als auch in der unpersonifizierten Form erfolgte eine Aufforderung zur Handlung, aber in der ersten Form im Imperativ („Geh durch die Tür!“) und in der zweiten Form im Infinitiv („Durch die Tür gehen!“). Personifizierte Aufforderungen wurden oft durch „bitte“ ergänzt. Dies erfolgte auch manchmal in einer unpersonifizierten Form („Bitte Start!“), aber meist, wenn die Person zwischen personifizierter und unpersonifizierter Ansprache wechselte. Diese Personen wurden ebenfalls der ersten Gruppe zugeordnet, da der am meisten aussagende Initialsatz immer personifiziert war. Ebenfalls charakteristisch für die personifizierte Ansprache war eine nachdringliche Aufforderung durch Wechsel des Vokabulars („Du sollst Dir das Bild angucken!“), um endlich „erhört“ zu werden und die direkte Begrüßung und Ansprache („Hallo Avatar“). Manche Probanden wurden auch umgangssprachlich wie mit einem guten Freund („Dann geh mal!“). Eine Zusammenfassung der häufigsten Äußerungen findet sich in der nachstehenden Tabelle 3. Personifizierte Ansprache Unpersonifizierte Ansprache Lauf los! Geh durch die Tür! Öffne das Kugellager! Bewege den Monitor! Betrachte das Bild! Dreh Dich um! Start! Durch die Tür gehen! Kugellager öffnen! Bildschirm bewegen! Bild ansehen! Stop! Zurück! ergänzt durch die Höflichkeitsform „bitte“ Bitte geh durch die Tür und bewege bitte den Bildschirm, dreh bitte das Kugellager und betrachte das Bild näher! Bitte Start!
  • 61.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 61 Nachdringliche Aufforderung: Versuche, das Bild anzugucken! Du sollst Dir das Bild angucken! Schaust Du Dir jetzt das Bild an! Direkte Ansprache: Hallo, jetzt geh bitte zum Bildschirm! Avatar, geh mal los zum Start und geh durch die Tür durch! vertraut / umgangssprachlich: Dann geh mal! Na gut – jetzt das Kugellager! Tabelle 3 - Formen der Ansprache Hier ist die unterschiedliche Gruppengröße noch auffälliger, da nur sechs Versuchs- personen (davon vier männliche und zwei weibliche) die unpersonifizierte Ansprache und 29 Versuchspersonen (davon 17 männliche und 12 weibliche) die personifizierte An- sprache gewählt haben. Deshalb werden in den nachfolgenden Ergebnissen wieder die an der jeweiligen Gruppengröße relativierten Prozente dargestellt. Dabei ist vor allem zu beachten, dass die Antworten der sechs Personen sehr viel Gewicht bekommen. Von acht Personen fehlen die Video-Daten. Bezogen auf die anfangs gebildeten Kategorien zeigen sich die nun folgenden Ergebnisse.
  • 62.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 62 • Sprache 0 10 20 30 40 50 60 70 80 90 100 unpersonifiziert personifiziert Spracherkennung Sprachausgabe Abbildung 27 - Personifizierung und Sprache (Angaben in Prozent) In Abbildung 27 zeigt sich, dass Sprachausgabe in der Gruppe mit der personifizierten Ansprache weniger gewünscht wurde als in der mit der unpersonifizierten Ansprache. In der Spracherkennung gibt es keine Unterschiede. • Menschliche Züge 0 10 20 30 40 50 60 70 80 90 100 Mundbewegung Gratulieren Erscheinungsbild unpersonifiziert personifiziert Abbildung 28 - Personifizierung und menschliche Züge (Angaben in Prozent) In der Kategorie „menschliche Züge“ gibt es einen offensichtlichen Unterschied zwischen den beiden Gruppen, wie aus Grafik 28 ersichtlich ist. Die Gruppe mit
  • 63.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 63 personifizierter Ansprache wünscht sich mehr menschliche Züge von einem Avatar als die mit der unpersönlichen Ansprache. • Funktionalität 0 10 20 30 40 50 60 70 80 90 100 unpersonifiziert personifiziert Antworten auf Fragen An Aufgaben/Termine erinnern Abbildung 29 - Personifikation und Funktionalität (Angaben in Prozent) In Abbildung 29 zur Kategorie „Funktionalität“ zeigt sich, dass sich die Gruppe mit unpersonifizierter Ansprache eher Antworten auf Fragen wünschte als die Gruppe mit personifizierter Ansprache. • Emotion 0 10 20 30 40 50 60 70 80 90 100 unpersonifiziert personifiziert Eigenleben Emotionsäußerung/Erken nung Abbildung 30 - Personifikation und Emotionalität (Angaben in Prozent)
  • 64.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 64 In der Kategorie „Emotion“ werden laut Abbildung 30 mehr Wünsche in Bezug auf Emotionserkennung und -äußerung von der Gruppe mit der personifizierten Ansprache, die gar nichts diesbezüglich wünscht, geäußert. Kreuztabellen zum Avatar in Bezug auf Spaßfaktor / Ansprache und Altersgruppen In den Tabellen 4 und 5 findet sich die Aufteilung der beiden gebildeten Gruppen Spaß und Ansprache auf die Altersgruppen. Dabei ist wieder zu beachten, dass die Anzahl der Versuchspersonen in den Altersgruppen nicht gleich verteilt ist. Altersgruppe Hatten Spaß Hatten keinen Spaß Gesamt 13-20 Jahre 2 3 5 21-28 Jahre 5 8 13 29-36 Jahre 11 4 15 37-43 Jahre 3 2 6 Gesamt 21 18 39 Tabelle 4 - Alter und Spaß Es zeigt sich in Tabelle 4, dass sich offensichtlich die Leute, die eher Spaß an der Applikation hatten gegenüber denen, die keinen Spaß hatten, vermehrt in der Altersgruppe 29-36 Jahre befinden. Altersgruppe Unpersonifiziert Personifiziert Gesamt 13-20 Jahre 1 4 5 21-28 Jahre 3 9 12 29-36 Jahre 2 11 13 37-43 Jahre 5 5 Gesamt 6 29 35 Tabelle 5 - Alter und Ansprache Aus Tabelle 5 ist ersichtlich, dass der größte Unterschied zwischen den Probanden, die den Avatar personifiziert angesprochen haben gegenüber denen, die ihn unpersonifiziert angesprochen haben, offensichtlich in der Altersgruppe 37-43 Jahre liegt. Keiner der Teilnehmer dieser Altersgruppe wählte die unpersonifizierte Form der Ansprache.
  • 65.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 65 5.4.2.6 Inferenzstatistik zum Avatar / Hypothesenprüfung Die Gruppenunterschiede aus den theoriegeleiteten Hypothesen zum Avatar wurden im Chi- Quadrat-Verfahren getestet. Im Folgenden wird sich auf ein Signifikanzniveau von " =0,05 bezogen. Unterschied zwischen personifizierter und unpersonifizierter Ansprache Der Unterschied zwischen den Gruppen personifizierte und unpersonifizierte Ansprache wurde mit Chi-Quadrat getestet und als signifikant (df=1, p=0,000) erwiesen. Die Hypothese, dass die Gruppe der Versuchsteilnehmer, die den Avatar personifiziert an- spricht, die Gruppe derer, die ihn unpersonifiziert anspricht, überwiegt, wird damit als bestätigt angesehen. Im Hinblick auf Ansprache und Geschlecht (p=1,000) fand sich kein statistisch belegbarer Unterschied. Die Hypothese der Unterschiede zwischen Männern und Frauen bezüglich Ansprache konnte somit nicht bestätigt werden. Unterschied in der Bewertung der hedonistischen Qualität Die beiden Gruppen „hatten Spaß“ und „hatten keinen Spaß“ wurden im Chi Quadrat getestet. Es konnte kein Unterschied festgestellt werden (df=1, p=0,631) Damit hat sich die Hypothese, dass die überwiegende Anzahl der Teilnehmer Spaß mit der Applikation haben, nicht bestätigt. Im Hinblick auf Spaß und Geschlecht (p=0,750) fand sich ebenfalls kein statistisch belegbarer Unterschied. Die Hypothese der Unterschiede zwischen Männern und Frauen bezüglich Spaß konnte damit auch nicht bestätigt werden. 5.4.2.7 Post Hoc Testergebnisse zum Avatar Hier werden post hoc interessant erscheinende deskriptive Ergebnisse aus dem Daten- material zum Avatar, zu denen keine konkreten Hypothesen formuliert werden konnten, inferenzstatistisch überprüft. Gruppenunterschiede in Bezug auf die Fragebogendaten Die deskriptiven Ergebnisse aus dem Fragebogen zum Avatar im Verhältnis zu den gebildeten Gruppen wurden auf Signifikanz mit dem exakten Test nach Fisher überprüft.
  • 66.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 66 Nur in zwei Fällen konnte der Chi-Quadrat–Test angewendet werden, da dort die Voraussetzungen (mehr als 20 Prozent erwartete Häufigkeiten größer fünf in den einzelnen Zellen) erfüllt waren. Des Weiteren wurde der Mann-Whitney-Test für 2 unabhängige Stichproben gerechnet. Dabei wurden die gebildeten Gruppen Ansprache und Spaß als unabhängige Stichproben und die Fragebogendaten (angekreuzt / nicht angekreuzt) als abhängige Variable mit Ranginformation betrachtet. Die Signifikanzen aus den Tests sind den folgenden Tabellen 6 und 7 zu entnehmen. Mehrfachantworten in Beziehung zur Gruppe Spaß Exakte Signifikanz p (1-seitig) aus Fisher / asymptotische Signifikanz p (2-seitig) aus Chi Quadrat Asymptotische Signifikanz p (2- seitig) aus Mann-Whitney Spracherkennung 0,616 0,890 Sprachausgabe 0,239 / 0,299 (df = 1) 0,305 Mundbewegung 0,384 0,459 Gratulieren 0,173 0,190 Erscheinungsbild 0,432 0,592 Antworten auf Fragen 0,432 0,592 An Aufgaben / Termine erinnern 0,373 / 0,516 (df = 1) 0,521 Emotionen 0,205 0,194 Eigenleben 0,344 0,350 Tabelle 6 - Mehrfachantworten in Beziehung zur Gruppe Spaß
  • 67.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 67 Mehrfachantworten in Beziehung zur Gruppe Ansprache Exakte Signifikanz p (1-seitig) aus Fisher Asymptotische Signifikanz p (2- seitig) aus Mann-Whitney Spracherkennung 0,719 0,945 Sprachausgabe 0,190 0,185 Mundbewegung 0,280 0,218 Gratulieren 0,487 0,555 Erscheinungsbild 0,416 0,457 Antworten auf Fragen 0,132 0,111 An Aufgaben / Termine erinnern 0,672 1,000 Emotionen 0,353 0,270 Eigenleben 0,559 0,686 Tabelle 7 - Mehrfachantworten in Beziehung zur Gruppe Ansprache Die scheinbaren Gruppenunterschiede aus der deskriptiven Darstellung bezüglich Sprachausgabe und Spaß, Emotion und Spaß, Sprachausgabe und Ansprache, menschliche Züge (Mundbewegung, Gratulieren, Erscheinungsbild) und Ansprache, Antworten auf Fragen und Ansprache, Emotionserkennung / -äußerung und Ansprache konnten nicht statistisch untermauert werden. Altersgruppen eins bis vier und Spaß Die scheinbaren Unterschiede in Bezug auf Spaß und Altersgruppen (p=0,287) und Ansprache und Altersgruppen (p=0,804) konnten mit Chi-Quadrat statistisch nicht belegt werden. Altersgruppen eins bis vier, Alter im Mediansplit und Geschlecht in Kombination mit den Mehrfachantworten Für die Fragestellung, ob es in Bezug auf Alter und Geschlecht Unterschiede in den Mehrfachantworten gab, wurde der Mann-Whitney-Test gerechnet. Es wurden dafür die unabhängigen Variablen Geschlecht und Alter (gesplittet am Median) als unabhängige Stichproben und die Fragebogendaten (angekreuzt / nicht angekreuzt) als abhängige
  • 68.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 68 Variable mit Ranginformation betrachtet. Für die Altersgruppen 1-4 wurde der Kruskal- Wallis- Test gerechnet. Die Signifikanzen aus den Tests sind der folgenden Tabelle 8 zu entnehmen. Mehrfachantworten Altersgruppen Mediansplit mit Mann- Whitney-U Altergruppen 1-4 mit Kruskal -Wallis H Geschlecht mit Mann-Whitney-U Spracherkennung 0,946 0,376 0,533 Sprachausgabe 0414 0,811 0,724 Mundbewegung 0,069 0,222 0,782 Gratulieren 0,644 0,823 0,235 Erscheinungsbild 0,801 0,252 0,579 Antworten auf Fragen 0,528 0,863 0,109 Aufgaben 0,039* 0,073 0,841 Emotionen 0,534 0,808 0,295 Eigenleben 0,957 0,681 0,564 Tabelle 8 - Mehrfachantworten in Beziehung zu Altersgruppen und Geschlecht Hier konnten in Bezug auf „an Aufgaben / Termine erinnern“ ein signifikanter Unterschied zwischen den Altersgruppen im Mediansplit festgestellt werden. Die Versuchspersonen bis 27 Jahre haben signifikant häufiger an „Aufgaben / Termine erinnert werden“ angekreuzt als die Personen über 27 Jahre. Für Mundbewegung und Altersgruppen im Mediansplit und „an Aufgaben / Termine erinnern“ und die Altersgruppen eins bis vier gibt es einen fast signifikanten Unterschied. Bezüglich Aufgaben / Termine ist das Ergebnis aus den Altersgruppen im Mediansplit enthalten. Die Mundbewegung wird auch von den Personen bis 27 Jahre mehr angekreuzt.
  • 69.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 69 5.4.3 Zusammenfassung der Ergebnisse in Bezug auf die explorativen Fragestellungen • Wird Sprache überhaupt benutzt? Wie wird Sprache im Vergleich zu den anderen Modalitäten Blick und Maus / Tastatur benutzt? Sprache wird als zweithäufigste Modalität im System benutzt. • Wie wirkt sich die Voreinstellung des Nutzers zur Kommunikation mit dem Computersystem auf die Benutzung von Sprache aus? Wenn der Computer als Werkzeug gesehen wurde, wurde Sprache häufiger benutzt, als wenn er als Kommunikationsmittel gesehen wurde. • Wie wird Sprache im Vergleich zwischen den Versuchspersonen benutzt? Sprache wird im Vergleich zwischen den Versuchspersonen eher weniger benutzt. • Wie verhält sich die Benutzung von Sprache über die Zeit? Sprache wird über die Zeit weniger benutzt. • Steht die Benutzung von Sprache mit der Leistung über alle Aufgaben in Beziehung? Die Häufigkeit der Sprachinteraktion korreliert nicht mit den Leistungen der Versuchspersonen. • Wie wird die Sprachinteraktion vom Benutzer bewertet? Der Grossteil empfand Sprachinteraktion als hilfreich. Die Qualität der Spracherkennung wurde eher positiv bewertet.
  • 70.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 70 • Wie verhält sich der Benutzer in der Interaktion mit dem Avatar? Die überwiegende Zahl der Versuchspersonen spricht den Avatar personifiziert an. • Unter welchen Bedingungen ist die Anwesenheit des Avatars gewünscht? Die überwiegende Anzahl von Versuchspersonen erwarten von ihm, dass er bestimmte Dinge kann, wie z.B. als Terminkalender fungieren oder Antworten auf Fragen geben. Sie wünschen sich für Interaktion zum großen Teil Spracherkennung. • Wie hedonistisch wird die Interaktion mit dem Avatar empfunden? Die Einschätzung der hedonistischen Qualität der Applikation erfolgte zu gleichen Teilen als gut und schlecht. • Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die Ansprache des vorgestellten Avatars zueinander? Hier sind lediglich Tendenzen zu erkennen besonders in Bezug auf menschliche Züge und Emotionen, die bei der personifizierten Form der Ansprache offensichtlich mehr gewünscht werden. • Wie verhalten sich die allgemeinen Vorstellungen über einen Avatar und die empfundene hedonistische Qualität des vorgestellten Avatars zueinander? Hier sind auch wieder lediglich Tendenzen zu erkennen in Bezug auf menschliche Züge und Emotionen, die von der Gruppe, die Spaß hatte, mehr gewünscht werden.
  • 71.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 71 • Lassen sich Unterschiede für den Avatar in Bezug auf Alter und Geschlecht feststellen? In Bezug auf Alter und Geschlecht lassen sich keine signifikanten Unterschiede feststellen bis auf dass der Avatar als Terminkalender von Leuten unter 27 Jahren mehr gewünscht wurde als von Probanden über 27 Jahren. Mundbewegung als Teil von menschlichen Zügen wird tendenziell von Leuten unter 27 mehr gewünscht als von den "Älteren". Tendeziell ist ebenfalls das Ergebnis zu sehen, dass "Ältere" offensichtlich mehr Spass (29-36 Jahre) an der Applikation hatten und sie eher personifiziert (37-43 Jahre) angesprochen haben.
  • 72.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 72 5.5 Diskussion 5.5.1 Interpretation der Ergebnisse Dieser Abschnitt nimmt Bezug auf die explorativen Fragestellungen und theorie- geleiteten Hypothesen zur Sprachinteraktion und zum Avatar und versucht, eine Interpretation der Ergebnisse vorzunehmen, die auf Grund der nicht vorhandenen Signifikanzen für die Mehrfachantworten beim Avatar sehr schwierig ist. Es können lediglich Tendenzen dargestellt werden, die sich in dem Versuch gezeigt haben. Anschließend erfolgt eine Integration der Ergebnisse in die bisherige Forschung und die Ableitung von Schlussfolgerungen für die Gestaltung einer sprachbasierten konversationalen Benutzungsschnittstelle. 5.5.1.1 Interpretation der Ergebnisse zur Sprachinteraktion Im Vergleich der Sprachinteraktionshäufigkeit zwischen den Versuchspersonen ist der Anteil derjenigen, die eher weniger Sprache benutzten, am höchsten. Es gibt aber auch einen relativ hohen Anteil an Teilnehmern, die sie häufig benutzt haben. Das könnte daran liegen, dass für die meisten diese Modalität neu war und sie sie deshalb zögerlicher benutzten und andere sie schon kannten und sich schneller daran gewöhnt und die Vorteile erkannt haben. Das etwas paradox erscheinende Ergebnis aus der Kombination der Vorbefragung zum Computer als Werkzeug oder Kommunikationsmittel mit der Sprachinteraktionshäufigkeit könnte darin begründet liegen, dass die pragmatische Shortcutfunktion der Sprachbefehle auch durchaus in das Schema „Computer als Werkzeug“ passt. Eine sauberere Begriffs- definition wäre hilfreich gewesen. Zur Fragestellung, wie sich die Benutzung von Sprache über die Aufgabenschwierigkeit verhält, ist zu sagen, dass sich die Sprachinteraktion in der leichten Bedingung signifikant von den anderen beiden Bedingungen unterscheidet. Das kann schlichtweg daran liegen, dass in der leichten Versuchsbedingung sehr viel weniger Grundobjekte in weniger Schritten zu bearbeiten waren. Deshalb wurden auch weniger Operationen per Sprache ausgeführt.
  • 73.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 73 In der Benutzung von Sprache über die Zeit ist eine signifikante Abnahme der Sprachinteraktion in der dritten Aufgabe zu verzeichnen. Das bestätigt die Hypothese, dass die Interaktion mit Sprache über die Zeit abnimmt, weil die Versuchsteilnehmer müde werden oder frustriert über Fehleingaben oder nicht erkannte Befehle sind. Letzteres kann dazu führen, dass andere Modalitäten präferiert werden, um die Aufgaben zu erledigen, so dass in manchen Fällen gar keine Aussage darüber möglich ist, ob der Proband vielleicht gern weiter mit Spracheingabe gearbeitet hätte, wenn die Technik dies ermöglicht hätte. Die erste Hypothese, dass Sprache die herausragende Modalität gegenüber Maus und Blick ist, hat sich nicht bestätigt. Im Vergleich zwischen den einzelnen Modalitäten liegt die Sprachinteraktion im Mittelfeld zwischen Blick (am wenigsten) und Maus (am häufigsten). Das verwundert nicht, insofern, als die Besonderheiten der Modalität Blick ihre Funktionalität per se einschränkten und sie schon deshalb seltener benutzbar war. Außerdem musste sie durch Maus oder Sprache unterstützt werden. Dass die Mausinteraktion der Sprachinteraktion überlegen ist, liegt wohl in der starken Gewöhnung begründet. Das scheint durch die Shortcutfunktion (ersparte den Griff zur Maus beziehungsweise zwei Mausklicks) und die Natürlichkeit der Sprache als Modalität nicht aufgewogen zu werden. Hinzu kommt, dass die Modalität nicht so natürlich war, da das System nur einzelne Wörter und Synonyme erkannte und deshalb die Interaktion nicht im natürlichen Fluss erfolgen konnte. Es konnte kein Zusammenhang zwischen der Sprachinteraktionshäufigkeit mit der Leistung in den Aufgaben festgestellt werden. Das bedeutet, dass die durch die Shortcut- Funktion eingesparte Zeit und die Modalität Sprache allein nicht wie in der Hypothese erwartet, zu einer Erhöhung der Leistung führte. Dagegen gab es einen Effekt, wenn alle Modalitäten zusammen benutzt wurden. [SEIFERT02] Die Interviewergebnisse zeigen, dass der Grossteil der Nutzer die Sprachinteraktion als hilfreich empfand, was die anderen Ergebnisse stützt. Etwas weniger, aber immer noch die Mehrheit, fand die Qualität der Spracherkennung gut, was bedeuten kann, dass sie sich durch gelegentliche Fehleingaben nicht von der Nutzung von Sprache haben abhalten lassen. Die Reaktionszeit zwischen Erkennung und Signal wurde von der Mehrheit als zu langsam empfunden. Wenn dies schneller gegangen wäre, hätten vielleicht noch mehr Probanden öfter die Sprache benutzt. Verzögerungen zwischen Signalsendung und Antwort durch den Empfänger sind auch in der Mensch-zu-Mensch-Kommunikation
  • 74.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 74 hemmend. „Sprache und Maus“ wurden neben „alles kombiniert“ als die ideale Form der Interaktion betrachtet. Die Mausinteraktion allein steht sogar hinter „Blick und Maus“ zurück. Das unterstützt die generelle Hypothese, dass Multimodalität vom Benutzer durchaus gewünscht ist. 5.5.1.2 Interpretation der Ergebnisse zum Avatar Die Vorstellungen über den Avatar zeigen, dass sehr viel Wert auf die Kategorien Sprache und Funktionalität gelegt wird. Offensichtlich findet der Nutzer eine Interaktion per Sprache mit dem Avatar sehr sinnvoll. Die Funktionalität steht dabei im Vordergrund. Offenbar scheint es im Verhältnis dazu nicht so wichtig zu sein, dass der Avatar mensch- liche Züge hat oder Emotionen zeigt oder erkennt. Das deckt sich mit der Frage danach, ob die Anwesenheit des Avatars gewünscht ist. Präferiert wird hier eindeutig „ja, wenn er bestimmte Dinge kann“. Es geht also primär darum, den Nutzer bei der Aufgabenlösung zu unterstützen mit Antworten auf Fragen und als Terminkalender. Dabei scheint die Spracherkennung für den Nutzer noch wichtiger zu sein als die Sprachausgabe. Menschliche Züge wurden vielleicht weniger oft angekreuzt, da die Beispiele zu speziell (zum Geburtstag gratulieren) waren. Die Begriffe Emotionsäußerung beziehungsweise -erkennung waren wiederum vielleicht zu abstrakt. Eventuell wären „Ärger“ oder „Freude“ eher angekreuzt worden. Es bleibt die Frage, ob die Versuchspersonen solche in ihren Augen vielleicht eher unwichtigen gestalterischen Aspekte explizit benennen oder nur implizit darauf reagieren würden. Die hedonistische Qualität der Interaktion mit dem Avatar operationalisiert durch Spaß wird zu gleichen Teilen als gut und schlecht eingeschätzt. Damit hat sich die Hypothese, dass die Gruppe, die Spaß an der Applikation hatte, größer ist als die Gruppe, die keinen Spaß hatte, nicht bestätigt. Das könnte zum großen Teil daran liegen, dass einige Versuchspersonen relativ schnell durchschaut haben, dass der Avatar nicht wie vom Versuchsleiter vorgegeben auf Sprache reagiert hat und die Frage „Hatten Sie Spaß an der Kommunikation mit dem Avatar?“ primär in Bezug auf die nicht wirklich funktionierende Kommunikation bezogen wurde. Dies ist auch aus den Zusatzbemerkungen zu erkennen. Es könnte aber auch daran liegen, dass den Teilnehmern aus der Gruppe „hatten keinen Spaß“ die Applikation wirklich nicht gefallen hat. Hatten die Versuchspersonen Freude an
  • 75.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 75 dem embodied Agent lag das wohl zum einen an der Art der Darstellung, aber auch an der Neuheit der Applikation. Genauere Aspekte wurden hierbei nicht erfragt. Kaum zu interpretieren sind die Gruppenunterschiede im Spaßfaktor in Bezug auf die angekreuzten Vorstellungen zum Avatar, da hier aus der in Abschnitt 5.5.2.2 diskutierten methodischen Problematik heraus keine signifikanten Ergebnisse vorliegen. Deshalb sind dies hier lediglich Tendenzen, die einer weiteren Überprüfung in einer größeren Stichprobe unterzogen werden müssten. Der unterschiedliche Spaßfaktor berührte offensichtlich nicht den Wunsch nach Spracherkennung und -ausgabe. Der war sogar bei weniger oder keinem Spaß nach Sprachausgabe höher, vielleicht, um eine Rückmeldung über die Spracheingabe zu bekommen. Es scheint keinen nennenswerten Unterschied zwischen den beiden Gruppen in Bezug auf den Wunsch nach menschlichen Zügen zu geben. Die scheinen für die hedonistische Qualität nicht so entscheidend zu sein. Dasselbe gilt für die Funktionalität, da diese per se ja wenig mit dem Spaßfaktor zu tun hat. Dagegen scheint eine größere Anzahl von Versuchspersonen, die Spaß an der Kommunikation mit dem Avatar hatten, Emotionserkennung und -äußerung von ihrem Avatar zu wünschen, als die Personen, die wenig oder keinen Spaß hatten. Dadurch wird die Kommunikation vielleicht noch lebendiger und anregender empfunden. Die Probanden, die keinen oder weniger Spaß an der Kommunikation mit dem Avatar hatten, scheinen auch kein weiteres Interesse an lebendigerer Darstellung zu haben. Es haben signifikant mehr Versuchspersonen den Avatar personifiziert als unper- sonifiziert angesprochen. Damit hat sich Hypothese bestätigt, dass die personifizierte Form der Ansprache überwiegt. Das mag an der anthropomorphen Form des Agenten liegen. Sie sahen ihn dadurch offensichtlich mehr als menschenähnlichen Interaktionspartner. Wirklich zu interpretieren wäre dieser Unterschied aber eher noch im Vergleich mit einer anderen Darstellungsform. Bente und Krämer [BENTE02] schlagen zwar vor, wie in unserem Experiment geschehen, nur das Aussehen und die Darstellung des Avatars als unabhängige Variable zu betrachten, aber man könnte den Gruppenunterschied in der Ansprache mit der Ansprache einer weniger anthropomorphen Applikation validieren. Die Interpretation der Gruppenunterschiede zwischen personifizierter und unper- sonifizierter Ansprache in Bezug auf die angekreuzten Vorstellungen zum Avatar muss noch vorsichtiger zu verstehen sein als die zum Spaßfaktor, da hier durch die kleine
  • 76.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 76 Zellenbesetzung in der unpersonifizierten Form jede gegebene oder nicht gegebene Antwort ein starkes Gewicht bekommt. Von beiden Gruppen wurde Spracherkennung gleichermaßen und Sprachausgabe sogar in der unpersonifizierten Bedingung häufiger gewünscht. Die Art der Ansprache scheint also nicht damit in Zusammenhang zu stehen, ob Sprachinteraktion mit dem Avatar generell gewünscht wird. Es scheint aber einen Unterschied in den Gruppen in Bezug auf menschliche Züge zu geben. Die Teilnehmer, die die personifizierte Art der Ansprache wählten, wünschten sich auffallend mehr menschliche Züge von einem Avatar. Das unterstützt die Annahme, dass die Kommunikation mit dem Avatar viel natürlicher ist, je menschlicher er aussieht. Funktionalitäten sind von beiden Gruppen gewünscht, aber von Probanden, die die unpersonifizierte Form der Ansprache wählten, wurden noch eher Anworten auf Fragen gewünscht als von denen mit personifizierter Ansprache. Die Art der Ansprache scheint also nicht mit der gewünschten Funktionalität in Zusammenhang zu stehen. Das ist auch nicht anders zu erwarten, da Funktionalität ja generell gewünscht ist. Bei der Kategorie der Emotionen zeigt sich wieder der zu erwartende Effekt, dass Versuchspersonen, die den Avatar personifiziert angesprochen haben, sich eher Emotionsäußerung und –erkennung von einem Avatar wünschen als die mit unpersonifizierter Ansprache, die so etwas gar nicht wünschen. Dieses Ergebnis scheint verständlich, da Emotionen den Anthropomorphismus des Avatars unterstreichen und damit noch mehr zu natürlichsprachiger Kommunikation anregen. Dass Versuchspersonen im Alter zwischen 29 und 36 Jahren tendenziell eher Spaß an der Applikation hatten und Alter zwischen 37 und 43 Jahren sie eher personifiziert angesprochen haben, könnte daran liegen, dass die „ältere“ Generation vielleicht vorurteilsfreier und „naiver“ mit neuer Technik umgeht. Die jüngere Generation erwartet zu viel beziehungsweise ist verwöhnter. Diesbezüglich könnte auch das Ergebnis interpretiert werden, dass sich Versuchspersonen bis 27 Jahre eher die Funktionalität „Terminkalender“ von einem Avatar wünschen als die „Älteren“, für die Funktionalität vielleicht nicht so vordergründig ist. Weitere Forschung in Bezug auf die Altersstrukturen ist notwendig. Dass keine signifikanten Unterschiede zwischen Männern und Frauen in der Interaktion mit dem Avatar festgestellt werden konnten, wird an der zu kleinen Stichprobe festgemacht. Vielleicht gibt es aber tatsächlich keine Unterschiede. Sproull et al hatten
  • 77.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 77 auch nicht das zu erwartende Ergebnis erzielt. Offensichtlich ist die Interaktionsform und der Spaßfaktor sowohl bei Männern als auch bei Frauen sehr von der Art der Applikation abhängig. Ob sich die angedeuteten Unterschiede aus den Fragebogedaten in weiterer Forschung mit größeren Stichproben untermauern lassen, bleibt abzuwarten. 5.5.2 Kritik an der Untersuchung Der folgende Abschnitt befasst sich mit der kritischen Betrachtung der vorliegenden Untersuchung. Es soll hier einerseits auf technische Probleme in der Untersuchungs- vorbereitung und Durchführung und andererseits auf methodische Mängel eingegangen werden. 5.5.2.1 Technische Probleme Die Prototypenprogrammierung war zum Untersuchungszeitpunkt noch nicht ganz ausgereift und abgeschlossen, so dass oft technische Probleme auftraten, die aber meist mit einem Neustart des Systems behoben werden konnten. Die per Sprache erteilten Befehle im Logfileexperiment wurden nicht immer sofort erkannt, so dass nach ein bis drei Wiederholungen oft die Modalität gewechselt wurde. Desweiteren wurden auch keine Fehlversuche bei der Eingabe gelogt. Die nicht funktionierenden Versuche mit Sprache sind unzureichend (nur durch Notizen des Versuchsleiters oder aus der Nachbefragung ableitbar) dokumentiert, so dass diesbezüglich nur ungenaue Aussagen getroffen werden können, ob eventuell Sprache lieber und länger benutzt worden wäre, wenn das System es zugelassen hätte. 5.5.2.2 Methodische Probleme Methodische Kritik am Simulationsexperiment Im Simulationsexperiment gibt es keine Aufgabe, die in einem Versuchplan variiert werden könnte. Eine Vergleichsapplikation gab es auch nicht. Eine Animation mit einem anders, weniger menschlich gestalteten Avatar wäre notwendig, um wirkliche Vergleiche in Bezug auf die Ansprache und hedonistische Bewertung des Avatars anstellen zu können. Die Anzahl der Versuchspersonen war zu gering, um statistisch bedeutsame Aussagen treffen zu können. Sie wurde durch Nachversuche von 27 auf 43 erhöht, wovon aber 9 Datenausfälle durch fehlende Videoaufzeichnungen und / oder Fragebogenantworten zu
  • 78.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 78 beklagen waren. Aber auch wenn die Daten vollständig vorgelegen hätten, müsste eine noch größere Stichprobe untersucht werden, um die Effektstärke zu erhöhen. Der Begriff „Spaß“ zur Operationalisierung der hedonistischen Qualität des Avatars ist vermutlich zu indifferent. Außerdem wurde nach dem Spaß an der Kommunikation mit dem Avatar gefragt. Die Interaktion mit dem System erfolgte aber einseitig, was einigen Versuchspersonen nicht verborgen blieb und damit auch Auswirkungen auf die Be- urteilung der hedonistischen Qualität der Applikation hatte. Des Weiteren ist die Vorgabe der Antwortmöglichkeiten, Einteilung in die Antwort-Kategorien, ebenso wie die Zu- ordnung der Teilnehmer in die Anspracheformen subjektiv. Hier erfolgte kein Expertenrating, sondern eine Einschätzung des Autors. Die Fragestellung und die Ergebnisse der Untersuchung zum Avatar sind demzufolge nur sehr explorativ und tendenziell zu sehen. In weiterer Forschung könnten die tendenziell gezeigten Ergebnisse mit einem richtigen Versuchsdesign und einer sehr viel höheren Anzahl von Versuchspersonen statistisch bedeutsam werden. Methodische Kritik am Logfileexperiment Im Logfileexperiment gab es weniger methodische Probleme, da hier ein Versuchsdesign existierte und der Versuch sehr viel länger dauerte, was die Datenmenge und deren Aussagekraft steigerte. Allerdings enthalten Logfiledaten keine Information über das individuelle Benutzerprofil in Bezug auf zum Beispiel Müdigkeitserscheinungen, Frustrationsschwelle bei technischen Fehlleistungen und Erfahrung mit beziehungsweise Ängsten vor Umgang mit einem neuen System. Durch die lange Zeit, die die Versuchspersonen vor dem System verbrachten (von drei bis zu fünf Stunden), traten Konzentrations- und Motivationsverluste auf, so dass deshalb vielleicht weniger mit Sprache interagiert wurde. Zum anderen könnte durch die Zeitvorgabe eine Art Stresssituation entstanden sein, die dazu geführt hat, dass die Probanden möglichst schnell sein wollten. Diese Stresssituation wurde durch die Neuartigkeit der Systeme und die Anwesenheit des Versuchsleiters [BORTZ95] gefördert. Es ist anzunehmen, dass dadurch zusätzlich weniger Sprache benutzt wurde, um sich nicht zu blamieren. Das führt eventuell zu falschen Interpretationen in der Auswertung. Logfiles enthalten keine Wahrheiten, sondern nur Interpretationshinweise.
  • 79.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 79 Ein weiteres Problem war die Restriktion der Spracherkennung. Es konnten auch nur einzelne Begriffe und die am besten ohne Kontextinformation vom System erkannt werden, was die Teilnehmer in Kommandosprache verfallen ließ. Eine bessere Sprach- erkennung in fließenden Sätzen wäre deshalb für die nächste Untersuchung wünschens- wert. Methodische Besonderheiten für Fragebogen- und Interviewdaten Für Fragebogendaten gibt es die bekannten Probleme der Verständlichkeit der Items, da keine mündlichen Erläuterungen erfolgten, der sozialen Erwünschtheit in den Antworten, der Motivation der Probanden und der Besonderheiten in der Auswertung und Interpretation. Beim mündlichen halbstrukturierten Interview in der Nachbefragung gilt zu beachten, dass zwischen den beiden Personen eine Beziehung entsteht, die sich auf die Beantwortung der Fragen auswirken könnte. Freie Äußerungen sind schwer quantifizierbar und vor- gegebene Antwortmöglichkeiten schränken den Informationsgehalt ein. 5.5.3 Integration der Ergebnisse in die Forschung und Ableitung von Fragestellungen für die Gestaltung einer intelligenten Benutzungsschnittstelle mit Sprache und Agenten Die Ergebnisse aus der vorliegenden Untersuchung decken sich zum Teil mit den bisher noch nicht besonders gut evaluierten Erkenntnissen bezüglich dessen, was Benutzer von einem Agenten erwarten und wie sie sich in der Interaktion mit ihm verhalten. Die menschliche Darstellung durch die 3D-animierte Gestalt, Mimik und Bewegung führte offensichtlich vermehrt zu personifizierter Ansprache und damit zu natürlicher Kom- munikation wie mit einem menschlichen Gegenüber. Das passt zu den Ergebnissen von Koda und Maes, die fanden, dass ein menschliches Gesicht als Partner im Spiel versucht wurde zu deuten und je menschlicher, desto eher wurden ihm menschliche Attribute wie Intelligenz zugeschrieben. Bei Takeuchi und Naito [TAKEUCHI95] erzeugte ein Gesicht mehr Augenkontakt und Aufmerksamkeit als eine andere Darstellungsform. Bei Sproull et al [SPROULL96] zeigten sich weitere Attribute der Mensch-zu-Mensch-Kommunikation bezüglich Bewertung von Persönlichkeitsmerkmalen und eigener Darstellung in Inter- aktion mit dem Gesichtsinterface im Gegensatz zum Textinterface. Es lassen sich aus der
  • 80.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 80 vorliegenden Untersuchung nur Aussagen über das Verhalten der Probanden im Vergleich mit Untersuchungsergebnissen zur äußeren Erscheinung eines Agenten treffen, da der Agent aus dem Simulationsexperiment nur eingebildet in Interaktion mit dem Nutzer treten konnte. Eine reale multimodale Interaktion per Sprache, Blick oder Gestik war nicht möglich. Es bliebe in einem Folgeexperiment zu zeigen, welche Effekte diese Form der Interaktion und ob der Benutzer daraus Vorteile hat. Aus den Fragebogendaten ergab sich tendenziell, dass Benutzer die Anwesenheit des Agenten hauptsächlich an bestimmte Funktionen wie Antworten auf Fragen oder an Aufgaben / Termine erinnern koppeln. Das deckt sich mit Erkenntnissen von van Mulken et al [MULKEN98], die zeigten, dass zwar die Präsentation von Lehrmaterial mit Hilfe eines animierten Agenten gegenüber einer anderen Applikation bevorzugt wurde, aber dies wurde von vielen auch von der Art des Lehrmaterials abhängig gemacht. Die Funktionalität wird also vom Benutzer nicht aus den Augen verloren. Spracherkennung und Sprachausgabe wurden in der vorliegenden Untersuchung besonders für die Interaktion mit dem Avatar gewünscht. Das spricht dafür, in weiteren Untersuchungen Spracherkennung und Sprachausgabe zu implementieren und zu optimieren. Die Modalität Sprache wurde im Logfileexperiment näher untersucht. Die Untersuchungsergebnisse haben gezeigt, dass Sprache die am zweithäufigsten benutzte Modalität war und möglicherweise auf Grund von Frustrationen durch Fehleingaben, der Restriktion auf Kommandos und der Verzögerung zwischen Erkennung und Feedback über die Zeit weniger benutzt wurde. Bei einer verbesserten Erkennungsleistung der Spracheingabe mit den in Kapitel 4.2.7 beschriebenen Methoden und höherer Verarbeitungsgeschwindigkeit könnte man prüfen, ob die bisher als hilfreich eingeschätzte akustische Rückmeldung der Erkennung einer Spracheingabe noch notwendig ist und sich die Benutzung von Sprache erhöht. [SEIFERT02] Für den Versuch fällt es schwer, eine differenzierte Aussage darüber zu treffen, warum Sprache überhaupt als Modalität gewählt wurde. Vielleicht war es nur die Shortcut – Funktion, die die Probanden dazu brachte, Sprache zu benutzen und nicht die „Natürlichkeit“ der Modalität. Vielleicht war es den Probanden aber auch eher angenehm, ein eingegrenztes Vokabular zur Verfügung zu haben und dem System Befehle zu erteilen anstatt im Fluss mit ihm zu reden. Das würde die Annahme von Walker und Cohen
  • 81.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 81 [COHEN89] stützen, dass restringierte Sprache in multimodalen Interfaces je nach Anwendungsform durchaus nützlicher sein kann als natürliche Sprache. Da sich durch Integration verschiedener Modalitäten die Leistung und die Bewertung des Systems durch den Benutzer generell verbessert, bleibt die Frage, welchen Platz die Sprachinteraktion dabei einnimmt und wie man sie am „natürlichsten“ mit den anderen Modalitäten kombinieren kann. Darauf wird im folgenden Ausblick noch näher eingegangen. 5.5.4 Ausblick Sicherlich werden komfortable Schnittstellen der Zukunft stark unterstützt einerseits durch intuitive Eingabehilfsmittel, die den Gebrauch der natürlichen Ausdrucksformen des Menschen (direkter Zugriff mit den Händen, Sprache, Gestik, Mimik) erlauben, und andererseits durch intelligente, zum Teil auch personifizierte Helfer-Agenten, die über Wissen der Anwendung verfügen und mit Hilfe von Expertensystemtechniken assistie- rende Funktionen übernehmen. Der noch in Entwicklungsstadium befindliche SMARTKOM demonstriert die Mensch- Maschine-Schnittstelle der Zukunft. Das System schafft eine dialogische Mensch-Technik- Interaktion durch koordinierte Analyse und Generierung multipler Modalitäten. Es wertet sowohl Sprach-, als auch alphanumerische oder Handschrifteneingabe aus, analysiert Gesten und den Gesichtsausdruck des Benutzers, charakterisiert den emotionalen Zustand und kann beispielsweise auch Handabdrücke für die biometrische Identifikation analysieren. Es gibt aber bislang kaum Lösungsvorschläge dafür, wie die multimodalen Äußerungen eines Systemnutzers - als zeitlich gesteuerte Perzepte auf getrennten Kanälen registriert - in ihrem zeitlichen Zusammenhang zu rekonstruieren sind. Besonders interessant für die weitere Forschung ist eine Integration der Modalitäten Sprache und Gestik, die in natürlicher Kommunikation oft zusammen auftreten. Ver- schiedene Befunde aus der psychologischen und phonetischen Forschung haben Hinweise auf eine rhythmische Organisation des menschlichen Kommunikationsverhaltens erbracht, und das sowohl im Hinblick auf die Produktion als auch die Rezeption von Äußerungen. Wenn eine Person spricht, bewegen sich oft viele Teile des Körpers zur gleichen Zeit: Arme, Finger, der Kopf etc. als so genannte koverbale Gesten. Die Informationen daraus
  • 82.
    Explorative Studie zuSprachinteraktion und anthropomorphen Interfaceagenten im Rahmen des mUltimo-3D-Projektes am Heinrich-Hertz-Institut 82 werden bisher als Sprach - und Gestenperzepte auf getrennten Kanälen technisch registriert und müssen für die Steuerung von Anwendungen zusammengeführt und interpretiert werden. Eine mögliche Fortsetzung betrifft die Frage, wie sich ein rhythmisch gesteuertes Eingabesystem automatisch auf den individuellen kommunikativen Rhythmus unter- schiedlicher Benutzer einstimmen lässt. Es ist leicht erkennbar, dass eine derartige Ein- gabeform für Anwendungssysteme, wie sie heute schon im virtuellen Entwurf eingesetzt werden, erheblichen Komfortgewinn erbringen könnte. [WACHS98] Der aktuelle Forschungsstand bezüglich der Effekte von Agenetenrepräsentationen hat Einfluss auf die weitere Vorgehensweise bei der Entwicklung von Embodied Conversational Agents. Zur Systematisierung des Forschungsfeldes schlagen Bente und Krämer [BENTE02] vor, zentrale Variable bei der Gestaltung und Evaluation von anthropomorphen Interfaceagenten (AIA) zu benennen. Sie unterscheiden, am klassischen experimentalpsychologischen Vorgehen orientiert, zwischen unabhängigen Variablen (deren Effekte festgestellt werden sollen) wie Verhalten und Aussehen von AIA, abhängigen Variablen (auf die sich potentielle Effekte auswirken) wie Einstellung und Verhalten des Nutzers und moderierenden Variablen (die möglicherweise Einfluss nehmen auf die Auswirkung der unabhängigen Variable auf die abhängige) wie Situations- und Nutzermerkmale. „Erst wenn in diesen Bereichen der Evaluationsforschung genauere Erkenntnisse vorliegen, kann vorhergesagt werden, welche Arten von AIAs unter welchen Bedingungen auf welche Personengruppen welche Effekte verursachen. Ist ein solches Wissen verfügbar, so kann insbesondere auch die Realisation sich daran orientieren – da Wissen über spezifische Wirkungen zur Verfügung gestellt werden kann, das bei der Implementierung berücksichtigt werden kann.“ [BENTE02]. Die Entwicklung und Erforschung von multimodalen Schnittstellen wie Sprachinteraktion und AIA scheinen noch im Anfangsstadium zu sein, wobei die Sprachinteraktion schon besser erforscht und implementiert ist. Die KI-Forschung ist gefordert, erweiterte Techniken zu entwickeln, die auch das zeitliche Kommunikationsverhalten des Menschen und die Erwartungen eines Nutzers an einen Agenten besser berücksichtigen und damit zur Gestaltung von adaptiven Dialogsystemen beziehungsweise intelligenten Benutzungsschnittstellen beitragen. Auf die weiteren Fortschritte darf man gespannt sein.
  • 83.
    Literaturverzeichnis 83 6 Literaturverzeichnis [ALLEN80] Allen, J.F., Perrault, C.R. (1980); Analyzing Intention in Utterances in: Artificial Intelligence 15 [ATKINSON68] Atkinson, R.C., Shiffrin, R.M. (1968); Human memory: A proposed system and its control [BAUMGARTEN02] Baumgarten, T. (2002); Ableitung eines noninvasiven Indikators von mental workload für die Implementierung in einem adaptiven multimodalen System; Diplomarbeit; Technische Universität; Berlin [BENTE00] Bente, G., Krämer, N.C. (2000); Psychologische Aspekte bei der Implementierung und Evaluation von nonverbal agierenden Interface-Agenten in: Proceedings Mensch und Computer 2001; S. 275-285 [BESNARD] Besnard, P., Hanks, S. (Hrsg.); Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence; Morgan Kaufmann; San Francisco; S. 296-305 [BLOMBERG94] Blomberg, M. (1994); A common phone model representation forspeech recognition and synthesis in: Proceedings of ICSLP94; Yokohama, 1994; S. 1875-1878 [BORTZ95] Bortz, J., Döring, N. (1995); Forschungmethoden und Evaluation für Sozialwissenschaftler (2. Aufl.); Berlin, Heidelberg; Springer [BRIEST02] Briest, S. (2002); Vergleich zweier gestischer Dialogsysteme in der Mensch-Maschine- Interaktion; Diplomarbeit; Technische Universität; Berlin [BROOKS02] Brooks, R. (2002); Menschmaschinen; Campus Verlag; Frankfurt Main [CASSELL98] Cassell, J., Thórisson, K.R. (1998); The power of a nod and a glance: Envelope vs. emotional feedback in animated conversational agents in: Applied Artificial Intelligence [CASSELL99] Cassell, J., Vilhjálmsson, H. (1999); Fully embodied conversational agents: Making communicative behaviors autonomous in: Autonomous Agents and Multi-Agent Systems, 2; S. 45-64.
  • 84.
    Literaturverzeichnis 84 [CHARNIAK91] Charniak, E. (1991);Bayesian networks without tears; AI Magazine, 12(4); S. 50-63 [COHEN89] Cohen, P.R., Sullivan, J.W., Dalrymple, M., Gargan, R.A., Moran, D.B., Schlossberg, J.L., Pereira, F.C.N., Tyler, S.W. (1989); Synergistic Use of Direct Manipulation and Natural Language in: Proceedings of CHI’89; New York; Association for Computing Machinery; S. 227-232 [DAGUM92] Dagum, P., Galper, A., Horvitz, E. (1992); Dynamic network models for forecasting in: Proceedings of the Eighth Conference on Uncertainty in Artificial Intelligence; Morgan Kaufmann; San Meteo S. 41-48 [DEHN00] Dehn, D., van Mulken, S. (2000); The impact of animated interface agents: a review of empirical research in: International Journal of Human-Computer Studies, Vol. 52; 2000; S. 1-22 [DESHMUKH02] Deshmukh, O., Espy-Wilson, C., Juneja, A. (2002); Acoustic-phonetic Speech Parameters for Speaker-independent Speech Recognition in: International Conference on Acoustics, Speech and Signal Processing; ICASSP 2002; Orlando; Florida [DIETZ99] Dietz, R.B., Lang, A. (1999); Affective agents: Effects of agent affect on arousal, attention, liking and learning in: Proceedings of international cognitive '99. San Francisco, CA [DROPPO02] Droppo, J., Acero, A., Deng, L. (2002); A Nonlinear Observation Model for Removing Noise from Corrupted Speech Log Mel-Spectral Energies in: Proceedings International Conference on Spoken Language Processing; Denver; Colorado; Sep 2002 [ECONO01] The Economist (2001); Son of paperclip; Print edition , 22. März 2001 [EILERS86] Eilers, K., Nachreiner, F., Hänecke, K. (1986); Entwicklung und Überprüfung einer Skala zur Erfassung subjektiv erlebter Anstrengung in: Zeitschrift für Arbeitswissenschaft, 4(40); S. 215-224 [EMBASSI01] Elektronische Multimediale Bedien- und Service-Assistenz, White Draft http://www.embassi.de
  • 85.
    Literaturverzeichnis 85 [ENGE00] Enge, M., Massow,S. (2000); Needs for assistance of visually and physically disabled and nondisabled persons when using money-/cash dispensers in: (Hrsg.): de Waard, D.; Weikert, C.; Hoonhout, J.; Remekers, J.; Human-System Interaction: Education, Research and Application in the 21st Century; Maastricht, NL, Shaker Verlage; S. 263 – 266 [EYSENCK94] Eysenck, M.W. (Hrsg.) (1994); The blackwell dictionary of cognitive psychology; Basil Blackwell Ltd.; Oxford [FELLBAUM91] Fellbaum, K. (1991); Elektronische Sprachverarbeitung: Verfahren, Anwendungen, Wirtschaftlichkeit; München [FISCHER99] Fischer, K. (1999); Repeats, Reformulations and Emotional Speech: Evidence for the Design of Human-Computer Speech Interfaces in: Proceedings of HCI, Volume 1; S. 560-565 [FOLDOC] Free On-Line Dictionary of Computing; http://foldoc.doc.ic.ac.uk; Stichwort “Avatar” [GHARAMANI98] Ghahramani, Z. (1998); Learning Dynamic Bayesian Networks in: Giles, C.L., Gori, M. (Hrsg.); Adaptive Processing of Sequences and Data Structures; Lecture Notes in Artificial Intelligence; Springer-Verlag; Berlin; S. 168-197 ftp://ftp.cs.toronto.edu/pub/zoubin/vietri.ps.gz [GREENBERG98] Greenberg, S. (1998); Recognition in a New Key - Towards a Science of Spoken Language in: ICASSP98, International Conference on Acoustics, Speech and Signal Processing; Seattle; 1998 [HASSENZAHL00] Hassenzahl, M., Platz, A., Burmester, M., Lehner, K. (2000); Hedonic and ergonomic quality aspects determine a software's appeal in: CHI 2000; S. 201-208 [HEDICKE02] Hedicke, V. (2002); Multimodalität in Mensch-Maschine-Schnittstellen in: Timpe, K.P., Jürgensohn, T. & Kolrep, H. (Hrsg.); Mensch-Maschine-Systemtecnik, Konzepte, Modellierung, Gestaltung, Evaluation; Düsseldorf: Symposion; S. 205-233 [HOFB00] Hofbauer, W.; Avatare In: http://www.hfg-offenbach.de/div/daten7/gesiebtes/avatare/index.php [HORN62] Horn, W. (1962); Leistungsprüfsystem – (LPS); Göttingen; Hogrefe
  • 86.
    Literaturverzeichnis 86 [HORVITZ95] Horvitz, E., Barry,M. (1995); Display of information for time-critical decision making; [HORVITZ98] Horvitz, E., Breese, J., Heckerman, D., Hovel, D.; Rommelse, K. (1998); The lumiere project: Bayesian user modeling for inferring the goals and needs of software users in: Proceedings of the fourteenth conference on uncertainty in artificial intelligence; Wisconsin; S. 256-265 [HORVITZ01] Horvitz, E., Paek, T. (2001); Harnessing Models of Users' Goals to Mediate Clarification Dialog in Spoken Language Systems in: Proceedings of the Eighth Conference on User Modeling, Sonthofen, Germany, July 2001 [JAMESON95] Jameson, A., Schäfer, R., Simons, J., Weis, T. (1995); Adaptive provision of evaluation- oriented information: Tasks and techniques in: Mellish, C. S. (Hrsg.), Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence; Morgan Kaufmann; San Meteo; S. 1886-1893 [KARAT99] Karat, C.M., Halverson, C., Horn, D., Karat, J. (1999); Patterns of entry and correction in large vocabulary continuous speech recognition systems in: CHI 99 Conference Proceedings; S. 568-575 [KING96] King, W.J., Ohya, J. (1996); The Representation of Agents: Anthropomorphism, Agency, and Intelligence in: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI), 1996, S. 289-290 [KOBSA90] Kobsa, A. (1990); User Modeling in Dialog Systems: Potentials and Hazards [KODA96] Koda, T., Pattie, M. (1996); Agents with faces: The effect of personification in: 5th IEEE International Workshop on Robot and Human Communication; Tsukuba; Japan; November 1996 [BROCKHAUS] Brockhaus online; www.xipolis.net [LIU99] Pastoor, S., Liu, J., Renault, S. (1999); An experimental multimedia system allowing 3D visualization and eye-controlled interaction without user-worn devices in: IEEE Transactions in Multimedia, 1(1).
  • 87.
    Literaturverzeichnis 87 [MOON96] Moon, Y., Nass,C.I. (1996); Adaptive agents and personality change: Complementarity versus similarity as forms of adaptation in: Bilger, R., Guest, S., Tauber, M.J. (Hrsg.); Human factors in computing systems: Chi'96 electronic conference proceedings [MSRSCG] Microsoft Research, Social Computing Group; http://research.microsoft.com/vwg/ [MULKEN98] van Mulken, S., André, E., Müller, J. (1998): The Persona Effect: How Substantial Is It? in: Proceedings of the Human Computer Interaction Conference; Springer; Berlin; 1998; S. 53-66 [OVIATT89] Oviatt, S.L. (1989); The CHAM model of hyperarticulate adaptation during human- computer error resolution in: Proceedings of the International Conference on Spoken Language Processing; Sydney; Australia; 1998 [OVIATT99] Oviatt, S.L. (1999); Ten Myths of Multimodal Interaction in: Communications of the ACM, 42(11); S. 74-81. [PICONE90] Picone, J. (1990); Continuous Speech Recognition Using Hidden Markov Models in: IEEE ASSP Magazine 7/90 [RABINER95] Rabiner, R.R. (1995); Voice communication betweeen humans and machines - An introduction. in: Proceedings of the National Academy of Sciences of the United States of America, Bd. 92; Academy, Colloquium Paper; Washington D.C.; S. 9911-9913 [REEVES96] Reeves, B., Nass, C. (1996); The media equation: How people treat computers, television and new media like real people and places in: CSLI publications & Cambridge university press; 1996 [RICH79] Rich, E. (1979); User modeling via stereotypes in: Cognitive Science, 3; S. 329-354 [RICH89] Rich, E. (1989): Stereotypes and User Modeling in: A. Kobsa and W. Wahlster, eds.: User Models in Dialog Systems. Heidelberg; Springer
  • 88.
    Literaturverzeichnis 88 [SCHÄFER96] Schäfer, R., Weyrath,T. (1996); Einschätzung von verfügbarer Arbeitsgedächtniskapazität mit temporalen Bayesschen Netzen in: Lindner, H.-G. (Hrsg.); 4. GI-Workshop: Adaptivität und Benutzermodellierung in interaktiven Systemen: Workshop-Beiträge; VEW AG; Dortmund; S. 5.1-5.9 [SCHULZ00] Schulz von Thun, F. (2000); Miteinander reden. Störungen und Klärungen 1. Allgemeine Psychologie der Kommunikation; Reinbeck bei Hamburg; Rowohlt Taschenbuch Verlag Gmbh (Original erschienen: 1981) [SEIFERT02] Seifert, K. (2002); Evaluation multimodaler Computer-Systeme in frühen Entwicklungsphasen; Dissertation; Technische Universität; Berlin [SHIFFRIN94] Shiffrin, R.M., Nosofsky, R.M. (1994); Seven plus or minus two: A commentary on capacity limitations in: Psychological Review, 101; S. 357-361 [SOLTAU98] Soltau, H., Waibel A. (1998); On the influence of hyperarticulated speech on the recogniton performance in: Proceedings of the International Conference on Spoken Language Processing; Sydney; Australia; 1998 [SOLTAU00] Soltau, H., Waibel, A. (2000); Specialized Acoustic Models for Hyperarticulated Speech in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing; Istanbul; Jun 2000 [SPROULL96] Sproull, L., Subramani, M., Kiesler, S., Walker, J.H., Waters, K. (1996); When the interface is a face in: Human-Computer Interaction, 11, S. 97-124 [SUSEN99] Susen, A.; Spracherkennung. Kosten, Nutzen, Einsatzmöglichkeiten; VDE [TAKEUCHI95] Takeuchi, A., Naito, T.; Situated facial displays: Towards social interaction in: Proceedings of CHI-95; 1995 [TENNANT83] Tennant, H.R., Ross, K.M., Thompson, C.W. (1983); Usable natural language interfaces through menu-based natural language understanding in: Proceedings of CHI '83: Human Factors in Computing Systems
  • 89.
    Literaturverzeichnis 89 [TUR02] Tur, G., Wright,J., Gorin, A., Riccardi, G., Hakkani-Tür, D. (2002); Improving Spoken Language Understanding Using Word Confusion Networks in: Proceedings of International Con-ference on Spoken Language Processing (ICSLP); 2002 [TURING50] Turing, A. (1650); Computing Machinery and Intelligence in: Mind, Vol 59, No. 236; S. 433-460 [VARY98] Vary P., Heute, U. (1998); Hess, W.; Digitale Sprachsignalverarbeitung; Stuttgart; Teubner; 1998 [WACHS98] Wachsmuth, I. (1998); Experten- und Agentensystemtechniken fürintuitivere Benutzungsschnittstellen in: Mester, J., Perl, J. (Hrsg.) (1998); Informatik im Sport; Köln: Sport und Buch Strauss; 1998; S. 181-191 [WALKER89] Walker, M., Whittaker, S. (1989); When Natural Language is Better than Menus: A Field Study; Technical Report, Hewlett Packard Laboratories; Bristol; England [WECHSLER91] Wechsler, D. (1991); Hamburg-Wechsler-Intelligenztest für Erwachsene – (HAWIE-R); Bern, Stuttgart, Toronto; Huber [WEIZENBAUM66] Weizenbaum, J. (1966); Eliza: A Computer Program for the Study of Natural Language Communication between Man and Machine in: Communications of the ACM, Col 9, No. 1; 1966; S. 36-45 [XUEDONG] Huang, X. et al; Speech-enabled Agents; http://research.microsoft.com/srg/slu.aspx [YOON] Yoon, S., Kim, J.; Evaluation of ASR Sensors; http://imis.ncat.edu/Evaluation%20of%20ASR%20Sensors.htm [ZWEIG99] Zweig, G., Russel, S. (1999); Probabilistic Modeling with Bayesian Networks for Automatic Speech Recognition in: International Conference on Speech and Language Processing; 1999
  • 90.
    Anhang 90 7 Anhang 7.1 Datenaus SPSS Siehe Abschnitt 5.3.7 Wunsch Kommunikation mit Computer Abbildung 11 Wunsch Kommunikation mit Computer Anzahl der Nennungen von N=27 herkömmlich (Maus / Tastatur) 13 Sprachausgabe 25 Spracherkennung 13 Assistent 4 Blickinteraktion 9 Pop up 5 Tamagochi 1 Emotions- / Motivationserkennung 6 Emotionsäußerung 3 Tabelle 9 – Wunsch Kommunikation Computer Sprachsoftwareerfahrung Sprachsoftwareerfahrung 2 7,4 6 22,2 1 3,7 18 66,7 27 100,0 gute schlechte wenig keine Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 10 - Sprachsoftwareerfahrung siehe Abschnitt 5.4.2.1 Sprachinteraktionshäufigkeit zwischen den Versuchspersonen siehe Abbildung 14 Kategorisierung der Interaktionshäufigkeit Sprache 14 51,9 3 11,1 8 29,6 2 7,4 27 100,0 gering mittel häufig aussergewöhnlich häufig Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 11 - Kategorisierung der Interaktionshäufigkeit Sprache Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen siehe Abbildung 15 27 27 27 10,59 13,63 15,37 10,17 13,18 14,50 31 37 55 0 0 0 31 37 55 N Mittelwert Standardabweichung Spannweite Minimum Maximum Sprachinteraktion in der leichten Aufgabe-CAD-raum Sprachinteraktion in der mittleren Aufgabe-CAD-Raum Sprachinteraktion in der schweren Aufgabe-CAD-raum Tabelle 12 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen Siehe Abschnitt 5.4.2.2 Sprachinteraktion im Vergleich zu den anderen Modalitäten Ränge 1,37 1,74 2,89 cad alle Blickinteraktionshäufigkeit cad alle Sprachinteraktionshäufigkeit cad alle Mausinteraktionshäufigkeit Mittlerer Rang Statistik für Testa 27 33,852 2 ,000 N Chi-Quadrat df Asymptotische Signifikanz Friedman-Testa. Tabelle 13 - Sprachinteraktion im Vergleich zu den anderen Modalitäten
  • 91.
    Anhang 91 Sprachinteraktion über dieZeit Ränge 2,15 2,26 1,59 cad 1.Aufgabe Sprachinteraktionshäufigkeit cad 2.Aufgabe Sprachinteraktionshäufigkeit cad 3.Aufgabe Sprachinteraktionshäufigkeit Mittlerer Rang Statistik für Testa 27 8,360 2 ,015 N Chi-Quadrat df Asymptotische Signifikanz Friedman-Testa. Tabelle 14 - Sprachinteraktion über die Zeit Zusammenhang zwischen Sprachinteraktion und Leistung Korrelationen 1,000 ,114 , ,423 27 27 ,114 1,000 ,423 , 27 27 Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N cad alle Sprachinteraktionshäufigkeit cad alle Aufgaben Leistung Kendall-Tau-b cad alle Sprachinterakti onshäufigkeit cad alle Aufgaben Leistung Tabelle 15 - Zusammenhang zwischen Sprachinteraktion und Leistung Siehe Abschnitt 5.4.2.3 Sprachinteraktion über die Aufgabenschwierigkeit (Expertenrating) Ränge 1,61 2,20 2,19 Sprachinteraktion in der leichten Aufgabe-CAD-raum Sprachinteraktion in der mittleren Aufgabe-CAD-Raum Sprachinteraktion in der schweren Aufgabe-CAD-raum Mittlerer Rang Statistik für Testa 27 7,356 2 ,025 N Chi-Quadrat df Asymptotische Signifikanz Friedman-Testa. Tabelle 16 - Sprachinteraktion über die Aufgabenschwierigkeit (Expertenrating) Sprachinteraktionshäufigkeit zwischen Versuchspersonen Kategorisierung der Interaktionshäufigkeit Sprache 14 6,8 7,3 3 6,8 -3,8 8 6,8 1,3 2 6,8 -4,8 27 gering mittel häufig aussergewöhnlich häufig Gesamt Beobachtetes N Erwartete Anzahl Residuum Statistik für Test 13,444 3 ,004 Chi-Quadrat a df Asymptotische Signifikanz Kategorisierung der Interaktionshäu figkeit Sprache Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 6,8. a. Tabelle 17 - Sprachinteraktionshäufigkeit zwischen Versuchspersonen Sprachinteraktionshäufigkeit im Bezug zur Vorbefragung Cad_Spache_Gruppenbildung * Wunsch Computer Werkzeug oder Kommunikation ? Kreuztabelle Anzahl 7 7 14 2 1 3 8 8 1 1 2 10 17 27 gering mittel häufig sehr häufig Cad_Spache_Gruppenbildung Gesamt Kommunika tionsmittel Werkzeug Wunsch Computer Werkzeug oder Kommunikation ? Gesamt
  • 92.
    Anhang 92 Chi-Quadrat-Tests 6,988a 3 ,072 ,b 9,5943 ,022 ,038 7,670 ,032 2,509 c 1 ,113 ,139 ,080 ,045 27 Chi-Quadrat nach Pearson Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Punkt-Wahrsc heinlichkeit 5 Zellen (62,5%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,74.a. Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b. Die standardisierte Statistik ist 1,584.c. Tabelle 18 - Sprachinteraktionshäufigkeit und Wunsch Computer Werkzeug oder Kommunikationsmittel? Siehe Abschnitt 5.4.2.4 Funktionalität der Sprachinteraktion Sprachinteraktion_Funktionalität 1 3,7 25 92,6 1 3,7 27 100,0 0 hilfreich wenig funktional Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 19 - Funktionalität der Sprachinteraktion Reaktionszeiten der Sprachinteraktion Sprachinteraktion_Reaktionszeiten 1 3,7 17 63,0 9 33,3 27 100,0 0 zu langsam o.k. Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 20 - Reaktionszeiten der Sprachinteraktion Qualität der Sprachinteraktion Sprachinteraktion_Qualität 1 3,7 17 63,0 9 33,3 27 100,0 0 gut schlecht Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 21 - Qualität der Sprachinteraktion Bevorzugte Interaktion Siehe Abbildung 16. Interaktion_bevorzugt 3 11,1 2 7,4 13 48,1 9 33,3 27 100,0 Blick&Maus Maus alles kombiniert Sprache&Maus Gesamt Gültig Häufigkeit Gültige Prozente Tabelle 22 - Bevorzugte Interaktion siehe Abschnitt 5.4.2.5. Anwesenheit des Avatars gewünscht? Siehe Abbildung 17. Anwesenheit 6 14,0 3 7,0 9 20,9 22 51,2 40 93,0 3 7,0 43 100,0 nein, überflüssig ja, hilfreich ja, nette Abwechslung ja, wenn er bestimmte Dinge kann Gesamt Gültig SystemFehlend Gesamt Häufigkeit Prozent Tabelle 23 - Anwesenheit des Avatars gewünscht? Siehe Abbildungen 18-21. Vorstellungen zum Avatar Anzahl der Nennungen von N = 39 Spracherkennung 33 Sprachausgabe 22 Mundbewegung 6 Gratulieren 10 Unterschiedliches Erscheinungsbild 12 Antworten auf Fragen 29 An Aufgaben / Termine erinnern 20 Emotionserkennung / -äußerung 5 Eigenleben / Tamagochi 4 Tabelle 24 - Vorstellungen zum Avatar – Fragebogenantworten Hedonistische Qualität des Avatars Siehe Abbildung 22.
  • 93.
    Anhang 93 Spass 7 16,3 14 32,6 818,6 10 23,3 39 90,7 4 9,3 43 100,0 sehr eher ja eher nicht gar nicht Gesamt Gültig SystemFehlend Gesamt Häufigkeit Prozent Tabelle 25 - Hedonistische Qualität des Avatars Kreuztabellen zu den verschiedenen Kategorien in Bezug auf Spaß Siehe Abbildung 23. Sprache Hatten Spaß Hatten keinen Spaß Total Spracherkennung 17 85,0 15 82,3 32 84,2 Sprachausgabe 10 50,0 12 66,7 22 57,9 Summenvariable 20 100,0 18 100,0 38 100,0 Total 20 52,6 18 47,4 38 100,0 Tabelle 26 - Spaß und Kategorie Sprache Siehe Abbildung 24. Menschliche Züge Hatten Spaß Hatten keinen Spaß Total Mundbewegung 4 20,0 2 11,1 6 15,8 Gratulieren 3 15,0 6 33,3 9 23,7 Erscheinungsbild 6 30,0 4 22,2 10 26,3 Summenvariable 20 100,0 18 100,0 38 100,0 Total 20 52,6 18 47,4 38 100,0 Tabelle 27 - Spaß und Kategorie Menschliche Züge Siehe Abbildung 25. Funktionalität Hatten Spaß Hatten keinen Total Spaß Antworten 14 70,0 14 77,8 28 73,7 Aufgaben/Termine 9 45,0 10 55,6 19 50,0 Summenvariable 20 100,0 18 100,0 38 100,0 Total 20 52,6 18 47,4 38 100,0 Tabelle 28 - Spaß und Kategorie Funktionalität Siehe Abbildung 26 Emotion Hatten Spaß Hatten keinen Spaß Total Eigenleben 3 15,0 1 5,6 4 10,5 Emotionserkennung /-äusserung 4 20,0 1 5,6 5 13,4 Summenvariable 20 100,0 18 100,0 38 100,0 Total 20 52,6 18 47,4 38 100,0 Tabelle 29 - Spaß und Kategorie Emotion Prozentangaben und Summen nach Antwortenden 38 gültige Fälle; 5 fehlende Fälle Kreuztabellen zu den verschiedenen Kategorien in Bezug auf die Ansprache Siehe Abbildung 27. Sprache Unpersonifizi ert Personifizie rt Total Spracherken nung 5 83,3 23 82,1 28 82,4 Sprachausga be 5 83,3 15 53,6 20 58,8 Summenvari able 6 100,0 28 100,0 34 100,0 Total 6 17,6 28 82,4 34 100,0 Tabelle 30 - Ansprache und Kategorie Sprache Siehe Abbildung 28.
  • 94.
    Anhang 94 Menschliche Züge Unpersonifizi ert Personifizie rt Total Mundbeweg ung 0 0,0 6 21,4 6 17,6 Gratulieren 1 16,7 8 28,6 9 26,5 Erscheinung sbild 1 16,7 9 32,1 10 29,4 Summenvari able 6 100,0 28 100,0 34 100,0 Total 6 17,6 28 82,4 34 100,0 Tabelle31 - Ansprache und Kategorie Menschliche Züge Siehe Abbildung 29. Funktionalit ät Unpersonifizi ert Personifizie rt Total Antworten 6 100,0 19 67,9 25 73,5 Aufgaben/Te rmine 3 50,0 14 50,0 17 50,0 Summenvari able 6 100,0 28 100,0 34 100,0 Total 6 17,6 28 82,4 34 100,0 Tabelle 32 - Ansprache und Kategorie Funktionalität Siehe Abbildung 30. Emotion Unpersonifiz iert Personifizier t Total Eigenleben 1 16,7 3 10,7 4 11,8 Emotionserk ennung / - äußerung 0 0,0 5 17,9 5 14,7 Summenvari able 6 100,0 28 100,0 34 100,0 Total 6 17,6 28 82,4 34 100,0 Tabelle 33 - Ansprache und Kategorie Emotion Prozentangaben und Summen nach Antwortenden 34 gültige Fälle; 9 fehlende Fälle siehe Abschnitt 5.4.2.6. Altersgruppe * spass<=2 (FILTER) Kreuztabelle Anzahl 2 3 5 5 8 13 11 4 15 3 3 6 21 18 39 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Altersgruppe Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests 3,952a 3 ,267 ,b 4,066 3 ,254 ,311 4,010 ,287 1,235 c 1 ,267 ,296 ,176 ,077 39 Chi-Quadrat nach Pearson Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Punkt-Wahrsc heinlichkeit 4 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,31.a. Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b. Die standardisierte Statistik ist -1,111.c. Tabelle 34 - Alter und Spaß am Avatar Altersgruppe * ansprach = 2 (FILTER) Kreuztabelle Anzahl 1 4 5 3 9 12 2 11 13 5 5 6 29 35 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Altersgruppe Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests 1,613a 3 ,656 ,b 2,408 3 ,492 ,650 1,508 ,804 1,035 c 1 ,309 ,342 ,222 ,118 35 Chi-Quadrat nach Pearson Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Punkt-Wahrsc heinlichkeit 6 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,86.a. Kann nicht berechnet werden, da zuwenig Arbeitsspeicher vorhanden ist.b. Die standardisierte Statistik ist 1,017.c. Tabelle 35 - Alter und Ansprache Avatar Ansprache des Avatars – Test auf Signifikanz ansprach = 2 (FILTER) 6 17,0 -11,0 28 17,0 11,0 34 unpersonifiziert personifiziert Gesamt Beobachtetes N Erwartete Anzahl Residuum
  • 95.
    Anhang 95 Statistik für Test 14,235 1 ,000 Chi-Quadrata df Asymptotische Signifikanz ansprach = 2 (FILTER) Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 17,0. a. Tabelle 36 - Ansprache des Avatars – Test auf Signifikanz Spaß mit Avatar – Test auf Signifikanz spass<=2 (FILTER) 21 19,5 1,5 18 19,5 -1,5 39 hatten Spass hatten keinen Spass Gesamt Beobachtetes N Erwartete Anzahl Residuum Statistik für Test ,231 1 ,631 Chi-Quadrat a df Asymptotische Signifikanz spass<=2 (FILTER) Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 19,5. a. Tabelle 37 - Spaß mit Avatar - Test auf Signifikanz Gruppenvergleiche zum Avatar in Bezug auf den Spaß/Ansprache & Geschlecht Geschlecht * spass<=2 (FILTER) Kreuztabelle Anzahl 14 11 25 7 7 14 21 18 39 männlich weiblich Geschlecht Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,130b 1 ,718 ,750 ,489 ,001 1 ,979 ,130 1 ,719 ,750 ,489 ,750 ,489 ,127 c 1 ,722 ,750 ,489 ,245 39 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Punkt-Wahrsc heinlichkeit Wird nur für eine 2x2-Tabelle berechneta. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 6,46.b. Die standardisierte Statistik ist ,356.c. Tabelle 38 - Geschlecht und Spaß am Avatar Geschlecht * ansprach = 2 (FILTER) Kreuztabelle Anzahl 4 17 21 2 12 14 6 29 35 männlich weiblich Geschlecht Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,134b 1 ,714 1,000 ,544 ,000 1 1,000 ,137 1 ,712 1,000 ,544 1,000 ,544 ,130 c 1 ,718 1,000 ,544 ,336 35 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Punkt-Wahrsc heinlichkeit Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,40.b. Die standardisierte Statistik ist ,361.c. Tabelle 39 - Geschlecht und Ansprache Avatar siehe Abschnitt 5.4.2.7 Test auf Signifikanzen in den Fragebogendaten Siehe Tabellen 6 und 7 Spracherkennung * spass<=2 (FILTER) Kreuztabelle Anzahl 17 15 32 3 3 6 20 18 38 Spracherkennung nichts angekreuzt Spracherkennung Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,020b 1 ,888 ,000 1 1,000 ,020 1 ,888 1,000 ,616 ,019 1 ,890 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,84.b. Tabelle 40 - Spracherkennung und Spaß am Avatar Sprachausgabe * spass<=2 (FILTER) Kreuztabelle Anzahl 10 12 22 10 6 16 20 18 38 Sprachausgabe nichts angekreuzt Sprachausgabe Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt
  • 96.
    Anhang 96 Chi-Quadrat-Tests 1,080b 1 ,299 ,504 1,478 1,087 1 ,297 ,342 ,239 1,051 1 ,305 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 7,58.b. Tabelle 41 - Sprachausgabe und Spaß am Avatar Ränge 20 19,65 393,00 18 19,33 348,00 38 20 18,00 360,00 18 21,17 381,00 38 spass<=2 (FILTER) hatten Spass hatten keinen Spass Gesamt hatten Spass hatten keinen Spass Gesamt Spracherkennung Sprachausgabe N Mittlerer Rang Rangsumme Statistik für Testb 177,000 150,000 348,000 360,000 -,139 -1,025 ,890 ,305 ,942 a ,393 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Spracherkennung Sprachausgabe Nicht für Bindungen korrigiert.a. Gruppenvariable: spass<=2 (FILTER)b. Tabelle 42 - Sprache und Spaß im Mann- Whitney-U-Test Mundbewegung * spass<=2 (FILTER) Kreuztabelle Anzahl 4 2 6 16 16 32 20 18 38 Mundbewegung nichts angekreuzt Mundbewegung Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,563b 1 ,453 ,093 1 ,761 ,574 1 ,449 ,663 ,384 ,548 1 ,459 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,84.b. Tabelle 43 - Mundbewegung und Spaß am Avatar Erscheinungsbild * spass<=2 (FILTER) Kreuztabelle Anzahl 6 4 10 14 14 28 20 18 38 Erscheinungsbild nichts angekreuzt Erscheinungsbild Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,296b 1 ,587 ,031 1 ,861 ,297 1 ,586 ,719 ,432 ,288 1 ,592 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 1 Zellen (25,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,74.b. Tabelle 44 - Erscheinungsbild und Spaß am Avatar Gratulieren * spass<=2 (FILTER) Kreuztabelle Anzahl 3 6 9 17 12 29 20 18 38 Gratulieren nichts angekreuzt Gratulieren Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests 1,762b 1 ,184 ,893 1 ,345 1,780 1 ,182 ,260 ,173 1,715 1 ,190 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,26.b. Tabelle 45 - Gratulieren und Spaß am Avatar Ränge 20 20,30 406,00 18 18,61 335,00 38 20 17,85 357,00 18 21,33 384,00 38 20 20,20 404,00 18 18,72 337,00 38 spass<=2 (FILTER) hatten Spass hatten keinen Spass Gesamt hatten Spass hatten keinen Spass Gesamt hatten Spass hatten keinen Spass Gesamt Mundbewegung Gratulieren Erscheinungsbild N Mittlerer Rang Rangsumme
  • 97.
    Anhang 97 Statistik für Testb 164,000147,000 166,000 335,000 357,000 337,000 -,740 -1,310 -,536 ,459 ,190 ,592 ,654 a ,346 a ,696 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Mundbewegung Gratulieren Erscheinungsbild Nicht für Bindungen korrigiert.a. Gruppenvariable: spass<=2 (FILTER)b. Tabelle 46 - Menschliche Züge und Spaß im Mann-Whitney-U-Test FUNKT_2 * spass<=2 (FILTER) Kreuztabelle Anzahl 14 14 28 6 4 10 20 18 38 Antworten nicht angekreuzt FUNKT_2 Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,296b 1 ,587 ,031 1 ,861 ,297 1 ,586 ,719 ,432 ,288 1 ,592 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 1 Zellen (25,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 4,74.b. Tabelle 47 - Antworten und Spaß am Avatar FUNKT_3 * spass<=2 (FILTER) Kreuztabelle Anzahl 9 10 19 11 8 19 20 18 38 Aufgaben / Termine nicht angekreuzt FUNKT_3 Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests ,422b 1 ,516 ,106 1 ,745 ,423 1 ,515 ,746 ,373 ,411 1 ,521 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 9,00.b. Tabelle 48 - An Aufgaben/Termine erinnern und Spaß am Avatar Ränge 20 18,80 376,00 18 20,28 365,00 38 20 18,55 371,00 18 20,56 370,00 38 spass<=2 (FILTER) hatten Spass hatten keinen Spass Gesamt hatten Spass hatten keinen Spass Gesamt Antworten Aufgaben / Termine N Mittlerer Rang Rangsumme Statistik für Testb 166,000 161,000 376,000 371,000 -,536 -,641 ,592 ,521 ,696 a ,593 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Antworten Aufgaben / Termine Nicht für Bindungen korrigiert.a. Gruppenvariable: spass<=2 (FILTER)b. Tabelle 49 - Funktionalität und Spaß im Mann-Whitney-U-Test Emotionen * spass<=2 (FILTER) Kreuztabelle Anzahl 4 1 5 16 17 33 20 18 38 Emotionen nichts angekreuzt Emotionen Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt Chi-Quadrat-Tests 1,730b 1 ,188 ,697 1 ,404 1,852 1 ,173 ,344 ,205 1,684 1 ,194 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,37.b. Tabelle 50 - Emotionsäußerung/-erkennung und Spaß am Avatar Eigenleben * spass<=2 (FILTER) Kreuztabelle Anzahl 3 1 4 17 17 34 20 18 38 Eigenleben nichts angekreuzt Eigenleben Gesamt hatten Spass hatten keinen Spass spass<=2 (FILTER) Gesamt
  • 98.
    Anhang 98 Chi-Quadrat-Tests ,897b 1 ,344 ,175 1,676 ,941 1 ,332 ,606 ,344 ,874 1 ,350 38 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,89.b. Tabelle 51 - Eigenleben und Spaß am Avatar Ränge 20 20,35 407,00 18 18,56 334,00 38 20 20,80 416,00 18 18,06 325,00 38 spass<=2 (FILTER) hatten Spass hatten keinen Spass Gesamt hatten Spass hatten keinen Spass Gesamt Eigenleben Emotionen N Mittlerer Rang Rangsumme Statistik für Testb 163,000 154,000 334,000 325,000 -,935 -1,298 ,350 ,194 ,633 a ,460 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Eigenleben Emotionen Nicht für Bindungen korrigiert.a. Gruppenvariable: spass<=2 (FILTER)b. Tabelle 52 - Emotionen und Spaß im Mann- Whitney-U-Test Spracherkennung * ansprach = 2 (FILTER) Kreuztabelle Anzahl 5 23 28 1 5 6 6 28 34 Spracherkennung nichts angekreuzt Spracherkennung Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,005b 1 ,945 ,000 1 1,000 ,005 1 ,944 1,000 ,719 ,005 1 ,945 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 3 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,06.b. Tabelle 53 - Spracherkennung und Ansprache Avatar Sprachausgabe * ansprach = 2 (FILTER) Kreuztabelle Anzahl 5 15 20 1 13 14 6 28 34 Sprachausgabe nichts angekreuzt Sprachausgabe Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests 1,807b 1 ,179 ,787 1 ,375 1,990 1 ,158 ,364 ,190 1,754 1 ,185 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,47.b. Tabelle 54 - Sprachausgabe und Ansprache Avatar Ränge 6 17,67 106,00 28 17,46 489,00 34 6 21,67 130,00 28 16,61 465,00 34 ansprach = 2 (FILTER) unpersonifiziert personifiziert Gesamt unpersonifiziert personifiziert Gesamt Spracherkennung Sprachausgabe N Mittlerer Rang Rangsumme Statistik für Testb 83,000 59,000 489,000 465,000 -,068 -1,324 ,945 ,185 ,982 a ,276 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Spracherkennung Sprachausgabe Nicht für Bindungen korrigiert.a. Gruppenvariable: ansprach = 2 (FILTER)b. Tabelle 55 -Sprache und Ansprache im Mann-Whitney-U-Test Mundbewegung * ansprach = 2 (FILTER) Kreuztabelle Anzahl 6 6 6 22 28 6 28 34 Mundbewegung nichts angekreuzt Mundbewegung Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt
  • 99.
    Anhang 99 Chi-Quadrat-Tests 1,561b 1 ,211 ,435 1,510 2,591 1 ,107 ,562 ,280 1,515 1 ,218 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 3 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,06.b. Tabelle 56 - Mundbewegung und Ansprache Avatar Gratulieren * ansprach = 2 (FILTER) Kreuztabelle Anzahl 1 8 9 5 20 25 6 28 34 Gratulieren nichts angekreuzt Gratulieren Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,360b 1 ,549 ,008 1 ,928 ,389 1 ,533 1,000 ,487 ,349 1 ,555 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,59.b. Tabelle 57 - Gratulieren und Ansprache Avatar Erscheinungsbild * ansprach = 2 (FILTER) Kreuztabelle Anzahl 1 9 10 5 19 24 6 28 34 Erscheinungsbild nichts angekreuzt Erscheinungsbild Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,570b 1 ,450 ,068 1 ,794 ,623 1 ,430 ,644 ,416 ,553 1 ,457 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,76.b. Tabelle 58 - Erscheinungsbild und Ansprache Avatar Ränge 6 14,50 87,00 28 18,14 508,00 34 6 15,83 95,00 28 17,86 500,00 34 6 15,33 92,00 28 17,96 503,00 34 ansprach = 2 (FILTER) unpersonifiziert personifiziert Gesamt unpersonifiziert personifiziert Gesamt unpersonifiziert personifiziert Gesamt Mundbewegung Gratulieren Erscheinungsbild N Mittlerer Rang Rangsumme Statistik für Testb 66,000 74,000 71,000 87,000 95,000 92,000 -1,231 -,591 -,744 ,218 ,555 ,457 ,439 a ,676 a ,581 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Mundbewegung Gratulieren Erscheinungsbild Nicht für Bindungen korrigiert.a. Gruppenvariable: ansprach = 2 (FILTER)b. Tabelle 59 - Menschliche Züge und Ansprache im Mann-Whitney-U-Test FUNKT_2 * ansprach = 2 (FILTER) Kreuztabelle Anzahl 6 19 25 9 9 6 28 34 Antworten nicht angekreuzt FUNKT_2 Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests 2,623b 1 ,105 1,231 1 ,267 4,134 1 ,042 ,162 ,132 2,546 1 ,111 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,59.b. Tabelle 60 - Antworten und Ansprache Avatar FUNKT_3 * ansprach = 2 (FILTER) Kreuztabelle Anzahl 3 14 17 3 14 17 6 28 34 Aufgaben / Termine nicht angekreuzt FUNKT_3 Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,000b 1 1,000 ,000 1 1,000 ,000 1 1,000 1,000 ,672 ,000 1 1,000 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 3,00.b. Tabelle 61 - An Aufgaben/Termine erinnern und Ansprache Avatar
  • 100.
    Anhang 100 Ränge 6 22,00 132,00 2816,54 463,00 34 6 17,50 105,00 28 17,50 490,00 34 ansprach = 2 (FILTER) unpersonifiziert personifiziert Gesamt unpersonifiziert personifiziert Gesamt Antworten Aufgaben / Termine N Mittlerer Rang Rangsumme Statistik für Testb 57,000 84,000 463,000 490,000 -1,596 ,000 ,111 1,000 ,238 a 1,000 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Antworten Aufgaben / Termine Nicht für Bindungen korrigiert.a. Gruppenvariable: ansprach = 2 (FILTER)b. Tabelle 62 - Funktionalität und Ansprache im Mann-Whitney-U-Test Emotionen * ansprach = 2 (FILTER) Kreuztabelle Anzahl 5 5 6 23 29 6 28 34 Emotionen nichts angekreuzt Emotionen Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests 1,256b 1 ,262 ,236 1 ,627 2,119 1 ,146 ,559 ,353 1,219 1 ,270 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,88.b. Tabelle 63 - Emotionserkennung/-äußerung und Ansprache Avatar Eigenleben * ansprach = 2 (FILTER) Kreuztabelle Anzahl 1 3 4 5 25 30 6 28 34 Eigenleben nichts angekreuzt Eigenleben Gesamt unpersonifiziert personifiziert ansprach = 2 (FILTER) Gesamt Chi-Quadrat-Tests ,169b 1 ,681 ,000 1 1,000 ,156 1 ,693 ,559 ,559 ,164 1 ,686 34 Chi-Quadrat nach Pearson Kontinuitätskorrektur a Likelihood-Quotient Exakter Test nach Fisher Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert df Asymptotische Signifikanz (2-seitig) Exakte Signifikanz (2-seitig) Exakte Signifikanz (1-seitig) Wird nur für eine 2x2-Tabelle berechneta. 2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist ,71.b. Tabelle 64 - Eigenleben und Ansprache Avatar Ränge 6 18,33 110,00 28 17,32 485,00 34 6 15,00 90,00 28 18,04 505,00 34 ansprach = 2 (FILTER) unpersonifiziert personifiziert Gesamt unpersonifiziert personifiziert Gesamt Eigenleben Emotionen N Mittlerer Rang Rangsumme Statistik für Testb 79,000 69,000 485,000 90,000 -,405 -1,104 ,686 ,270 ,843 a ,522 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Eigenleben Emotionen Nicht für Bindungen korrigiert.a. Gruppenvariable: ansprach = 2 (FILTER)b. Tabelle 65 - Emotionen und Ansprache im Mann-Whitney-U-Test Ränge 19 19,92 378,50 20 20,08 401,50 39 19 21,32 405,00 20 18,75 375,00 39 alter_mediansplit bis einsch. 27 über 27 Gesamt bis einsch. 27 über 27 Gesamt Spracherkennung Sprachausgabe N Mittlerer Rang Rangsumme Statistik für Testb 188,500 165,000 378,500 375,000 -,067 -,818 ,946 ,414 ,967 a ,496 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Spracherkennung Sprachausgabe Nicht für Bindungen korrigiert.a. Gruppenvariable: alter_mediansplitb. Tabelle 66 - Sprache und Altersgruppen im Median-Split im Mann-Whitney-U
  • 101.
    Anhang 101 Ränge 19 22,13 420,50 2017,98 359,50 39 19 20,63 392,00 20 19,40 388,00 39 19 19,63 373,00 20 20,35 407,00 39 alter_mediansplit bis einsch. 27 über 27 Gesamt bis einsch. 27 über 27 Gesamt bis einsch. 27 über 27 Gesamt Mundbewegung Gratulieren Erscheinungsbild N Mittlerer Rang Rangsumme Statistik für Testb 149,500 178,000 183,000 359,500 388,000 373,000 -1,820 -,462 -,252 ,069 ,644 ,801 ,258 a ,749 a ,857 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Mundbewegung Gratulieren Erscheinungsbild Nicht für Bindungen korrigiert.a. Gruppenvariable: alter_mediansplitb. Tabelle 67 - Menschliche Züge und Altersgruppen im Median-Split im Mann- Whitney-U Ränge 19 20,89 397,00 20 19,15 383,00 39 19 23,34 443,50 20 16,83 336,50 39 alter_mediansplit bis einsch. 27 über 27 Gesamt bis einsch. 27 über 27 Gesamt Antworten Aufgaben / Termine N Mittlerer Rang Rangsumme Statistik für Testb 173,000 126,500 383,000 336,500 -,631 -2,060 ,528 ,039 ,647 a ,074 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Antworten Aufgaben / Termine Nicht für Bindungen korrigiert.a. Gruppenvariable: alter_mediansplitb. Tabelle 68 - Funktionalität und Altersgruppen im Median-Split im Mann- Whitney-U Ränge 19 20,05 381,00 20 19,95 399,00 39 19 20,58 391,00 20 19,45 389,00 39 alter_mediansplit bis einsch. 27 über 27 Gesamt bis einsch. 27 über 27 Gesamt Eigenleben Emotionen N Mittlerer Rang Rangsumme Statistik für Testb 189,000 179,000 399,000 389,000 -,053 -,534 ,957 ,594 ,989 a ,771 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Eigenleben Emotionen Nicht für Bindungen korrigiert.a. Gruppenvariable: alter_mediansplitb. Tabelle 69 - Emotionen und Altersgruppen im Median-Split im Mann-Whitney-U Ränge 5 15,20 14 21,61 15 20,40 5 19,10 39 5 20,70 14 21,54 15 18,10 5 20,70 39 Altersgruppe 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt Spracherkennung Sprachausgabe N Mittlerer Rang Statistik für Testa,b 3,106 ,959 3 3 ,376 ,811 Chi-Quadrat df Asymptotische Signifikanz Spracherkennung Sprachausgabe Kruskal-Wallis-Testa. Gruppenvariable: Altersgruppeb. Tabelle 70 - Sprache und Altersgruppen 1-4 im Mann-Whitney-U Ränge 5 24,80 14 21,18 15 18,30 5 17,00 39 5 23,30 14 19,68 15 19,40 5 19,40 39 5 26,20 14 17,29 15 21,00 5 18,40 39 Altersgruppe 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt Mundbewegung Gratulieren Erscheinungsbild N Mittlerer Rang
  • 102.
    Anhang 102 Statistik für Testa,b 4,389,911 4,089 3 3 3 ,222 ,823 ,252 Chi-Quadrat df Asymptotische Signifikanz Mundbewegung Gratulieren Erscheinungsbild Kruskal-Wallis-Testa. Gruppenvariable: Altersgruppeb. Tabelle 71 - Menschliche Züge und Altersgruppen 1-4 im Mann-Whitney-U Ränge 5 21,10 14 20,82 15 18,50 5 21,10 39 5 17,80 14 25,32 15 17,80 5 13,90 39 Altersgruppe 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt Antworten Aufgaben / Termine N Mittlerer Rang Statistik für Testa,b ,743 6,967 3 3 ,863 ,073 Chi-Quadrat df Asymptotische Signifikanz Antworten Aufgaben / Termine Kruskal-Wallis-Testa. Gruppenvariable: Altersgruppeb. Tabelle 72 - Funktionalität und Altersgruppen 1-4 im Mann-Whitney-U Ränge 5 18,00 14 20,79 15 20,60 5 18,00 39 5 21,40 14 20,29 15 18,80 5 21,40 39 Altersgruppe 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt 13-20 Jahre 21-28 Jahre 29-36 Jahre 37-43 Jahre Gesamt Eigenleben Emotionen N Mittlerer Rang Statistik für Testa,b 1,504 ,971 3 3 ,681 ,808 Chi-Quadrat df Asymptotische Signifikanz Eigenleben Emotionen Kruskal-Wallis-Testa. Gruppenvariable: Altersgruppeb. Tabelle 73 - Emotionen und Altersgruppen 1-4 im Mann-Whitney-U Ränge 24 20,56 493,50 15 19,10 286,50 39 24 19,56 469,50 15 20,70 310,50 39 Geschlecht männlich weiblich Gesamt männlich weiblich Gesamt Spracherkennung Sprachausgabe N Mittlerer Rang Rangsumme Statistik für Testb 166,500 169,500 286,500 469,500 -,623 -,353 ,533 ,724 ,700 a ,765 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Spracherkennung Sprachausgabe Nicht für Bindungen korrigiert.a. Gruppenvariable: Geschlechtb. Tabelle 74 - Sprache und Geschlecht im Mann-Whitney-U Ränge 24 20,25 486,00 15 19,60 294,00 39 24 18,75 450,00 15 22,00 330,00 39 24 19,38 465,00 15 21,00 315,00 39 Geschlecht männlich weiblich Gesamt männlich weiblich Gesamt männlich weiblich Gesamt Mundbewegung Gratulieren Erscheinungsbild N Mittlerer Rang Rangsumme Statistik für Testb 174,000 150,000 165,000 294,000 450,000 465,000 -,277 -1,186 -,555 ,782 ,235 ,579 ,875 a ,399 a ,679 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Mundbewegung Gratulieren Erscheinungsbild Nicht für Bindungen korrigiert.a. Gruppenvariable: Geschlechtb. Tabelle 75 – Menschliche Züge und Geschlecht im Mann-Whitney-U Ränge 24 21,75 522,00 15 17,20 258,00 39 24 19,75 474,00 15 20,40 306,00 39 Geschlecht männlich weiblich Gesamt männlich weiblich Gesamt Antworten Aufgaben / Termine N Mittlerer Rang Rangsumme
  • 103.
    Anhang 103 Statistik für Testb 138,000174,000 258,000 474,000 -1,603 -,200 ,109 ,841 ,234 a ,875 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Antworten Aufgaben / Termine Nicht für Bindungen korrigiert.a. Gruppenvariable: Geschlechtb. Tabelle 76 - Funktionalität und Geschlecht im Mann-Whitney-U Ränge 24 20,44 490,50 15 19,30 289,50 39 24 19,13 459,00 15 21,40 321,00 39 Geschlecht männlich weiblich Gesamt männlich weiblich Gesamt Eigenleben Emotionen N Mittlerer Rang Rangsumme Statistik für Testb 169,500 159,000 289,500 459,000 -,577 -1,047 ,564 ,295 ,765 a ,558 a Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) Exakte Signifikanz [2*(1-seitig Sig.)] Eigenleben Emotionen Nicht für Bindungen korrigiert.a. Gruppenvariable: Geschlechtb. Tabelle 77 - Emotionen und Geschlecht im Mann-Whitney-U
  • 104.
    Anhang 104 7.2 Abbildungsverzeichnis Abbildung 1- Multimodales Interface................................................................................7 Abbildung 2 - Sprachinteraktion zwischen Mensch und Maschine nach Vary et al. ,1998 ..9 Abbildung 3 - Kommunikation / technnisches Modell......................................................13 Abbildung 4 - Kommunikation nach Schulz von Thun.....................................................17 Abbildung 5 - Bayessche Netze / Wahrscheinlichkeiten...................................................23 Abbildung 6 - Agent im Microsoft Office : Karl Klammer...............................................25 Abbildung 7 - Agenten als Bindeglied in der Mensch-Maschine-Kommunikation (Wachsmuth)......................................................................................................26 Abbildung 8 - mUltimo3D ...............................................................................................35 Abbildung 9 - 3D-Display................................................................................................36 Abbildung 10- Screenshot des CAD-Raumes...................................................................37 Abbildung 11 - Wunsch Kommunikation mit Computer N=27.........................................44 Abbildung 12 - Screenshots der Konstruktionsaufgaben...................................................45 Abbildung 13 - Darstellung eines Avatars........................................................................46 Abbildung 14 - Sprachinteraktionshäufigkeit im Vergleich zwischen den Versuchspersonen ..............................................................................................49 Abbildung 15 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen.................49 Abbildung 16 - Bevorzugte Interaktion ............................................................................52 Abbildung 17 - Vorstellungen zum Avatar: Anwesenheit.................................................53 Abbildung 18 - Vorstellungen zum Avatar: Sprache.........................................................54 Abbildung 19 - Vorstellungen zum Avatar: Gesichtszüge ................................................55 Abbildung 20 - Vorstellungen zum Avatar: Funktionalität ...............................................55 Abbildung 21 - Vorstellungen zum Avatar: Emotionalität................................................56 Abbildung 22 - Antworten, auf die Frage, ob die VP Spaß an der Kommunikation mit dem Avatar hatten......................................................................................................57 Abbildung 23 - Spaßfaktor und Sprache (Angaben in Prozent).........................................58 Abbildung 24 - Spaßfaktor und menschliche Züge (Angaben in Prozent).........................58 Abbildung 25 - Spaßfaktor und Funktionalität (Angaben in Prozent)................................59 Abbildung 26 - Spaßfaktor und Emotionalität (Angaben in Prozent) ................................59 Abbildung 27 - Personifizierung und Sprache (Angaben in Prozent) ................................62 Abbildung 28 - Personifizierung und menschliche Züge (Angaben in Prozent).................62 Abbildung 29 - Personifikation und Funktionalität (Angaben in Prozent).........................63 Abbildung 30 - Personifikation und Emotionalität (Angaben in Prozent)..........................63
  • 105.
    Anhang 105 7.3 Tabellenverzeichnis Tabelle 1- Fehlerhäufigkeiten pro 100 Wörter.................................................................15 Tabelle 2 - Kategorienbildung Fragebogenantworten .......................................................53 Tabelle 3 - Formen der Ansprache ...................................................................................61 Tabelle 4 - Alter und Spaß ...............................................................................................64 Tabelle 5 - Alter und Ansprache.......................................................................................64 Tabelle 6 - Mehrfachantworten in Beziehung zur Gruppe Spaß........................................66 Tabelle 7 - Mehrfachantworten in Beziehung zur Gruppe Ansprache ..............................67 Tabelle 8 - Mehrfachantworten in Beziehung zu Altersgruppen und Geschlecht...............68 Tabelle 9 – Wunsch Kommunikation Computer...............................................................90 Tabelle 10 - Sprachsoftwareerfahrung..............................................................................90 Tabelle 11 - Kategorisierung der Interaktionshäufigkeit Sprache......................................90 Tabelle 12 - Sprachinteraktionshäufigkeit in den drei Schwierigkeitsstufen......................90 Tabelle 13 - Sprachinteraktion im Vergleich zu den anderen Modalitäten ........................90 Tabelle 14 - Sprachinteraktion über die Zeit.....................................................................91 Tabelle 15 - Zusammenhang zwischen Sprachinteraktion und Leistung ...........................91 Tabelle 16 - Sprachinteraktion über die Aufgabenschwierigkeit (Expertenrating).............91 Tabelle 17 - Sprachinteraktionshäufigkeit zwischen Versuchspersonen............................91 Tabelle 18 - Sprachinteraktionshäufigkeit und Wunsch Computer Werkzeug oder Kommunikationsmittel? .....................................................................................92 Tabelle 19 - Funktionalität der Sprachinteraktion.............................................................92 Tabelle 20 - Reaktionszeiten der Sprachinteraktion..........................................................92 Tabelle 21 - Qualität der Sprachinteraktion......................................................................92 Tabelle 22 - Bevorzugte Interaktion .................................................................................92 Tabelle 23 - Anwesenheit des Avatars gewünscht?...........................................................92 Tabelle 24 - Vorstellungen zum Avatar – Fragebogenantworten.......................................92 Tabelle 25 - Hedonistische Qualität des Avatars...............................................................93 Tabelle 26 - Spaß und Kategorie Sprache.........................................................................93 Tabelle 27 - Spaß und Kategorie Menschliche Züge.........................................................93 Tabelle 28 - Spaß und Kategorie Funktionalität................................................................93 Tabelle 29 - Spaß und Kategorie Emotion........................................................................93 Tabelle 30 - Ansprache und Kategorie Sprache................................................................93 Tabelle 31 - Ansprache und Kategorie Menschliche Züge................................................94 Tabelle 32 - Ansprache und Kategorie Funktionalität.......................................................94 Tabelle 33 - Ansprache und Kategorie Emotion ...............................................................94 Tabelle 34 - Alter und Spaß am Avatar ............................................................................94 Tabelle 35 - Alter und Ansprache Avatar .........................................................................94 Tabelle 36 - Ansprache des Avatars – Test auf Signifikanz ..............................................95 Tabelle 37 - Spaß mit Avatar - Test auf Signifikanz.........................................................95 Tabelle 38 - Geschlecht und Spaß am Avatar ...................................................................95 Tabelle 39 - Geschlecht und Ansprache Avatar................................................................95 Tabelle 40 - Spracherkennung und Spaß am Avatar .........................................................95 Tabelle 41 - Sprachausgabe und Spaß am Avatar .............................................................96 Tabelle 42 - Sprache und Spaß im Mann-Whitney-U-Test ...............................................96 Tabelle 43 - Mundbewegung und Spaß am Avatar ...........................................................96 Tabelle 44 - Erscheinungsbild und Spaß am Avatar..........................................................96 Tabelle 45 - Gratulieren und Spaß am Avatar...................................................................96 Tabelle 46 - Menschliche Züge und Spaß im Mann-Whitney-U-Test ...............................97 Tabelle 47 - Antworten und Spaß am Avatar....................................................................97
  • 106.
    Anhang 106 Tabelle 48 -An Aufgaben/Termine erinnern und Spaß am Avatar....................................97 Tabelle 49 - Funktionalität und Spaß im Mann-Whitney-U-Test ......................................97 Tabelle 50 - Emotionsäußerung/-erkennung und Spaß am Avatar.....................................97 Tabelle 51 - Eigenleben und Spaß am Avatar...................................................................98 Tabelle 52 - Emotionen und Spaß im Mann-Whitney-U-Test...........................................98 Tabelle 53 - Spracherkennung und Ansprache Avatar ......................................................98 Tabelle 54 - Sprachausgabe und Ansprache Avatar..........................................................98 Tabelle 55 -Sprache und Ansprache im Mann-Whitney-U-Test........................................98 Tabelle 56 - Mundbewegung und Ansprache Avatar ........................................................99 Tabelle 57 - Gratulieren und Ansprache Avatar................................................................99 Tabelle 58 - Erscheinungsbild und Ansprache Avatar ......................................................99 Tabelle 59 - Menschliche Züge und Ansprache im Mann-Whitney-U-Test.......................99 Tabelle 60 - Antworten und Ansprache Avatar.................................................................99 Tabelle 61 - An Aufgaben/Termine erinnern und Ansprache Avatar ................................99 Tabelle 62 - Funktionalität und Ansprache im Mann-Whitney-U-Test............................100 Tabelle 63 - Emotionserkennung/-äußerung und Ansprache Avatar................................100 Tabelle 64 - Eigenleben und Ansprache Avatar..............................................................100 Tabelle 65 - Emotionen und Ansprache im Mann-Whitney-U-Test ................................100 Tabelle 66 - Sprache und Altersgruppen im Median-Split im Mann-Whitney-U.............100 Tabelle 67 - Menschliche Züge und Altersgruppen im Median-Split im Mann-Whitney-U .........................................................................................................................101 Tabelle 68 - Funktionalität und Altersgruppen im Median-Split im Mann-Whitney-U....101 Tabelle 69 - Emotionen und Altersgruppen im Median-Split im Mann-Whitney-U ........101 Tabelle 70 - Sprache und Altersgruppen 1-4 im Mann-Whitney-U................................101 Tabelle 71 - Menschliche Züge und Altersgruppen 1-4 im Mann-Whitney-U.................102 Tabelle 72 - Funktionalität und Altersgruppen 1-4 im Mann-Whitney-U........................102 Tabelle 73 - Emotionen und Altersgruppen 1-4 im Mann-Whitney-U ............................102 Tabelle 74 - Sprache und Geschlecht im Mann-Whitney-U............................................102 Tabelle 75 – Menschliche Züge und Geschlecht im Mann-Whitney-U ...........................102 Tabelle 76 - Funktionalität und Geschlecht im Mann-Whitney-U...................................103 Tabelle 77 - Emotionen und Geschlecht im Mann-Whitney-U........................................103
  • 107.
    Danksagung 107 8 Danksagung Ich möchtemich bei Professor Hartmut Wandke und bei Dr.Ing. Katharina Seifert für die Betreuung meiner Diplomarbeit bedanken. Des Weiteren danke ich Carsten Orthbandt für die fachlichen Anregungen im theoretischen Teil und die Hilfe beim Layout und Susanne Briest für die Unterstützung bei den erforderlichen Nachversuchen zum Avatar. Mein Dank gilt außerdem den folgenden Personen: Alexander Laurich, Marlies Fritsch, Martin Schwarz, Nadine Böhmer, David Salz und meinen Eltern.