Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung

Paul Marx | Grundlagen der Umfrageforschung
Grundlagen der Umfrageforschung
Kapitel 2: Messung und Skalierung
1
Einführungskurs

2.Umfrage: Messung und Skalierung
2.1 Einführung
2.2 Komparative Skalen
2.3 Nicht-komparative Skalen
2.4 Latente Konstrukte
2.5 Reliabilität und Validität
2

2.1 Einführung
3

Messung
Messung –
Zuweisung von Zahlen oder anderen Symbolen zu
Charakteristiken von Objekten nach bestimmter
vorgegebener Regel.
- Eins-zu-eins-Entsprechung der Zahlen und
zu messender Größen
- Standardisierte Regeln für die Zuweisung
der Zahlen
- Regeln dürfen nicht vom Objekt zum Objekt
oder in der Zeit variieren
4

Skalierung
Skalierung –
beinhaltet ein Kontinuum, auf dem die
Messobjekte angeordnet werden.
5
Extrem
lecker
Extrem
übel

Grundlegende Typen von Skalen
6
•Zahlen dienen lediglich zur Klassifizierung der Objekte
•nicht-kontinuierliche SkalaNominal
•Zahlen geben die relativen Positionen der Objekte an
•aber nicht die Größe der Differenz zwischen ihnenOrdinal
•Unterschiede zwischen Objekten können verglichen
werden
•Nullpunkt willkürlich
Intervall
quasi-metrisch
•Nullpunkt eindeutig festgesetzt
•Verhältnisse der Skalenwerte können berechnet werden
Metrisch
auch Ratio
oder
1 2 1 2 1 2
NICHT
3
1
2
1 2 3
Meine Präferenz für Snacks
mehrweniger
0 25 50 75 100
Gewicht(Kg)

Wichtige Skalen in Marketing
Skala Beschreibung Gängige Beispiele
Beispiele aus
Marketing
Statistische Kennzahlen
Deskriptive Induktive
Nominalskala Zuweisung von Zahlen zur
Identifikation und/oder
Klassifikation von Objekten
Reisepass-Nummer,
Nummer vom
Fußballspieler,
Geschlecht
Brand, Geschlecht,
Beruf, Typ des Lokals
Prozentwerte,
Mode
Chi-Quadrat,
Binomialtest
Ordinalskala Zahlen beschreiben die
Rangordnung der Objekte,
jedoch nicht den Ausmaß der
Unterschiede zwischen ihnen
Schulnoten, Position
der Läufer im
Marathonlauf
Präferenzranking,
Marktposition, soziale
Klasse
Perzentile, Median Rangkorrelations-
koeffizient
(Spearmans 𝜌),
Friedman ANOVA
Intervallskala Ermöglicht den Vergleich der
Unterschiede zwischen
Objekten: Nullpunkt
willkürlich
Temperatur
(Fahrenheit, Celsius)
Einstellungen,
Meinungen, Kauf-
absicht, Kunden-
zufriedenheit, Index-
Zahlen
Range,
Durchschnitt,
Standard-
abweichung
Produkt-moment
Korrelation
(Pearsons r), t-tests,
ANOVA,
Regressions- und
Faktorenanalyse
Metrische Skala Nullpunkt ist eindeutig
festgelegt; Ermöglicht den
Vergleich der Abstände
zwischen den Messwerten
und deren Verhältnisse
Länge, Gewicht, Zeit,
Geld
Alter, Umsatz,
Einkommen, Kosten,
Marktanteil, Umsatz
Geometrisches
Mittel,
Harmonisches
Mittel
Variations-
koeffizient
7

Typologie von Skalierungsverfahren
Skalierung
Komparative
Skalen
Paarweise
Vergleiche
Rangordnungs-
verfahren
Konstant-
summen-
verfahren
Q-Sortierung
und andere
Nicht-
komparative
Skalen
Kontinuierliche
Ratingskalen
Diskrete
Ratingskalen
Likert-Skala
Semantisches
Differential
Stapel-Skala
8

Vergleich von Skalierungsverfahren
9
Komparative
Skalen
• Der Messwert von einem Objekt
ergibt sich aus dem direkten
Vergleich mit einem anderen
Objekt.
• Daten können nur als relative
Positionen interpretiert werden,
• haben nur ordinales Skalenniveau
(Rangordnung).
Nicht-Komparative
Skalen
• Jedes Objekt wird isoliert
beurteilt (also unabhängig von
anderen Objekten).
• Messergebnisse werden i.d.R. als
Intervallskaliert oder metrisch
gesehen.
Die Wahl zwischen den
Skalierungsverfahren hängt von
folgenden Überlegungen ab:
- Natur der Forschungsfrage
- Variabilität des Messwertes in
der Grundgesamtheit
- Methoden der Datenanalyse

2.1 Einführung
10

Skalierung
Komparative
Skalen
Paarweise
Vergleiche
Rangordnungs-
verfahren
Konstant-
summen-
verfahren
Q-Sortierung
und andere
Nicht-
komparative
Skalen
Kontinuierliche
Ratingskalen
Diskrete
Ratingskalen
Likert-Skala
Semantisches
Differential
Stapel-Skala
11

Vor- und Nachteile von komparativen Skalen
12
+ Geringe unterschiede zwischen
Objekten können regestiert werden
+ Dieselben bekannte Referenzpunkte
für alle Probanden
+ Einfach zu verstehen und zu nutzen
+ Benötigen weniger theoretischen
Annahmen
+ Reduzieren tendenziell Halo- und
Carryover-Effekte
Vorteile
- Haben lediglich ordinales bzw.
Rangordnungs-Skalenniveau ⟶
beschränkte Auswahl an statistischen
Methoden zur Datenanalyse
- Daten können nur als relative
Positionen interpretiert werden
- Unmöglich über das Set der
bewerteten Objekte hinaus zu
generalisieren
Nachteile

Komparative Skalen: Paarweise Vergleiche
13
Probanden wählen aus jeweils zwei
Objekten dasjenige aus, das nach ihrer
Meinung ein bestimmten Kriterium am
besten erfüllt
Im Folgenden werden Ihnen zehn Paaren von Biermarken
vorgelegt. In jedem Paar, wählen Sie bitte das Bier aus, welches
Sie eher kaufen würden.
Warsteiner Köstritzer Oerttinger Becks Paulaner
Warsteiner
Köstritzer
Oettinger
Becks
Paulaner
#Male
Präferiert
3 2 0 4 1
Paarweise Vergleiche

Komparative Skalen: Paarweise Vergleiche
14

Paarweise Vergleiche: Vor- und Nachteile
15
+ Direkter Vergleich und eindeutige Auswahl
+ Gut für Blindtests, Produktvergleiche und
MDS
+ Ermöglicht die Berechnung vom
prozentuellen Anteil der Probanden, die ein
Objekt dem anderen bevorzugen
+ Rangordnung von Objekten kann geschätzt
werden (unter Annahme der Transitivität)
+ Mögliche Erweiterungen: Alternative „keine
Unterschiede“, abgestufter Vergleich
Vorteile
- Anzahl von Vergleiche wächst schneller als
Anzahl der Objekte
(für 𝑛 Objekte 𝑛(𝑛 − 1)/2 Vergleiche)
- Reihenfolgeeffekte möglich (Einfluss der
Präsentationsreihenfolge auf die
Antworten)
- Aus Präferenz von A über B folgt es nicht,
dass der Proband A mag
- Wenig realistisch für die realen
Wahlsituationen mit mehreren Alternativen
- Verletzung der Transitivitätsannahme
möglich
Nachteile

>
>
Ordinale Daten:
Verletzung der Transitivitätsannahme in paarweisen Vergleichen
16

Ordinale Daten:
Verletzung der Transitivitätsannahme bei Aggregation von Präferenzen
17
Proband #1
Proband #2
Proband #3
Stimmenzählung
Ergebnis:
2 vs 1
2 vs 1
2 vs 1
Apfel wird gleichzeitig am meisten und am wenigsten präferiert.
Gruppenpräferenzen sind inkonsistent!
Abstimmung

Komparative Skalen: Rangordnungsverfahren
18
Probanden bringen mehrere Objekte in
eine Reihenfolge (basierend auf einem
bestimmten Kriterium)
Ordnen Sie bitte die unten aufgeführten Marken von Erfrischungs-getränke
entsprechend Ihrer Präferenzen an. Dafür wählen Sie zunächst die Marke aus, die
Sie am meisten präferieren und weisen Sie ihr den Rangplatz 1 zu. Anschließend
weisen Sie den Rangplatz 2 der zweitbesten Marke. Setzten Sie die Bewertung fort,
bis Sie allen Marken einen Rangplatz zugewiesen haben. Die letzte, am wenigsten
präferierte Marke, muss den Rangplatz 5 bekommen.
Keine zwei Marken dürfen denselben Rangplatz erhalten.
Das Kriterium der Präferenz ist ganz Ihnen überlassen. Es gibt keine richtige oder
falsche Antworten. Versuchen Sie einfach konsistent zu sein.
Rangordnungsverfahren
Marke Rangplatz
Pepsi-Cola ______________
Coca-Cola ______________
Red Bull ______________
Sprite ______________
7-Up ______________

Rangordnungsverfahren: Beispiel
19
©ExavoGmbH,exavo.de

Rangordnungsverfahren: Beispiele
20
Quelle: exavo.de

Rangordnungsverfahren: Beispiel
21
Quelle: exavo.de

Rangordnungsverfahren: Vor- und Nachteile
22
+ Direkter Vergleich
+ Realitätsnäher als paarweise Vergleiche
+ Anzahl der Vergleiche ist nur (𝑛 − 1)
+ Einfacher zu verstehen
+ Nehmen weniger Zeit in Anspruch
+ Keine nicht-transitive Antworten
+ Daten können in paarweise Vergleiche
konvertiert werden
+ Gut für Messung von Marken- und
Eigenschaftspräferenzen
Vorteile
- Aus Präferenz von A über B folgt es nicht,
dass der Proband A mag
- Kein Null-Punkt; Keine Trennung zwischen
Mögen und Nicht-Mögen
- Lediglich ordinale Daten
- Verletzung der Transitivitätsannahme
möglich (bei Aggregation)
Nachteile

Komparative Skalen: Konstantsummenverfahren
23
Probanden verteilen einen fixierten
Betrag (z.B. Punkte, Euros, Chips, %)
vollständig über ein Set von Objekten
nach einem bestimmten Kriterium
Unterstehend ist eine Liste von fünf Eigenschaften von Autos aufgeführt.
Bitte verteilen Sie 100 Punkte über diese Eigenschaften so, dass die Anzahl
der Punkte, die Sie einer Eigenschaft zuweisen, die relative Wichtigkeit
dieser Eigenschaft für Sie wiederspiegelt. Je mehr Punkte eine Eigenschaft
bekommt, desto wichtiger ist diese Eigenschaft für Sie. Wenn eine
Eigenschaft für Sie unwichtig ist, weisen Sie ihr 0 Punkte zu. Wenn eine
Eigenschaft doppelt so wichtig für Sie ist als eine andere Eigenschaft,
weisen Sie ihr doppelt so viel Punkte zu.
Konstantsummenverfahren
Eigenschaften Punkte
Geschwindigkeit 0
Komfort 15
Getriebetyp
(manuell/Automatik)
5
Kraftsoff
(Benzin/Diesel)
35
Preis 45
Summe 100

Konstantsummenverfahren: Beispiel der Auswertung
24
Attribute Segment 1 Segment 2 Segment 3
Geschwindigkeit 0 17 53
Komfort 15 23 30
Getriebe
(manuell/Automatik)
5 21 10
Kraftstoff
(Benzin/Diesel)
35 12 7
Preis 45 27 0
Summe 100 100 100
Durchschnittliche Bewertung in drei Segmenten

Konstantsummenverfahren: Beispiel
25

Konstantsummenverfahren: Beispiele
26

Konstantsummenverfahren: Vor- und Nachteile
27
+ Kann kleine Unterschiede zwischen den
Objekten messen, ohne zu viel Zeit zu
beanspruchen
+ Metrisch skaliert ⟶ flexible Auswahl an
Analyseverfahren
Vorteile
- Ergebnisse sind auf die Liste der beurteilten
Objekte beschränkt. D.h. es ist nicht
möglich Aussagen über Objekte zu treffen,
die nicht auf der Liste waren.
- Relativ hohe kognitive Belastung der
Probanden, insb. bei langen Listen
- Anfällig für Rechenfehler (z.B.
Verteilung von 108 oder 94 Punkte)
Nachteile

Komparative Skalen: Q-Sortierung
28
Rangordnungsverfahren, bei dem Objekte (in
Hinblick auf ein bestimmtes Merkmal) in
Stapeln sortiert werden. Wird genutzt, um eine
hohe Anzahl an Objekten (60-140) schnell
untereinander zu vergleichen.
Die Anzahl von Objekten in einem Stapel ist
i.d.R. so begrenzt, dass alle Stapeln zusammen
die Form einer Normalverteilung nachbilden.
Für die Prävention von Epidemien hat des Gesundheitsministerium
25 Maßnahmen für die Umsetzung in Krankenhäusern entwickelt.
Bitte ordnen Sie diese Maßnahmen entsprechend ihrer Wirksamkeit
zur Verhinderung der Infektionsausbreitung im unterstehenden
Schema ein. Bitte nur eine Maßnahme in eine Box.Q-Sortierung
Äußerst
wirksam
Ganz und gar
nicht wirksam

2.1 Einführung
29

Skalierung
Komparative
Skalen
Paarweise
Vergleiche
Rangordnungs-
verfahren
Konstant-
summen-
verfahren
Q-Sortierung
und andere
Nicht-
komparative
Skalen
Kontinuierliche
Ratingskalen
Diskrete
Ratingskalen
Likert-Skala
Semantisches
Differential
Stapel-Skala
30

Nicht-komparative Skalen: Kontinuierliche Ratingskalen
31
Probanden bewerten Objekte, indem sie eine
entsprechende Position auf einer Linie
markieren, die von einem Extrem zum anderen
Extrem eines bestimmten Kriteriums läuft.
Wie bewerten Sie „Real“ als Lebensmittelgeschäft?
Kontinuierliche Ratingskalen
Wahrscheinlich
das schlechteste
Wahrscheinlich
das beste
Version 1
х
Wahrscheinlich
das schlechteste
Wahrscheinlich
das beste
Version 2
х0 10 20 30 40 50 60 70 80 90 100
Wahrscheinlich
das schlechteste
Wahrscheinlich
das beste
Version 3
х0 20 40 60 80 100
sehr schlecht sehr gut
teils
teils
Wahrscheinlich
das schlechteste
Wahrscheinlich
das beste
Version 4
76
sehr schlecht sehr gut
teils
teils

Kontinuierliche Ratingskalen: Perception Analyzer
32

Diskrete Ratingskalen: Likert-Skala
33
Probanden geben an, inwieweit sie den
aufgeführten Aussagen zustimmen – anhand
von einer 5- oder 7-Punkte-Skala, die von
einem Extrem zum andere reicht..
Im Folgenden sind unterschiedliche Aussagen über Real
aufgelistet. Bitte geben Sie an, wie stark Sie diesen Aussagen
zustimmen:
Likert-Skala Stimme gar
nicht zu
Stimme
nicht zu
Neutral Stimme zu Stimme
voll und
ganz zu
Real verkauft hochwertige
Waren
[1] [x] [3] [4] [5]
Real hat schlechten Service [1] [x] [3] [4] [5]
Einkaufen bei Real macht mir
Spaß
[1] [2] [x] [4] [5]
Real bietet eine Mischung aus
verschiedenen Marken
[1] [2] [3] [x] [5]
Die Kreditpolitik in Real ist
schrecklich
[1] [2] [3] [x] [5]
Ich mag die Werbung von
Real nicht
[1] [2] [3] [x] [5]
Die Preise bei Real sind fair [1] [x] [3] [4] [5]
WICHTIG: Beachten Sie die umgekehrte Richtung von Fragen 2, 5 und 6. Kehren Sie die entsprechenden
Skalen vor der Datenanalyse um – d.h. höhere Zahl soll bessere Einstellung bedeuten.

Likert-Skala: Beispiele
34

Populäre Likert-Skalen in Marketing
35
Konstrukt Skalenpunkte
Einstellung Sehr schlecht Schlecht Weder gut, noch
schlecht
Gut Sehr gut
Wichtigkeit Überhaupt nicht
wichtig
Unwichtig Neutral Wichtig Sehr wichtig
Zufriedenheit Sehr unzufrieden Unzufrieden Weder zufrieden, noch
unzufrieden
Zufrieden Sehr zufrieden
Kaufwahrscheinlichkeit
(Kaufabsicht)
Definitiv nicht Wahrscheinlich
nicht
Unentschieden Wahrscheinlich
ja
Auf jeden Fall ja
Kaufhäufigkeit Nie Selten Manchmal Oft Sehr oft
Zustimmung Trifft überhaupt
nicht zu
Trifft eher nicht zu Teils teils Trifft eher zu Trifft voll und
ganz zu

Diskrete Ratingskalen: Semantisches Differential
36
Zweipolige Rating-Skala, deren Extreme mit
jeweils gegensätzlichen Adjektiven beschrieben
werden. Erlaubt Messung mehrdimensionaler
Einstellungen und deren Profildarstellung.
Wie schätzen Sie das Erscheinungsbild von Kaufhof ein?
Im folgenden Kasten finden Sie jeweils gegensätzliche
Begriffspaare. Bitte kreuzen Sie an, inwieweit Sie in Ihrer
Einschätzung jeweils mehr zu der einen oder der anderen
Ausprägung tendieren.
Semantisches Differential
Stark [ ] [ ] [ ] [ ] [X] [ ] [ ] Schwach
Unzuverlässig [ ] [ ] [ ] [ ] [ ] [X] [ ] Zuverlässig
Modern [ ] [ ] [ ] [ ] [ ] [ ] [X] Altmodisch
Kalt [ ] [ ] [ ] [ ] [ ] [X] [ ] Warm
Sorgfältig [ ] [X] [ ] [ ] [ ] [ ] [ ] Leichtsinnig
HINWEIS: Die negativen Adjektive erscheinen in der Skala manchmal links und manchmal rechts.
Dies ermöglicht die Tendenz einiger Probanden nachträglich zu kontrollieren, alles links oder rechts
anzukreuzen, ohne die Adjektive gelesen zu haben.
Kaufhof ist:

Semantisches Differential: Beispiel
37
Hoch [ ] [ ] [ ] [ ] [ ] [ ] [ ] Tief
Stark [ ] [ ] [ ] [ ] [ ] [ ] [ ] Schwach
Zuverlässig [ ] [ ] [ ] [ ] [ ] [ ] [ ] Unzuverlässig
Kalt [ ] [ ] [ ] [ ] [ ] [ ] [ ] Heiß
Modern [ ] [ ] [ ] [ ] [ ] [ ] [ ] Langsam
Gut [ ] [ ] [ ] [ ] [ ] [ ] [ ] Schlecht
Freundlich [ ] [ ] [ ] [ ] [ ] [ ] [ ] Feindlich
Hässlich [ ] [ ] [ ] [ ] [ ] [ ] [ ] Schön
Aktiv [ ] [ ] [ ] [ ] [ ] [ ] [ ] Passiv
Jung [ ] [ ] [ ] [ ] [ ] [ ] [ ] Alt
Vorsichtig [ ] [ ] [ ] [ ] [ ] [ ] [ ] Sorglos
Klein [ ] [ ] [ ] [ ] [ ] [ ] [ ] Groß
Sanft [ ] [ ] [ ] [ ] [ ] [ ] [ ] Abstoßend
Robust [ ] [ ] [ ] [ ] [ ] [ ] [ ] Empfindlich
Bescheiden [ ] [ ] [ ] [ ] [ ] [ ] [ ] Angeberisch
Messung von Selbsteinschätzung,
Einstellung ggü. Personen bzw. Produkten
Bewertungsprofile von verschiedenen Objekten / Befragten / Segmente.
Jeder Punkt entspricht dem Mittelwert oder Median der jeweiligen Skala.

38
Quelle: http://www.provisor.com.ua/archive/2000/N16/gromovik.php
Billig [ ] [ ] [ ] [ ] [ ] [ ] [ ] Teuer
Hat natürliche
Inhaltsstoffe
[ ] [ ] [ ] [ ] [ ] [ ] [ ]
Hat keine natürliche
Inhaltsstoffe
Attraktiv [ ] [ ] [ ] [ ] [ ] [ ] [ ] Unattraktiv
Überall verfügbar [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Schwer zu
bekommen
Riecht gut [ ] [ ] [ ] [ ] [ ] [ ] [ ] Riecht schlecht
Hat Conditioner [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Hat kein
Conditioner
Bekannte Marke [ ] [ ] [ ] [ ] [ ] [ ] [ ] Unbekannte Marke
Geeignet für häufige
Nutzung
[ ] [ ] [ ] [ ] [ ] [ ] [ ]
Ungeeignet für
häufige Nutzung
Magischer Effekt von
Glanz und Sauberkeit
[ ] [ ] [ ] [ ] [ ] [ ] [ ]
Kein Effekt von
Sauberkeit
Einfache Nutzung [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Komplizierte
Nutzung
Ideales Shampoo
Elseve
Herbal Magic
Semantische Profile von Shampoo-Marken
„Herbal Magic” und „Elseve” im Vergleich zum
idealen Shampoo aus der Sicht von Konsumenten

39

Diskrete Ratingskalen: Stapel-Skala
40
Eine unipolare Ratingskala mit 10 Kategorien
von -5 bis +5 ohne Neutralpunkt (0).
Wird oft als Alternative zum semantischen
Differential verwendet, insb. wenn es schwierig
erscheint, ein sinnvolles Paar von
entgegengesetzten Adjektiven zu finden.
Bitte geben Sie an, wie zutreffend folgende Wörter und Phrasen die
Geschäfte beschreiben. Wählen Sie eine Plus-Zahl für Phrasen, die
das Geschäft zutreffend beschreiben. Je genauer Ihrer Meinung
nach trifft die Beschreibung auf das Geschäft zu, desto höhere Plus-
Zahl sollten Sie wählen. Wählen Sie eine Minus-Zahl für Phrasen, die
Ihrer Meinung nach auf das Geschäft nicht zutreffen. Je weniger die
Phrase auf das Geschäft zutrifft, desto höhere Minus-Zahl sollten Sie
wählen. Sie können jede Zahl zwischen +5 (für zutreffende) und -5
(für unzutreffende) Beschreibungen wählen.
Stapel-Skala
„Real“:
+5
+4
+3
+2
+1
-1
-2
-3
-4
-5
Hohe Qualität
+5
+4
+3
+2
+1
-1
-2
-3
-4
-5
Schlechter Service
х
х

Wichtigste nicht-komparative Skalen
Skala Beschreibung Beispiele Vorteile Nachteile
Kontinuierliche
Ratingskalen
Markierung auf einer kontinuierlichen
Linie
Reaktion auf TV-
Werbespots
Einfach zu bilden Nicht PC-gestützte
manuelle Auswertung kann
sehr mühsam sein
Diskrete Ratingskalen
Likert-Skala Grad der Zustimmung auf der Skala
von 1 (stimme ganz und gar nicht zu)
bis 5 (stimme vollkommen zu)
Messung von
Einstellungen
Einfach zu verstehen, zu
verwenden und zu bilden
Zeitaufwendiger
Semantisches
Differential
Zweipolige siebenstufige Ratingskala
mit entgegengesetzten Adjektiven auf
den Polen.
Marken-, Produkt-
und Firmenimage
Vielseitig Keine Eignung darüber, ob
die Daten intervallskaliert
sind
Stapel-Skala Unipolare zehn Punkte Skala von -5 bis
+5 ohne Neutralpunkt (0)
Messung von
Einstellungen und
Image
Einfach zu konstruieren und
zu verwenden in Telefon-
Umfragen
Manchmal verwirrend und
schwierig anzuwenden
41

Konstruktion von diskreten Ratingskalen
42
Anzahl von
Antwortkategorien
Zwar gibt es keine eindeutige einzig optimale Anzahl von
Antwortkategorien, traditionell werden Skalen mit fünf bis neuen
Antwortkategorien verwendet.
Balanciert vs. nicht-balanciert
Generell sollte die Skala balanciert sein, um objektive Ergebnisse
erzielen zu können.
Gerade vs. ungerade
Anzahl von Antwortkategorien
Wenn eine neutrale bzw. indifferente Antwort zumindest für
einige Probanden in Frage kommt, sollte man eine Skala mit
ungerader Anzahl von Antwortkategorien verwenden.
Obligatorische vs. nicht-
obligatorische Antwort
Wenn einige Probanden keine Meinung haben können, durch
nicht-obligatorische Fragen kann die Genauigkeit der Ergebnisse
verbessert werden.
Verbale Beschreibung
Es gibt gute Argumente dafür, die meisten (wenn nicht alle)
Antwortkategorien zu beschriften. Die Beschriftung sollte
möglichst nah an Antwortkategorien sein.

Anzahl von
Antwortkategorien
Zwar gibt es keine eindeutige einzig optimale Anzahl von
Antwortkategorien, traditionell werden Skalen mit fünf bis neuen
Antwortkategorien verwendet.
43
+ Je hoher die Anzahl von
Antwortkategorien, desto feinere
Unterschiede in der Bewertung können
von der Skala registriert werden.
- Die meisten Probanden können nur mir
einigen wenigen Antwortkategorien
umgehen.
Involvement und Wissen
• Mehr Antwortkategorien wenn Probanden an
der Bewertungsaufgabe interessiert sind oder
über tiefes Wissen über das Objekt oder
Sachverhalt verfügen.
Natur von Objekten
• Sind feine Unterschiede für die Objekte
charakteristisch?
Modus der Datenerhebung
• Weniger Antwortkategorien für
Telefoninterviews.
Datenanalyse
• Weniger Antwortkategorien für Aggregation,
Verallgemeinerungen, oder Gruppenvergleiche.
• Mehr Kategorien für anspruchsvolle statistische
Analysen, insb. Korrelationsbasierte u.ä.

Balanciert vs. nicht-balanciert
Generell sollte die Skala balanciert sein, um objektive Ergebnisse
erzielen zu können.
Balancierte oder nicht-balancierte Skalen
44
Sehr gut
Gut
Weder gut noch schlecht
Schlecht
Sehr schlecht
Balancierte Skala
Extrem gut
Sehr gut
Gut
Angemessen
Schlecht
Sehr schlecht
Nicht-balancierte Skala

Gerade vs. ungerade
Wenn eine neutrale bzw. indifferente Antwort zumindest für
einige Probanden in Frage kommt, sollte man eine Skala mit
ungerader Anzahl von Antwortkategorien verwenden.
Gerade oder ungerade Anzahl von Antwortkategorien
45
- Die mittlere Option einer Einstellungsskala
zieht viele Probanden an, die unsicher
sind oder ihre Meinung nur ungern
offenbaren würden.
- Das kann die Maßen der zentralen
Tendenz und Varianz verzerren.
- Wollen/brauchen wir „Kontrast“ in
kontroversen Einstellungen?

Obligatorische vs. nicht-
obligatorische Antwort
Wenn einige Probanden keine Meinung haben können, durch
nicht-obligatorische Fragen kann die Genauigkeit der Ergebnisse
verbessert werden.
Obligatorische oder nicht-obligatorische Antwort?
46
- Fragen ohne Alternative „weiß nicht“
erzeugen tendenziell höhere Menge an
genauen Daten.
- Wollen die Probanden nicht Antworten
oder haben sie keine Meinung?
- Nutzen Sie „weiß nicht“ oder besser „nicht
zutreffend“ bei sachlichen Fragen und
Wissensabfragen, aber nicht für Messung
von Einstellungen und Meinungen.
- Nutzen Sie Filterführung, um
sicherzustellen, dass Probanden ihre
Fragen beantworten können

Es gibt gute Argumente dafür, die meisten (wenn nicht alle)
Antwortkategorien zu beschriften. Die Beschriftung sollte
möglichst nah an Antwortkategorien sein.
47
- Die verbale Beschreibung für jede
Antwortkategorie verbessert die
Genauigkeit und Reliabilität nicht immer.
Wichtig ist es, die Ambivalenz der
Beschriftung zu vermeiden.
- Spitze vs. Flache Antwortverteilung
stimme
ganz und gar
nicht zu
stimme voll
und ganz zu
stimme
nicht zu
stimme
zu

2.1 Einführung
48

Latente Konstrukte und Multi-Item-Skalen
49
Bitte geben Sie an, wie zufrieden Sie mit dem Kauf von
______ sind. Kreuzen Sie dafür das Kästchen an, das Ihrer
Einschätzung am besten entspricht.
zufrieden [ ] [ ] [ ] [ ] [ ] [ ] [ ] unzufrieden
erfreut [ ] [ ] [ ] [ ] [ ] [ ] [ ] verärgert
vorteilhaft [ ] [ ] [ ] [ ] [ ] [ ] [ ] nachteilig
angenehm [ ] [ ] [ ] [ ] [ ] [ ] [ ] unangenehm
Ich mochte es sehr [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Ich mochte es
überhaupt nicht
befriedigt [ ] [ ] [ ] [ ] [ ] [ ] [ ] frustriert
hinreißend [ ] [ ] [ ] [ ] [ ] [ ] [ ] schrecklich
α=0,84
Latentes Konstrukt
ist ein Sachverhalt (z.B.
Kundenzufriedenheit), der nicht
direkt beobachtbar bzw. messbar
ist.
Das bedeutet nicht, dass der
betreffende Sachverhalt nicht
“existiert”, sondern nur, dass er aus
anderen, messbaren Sachverhalten
(Indikatoren) erschlossen werden
kann.

Konstrukt Dimensionen Faktoren Items Skala
Kunden-
zufriedenheit
Produkt-
zufriedenheit
Service-
zufriedenheit
Freund-
lichkeit
Fach-
kompetenz
Verbind-
lichkeit
Der Verkäufer
war mir
sympathisch
Der Verkäufer
lächelte nett
Der Verkäufer
war zuvorkommend
trifft
voll zu
trifft
weitgehend zu
trifft nur
teilweise zu
trifft überhaupt
nicht zu

Vorteile
+ Möglichkeit zur Beurteilung abstrakter
Konzepte
+ Verschiedene Facetten des Konstruktes
können erfasst werden
+ Reduktion der Datendimensionalität durch
Aggregation einer Vielzahl von beobachtbaren
Sachverhalte zu einem Modell
+ ...
51

Multi-Item-Skalen: baue oder klaue
Generierung vom anfänglichen Pool von Items:
Theorie, Sekundärdaten und qualitative Analyse
Wahl des reduzierten Set von Items auf
Grundlage qualitativer Urteile
Datenerhebung mit einer
großen Stichprobe
Statistische Analyse
Entwicklung einer bereinigten Skala
Datenerhebung mit einer
anderen Stichprobe
Beurteilung von Reliabilität, Validität und
Generalisierbarkeit der Skala
Ableitung der finalen Skala
Theorieentwicklung
Brunner, Gordon C. II (2012), “Marketing Scales Handbook:
A Compilation of Multi-Item Measures for Consumer
Behavior & Advertising Research”, Vol. 6, verfügbar als as
PDF unter www.marketingscales.com/research
Journal of the Academy of Marketing Science (JAMS)
Journal of Advertising (JA)
Journal of Consumer Research (JCR)
Journal of Marketing (JM)
Journal of Marketing Research (JMR)
Journal of Retailing (JR)
Wo findet man fertige Skalen?

Secure Customer Index™
Bewertung von Kundenloyalität und Kundenbindung
53
Secure
Customer
Sehr zufrieden
Werde definitiv
weiterempfehlen
Werde definitiv
wieder nutzen
Quelle: D. Randall Brandt (1996), “Secure Customer Index”, Maritz Research
Zufriedenheit im
Allgemeinen
5 = sehr zufrieden
4 = eher zufrieden
3 = weder zufrieden noch unzufrieden
2 = eher unzufrieden
1 = sehr unzufrieden
Bereitschaft zur
Weiterempfehlung
5 = werde ganz sicher weiterempfehlen
4 = werde wahrscheinlich weiterempfehlen
3 = unentschieden
2= werde wahrscheinlich nicht weiterempfehlen
1= werde ganz sicher nicht weiterempfehlen
Wahrscheinlichkeit
der
Wiederverwendung
5 = werde ganz sicher weiterverwenden
4 = werde wahrscheinlich wiederverwenden
3= unentschieden
2= werde wahrscheinlich nicht wiederverwenden
1 = werde ganz sicher nicht wiederverwenden
Secure Customers
(Sichere Konsumenten)
% sehr zufrieden/werde ganz sicher wiederverwenden/werde ganz sicher weiterempfehlen
Konsumenten mit einer
günstigen Einstellung
% zumindest zweitbeste Alternative auf allen drei Dimensionen der Zufriedenheit und Loyalität
Verletzte Konsumenten % eher zufrieden/unentschieden/unentschieden
Gefährdete Konsumenten % eher zufrieden oder nicht zufrieden/werde wahrscheinlich oder ganz sicher nicht
wiederverwenden/werde wahrscheinlich oder ganz sicher nicht weiterempfehlen

Erweiterter Secure Customer Index™ von Burke Inc.
54
Zufriedenheit im Allgemeinen Wie zufrieden sind Sie mit (MARKE/UNT.) im Allgemeinen?
Bereitschaft zur
Weiterempfehlung
Wenn man Sie bitten würde, ein Unternehmen aus (BRANCHE) zu empfehlen, wie
wahrscheinlich ist es, dass Sie (MARKE/UNT.) empfehlen werden?
Wahrscheinlichkeit des
Wiederverkaufs
Wie wahrscheinlich ist es, dass Sie (MARKE/UNT.) weiterverwenden werden?
Verdiente Loyalität (MARKE/UNT.) hat meine Loyalität verdient.
Bevorzugtes Unternehmen Ich ziehe (MARKE/UNT.) allen anderen Anbieter vor.
Quelle: Burke Inc. http://www.burke.com/library/whitepapers/sci_white_paper_low_res_pages.pdf
Loyalitäts-
index
Share of Wallet
(0% - 100%)
Periode 1 Periode 2

2.1 Einführung
55

Gütekriterien der Messung
56
Das True-Score-Modell
ХO = ХT + ХS + ХR
wobei
ХO = beobachteter Wert einer Charakteristik
ХT = der wahre Wert der Charakteristik
ХS = systematischer Fehler
ХR = Zufallsfehler

Reliabilität und Validität
57
Reliabilität
(Zuverlässigkeit)
• Gibt an, wie zuverlässig ein Messinstrument
misst – d.h. wie konsistent die Ergebnisse bei
wiederholten Messungen sind.
• Kein Zufallsfehler (ХR ⟶ 0 |⇒ ХO ⟶ ХT + ХS)
• Die Maßzahl von Reliabilität ist Cronbachs
Alpha (0 ≥ α ≥ 1)
• Werte von α ≥ 0,7 gelten als akzeptabel
Validität
(Gültigkeit)
• Gibt an, inwieweit ein Messinstrument auch
tatsächlich den Sachverhalt misst, den es zu
messen galt – d.h. inwiefern gemessene
Unterschiede tatsächlichen unterschieden
zwischen den Objekten entsprechen (Güte der
Messung).
• Kein Messfehler
(ХS ⟶ 0, ХR ⟶ 0 |⇒ ХO ⟶ ХT)
Reliabel
Nicht valide
Geringe Reliabilität
Geringe Validität
Nicht reliabel
Nicht valide
Reliabel und
valide
* Negative Werte von α sind möglich, lassen sich aber nicht interpretieren.

Reliabel
Nicht valide
Geringe Reliabilität
Geringe Validität
Nicht reliabel
Nicht valide
Reliabel und
valide
Zusammenhang zwischen Reliabilität und Validität
58
• Validität impliziert Reliabilität
(ХO = ХT |⇒ ХS = 0, ХR = 0)
• Nicht-Reliabilität impliziert Nicht-Validität
(ХR ≠ 0 |⇒ ХO = ХT + ХR ≠ ХT)
• Aus Reliabilität kann Validität nicht gefolgert
werden
(ХR = 0, ХS ≠ 0 |⇒ ХO = ХT + ХS ≠ ХT)
• Reliabilität ist eine notwendige, aber nicht
hinreichende Bedingung der Validität

Paul Marx | Grundlagen der Umfrageforschung 59
„Der Zweck einer Skala ist es uns zu ermöglichen, die Probanden
mit der höchsten Genauigkeit und Reliabilität abzubilden. Wir
können nicht das Eine ohne das Andere haben und dabei
unseren Daten vertrauen.”
Bart Gamble
vice president client services,
Burke, Inc. 2000-2003

Net Promoter Score®
Unternehmenswachstum?
60
0 1 2 3 4 5 6 7 8 9 10
Quelle:Reichheld,Fred(2003)"OneNumberYouNeedtoGrow",HarvardBusinessReview
Kritiker Passiven Promoters
Net Promoter Score % Promoters % Kritiker= –
Wie wahrscheinlich ist es, dass Sie Unternehmen/Marke/Produkt X einem Freund,
Verwandten oder Kollegen weiterempfehlen werden??
Ist die Skala reliabel?
Ist die Skala valide?
NPS (-100% – +100%)
5-10% Durchschnittliche Unternehmen
45% Perspektive Unternehmen mit offenem Wachstumspotential
50-80% Markführer mit hohem Wachstumspotential

Net Promoter Score®: Warnung
61
„Obwohl die „Weiterempfehlungs-“ Frage bei weitem die beste
Einzelfrage für die Vorhersage vom Konsumentenverhalten für
eine Reihe von Branchen ist, sie ist nicht die beste Frage für alle
Branchen… Deshalb müssen Unternehmen ihre Hausaufgaben
machen und die Verbindung zwischen der Antwort auf diese
Frage und dem darauffolgenden Konsumentenverhalten für
ihren Geschäftsfeld empirisch überprüfen.”
Fred Reichheld, 2011
Quelle: Reichheld, Fred, and Rob Markey (2011). The Ultimate Question 2.0. Boston: Harvard Business Review Press; pp.50-51.
?

Paul Marx | Grundlagen der Umfrageforschung 62
Referenzen:
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, Rolf Weiber (2015), „Multivariate Analysemethoden: Eine
anwendungsorientierte Einführung“, Springer Gabler, 14. Auflage.
Malhotra, Naresh K. (2009), „Marketing Research: An Applied Orientation“, Prentice Hall, 6th edition.
Myers, James H. (1996), „Segmentation & Positioning for Strategic Marketing Decisions“, South Western Educ Pub .
Sulivan III, Michael (2010), „Statistics: Informed Decisions Using Data“, Pearson, 3rd edition.
Course “Statistics I” of Elgin Community College.
Haftungsausschluss: Diese Präsentation enthält das Bildmaterial, welches nur für die Verbreitung innerhalb dieser Präsentation und ihrer Teile in unveränderter Form lizensiert ist. Die Autoren von
abgeleiteten Werken sind angehalten, die für die Verbreitung ihrer Werke notwendige Lizenzen selbst zu beschaffen. Der Autor sowie die mit ihm affilierten Personen und/oder Organisationen können für die
Verletzung jeglicher Lizenzbedingungen in keiner Form verantwortlich gemacht werden, sofern diese Verletzungen nicht durch ihr aktives Tun verursacht worden sind – also insbesondere nicht in Fällen der
durch sie unkontrollierten Verbreitung dieser Präsentation, ihrer Teile und/oder von dieser Präsentation abgeleiteter Werke. Markennamen und geschützte Warenzeichen sind Eigentum ihrer jeweiligen
Inhaber. Die Nennung von Markennamen und geschützter Warenzeichen hat lediglich beschreibenden Charakter. Irrtümer vorbehalten.
Diese Präsentation unterliegt der CreativeCommons-Attribution-NonCommercial-ShareAlike-Lizenz1, soweit Anderes
nicht explizit angegeben ist. Jede Nutzung oder Verbreitung dieser Präsentation, ihrer Teile und/oder abgeleiteter
Werke erfordert einen Verweis auf diese Präsentation und explizite Nennung von Paul Marx und questionStar™.
©2016 Paul Marx, questionStar™. All rights reserved.
1https://creativecommons.org/licenses/by-nc-sa/3.0/deed.de. Die Lizenz gilt nicht für das Bildmaterial.

Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Paul Marx

Mehr von Paul Marx (20)

Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung

Hinweis der Redaktion