SlideShare ist ein Scribd-Unternehmen logo
Paul Marx | Grundlagen der Umfrageforschung
Grundlagen der Umfrageforschung
Kapitel 5: Datenanalyse
1
Einführungskurs
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
2
Paul Marx | Grundlagen der Umfrageforschung
Typen von statistischen Analysemethoden
3
Deskriptive
• Deskriptive Statistik fasst die Beobachtungen
aus der Stichprobe zusammen und stellt sie
übersichtlich dar.
• Nutzt Kennzahlen, Tabellen, Grafiken und
Diagrammen, zur Beschreibung,
Systematisierung, Organisation und
Darstellung von erhobenen Daten.
Induktive
• Induktive Statistik macht Aussagen über die
Generalisierbarkeit bzw. Übertragbarkeit von
Beobachtungen und Schlussfolgerungen aus
Zufallsstichproben auf die Grundgesamtheit.
• Beurteilt wechselseitige Beziehungen
zwischen Variablen und quantifiziert sie. D.h.
gibt Stärke und Signifikanz von Beziehungen
an, ermöglich Vorhersagen und Schätzungen.
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
4
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
5
Paul Marx | Grundlagen der Umfrageforschung
Relative Häufigkeit zeigt den Anteil (bzw. Prozent)
von Beobachtungen eines Wertes.
Verteilung der relativen Häufigkeiten listet alle
Datenwerte zusammen mit ihren relativen
Häufigkeiten auf.
blau rot blau orange blau gelb grün rot rosa
blau grün blau lila blau blau grün gelb rosa
blau rot rosa grün blau gelb grün blau
Tabellen: Häufigkeiten und relative Häufigkeiten
6
Erhobene Daten
𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 =
𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡
𝑆𝑢𝑚𝑚𝑒 𝑎𝑙𝑙𝑒𝑟 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡𝑒𝑛
Häufigkeitsverteilung gibt zu jedem
gemessenen Wert an, wie häufig dieser Wert
in den Daten vorkommt.
Lieblingsfarbe Häufigkeit
blau 10
rot 3
orange 1
gelb 3
grün 5
rosa 3
lila 1
Lieblingsfarbe Relative Häufigkeit
blau 10/26≈0,38
rot 3/26≈0,12
orange 1/26≈0,04
gelb 3/26≈0,12
grün 5/26≈0,19
rosa 3/26≈0,12
lila 1/26≈0,04
Paul Marx | Grundlagen der Umfrageforschung
Lieblingsfarbe Relative Häufigkeit
blau 10/26≈ 0,38
rot 3/26≈ 0,12
orange 1/26≈ 0,04
gelb 3/26≈ 0,12
grün 5/26≈ 0,19
rosa 3/26≈ 0,12
lila 1/26≈ 0,04
Lieblingsfarbe Häufigkeit
blau 10
rot 3
orange 1
gelb 3
grün 5
rosa 3
lila 1
Säulendiagramm
7
0
2
4
6
8
10
12
blau rot orange gelb grün rosa lila
HÄUFIGKEIT
Lieblingsfarbe
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
blau rot orange gelb gr[n rosa lila
RELATIVEHÄUFIGKEIT
Lieblingsfarbe
Säulendiagramm
1. Höhen von Säulen können
Häufigkeiten oder relative
Häufigkeiten sein
2. Säulen dürfen sich nicht berühren
Paul Marx | Grundlagen der Umfrageforschung
Kreisdiagramm
8
blau
38%
rot
11%
orange
4%
gelb
12%
grün
19%
rosa
12%
lila
4%
Lieblingsfarbe
Kreisdiagramm
1. Sollte immer relative Häufigkeiten
angeben
2. Auch sollte Beschriftungen enthalten –
entweder direkt auf dem Diagramm oder
in der Legende
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
9
Paul Marx | Grundlagen der Umfrageforschung
Punkte in
der Prüfung Häufigkeit
50–59 2
60–69 5
70–79 7
80–89 7
90–99 4
Anzahl der
Kinder Häufigkeit
Relative
Häufigkeit
1 3 3/26≈0,12
2 8 8/26≈0,31
3 10 10/26≈0,38
4 2 2/26≈0,08
5 3 3/26≈0,12
Tabellen
10
Erhobene Daten
Erhobene Daten
Manchmal gibt es zu viele Werte, um für
jeden Wert eine Zeile zu erstellen. In diesem
Fall müssen wir mehrere Werte zu Gruppen
zusammenfassen.
Diskrete Variable ist eine quantitative
Variable, die entweder eine endliche Anzahl
von Werten (z.B. rot, grün, gelb) oder eine
unendliche Anzahl von abzählbaren Werten
(z.B. 0, 1, 2, 3, ...) hat
2 2 2 4 5 3 3 3 3
2 1 2 3 5 3 4 3 1
2 3 5 3 2 1 3 2
62 87 67 58 95 94 91 69 52
76 82 85 91 60 77 72 83 79
63 88 79 88 70 75 75
Untere Klassengrenze
Obere Klassengrenze
Klassenbreite = 90-80 = 10
Paul Marx | Grundlagen der Umfrageforschung
∅ Zeit
unterwegs Häufigkeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07
Anzahl der
Kinder Häufigkeit
Relative
Häufigkeit
1 3 3/26≈0,12
2 8 8/26≈0,31
3 10 10/26≈0,38
4 2 2/26≈0,08
5 3 3/26≈0,12
Tabellen und Histogrammen
11
0
2
4
6
8
10
12
1 2 3 4 5
HÄUFIGKEIT
ANZAHL DER KINDER IN DER FAMILIE
0.00
0.10
0.20
0.30
0.40
0.50
1 2 3 4 5
RELATIVEHÄUFIGKEIT
ANZAHL DER KINDER IN DER FAMILIE
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit unterwegs
Paul Marx | Grundlagen der Umfrageforschung
Histogramm
1. Höhen von Säulen sind Häufigkeiten
oder relative Häufigkeiten der
entsprechenden Klassen
2. Breiten von Säulen sind gleich und sie
berühren einander 0
2
4
6
8
10
12
1 2 3 4 5
HÄUFIGKEIT
ANZAHL DER KINDER IN DER FAMILIE
0.00
0.10
0.20
0.30
0.40
0.50
1 2 3 4 5
RELATIVEHÄUFIGKEIT
ANZAHL DER KINDER IN DER FAMILIE
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit Unterwegs
Histogramm
12
∅ Zeit
unterwegs Häufigkeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07
Paul Marx | Grundlagen der Umfrageforschung
Frequenz-Polygonzug
13
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit Unterwegs
Frequenz-Polygonzug
ist eine Linie, die die Klassenmittelpunkte
miteinander verbindet.
(Die Klassenmittelpunkte werden als
Durchschnittswerte von Ober- und
Untergrenzen der jeweiligen Klasse gebildet.)
16 21 26 31
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit Unterwegs
0
1
2
3
4
5
6
7
15 17 19 21 23 25 27 29 31 33
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit Unterwegs
∅ Zeit
unterwegs Häufigkeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07
Paul Marx | Grundlagen der Umfrageforschung
Kumulative Tabellen und Ogiven
14
∅ Zeit
unterwegs Relative Häufigkeit
Kumulierte
relative Häufigkeit
16–17,9 1/15≈ 0,07 1/15≈ 0,07
18–19,9 2/15≈ 0,13 2/15≈ 0,20
20–21,9 1/15≈ 0,07 1/15≈ 0,27
22–23,9 6/15≈ 0,40 6/15≈ 0,67
24–25,9 2/15≈ 0,13 2/15≈ 0,80
26–27,9 1/15≈ 0,07 1/15≈ 0,87
28–29,9 1/15≈ 0,07 1/15≈ 0,94
30–31,9 1/15≈ 0,07 1/15≈ 1,00
Kumulative Tabellen
zeigen die Summe von Häufigkeiten bis hin
und einschließlich Häufigkeit des Wertes in
der jeweiligen Zeile.
Ogive
ist ein Graph, der die kumulierte Häufigkeit
bzw. kumulierte relative Häufigkeit für alle
Klassen repräsentiert.
∅ Zeit
unterwegs Häufigkeit
Relative
Häufigkeit
16–17,9 1 1
18–19,9 2 3
20–21,9 1 4
22–23,9 6 10
24–25,9 2 12
26–27,9 1 13
28–29,9 1 14
30–31,9 1 15
0
0.2
0.4
0.6
0.8
1
1.2
17 19 21 23 25 27 29 31 33
KumulierterelativeHäufigkeit
Zeit (Minuten)
Durchschnittliche Zeit Unterwegs
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
15
Paul Marx | Grundlagen der Umfrageforschung
Lagemaße
16
Mittelwert
𝑥 =
𝑥1 + 𝑥2 + ⋯ + 𝑥3
𝑛
=
𝑥𝑖
𝑛 Summe von einzelnen Elementen Summe von durchschnittlichen
Elementen
Mittelwert ist der „Schwerpunkt“ –
ganz wie der Gleichgewichtspunkt
Vorteile:
• Einfach zu berechnen: nur aufsummieren und teilen.
• Intuitiv – eine Zahl „in der Mitte“; wird von großen Zahlen
nach oben und von kleinen Zahlen nach unten gezogen.
Nachteile:
• Der Mittelwert kann durch Ausreißer verzogen werden – er
funktioniert nicht gut für Stichproben mit stark variierenden
Daten.
• Der Mittelwert von 100, 200 und -300 ist 0. Das ist
verwirrend.
Jahre
Jahre
Paul Marx | Grundlagen der Umfrageforschung
Lagemaße
17
Median
Median ist das Element in der Mitte
einer sortierten Liste
Vorteile:
• Kann gut mit Ausreißern umgehen – oft die genaueste
Abbildung einer Gruppe.
• Teilt die Daten in zwei Gruppen auf, jede mit der gleichen
Anzahl an Elementen.
Nachteile:
• Ist schwieriger zu berechnen: Daten müssen zuvor sortiert
werden.
• Nicht so bekannt; wenn man „Median“ sagt, denken viele,
dass man „Durchschnitt“ meint.
50% unterhalb 50% oberhalb
𝑥 =
𝑥(𝑛+1)/2
1
2
𝑥 𝑛/2 + 𝑥 𝑛/2+1
für ungerade n
für gerade n
Jahre
Jahre
Paul Marx | Grundlagen der Umfrageforschung
Lagemaße
18
Modalwert
Anzahl
Werte
Modalwert ist der häufigste Wert
unter allen Beobachtungen der Variable
Vorteile:
• Gut geeignet für exklusive Auswahlsituationen (diese Wahl
oder andere; keine Kompromisse), d.h. funktioniert gut mit
nominalen Daten.
• Zeig die Wahl, die die meisten wollten (während der
Mittelwert oft zur Wahl führen kann, die keiner wollte).
• Einfach zu verstehen.
Nachteile:
• Erfordert mehr Aufwand für die Berechnung (man muss die
Stimmen zählen).
• “Der Sieger nimmt alles” — es gibt keinen Mittelweg.
Modalwert von
ist
Paul Marx | Grundlagen der Umfrageforschung
Lagemaße:
Mittelwert und Median bestimmen die Form der Verteilung
19
symmetrisch
Mittelwert und Median
sind ungefähr gleich
linksschief
Median
Mittelwert ist
nach unten verzogen
rechtsschief
Median
Mittelwert ist
nach oben verzogen
Paul Marx | Grundlagen der Umfrageforschung
Streuungsmaße
20
𝜎2
=
𝑥𝑖 − 𝜇 2
𝑛
Empirische
Varianz
(Varianz der Grundgesamtheit)
Stichproben-
Varianz 𝑠2 =
𝑥𝑖 − 𝑥 2
𝑛 − 1
Varianz ist der Durchschnitt von quadrierten
Abständen vom Mittelwert
Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008
Paul Marx | Grundlagen der Umfrageforschung
Der Mittelwert funktioniert wie Gleichgewichtspunkt. Deshalb ist die
durchschnittliche Abweichung vom Mittelwert immer gleich Null.
Bei der Berechnung von Varianz werden alle Abweichungen
quadriert, damit negative Abweichungen positive Abweichungen
nicht kompensieren.
Streuungsmaße
21
Stichproben-
Varianz 𝑠2 =
𝑥𝑖 − 𝑥 2
𝑛 − 1
Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008
𝑥 =
1,5 + 2,5 + 3,5 − 0,5 + 4,5 + 1,5 − 2,5 − 6,5 + 2,5 − 0,5 − 2,5 − 3,5
12
= 0
𝑠2 =
117
12 − 1
≈ 10,6
Warum Varianz?
Paul Marx | Grundlagen der Umfrageforschung
Welcher Datensatz hat eine höhere Standardabweichung?
Streuungsmaße
22
Standardabweichung 𝑠 = 𝑠2
Standardabweichung
Behält die Messeinheiten von Originaldaten
𝜎 = 𝜎2
𝑠 = 10,6 ≈ 3,3
𝑠2
=
117
12 − 1
≈ 10,6 Quadratzoll
Zoll
Paul Marx | Grundlagen der Umfrageforschung
Beziehung zwischen Standardabweichung und Normalverteilung
23
99,7% der Daten liegen innerhalb 3
Standardabweichungen vom Mittelwert
95% innerhalb
2 Standardabweichungen
68% innerhalb
1 Standard-
abweichung
© Dan Kernler
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
24
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
25
Kreuztabellen
Kreuztabellen fassen die gemeinsame Verteilung von zwei (oder mehr)
diskreten Variablen tabellarisch zusammen.
• Helfen den Zusammenhang einer Variablen (z.B. Markentreue) mit
einer anderen Variable (z.B. Geschlecht) zu analysieren und zu
verstehen.
• Eine Kreuztabelle enthält jeweils eine Zelle für jede Kombination von
zwei (oder mehr) Variablen.
Beispiele:
• Wie viele markentreue Konsumenten sind
Männer?
• Hängt die Nutzungshäufigkeit (hoch, mittel,
niedrig) eines Produkts mit Outdoor-Aktivitäten
(oft, manchmal, selten, nie) zusammen?
• Hängt die Vertrautheit mit dem neuen Produkt
mit Alter und Bildungsniveau zusammen?
• Hängt der Besitz eines Produkts mit dem
Einkommen (hoch, mittel, niedrig)zusammen?
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
26
Bildungsgrad
Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss
ja 32 % 21 %
nein 68 % 79 %
Gesamt 100 % 100 %
Anzahl der Fälle 250 750
Hängt der Besitz von teuren Automarken vom Bildungsgrad ab?
Besitz von teuren Automarken nach Bildungsgrad
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
27
Manchmal kann die Einführung einer dritten
Variable
scheinbare Beziehungen,
verdeckte Zusammenhänge,
keine Veränderung in ursprünglicher Beziehung
aufdecken.
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
28
Hängt der Besitz von teuren Automarken vom Bildungsgrad ab?
Besitz von teuren Automarken nach Bildungsgrad und Einkommensniveau
Hohes Einkommen Geringes Einkommen
Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss Hochschulabschluss Kein Hochschulabschluss
ja 20 % 20 % 40 % 40 %
nein 80 % 80 % 60 % 60 %
Gesamt 100 % 100 % 100 % 100 %
Anzahl der Fälle 100 700 150 50
Ist die Beziehung noch da?
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
29
Hat Alter Einfluss auf Reise- und Abenteuerlust?
Verlangen nach Auslandsreisen nach Alter
Verlangen nach
Auslandsreisen
Alter
Unter 45 45 und mehr
ja 50 % 50 %
nein 50 % 50 %
Gesamt 100 % 100 %
Anzahl der Fälle 500 500
Verlangen nach
Auslandsreisen
Männlich Weiblich
< 45 ≥ 45 < 45 ≥ 45
ja 60 % 40 % 35 % 65 %
nein 40 % 60 % 65 % 35 %
Gesamt 100 % 100 % 100 % 100 %
Anzahl der Fälle 300 300 200 200
Verlangen nach Auslandsreisen nach Alter und Geschlecht
Paul Marx | Grundlagen der Umfrageforschung
Kreuztabellen
30
Hängt die Besuchshäufigkeit von Fast-Food-Restaurants mit der Familiengröße zusammen?
Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße
Gehen häufig in Fast-Food-
Restaurants
Familiengröße
Small Large
ja 50 % 50 %
nein 50 % 50 %
Gesamt 100 % 100 %
Anzahl der Fälle 500 500
Gehen häufig in Fast-Food-
Restaurants
Geringes Einkommen Hohes Einkommen
Small Large Small Large
ja 50 % 50 % 50 % 50 %
nein 50 % 50 % 50 % 50 %
Gesamt 100 % 100 % 100 % 100 %
Anzahl der Fälle 250 250 250 250
Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße und Einkommen
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit
übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
31
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
32
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
33
Hypothesentest
Hypothesentest ist ein fünfstufiges Verfahren, in dem basierend auf den
Daten einer Stichprobe und unter Einsatz von Wahrscheinlichkeitstheorie
es bestimmt wird, ob eine Hypothese hinreichend begründet ist.
M.a.W. ist dies eine Methode zu prüfen, ob die auf einer Zufallsstichprobe
erhaltenen Ergebnisse sich verallgemeinern bzw. auf die
Grundgesamtheit übertragen lassen.
Vorgehensweise:
1. Formulierung einer Nullhypothese und ihrer
Alternativhypothese
2. Festlegen vom Signifikanzniveau
3. Wahl der geeigneten Teststatistik
4. Formulierung der Entscheidungsregel
5. Berechnung von Kennzahlen aus der
Stichprobe, Treffen der Entscheidung
„Menschen sind sich irrtümlicherweise zuversichtlich in ihrem Wissen und
unterschätzen die Wahrscheinlichkeit, dass ihre Informationen und ihre
Überzeugungen sich als falsch erweisen können. Sie neigen dazu solche
zusätzliche Informationen zu suchen, die nur bestätigen, was sie schon
immer gewusst haben.“
Max Bazerman
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
34
Geschlecht
Internetnutzung Männlich Weiblich Gesamt (Zeile)
selten 5 10 15
häufig 10 5 15
Gesamt (Spalte) 15 15 n=30
Internetnutzung und Geschlecht
Ausgehend von dieser Stichprobe:
Nutzen Männer wirklich das Internet häufiger als Frauen in
der Bevölkerung?
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
35
Schritt 1: Formulierung einer Nullhypothese
und ihrer Alternativhypothese
Nullhypothese (𝑯 𝟎) ist eine Behauptung des Status-
Quo, dass es keinen Unterschied bzw. keinen Effekt
gibt.
Alternativhypothese (𝑯 𝟏) behauptet das Gegenteil –
dass es einen Unterschied bzw. einen Effekt gibt.
𝑯 𝟎: Es gibt keinen Unterschied zwischen Männern und Frauen
im Hinblick auf die Häufigkeit der Internetnutzung.
𝑯 𝟏: Männer und Frauen zeigen unterschiedliches
Internetnutzungsverhalten.
𝐼𝑁 𝑚 = 𝐼𝑁𝑓
𝐼𝑁 𝑚 ≠ 𝐼𝑁𝑓
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
36
Schritt 2: Festlegen vom Signifikanzniveau
Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine
wahre Nullhypothese zurückgewiesen wird.
𝜷 – Wahrscheinlichkeit, dass eine falsche
Nullhypothese angenommen wird.
Nullhypothese (𝐻0)
ist wahr
Nullhypothese (𝐻0)
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
Richtige Entscheidung
True positive
Nullhypothese NICHT
zurückweisen
Richtige Entscheidung
True negative
Fehler 2. Art
False negative
𝛽
(1 − 𝛽) – Power
𝛼 – Signifikanz
Paul Marx | Grundlagen der Umfrageforschung
Nullhypothese (𝐻0)
ist wahr
Nullhypothese (𝐻0)
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
Richtige Entscheidung
True positive
Nullhypothese NICHT
zurückweisen
Richtige Entscheidung
True negative
Fehler 2. Art
False negative
Hypothesentest
37
Freilassen eines Verbrechers
Verurteilung eines Unschuldigen
Analogie: Unschuld in einem Strafprozess
𝐻0: Der Angeklagte ist unschuldig
Schritt 2: Festlegen vom Signifikanzniveau
Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine
wahre Nullhypothese zurückgewiesen wird.
𝜷 – Wahrscheinlichkeit, dass eine falsche
Nullhypothese angenommen wird.
Paul Marx | Grundlagen der Umfrageforschung
Nullhypothese (𝐻0)
ist wahr
Nullhypothese (𝐻0)
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
Richtige Entscheidung
True positive
Nullhypothese NICHT
zurückweisen
Richtige Entscheidung
True negative
Fehler 2. Art
False negative
Hypothesentest
38
Sie bleiben unbesorgt neben dem
Gebüsch, der Löwe ist auf der Jagt
Es gibt keinen Löwen, aber Sie laufen weg
Analogie: Rascheln im Gebüsch – ist das ein Löwe?
𝐻0: Es gibt keinen Löwen im Gebüsch
Schritt 2: Festlegen vom Signifikanzniveau
Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine
wahre Nullhypothese zurückgewiesen wird.
𝜷 – Wahrscheinlichkeit, dass eine falsche
Nullhypothese angenommen wird.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
39
Signifikanzniveaus in der Marktforschung
𝛼 – Signifikanzniveau (1 − 𝛼) – Vertrauenswahrscheinlichkeit
0,01 (1%)
0,05 (5%)
0,99 (99%)
0,95 (95%)
Schritt 2: Festlegen vom Signifikanzniveau
Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine
wahre Nullhypothese zurückgewiesen wird.
𝜷 – Wahrscheinlichkeit, dass eine falsche
Nullhypothese angenommen wird.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
40
Schritt 3: Wahl der geeigneten Teststatistik
Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare
Eine Stichprobe
Verteilungen Nicht-metrisch
Kolmogorow-Smirnow- und χ2
-Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit;
Binomialtest auf Anpassungsgüte von dichotomen Variablen
Mittelwerte Metrisch
t-Test, wenn Varianz ist unbekannt
z-Test, wenn Varianz ist bekannt
Proportionen Metrisch z-Test
Zwei unabhängige
Stichproben
Verteilungen Nicht-metrisch
Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei
Stichproben
Mittelwerte Metrisch
Zweistichproben t-Test
F-Test für Gleichheit von Varianzen
Proportionen
Metrisch, Nicht-
metrisch
z-Test
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test
Gepaarte Stichproben
Mittelwerte Metrisch Paardifferenz-t-Test
Proportionen Nicht-metrisch
McNemar-Test für binäre Variablen,
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest
Paul Marx | Grundlagen der Umfrageforschung
Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare
Eine Stichprobe
Verteilungen Nicht-metrisch
Kolmogorow-Smirnow- und χ2
-Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit;
Binomialtest auf Anpassungsgüte von dichotomen Variablen
Mittelwerte Metrisch
t-Test, wenn Varianz ist unbekannt
z-Test, wenn Varianz ist bekannt
Proportionen Metrisch z-Test
Zwei unabhängige
Stichproben
Verteilungen Nicht-metrisch
Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei
Stichproben
Mittelwerte Metrisch
Zweistichproben t-Test
F-Test für Gleichheit von Varianzen
Proportionen
Metrisch, Nicht-
metrisch
z-Test
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test
Gepaarte Stichproben
Mittelwerte Metrisch Paardifferenz-t-Test
Proportionen Nicht-metrisch
McNemar-Test für binäre Variablen,
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest
Hypothesentest
41
Schritt 3: Wahl der geeigneten Teststatistik
!
In unserem Beispiel haben wir es mit der Verteilung von nicht-metrischen Variablen
(seltene oder häufige Internetnutzung; Männer oder Frauen) in einer Stichprobe zu tun.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
42
Schritt 3: Wahl der geeigneten Teststatistik
χ2 (Chi-quadrat) Teststatistik auf Anpassungsgüte wird zum Test statistischer
Signifikanz von dem in Kreuztabellen beobachteten Zusammenhang verwendet.
𝐻0: Es gibt keinen Zusammenhang zwischen den Variablen
χ2 prüft dabei die Gleichheit von Häufigkeitsverteilungen.
Welche Verteilungen / Häufigkeiten müssen wir vergleichen?
𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden,
wenn es keinen Zusammenhang zwischen den Variablen gäbe.
𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
43
Schritt 3: Wahl der geeigneten Teststatistik
𝑓𝑒 =
𝑛 𝑟 𝑛 𝑐
𝑛
𝑛 𝑟 – Gesamtsumme in einer Zeile
𝑛 𝑐 – Gesamtsumme in einer Spalte
𝑛 – Umfang der Stichprobe
𝑓𝑒1,1
=
15 ∙ 15
30
= 7,5 𝑓𝑒1,2
=
15 ∙ 15
30
= 7,5
𝑓𝑒2,1
=
15 ∙ 15
30
= 7,5 𝑓𝑒2,2
=
15 ∙ 15
30
= 7,5
𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden,
wenn es keinen Zusammenhang zwischen den Variablen gäbe.
𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
44
Schritt 3: Wahl der geeigneten Teststatistik
In unserem Beispiel:
𝜒2 =
(5−7,5)2
7,5
+
(10−7,5)2
7,5
+
(10−7,5)2
7,5
+
(5−7,5)2
7,5
= 0,833 + 0,833 + 0,833 + 0,833 = 3,333
𝜒2
=
(𝑓𝑜 − 𝑓𝑒)2
𝑓𝑒Alle Zellen
𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden,
wenn es keinen Zusammenhang zwischen den Variablen gäbe.
𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
45
Schritt 4: Formulierung der Entscheidungsregel
𝑻𝑺 𝒄𝒂𝒍 – beobachteter (berechneter) Wert der
Teststatistik.
𝑻𝑺 𝒄𝒓 – kritischer Wert der Teststatistik für
gewähltes Signifikanzniveau.
Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau (𝜶), dann lehne 𝑯 𝟎 ab.
oder
Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück.
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
46
Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau
(𝜶), dann lehne 𝑯 𝟎 ab.
oder
Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück.
𝑑𝑓
Tabelle der kritischen Werten von χ2 für verschiedene Signifikanzniveaus 𝛼
𝑑𝑓 – Freiheitsgrade
𝑟 – Anzahl von Zeilen
𝑐 – Anzahl von Spalten
𝑑𝑓 = 𝑟 − 1 𝑐 − 1
𝑑𝑓 = 2 − 1 2 − 1 = 1
𝜒 𝑐𝑎𝑙
2
= 3,333
𝜒 𝑐𝑟
2 = 3,841
3,333 < 3,841
𝜒 𝑐𝑎𝑙
2
< 𝜒 𝑐𝑟
2
𝐻0 kann NICHT zurückgewiesen werden
Schritt 4: Formulierung der Entscheidungsregel
Paul Marx | Grundlagen der Umfrageforschung
Hypothesentest
47
Schritt 5: Treffen der Entscheidung Ist der Beweis da?
Was sind die Konsequenzen?
• 𝑯 𝟎, dass es keinen Zusammenhang gibt, kann nicht zurückgewiesen werden
• Zusammenhang ist statistisch nicht signifikant auf dem Signifikanzniveau von 0,05
• Die aus der Stichprobe beobachtete Ergebnisse können auf die Grundgesamtheit
nicht verallgemeinert werden
Paul Marx | Grundlagen der Umfrageforschung
Ausgehend von dieser Stichprobe:
Nutzen Männer wirklich das Internet häufiger als Frauen in der
Bevölkerung?
Antwort: Die Stichprobe erbringt dafür keine Beweise.
Wenn die Stichprobe sorgfältig ausgewählt und gezogen wurde, dann
können wir behaupten, dass es mit 95%igen Vertrauenswahrscheinlichkeit
keinen solchen Zusammenhang gibt.
Ansonsten – wir wissen es nicht.
Internetnutzung und Geschlecht
Geschlecht
Internetnutzung Männlich Weiblich Gesamt (Zeile)
selten 5 10 15
häufig 10 5 15
Gesamt (Spalte) 15 15 n=30
Hypothesentest
48
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
49
Paul Marx | Grundlagen der Umfrageforschung
Prüfung der Stärke des Zusammenhangs
50
𝜒2 prüft nur die Signifikanz eines Zusammenhangs und trifft keine
Aussagen über seine Stärke.
Einfacher Nachweis: Verdoppelung aller Werte in der Kreuztabelle
führt zur Verdoppelung von 𝜒2.
Maßen für die Stärke des Zusammenhangs sind:
• Phi-Koeffizient (𝜑)
• Kontingenzkoeffizient (𝐶)
• Cramers 𝑉
• Lambda Koeffizient (𝜆)
Paul Marx | Grundlagen der Umfrageforschung
Phi-Koeffizient
51
𝜑 =
𝜒2
𝑛
𝜑 =
3,333
30
= 0,333
Je höher 𝜑, desto stärker ist der Zusammenhang zwischen Variablen.
Werte > 0,30 werden als substantiell angesehen.
Probleme:
• 𝜑 ist nicht standardisiert und hat eine Obergrenze von 1 nur für
2x2-Tabellen; hängt von Tabellendimensionen ab.
• 𝜑-Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.
Der Zusammenhang ist nicht besonders stark
Paul Marx | Grundlagen der Umfrageforschung
Kontingenzkoeffizient
52
𝐶 =
𝜒2
𝜒2 + 𝑛
𝐶 =
3,333
3,333 + 30
= 0,316
Je höher 𝐶, desto stärker ist der Zusammenhang zwischen Variablen.
Werte > 0,30 werden als substantiell angesehen.
Obwohl 𝐶 -Werte die Obergrenze von 1 haben, sie können diese
Grenze faktisch nicht erreichen.
Probleme:
• 𝐶 ist nicht standardisiert und häng von Tabellendimensionen ab.
• 𝐶 -Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.
Der Zusammenhang ist nicht besonders stark
Paul Marx | Grundlagen der Umfrageforschung
Cramers V
53
𝑉 =
𝜒2
𝑛 ∙ (min(𝑟, 𝑐) − 1)
𝑉 =
3.333
30 ∙ (2 − 1)
= 0.333
Je höher 𝑉, desto stärker ist der Zusammenhang zwischen den Variablen.
Werte > 0,30 werden als substantiell angesehen.
𝑉 -Werte haben die Obergrenze von 1, können sie aber ebenfalls faktisch
nur bei 2x2-Tabellen erreichen.
Probleme:
• 𝑉 ist nicht standardisiert und hängt von Tabellendimensionen ab.
• 𝑉-Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.
𝑟 – Anzahl von Zeilen
𝑐 – Anzahl von Spalten
Der Zusammenhang ist nicht besonders stark
Paul Marx | Grundlagen der Umfrageforschung
Lambda Koeffizient
54
𝜆 =
10 + 10 − 15
30 − 15
= 0.333
Gibt Aufschluss darüber, in wieweit die Kenntnis der Ausprägung
einer Variable bei der Prognose der anderen Variable hilft.
Ist standardisiert zwischen 0 und 1
(1 – fehlerfreie Prognose, 0 – keine Verbesserung der Vorhersage).
𝜆-Werte aus verschiedenen Studien können miteinander verglichen
werden.
Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den
Faktor 0,333, d.h. 33,3% Verbesserung.
𝑟 – Zeilenindex
𝑐 – Spaltenindex
l =
max
r
(nrc )- max
r
(nr )
c
å
n - max
r
(nr )
Paul Marx | Grundlagen der Umfrageforschung
𝑟 – Zeilenindex
𝑐 – Spaltenindex
Lambda Koeffizient
55
𝜆 =
10 + 10 − 15
30 − 15
= 0,333
Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den
Faktor 0,333, d.h. 33,3% Verbesserung.
l =
max
r
(nrc )- max
r
(nr )
c
å
n - max
r
(nr )
Geschlecht
Internetnutzung Männlich Weiblich Gesamt (Zeile)
selten 5 10 15
häufig 10 5 15
Gesamt (Spalte) 15 15 n=30
Summe von max. Häufigkeiten
aller Spalten
max. Gesamtwert einer Zeile
𝑟 = 1
𝑟 = 2
𝑐 = 1 c = 2
Paul Marx | Grundlagen der Umfrageforschung
5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
56
Paul Marx | Grundlagen der Umfrageforschung
Typen vom Zusammengang zweier Variablen
57
Linear Linear
Nicht-linear Kein Zusammenhang
Soweit die Daten nicht aus einem kontrollierten
Experiment stammen, können wir nur die Existenz
einer Beziehung zwischen den Variablen behaupten,
nicht jedoch die kausale Richtung dieser Beziehung.
Paul Marx | Grundlagen der Umfrageforschung
Lineare Korrelation
58
Zwei Variablen korrelieren positiv, wenn höhere Werte einer
Variable höheren Werten der anderen Variable entsprechen.
Zwei Variablen korrelieren negativ, wenn höhere Werte einer
Variable niedrigeren Werten der anderen Variable entsprechen.
Positive Korrelation
Negative Korrelation
Paul Marx | Grundlagen der Umfrageforschung
Linearer Korrelationskoeffizient
59
Linearer Korrelationskoeffizient
(Pearsons) Linearer Korrelationskoeffizient misst die Stärke
der linearen Beziehung zwischen zwei Variablen.
𝑟 =
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
(𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2
Eigenschaften:
• Werte des linearen Korrelationskoeffizienten
liegen immer zwischen −1 und 1.
• Bei 𝑟 = +1 besteht ein vollständig positiver
linearer Zusammenhang zwischen den Variablen.
• Bei 𝑟 = −1 besteht ein vollständig negativer
linearer Zusammenhang zwischen den.
• Je näher ist 𝑟 zu +1, desto stärker der positive
Zusammenhang.
• Je näher ist 𝑟 zu −1, desto stärker der negative
Zusammenhang.
• Wenn 𝑟 ist nah an die 0, gibt es wenig oder gar
kein Nachweis für die Existent einer linearen
Beziehung zwischen zwei Variablen. Das bedeutet
aber nicht, dass es keine Beziehung zwischen den
Variablen gibt – eben nur keine lineare.
Paul Marx | Grundlagen der Umfrageforschung
Linearer Korrelationskoeffizient
60
𝒓-Wert Interpretation
0 bis 0,3 Sehr schwach
0,3 bis 0,5 Schwach
0,5 bis 0,7 Mittel
0,7 bis 0,9 Hoch
0,9 bis 1 Sehr hoch
Stärke der Beziehung zwischen Variablen
86 98 12,5 13,5 168,75 156,25 182,25
62 70 -11,5 -14,5 166,75 132,25 210,25
52 56 -21,5 -28,5 612,75 462,25 812,25
90 110 16,5 25,5 420,75 272,25 650,25
66 76 -7,5 -8,5 63,75 56,25 72,25
80 96 6,5 11,5 74,75 42,25 132,25
78 86 4,5 1,5 6,75 20,25 2,25
74 84 0,5 -0,5 -0,25 0,25 0,25
Mittelwert 73,5 84,5
Summe 1514 1142 2062
𝑟 =
1514
1142 2062
≈ 0,987
𝑥 𝑦 (𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)2
(𝑦𝑖 − 𝑦)2
𝑥
𝑦
𝑟 =
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
(𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2
Paul Marx | Grundlagen der Umfrageforschung
Regressionsanalyse
61
Regressionsanalyse
Regressionsanalyse ist ein mächtiges und flexibles Instrument
zur Analyse von assoziativen Beziehungen zwischen einer
metrischen abhängigen Variabel und einer oder mehreren
unabhängigen Variablen.
Ermöglicht
• Existenz der Beziehung zu bestimmen
• Stärke der Beziehung zu quantifizieren
• Mathematisches Modell (Formel) der Beziehung abzuleiten
• Werte der abhängigen Variable vorherzusagen
• Bei der Analyse des Beitrags einer oder mehreren Variablen von
Interesse, den Einfluss anderer unabhängiger Variablen zu
berücksichtigen
Beispiele:
• Können Werbeausgaben die Absatzänderungen
erklären?
• Kann der Marktanteil auf die Größe der
Verkaufsabteilung zurückgeführt werden?
• Wird die Qualitätswahrnehmung von
Konsumenten von ihrer Wahrnehmung vom
Preis beeinflusst?
Paul Marx | Grundlagen der Umfrageforschung
Regressionsanalyse
62
Werbe-
ausgaben,
€1.000
Absatz,
€1.000
40 377
60 507
70 555
110 779
150 869
160 818
190 862
200 817
y = 2.8239x + 352.07
R² = 0.8364
0
100
200
300
400
500
600
700
800
900
1000
0 50 100 150 200 250
Absatz,€1.000
Werbeausgaben, €1.000
Zusammenhang zwischen Absatz und Werbeausgaben
Wie viele Produkteinheiten werden wir absetzten, wenn wir €85.000 für die Werbung ausgeben?
Erhobene Daten
• Werbeausgaben erklären 83,6% der Varianz vom Absazu.
• Jeder zusätzliche in die Werbung investierte Euro bringt €2,82 vom
zusätzlichen Absatz.
• €85.000 Werbeausgaben resultieren in
2,824 ∙ 85.000 + 325,07 = 240.383,57 Absatz.
Paul Marx | Grundlagen der Umfrageforschung 63
Referenzen:
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, Rolf Weiber (2015), „Multivariate Analysemethoden: Eine
anwendungsorientierte Einführung“, Springer Gabler, 14. Auflage.
Malhotra, Naresh K. (2009), „Marketing Research: An Applied Orientation“, Prentice Hall, 6th edition.
Myers, James H. (1996), „Segmentation & Positioning for Strategic Marketing Decisions“, South Western Educ Pub .
Sulivan III, Michael (2010), „Statistics: Informed Decisions Using Data“, Pearson, 3rd edition.
Course “Statistics I” of Elgin Community College.
Haftungsausschluss: Diese Präsentation enthält das Bildmaterial, welches nur für die Verbreitung innerhalb dieser Präsentation und ihrer Teile in unveränderter Form lizensiert ist. Die Autoren von
abgeleiteten Werken sind angehalten, die für die Verbreitung ihrer Werke notwendige Lizenzen selbst zu beschaffen. Der Autor sowie die mit ihm affilierten Personen und/oder Organisationen können für die
Verletzung jeglicher Lizenzbedingungen in keiner Form verantwortlich gemacht werden, sofern diese Verletzungen nicht durch ihr aktives Tun verursacht worden sind – also insbesondere nicht in Fällen der
durch sie unkontrollierten Verbreitung dieser Präsentation, ihrer Teile und/oder von dieser Präsentation abgeleiteter Werke. Markennamen und geschützte Warenzeichen sind Eigentum ihrer jeweiligen
Inhaber. Die Nennung von Markennamen und geschützter Warenzeichen hat lediglich beschreibenden Charakter. Irrtümer vorbehalten.
Diese Präsentation unterliegt der CreativeCommons-Attribution-NonCommercial-ShareAlike-Lizenz1, soweit Anderes
nicht explizit angegeben ist. Jede Nutzung oder Verbreitung dieser Präsentation, ihrer Teile und/oder abgeleiteter
Werke erfordert einen Verweis auf diese Präsentation und explizite Nennung von Paul Marx und questionStar™.
©2016 Paul Marx, questionStar™. All rights reserved.
1https://creativecommons.org/licenses/by-nc-sa/3.0/deed.de. Die Lizenz gilt nicht für das Bildmaterial.

Weitere ähnliche Inhalte

Mehr von Paul Marx

Preispolitik
PreispolitikPreispolitik
Preispolitik
Paul Marx
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Paul Marx
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, Perspectives
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)  Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)
Paul Marx
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)
Paul Marx
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)
Paul Marx
 
как проводить опросы
как проводить опросы как проводить опросы
как проводить опросы
Paul Marx
 
Scientific Writing (Einführung in das wissenschaftliche Arbeiten) WS 2014-2015
Scientific Writing (Einführung in das wissenschaftliche Arbeiten)   WS 2014-2015Scientific Writing (Einführung in das wissenschaftliche Arbeiten)   WS 2014-2015
Scientific Writing (Einführung in das wissenschaftliche Arbeiten) WS 2014-2015
Paul Marx
 
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
Paul Marx
 
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
Paul Marx
 
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
Paul Marx
 
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
Paul Marx
 
Regressionanalyse
RegressionanalyseRegressionanalyse
Regressionanalyse
Paul Marx
 
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
Paul Marx
 
3. marketing vorlesung - ws13 14 (thema 3. marktforschung)
3. marketing   vorlesung - ws13 14 (thema 3. marktforschung)3. marketing   vorlesung - ws13 14 (thema 3. marktforschung)
3. marketing vorlesung - ws13 14 (thema 3. marktforschung)
Paul Marx
 

Mehr von Paul Marx (20)

Preispolitik
PreispolitikPreispolitik
Preispolitik
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, Perspectives
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
 
Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)  Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)
 
как проводить опросы
как проводить опросы как проводить опросы
как проводить опросы
 
Scientific Writing (Einführung in das wissenschaftliche Arbeiten) WS 2014-2015
Scientific Writing (Einführung in das wissenschaftliche Arbeiten)   WS 2014-2015Scientific Writing (Einführung in das wissenschaftliche Arbeiten)   WS 2014-2015
Scientific Writing (Einführung in das wissenschaftliche Arbeiten) WS 2014-2015
 
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
3. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
 
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
2. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
 
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
1. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Chapt...
 
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
0. Principles of Marketing - SS2014 - University of Siegen - Paul Marx: Organ...
 
Regressionanalyse
RegressionanalyseRegressionanalyse
Regressionanalyse
 
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
 
3. marketing vorlesung - ws13 14 (thema 3. marktforschung)
3. marketing   vorlesung - ws13 14 (thema 3. marktforschung)3. marketing   vorlesung - ws13 14 (thema 3. marktforschung)
3. marketing vorlesung - ws13 14 (thema 3. marktforschung)
 

Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse

  • 1. Paul Marx | Grundlagen der Umfrageforschung Grundlagen der Umfrageforschung Kapitel 5: Datenanalyse 1 Einführungskurs
  • 2. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 2
  • 3. Paul Marx | Grundlagen der Umfrageforschung Typen von statistischen Analysemethoden 3 Deskriptive • Deskriptive Statistik fasst die Beobachtungen aus der Stichprobe zusammen und stellt sie übersichtlich dar. • Nutzt Kennzahlen, Tabellen, Grafiken und Diagrammen, zur Beschreibung, Systematisierung, Organisation und Darstellung von erhobenen Daten. Induktive • Induktive Statistik macht Aussagen über die Generalisierbarkeit bzw. Übertragbarkeit von Beobachtungen und Schlussfolgerungen aus Zufallsstichproben auf die Grundgesamtheit. • Beurteilt wechselseitige Beziehungen zwischen Variablen und quantifiziert sie. D.h. gibt Stärke und Signifikanz von Beziehungen an, ermöglich Vorhersagen und Schätzungen.
  • 4. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 4
  • 5. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 5
  • 6. Paul Marx | Grundlagen der Umfrageforschung Relative Häufigkeit zeigt den Anteil (bzw. Prozent) von Beobachtungen eines Wertes. Verteilung der relativen Häufigkeiten listet alle Datenwerte zusammen mit ihren relativen Häufigkeiten auf. blau rot blau orange blau gelb grün rot rosa blau grün blau lila blau blau grün gelb rosa blau rot rosa grün blau gelb grün blau Tabellen: Häufigkeiten und relative Häufigkeiten 6 Erhobene Daten 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 = 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 𝑆𝑢𝑚𝑚𝑒 𝑎𝑙𝑙𝑒𝑟 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡𝑒𝑛 Häufigkeitsverteilung gibt zu jedem gemessenen Wert an, wie häufig dieser Wert in den Daten vorkommt. Lieblingsfarbe Häufigkeit blau 10 rot 3 orange 1 gelb 3 grün 5 rosa 3 lila 1 Lieblingsfarbe Relative Häufigkeit blau 10/26≈0,38 rot 3/26≈0,12 orange 1/26≈0,04 gelb 3/26≈0,12 grün 5/26≈0,19 rosa 3/26≈0,12 lila 1/26≈0,04
  • 7. Paul Marx | Grundlagen der Umfrageforschung Lieblingsfarbe Relative Häufigkeit blau 10/26≈ 0,38 rot 3/26≈ 0,12 orange 1/26≈ 0,04 gelb 3/26≈ 0,12 grün 5/26≈ 0,19 rosa 3/26≈ 0,12 lila 1/26≈ 0,04 Lieblingsfarbe Häufigkeit blau 10 rot 3 orange 1 gelb 3 grün 5 rosa 3 lila 1 Säulendiagramm 7 0 2 4 6 8 10 12 blau rot orange gelb grün rosa lila HÄUFIGKEIT Lieblingsfarbe 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% blau rot orange gelb gr[n rosa lila RELATIVEHÄUFIGKEIT Lieblingsfarbe Säulendiagramm 1. Höhen von Säulen können Häufigkeiten oder relative Häufigkeiten sein 2. Säulen dürfen sich nicht berühren
  • 8. Paul Marx | Grundlagen der Umfrageforschung Kreisdiagramm 8 blau 38% rot 11% orange 4% gelb 12% grün 19% rosa 12% lila 4% Lieblingsfarbe Kreisdiagramm 1. Sollte immer relative Häufigkeiten angeben 2. Auch sollte Beschriftungen enthalten – entweder direkt auf dem Diagramm oder in der Legende
  • 9. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 9
  • 10. Paul Marx | Grundlagen der Umfrageforschung Punkte in der Prüfung Häufigkeit 50–59 2 60–69 5 70–79 7 80–89 7 90–99 4 Anzahl der Kinder Häufigkeit Relative Häufigkeit 1 3 3/26≈0,12 2 8 8/26≈0,31 3 10 10/26≈0,38 4 2 2/26≈0,08 5 3 3/26≈0,12 Tabellen 10 Erhobene Daten Erhobene Daten Manchmal gibt es zu viele Werte, um für jeden Wert eine Zeile zu erstellen. In diesem Fall müssen wir mehrere Werte zu Gruppen zusammenfassen. Diskrete Variable ist eine quantitative Variable, die entweder eine endliche Anzahl von Werten (z.B. rot, grün, gelb) oder eine unendliche Anzahl von abzählbaren Werten (z.B. 0, 1, 2, 3, ...) hat 2 2 2 4 5 3 3 3 3 2 1 2 3 5 3 4 3 1 2 3 5 3 2 1 3 2 62 87 67 58 95 94 91 69 52 76 82 85 91 60 77 72 83 79 63 88 79 88 70 75 75 Untere Klassengrenze Obere Klassengrenze Klassenbreite = 90-80 = 10
  • 11. Paul Marx | Grundlagen der Umfrageforschung ∅ Zeit unterwegs Häufigkeit Relative Häufigkeit 16–17,9 1 1/15≈0,07 18–19,9 2 2/15≈0,13 20–21,9 1 1/15≈0,07 22–23,9 6 6/15≈0,40 24–25,9 2 2/15≈0,13 26–27,9 1 1/15≈0,07 28–29,9 1 1/15≈0,07 30–31,9 1 1/15≈ 0,07 Anzahl der Kinder Häufigkeit Relative Häufigkeit 1 3 3/26≈0,12 2 8 8/26≈0,31 3 10 10/26≈0,38 4 2 2/26≈0,08 5 3 3/26≈0,12 Tabellen und Histogrammen 11 0 2 4 6 8 10 12 1 2 3 4 5 HÄUFIGKEIT ANZAHL DER KINDER IN DER FAMILIE 0.00 0.10 0.20 0.30 0.40 0.50 1 2 3 4 5 RELATIVEHÄUFIGKEIT ANZAHL DER KINDER IN DER FAMILIE 0 1 2 3 4 5 6 7 16 18 20 22 24 26 28 30 32 HÄUFIGKEIT ZEIT (MINUTEN) Durchschnittliche Zeit unterwegs
  • 12. Paul Marx | Grundlagen der Umfrageforschung Histogramm 1. Höhen von Säulen sind Häufigkeiten oder relative Häufigkeiten der entsprechenden Klassen 2. Breiten von Säulen sind gleich und sie berühren einander 0 2 4 6 8 10 12 1 2 3 4 5 HÄUFIGKEIT ANZAHL DER KINDER IN DER FAMILIE 0.00 0.10 0.20 0.30 0.40 0.50 1 2 3 4 5 RELATIVEHÄUFIGKEIT ANZAHL DER KINDER IN DER FAMILIE 0 1 2 3 4 5 6 7 16 18 20 22 24 26 28 30 32 HÄUFIGKEIT ZEIT (MINUTEN) Durchschnittliche Zeit Unterwegs Histogramm 12 ∅ Zeit unterwegs Häufigkeit Relative Häufigkeit 16–17,9 1 1/15≈0,07 18–19,9 2 2/15≈0,13 20–21,9 1 1/15≈0,07 22–23,9 6 6/15≈0,40 24–25,9 2 2/15≈0,13 26–27,9 1 1/15≈0,07 28–29,9 1 1/15≈0,07 30–31,9 1 1/15≈ 0,07
  • 13. Paul Marx | Grundlagen der Umfrageforschung Frequenz-Polygonzug 13 0 1 2 3 4 5 6 7 16 18 20 22 24 26 28 30 32 HÄUFIGKEIT ZEIT (MINUTEN) Durchschnittliche Zeit Unterwegs Frequenz-Polygonzug ist eine Linie, die die Klassenmittelpunkte miteinander verbindet. (Die Klassenmittelpunkte werden als Durchschnittswerte von Ober- und Untergrenzen der jeweiligen Klasse gebildet.) 16 21 26 31 0 1 2 3 4 5 6 7 16 18 20 22 24 26 28 30 32 HÄUFIGKEIT ZEIT (MINUTEN) Durchschnittliche Zeit Unterwegs 0 1 2 3 4 5 6 7 15 17 19 21 23 25 27 29 31 33 HÄUFIGKEIT ZEIT (MINUTEN) Durchschnittliche Zeit Unterwegs ∅ Zeit unterwegs Häufigkeit Relative Häufigkeit 16–17,9 1 1/15≈0,07 18–19,9 2 2/15≈0,13 20–21,9 1 1/15≈0,07 22–23,9 6 6/15≈0,40 24–25,9 2 2/15≈0,13 26–27,9 1 1/15≈0,07 28–29,9 1 1/15≈0,07 30–31,9 1 1/15≈ 0,07
  • 14. Paul Marx | Grundlagen der Umfrageforschung Kumulative Tabellen und Ogiven 14 ∅ Zeit unterwegs Relative Häufigkeit Kumulierte relative Häufigkeit 16–17,9 1/15≈ 0,07 1/15≈ 0,07 18–19,9 2/15≈ 0,13 2/15≈ 0,20 20–21,9 1/15≈ 0,07 1/15≈ 0,27 22–23,9 6/15≈ 0,40 6/15≈ 0,67 24–25,9 2/15≈ 0,13 2/15≈ 0,80 26–27,9 1/15≈ 0,07 1/15≈ 0,87 28–29,9 1/15≈ 0,07 1/15≈ 0,94 30–31,9 1/15≈ 0,07 1/15≈ 1,00 Kumulative Tabellen zeigen die Summe von Häufigkeiten bis hin und einschließlich Häufigkeit des Wertes in der jeweiligen Zeile. Ogive ist ein Graph, der die kumulierte Häufigkeit bzw. kumulierte relative Häufigkeit für alle Klassen repräsentiert. ∅ Zeit unterwegs Häufigkeit Relative Häufigkeit 16–17,9 1 1 18–19,9 2 3 20–21,9 1 4 22–23,9 6 10 24–25,9 2 12 26–27,9 1 13 28–29,9 1 14 30–31,9 1 15 0 0.2 0.4 0.6 0.8 1 1.2 17 19 21 23 25 27 29 31 33 KumulierterelativeHäufigkeit Zeit (Minuten) Durchschnittliche Zeit Unterwegs
  • 15. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 15
  • 16. Paul Marx | Grundlagen der Umfrageforschung Lagemaße 16 Mittelwert 𝑥 = 𝑥1 + 𝑥2 + ⋯ + 𝑥3 𝑛 = 𝑥𝑖 𝑛 Summe von einzelnen Elementen Summe von durchschnittlichen Elementen Mittelwert ist der „Schwerpunkt“ – ganz wie der Gleichgewichtspunkt Vorteile: • Einfach zu berechnen: nur aufsummieren und teilen. • Intuitiv – eine Zahl „in der Mitte“; wird von großen Zahlen nach oben und von kleinen Zahlen nach unten gezogen. Nachteile: • Der Mittelwert kann durch Ausreißer verzogen werden – er funktioniert nicht gut für Stichproben mit stark variierenden Daten. • Der Mittelwert von 100, 200 und -300 ist 0. Das ist verwirrend. Jahre Jahre
  • 17. Paul Marx | Grundlagen der Umfrageforschung Lagemaße 17 Median Median ist das Element in der Mitte einer sortierten Liste Vorteile: • Kann gut mit Ausreißern umgehen – oft die genaueste Abbildung einer Gruppe. • Teilt die Daten in zwei Gruppen auf, jede mit der gleichen Anzahl an Elementen. Nachteile: • Ist schwieriger zu berechnen: Daten müssen zuvor sortiert werden. • Nicht so bekannt; wenn man „Median“ sagt, denken viele, dass man „Durchschnitt“ meint. 50% unterhalb 50% oberhalb 𝑥 = 𝑥(𝑛+1)/2 1 2 𝑥 𝑛/2 + 𝑥 𝑛/2+1 für ungerade n für gerade n Jahre Jahre
  • 18. Paul Marx | Grundlagen der Umfrageforschung Lagemaße 18 Modalwert Anzahl Werte Modalwert ist der häufigste Wert unter allen Beobachtungen der Variable Vorteile: • Gut geeignet für exklusive Auswahlsituationen (diese Wahl oder andere; keine Kompromisse), d.h. funktioniert gut mit nominalen Daten. • Zeig die Wahl, die die meisten wollten (während der Mittelwert oft zur Wahl führen kann, die keiner wollte). • Einfach zu verstehen. Nachteile: • Erfordert mehr Aufwand für die Berechnung (man muss die Stimmen zählen). • “Der Sieger nimmt alles” — es gibt keinen Mittelweg. Modalwert von ist
  • 19. Paul Marx | Grundlagen der Umfrageforschung Lagemaße: Mittelwert und Median bestimmen die Form der Verteilung 19 symmetrisch Mittelwert und Median sind ungefähr gleich linksschief Median Mittelwert ist nach unten verzogen rechtsschief Median Mittelwert ist nach oben verzogen
  • 20. Paul Marx | Grundlagen der Umfrageforschung Streuungsmaße 20 𝜎2 = 𝑥𝑖 − 𝜇 2 𝑛 Empirische Varianz (Varianz der Grundgesamtheit) Stichproben- Varianz 𝑠2 = 𝑥𝑖 − 𝑥 2 𝑛 − 1 Varianz ist der Durchschnitt von quadrierten Abständen vom Mittelwert Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008
  • 21. Paul Marx | Grundlagen der Umfrageforschung Der Mittelwert funktioniert wie Gleichgewichtspunkt. Deshalb ist die durchschnittliche Abweichung vom Mittelwert immer gleich Null. Bei der Berechnung von Varianz werden alle Abweichungen quadriert, damit negative Abweichungen positive Abweichungen nicht kompensieren. Streuungsmaße 21 Stichproben- Varianz 𝑠2 = 𝑥𝑖 − 𝑥 2 𝑛 − 1 Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008 𝑥 = 1,5 + 2,5 + 3,5 − 0,5 + 4,5 + 1,5 − 2,5 − 6,5 + 2,5 − 0,5 − 2,5 − 3,5 12 = 0 𝑠2 = 117 12 − 1 ≈ 10,6 Warum Varianz?
  • 22. Paul Marx | Grundlagen der Umfrageforschung Welcher Datensatz hat eine höhere Standardabweichung? Streuungsmaße 22 Standardabweichung 𝑠 = 𝑠2 Standardabweichung Behält die Messeinheiten von Originaldaten 𝜎 = 𝜎2 𝑠 = 10,6 ≈ 3,3 𝑠2 = 117 12 − 1 ≈ 10,6 Quadratzoll Zoll
  • 23. Paul Marx | Grundlagen der Umfrageforschung Beziehung zwischen Standardabweichung und Normalverteilung 23 99,7% der Daten liegen innerhalb 3 Standardabweichungen vom Mittelwert 95% innerhalb 2 Standardabweichungen 68% innerhalb 1 Standard- abweichung © Dan Kernler
  • 24. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 24
  • 25. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 25 Kreuztabellen Kreuztabellen fassen die gemeinsame Verteilung von zwei (oder mehr) diskreten Variablen tabellarisch zusammen. • Helfen den Zusammenhang einer Variablen (z.B. Markentreue) mit einer anderen Variable (z.B. Geschlecht) zu analysieren und zu verstehen. • Eine Kreuztabelle enthält jeweils eine Zelle für jede Kombination von zwei (oder mehr) Variablen. Beispiele: • Wie viele markentreue Konsumenten sind Männer? • Hängt die Nutzungshäufigkeit (hoch, mittel, niedrig) eines Produkts mit Outdoor-Aktivitäten (oft, manchmal, selten, nie) zusammen? • Hängt die Vertrautheit mit dem neuen Produkt mit Alter und Bildungsniveau zusammen? • Hängt der Besitz eines Produkts mit dem Einkommen (hoch, mittel, niedrig)zusammen?
  • 26. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 26 Bildungsgrad Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss ja 32 % 21 % nein 68 % 79 % Gesamt 100 % 100 % Anzahl der Fälle 250 750 Hängt der Besitz von teuren Automarken vom Bildungsgrad ab? Besitz von teuren Automarken nach Bildungsgrad
  • 27. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 27 Manchmal kann die Einführung einer dritten Variable scheinbare Beziehungen, verdeckte Zusammenhänge, keine Veränderung in ursprünglicher Beziehung aufdecken.
  • 28. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 28 Hängt der Besitz von teuren Automarken vom Bildungsgrad ab? Besitz von teuren Automarken nach Bildungsgrad und Einkommensniveau Hohes Einkommen Geringes Einkommen Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss Hochschulabschluss Kein Hochschulabschluss ja 20 % 20 % 40 % 40 % nein 80 % 80 % 60 % 60 % Gesamt 100 % 100 % 100 % 100 % Anzahl der Fälle 100 700 150 50 Ist die Beziehung noch da?
  • 29. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 29 Hat Alter Einfluss auf Reise- und Abenteuerlust? Verlangen nach Auslandsreisen nach Alter Verlangen nach Auslandsreisen Alter Unter 45 45 und mehr ja 50 % 50 % nein 50 % 50 % Gesamt 100 % 100 % Anzahl der Fälle 500 500 Verlangen nach Auslandsreisen Männlich Weiblich < 45 ≥ 45 < 45 ≥ 45 ja 60 % 40 % 35 % 65 % nein 40 % 60 % 65 % 35 % Gesamt 100 % 100 % 100 % 100 % Anzahl der Fälle 300 300 200 200 Verlangen nach Auslandsreisen nach Alter und Geschlecht
  • 30. Paul Marx | Grundlagen der Umfrageforschung Kreuztabellen 30 Hängt die Besuchshäufigkeit von Fast-Food-Restaurants mit der Familiengröße zusammen? Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße Gehen häufig in Fast-Food- Restaurants Familiengröße Small Large ja 50 % 50 % nein 50 % 50 % Gesamt 100 % 100 % Anzahl der Fälle 500 500 Gehen häufig in Fast-Food- Restaurants Geringes Einkommen Hohes Einkommen Small Large Small Large ja 50 % 50 % 50 % 50 % nein 50 % 50 % 50 % 50 % Gesamt 100 % 100 % 100 % 100 % Anzahl der Fälle 250 250 250 250 Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße und Einkommen
  • 31. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 31
  • 32. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 32
  • 33. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 33 Hypothesentest Hypothesentest ist ein fünfstufiges Verfahren, in dem basierend auf den Daten einer Stichprobe und unter Einsatz von Wahrscheinlichkeitstheorie es bestimmt wird, ob eine Hypothese hinreichend begründet ist. M.a.W. ist dies eine Methode zu prüfen, ob die auf einer Zufallsstichprobe erhaltenen Ergebnisse sich verallgemeinern bzw. auf die Grundgesamtheit übertragen lassen. Vorgehensweise: 1. Formulierung einer Nullhypothese und ihrer Alternativhypothese 2. Festlegen vom Signifikanzniveau 3. Wahl der geeigneten Teststatistik 4. Formulierung der Entscheidungsregel 5. Berechnung von Kennzahlen aus der Stichprobe, Treffen der Entscheidung „Menschen sind sich irrtümlicherweise zuversichtlich in ihrem Wissen und unterschätzen die Wahrscheinlichkeit, dass ihre Informationen und ihre Überzeugungen sich als falsch erweisen können. Sie neigen dazu solche zusätzliche Informationen zu suchen, die nur bestätigen, was sie schon immer gewusst haben.“ Max Bazerman
  • 34. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 34 Geschlecht Internetnutzung Männlich Weiblich Gesamt (Zeile) selten 5 10 15 häufig 10 5 15 Gesamt (Spalte) 15 15 n=30 Internetnutzung und Geschlecht Ausgehend von dieser Stichprobe: Nutzen Männer wirklich das Internet häufiger als Frauen in der Bevölkerung?
  • 35. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 35 Schritt 1: Formulierung einer Nullhypothese und ihrer Alternativhypothese Nullhypothese (𝑯 𝟎) ist eine Behauptung des Status- Quo, dass es keinen Unterschied bzw. keinen Effekt gibt. Alternativhypothese (𝑯 𝟏) behauptet das Gegenteil – dass es einen Unterschied bzw. einen Effekt gibt. 𝑯 𝟎: Es gibt keinen Unterschied zwischen Männern und Frauen im Hinblick auf die Häufigkeit der Internetnutzung. 𝑯 𝟏: Männer und Frauen zeigen unterschiedliches Internetnutzungsverhalten. 𝐼𝑁 𝑚 = 𝐼𝑁𝑓 𝐼𝑁 𝑚 ≠ 𝐼𝑁𝑓
  • 36. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 36 Schritt 2: Festlegen vom Signifikanzniveau Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine wahre Nullhypothese zurückgewiesen wird. 𝜷 – Wahrscheinlichkeit, dass eine falsche Nullhypothese angenommen wird. Nullhypothese (𝐻0) ist wahr Nullhypothese (𝐻0) ist falsch Nullhypothese zurückweisen Fehler 1. Art False positive Richtige Entscheidung True positive Nullhypothese NICHT zurückweisen Richtige Entscheidung True negative Fehler 2. Art False negative 𝛽 (1 − 𝛽) – Power 𝛼 – Signifikanz
  • 37. Paul Marx | Grundlagen der Umfrageforschung Nullhypothese (𝐻0) ist wahr Nullhypothese (𝐻0) ist falsch Nullhypothese zurückweisen Fehler 1. Art False positive Richtige Entscheidung True positive Nullhypothese NICHT zurückweisen Richtige Entscheidung True negative Fehler 2. Art False negative Hypothesentest 37 Freilassen eines Verbrechers Verurteilung eines Unschuldigen Analogie: Unschuld in einem Strafprozess 𝐻0: Der Angeklagte ist unschuldig Schritt 2: Festlegen vom Signifikanzniveau Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine wahre Nullhypothese zurückgewiesen wird. 𝜷 – Wahrscheinlichkeit, dass eine falsche Nullhypothese angenommen wird.
  • 38. Paul Marx | Grundlagen der Umfrageforschung Nullhypothese (𝐻0) ist wahr Nullhypothese (𝐻0) ist falsch Nullhypothese zurückweisen Fehler 1. Art False positive Richtige Entscheidung True positive Nullhypothese NICHT zurückweisen Richtige Entscheidung True negative Fehler 2. Art False negative Hypothesentest 38 Sie bleiben unbesorgt neben dem Gebüsch, der Löwe ist auf der Jagt Es gibt keinen Löwen, aber Sie laufen weg Analogie: Rascheln im Gebüsch – ist das ein Löwe? 𝐻0: Es gibt keinen Löwen im Gebüsch Schritt 2: Festlegen vom Signifikanzniveau Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine wahre Nullhypothese zurückgewiesen wird. 𝜷 – Wahrscheinlichkeit, dass eine falsche Nullhypothese angenommen wird.
  • 39. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 39 Signifikanzniveaus in der Marktforschung 𝛼 – Signifikanzniveau (1 − 𝛼) – Vertrauenswahrscheinlichkeit 0,01 (1%) 0,05 (5%) 0,99 (99%) 0,95 (95%) Schritt 2: Festlegen vom Signifikanzniveau Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine wahre Nullhypothese zurückgewiesen wird. 𝜷 – Wahrscheinlichkeit, dass eine falsche Nullhypothese angenommen wird.
  • 40. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 40 Schritt 3: Wahl der geeigneten Teststatistik Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare Eine Stichprobe Verteilungen Nicht-metrisch Kolmogorow-Smirnow- und χ2 -Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit; Binomialtest auf Anpassungsgüte von dichotomen Variablen Mittelwerte Metrisch t-Test, wenn Varianz ist unbekannt z-Test, wenn Varianz ist bekannt Proportionen Metrisch z-Test Zwei unabhängige Stichproben Verteilungen Nicht-metrisch Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei Stichproben Mittelwerte Metrisch Zweistichproben t-Test F-Test für Gleichheit von Varianzen Proportionen Metrisch, Nicht- metrisch z-Test χ2 -Test Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test Gepaarte Stichproben Mittelwerte Metrisch Paardifferenz-t-Test Proportionen Nicht-metrisch McNemar-Test für binäre Variablen, χ2 -Test Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest
  • 41. Paul Marx | Grundlagen der Umfrageforschung Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare Eine Stichprobe Verteilungen Nicht-metrisch Kolmogorow-Smirnow- und χ2 -Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit; Binomialtest auf Anpassungsgüte von dichotomen Variablen Mittelwerte Metrisch t-Test, wenn Varianz ist unbekannt z-Test, wenn Varianz ist bekannt Proportionen Metrisch z-Test Zwei unabhängige Stichproben Verteilungen Nicht-metrisch Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei Stichproben Mittelwerte Metrisch Zweistichproben t-Test F-Test für Gleichheit von Varianzen Proportionen Metrisch, Nicht- metrisch z-Test χ2 -Test Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test Gepaarte Stichproben Mittelwerte Metrisch Paardifferenz-t-Test Proportionen Nicht-metrisch McNemar-Test für binäre Variablen, χ2 -Test Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest Hypothesentest 41 Schritt 3: Wahl der geeigneten Teststatistik ! In unserem Beispiel haben wir es mit der Verteilung von nicht-metrischen Variablen (seltene oder häufige Internetnutzung; Männer oder Frauen) in einer Stichprobe zu tun.
  • 42. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 42 Schritt 3: Wahl der geeigneten Teststatistik χ2 (Chi-quadrat) Teststatistik auf Anpassungsgüte wird zum Test statistischer Signifikanz von dem in Kreuztabellen beobachteten Zusammenhang verwendet. 𝐻0: Es gibt keinen Zusammenhang zwischen den Variablen χ2 prüft dabei die Gleichheit von Häufigkeitsverteilungen. Welche Verteilungen / Häufigkeiten müssen wir vergleichen? 𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden, wenn es keinen Zusammenhang zwischen den Variablen gäbe. 𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
  • 43. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 43 Schritt 3: Wahl der geeigneten Teststatistik 𝑓𝑒 = 𝑛 𝑟 𝑛 𝑐 𝑛 𝑛 𝑟 – Gesamtsumme in einer Zeile 𝑛 𝑐 – Gesamtsumme in einer Spalte 𝑛 – Umfang der Stichprobe 𝑓𝑒1,1 = 15 ∙ 15 30 = 7,5 𝑓𝑒1,2 = 15 ∙ 15 30 = 7,5 𝑓𝑒2,1 = 15 ∙ 15 30 = 7,5 𝑓𝑒2,2 = 15 ∙ 15 30 = 7,5 𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden, wenn es keinen Zusammenhang zwischen den Variablen gäbe. 𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
  • 44. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 44 Schritt 3: Wahl der geeigneten Teststatistik In unserem Beispiel: 𝜒2 = (5−7,5)2 7,5 + (10−7,5)2 7,5 + (10−7,5)2 7,5 + (5−7,5)2 7,5 = 0,833 + 0,833 + 0,833 + 0,833 = 3,333 𝜒2 = (𝑓𝑜 − 𝑓𝑒)2 𝑓𝑒Alle Zellen 𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden, wenn es keinen Zusammenhang zwischen den Variablen gäbe. 𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.
  • 45. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 45 Schritt 4: Formulierung der Entscheidungsregel 𝑻𝑺 𝒄𝒂𝒍 – beobachteter (berechneter) Wert der Teststatistik. 𝑻𝑺 𝒄𝒓 – kritischer Wert der Teststatistik für gewähltes Signifikanzniveau. Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau (𝜶), dann lehne 𝑯 𝟎 ab. oder Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück.
  • 46. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 46 Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau (𝜶), dann lehne 𝑯 𝟎 ab. oder Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück. 𝑑𝑓 Tabelle der kritischen Werten von χ2 für verschiedene Signifikanzniveaus 𝛼 𝑑𝑓 – Freiheitsgrade 𝑟 – Anzahl von Zeilen 𝑐 – Anzahl von Spalten 𝑑𝑓 = 𝑟 − 1 𝑐 − 1 𝑑𝑓 = 2 − 1 2 − 1 = 1 𝜒 𝑐𝑎𝑙 2 = 3,333 𝜒 𝑐𝑟 2 = 3,841 3,333 < 3,841 𝜒 𝑐𝑎𝑙 2 < 𝜒 𝑐𝑟 2 𝐻0 kann NICHT zurückgewiesen werden Schritt 4: Formulierung der Entscheidungsregel
  • 47. Paul Marx | Grundlagen der Umfrageforschung Hypothesentest 47 Schritt 5: Treffen der Entscheidung Ist der Beweis da? Was sind die Konsequenzen? • 𝑯 𝟎, dass es keinen Zusammenhang gibt, kann nicht zurückgewiesen werden • Zusammenhang ist statistisch nicht signifikant auf dem Signifikanzniveau von 0,05 • Die aus der Stichprobe beobachtete Ergebnisse können auf die Grundgesamtheit nicht verallgemeinert werden
  • 48. Paul Marx | Grundlagen der Umfrageforschung Ausgehend von dieser Stichprobe: Nutzen Männer wirklich das Internet häufiger als Frauen in der Bevölkerung? Antwort: Die Stichprobe erbringt dafür keine Beweise. Wenn die Stichprobe sorgfältig ausgewählt und gezogen wurde, dann können wir behaupten, dass es mit 95%igen Vertrauenswahrscheinlichkeit keinen solchen Zusammenhang gibt. Ansonsten – wir wissen es nicht. Internetnutzung und Geschlecht Geschlecht Internetnutzung Männlich Weiblich Gesamt (Zeile) selten 5 10 15 häufig 10 5 15 Gesamt (Spalte) 15 15 n=30 Hypothesentest 48
  • 49. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 49
  • 50. Paul Marx | Grundlagen der Umfrageforschung Prüfung der Stärke des Zusammenhangs 50 𝜒2 prüft nur die Signifikanz eines Zusammenhangs und trifft keine Aussagen über seine Stärke. Einfacher Nachweis: Verdoppelung aller Werte in der Kreuztabelle führt zur Verdoppelung von 𝜒2. Maßen für die Stärke des Zusammenhangs sind: • Phi-Koeffizient (𝜑) • Kontingenzkoeffizient (𝐶) • Cramers 𝑉 • Lambda Koeffizient (𝜆)
  • 51. Paul Marx | Grundlagen der Umfrageforschung Phi-Koeffizient 51 𝜑 = 𝜒2 𝑛 𝜑 = 3,333 30 = 0,333 Je höher 𝜑, desto stärker ist der Zusammenhang zwischen Variablen. Werte > 0,30 werden als substantiell angesehen. Probleme: • 𝜑 ist nicht standardisiert und hat eine Obergrenze von 1 nur für 2x2-Tabellen; hängt von Tabellendimensionen ab. • 𝜑-Werte aus verschiedenen Studien können nicht miteinander verglichen werden. Der Zusammenhang ist nicht besonders stark
  • 52. Paul Marx | Grundlagen der Umfrageforschung Kontingenzkoeffizient 52 𝐶 = 𝜒2 𝜒2 + 𝑛 𝐶 = 3,333 3,333 + 30 = 0,316 Je höher 𝐶, desto stärker ist der Zusammenhang zwischen Variablen. Werte > 0,30 werden als substantiell angesehen. Obwohl 𝐶 -Werte die Obergrenze von 1 haben, sie können diese Grenze faktisch nicht erreichen. Probleme: • 𝐶 ist nicht standardisiert und häng von Tabellendimensionen ab. • 𝐶 -Werte aus verschiedenen Studien können nicht miteinander verglichen werden. Der Zusammenhang ist nicht besonders stark
  • 53. Paul Marx | Grundlagen der Umfrageforschung Cramers V 53 𝑉 = 𝜒2 𝑛 ∙ (min(𝑟, 𝑐) − 1) 𝑉 = 3.333 30 ∙ (2 − 1) = 0.333 Je höher 𝑉, desto stärker ist der Zusammenhang zwischen den Variablen. Werte > 0,30 werden als substantiell angesehen. 𝑉 -Werte haben die Obergrenze von 1, können sie aber ebenfalls faktisch nur bei 2x2-Tabellen erreichen. Probleme: • 𝑉 ist nicht standardisiert und hängt von Tabellendimensionen ab. • 𝑉-Werte aus verschiedenen Studien können nicht miteinander verglichen werden. 𝑟 – Anzahl von Zeilen 𝑐 – Anzahl von Spalten Der Zusammenhang ist nicht besonders stark
  • 54. Paul Marx | Grundlagen der Umfrageforschung Lambda Koeffizient 54 𝜆 = 10 + 10 − 15 30 − 15 = 0.333 Gibt Aufschluss darüber, in wieweit die Kenntnis der Ausprägung einer Variable bei der Prognose der anderen Variable hilft. Ist standardisiert zwischen 0 und 1 (1 – fehlerfreie Prognose, 0 – keine Verbesserung der Vorhersage). 𝜆-Werte aus verschiedenen Studien können miteinander verglichen werden. Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den Faktor 0,333, d.h. 33,3% Verbesserung. 𝑟 – Zeilenindex 𝑐 – Spaltenindex l = max r (nrc )- max r (nr ) c å n - max r (nr )
  • 55. Paul Marx | Grundlagen der Umfrageforschung 𝑟 – Zeilenindex 𝑐 – Spaltenindex Lambda Koeffizient 55 𝜆 = 10 + 10 − 15 30 − 15 = 0,333 Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den Faktor 0,333, d.h. 33,3% Verbesserung. l = max r (nrc )- max r (nr ) c å n - max r (nr ) Geschlecht Internetnutzung Männlich Weiblich Gesamt (Zeile) selten 5 10 15 häufig 10 5 15 Gesamt (Spalte) 15 15 n=30 Summe von max. Häufigkeiten aller Spalten max. Gesamtwert einer Zeile 𝑟 = 1 𝑟 = 2 𝑐 = 1 c = 2
  • 56. Paul Marx | Grundlagen der Umfrageforschung 5. Datenanalyse: Übersicht über statistische Techniken 5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten 5.1.1 Zusammenfassung qualitativer Daten 5.1.2 Zusammenfassung quantitativer Daten 5.1.3 Numerische Zusammenfassung von Daten 5.1.4 Kreuztabellen 5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen? 5.2.1 Hypothesentest 5.2.2 Stärke des Zusammenhangs in Kreuztabellen 5.2.3 Beziehung zwischen zwei (metrischen) Variablen 56
  • 57. Paul Marx | Grundlagen der Umfrageforschung Typen vom Zusammengang zweier Variablen 57 Linear Linear Nicht-linear Kein Zusammenhang Soweit die Daten nicht aus einem kontrollierten Experiment stammen, können wir nur die Existenz einer Beziehung zwischen den Variablen behaupten, nicht jedoch die kausale Richtung dieser Beziehung.
  • 58. Paul Marx | Grundlagen der Umfrageforschung Lineare Korrelation 58 Zwei Variablen korrelieren positiv, wenn höhere Werte einer Variable höheren Werten der anderen Variable entsprechen. Zwei Variablen korrelieren negativ, wenn höhere Werte einer Variable niedrigeren Werten der anderen Variable entsprechen. Positive Korrelation Negative Korrelation
  • 59. Paul Marx | Grundlagen der Umfrageforschung Linearer Korrelationskoeffizient 59 Linearer Korrelationskoeffizient (Pearsons) Linearer Korrelationskoeffizient misst die Stärke der linearen Beziehung zwischen zwei Variablen. 𝑟 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2 Eigenschaften: • Werte des linearen Korrelationskoeffizienten liegen immer zwischen −1 und 1. • Bei 𝑟 = +1 besteht ein vollständig positiver linearer Zusammenhang zwischen den Variablen. • Bei 𝑟 = −1 besteht ein vollständig negativer linearer Zusammenhang zwischen den. • Je näher ist 𝑟 zu +1, desto stärker der positive Zusammenhang. • Je näher ist 𝑟 zu −1, desto stärker der negative Zusammenhang. • Wenn 𝑟 ist nah an die 0, gibt es wenig oder gar kein Nachweis für die Existent einer linearen Beziehung zwischen zwei Variablen. Das bedeutet aber nicht, dass es keine Beziehung zwischen den Variablen gibt – eben nur keine lineare.
  • 60. Paul Marx | Grundlagen der Umfrageforschung Linearer Korrelationskoeffizient 60 𝒓-Wert Interpretation 0 bis 0,3 Sehr schwach 0,3 bis 0,5 Schwach 0,5 bis 0,7 Mittel 0,7 bis 0,9 Hoch 0,9 bis 1 Sehr hoch Stärke der Beziehung zwischen Variablen 86 98 12,5 13,5 168,75 156,25 182,25 62 70 -11,5 -14,5 166,75 132,25 210,25 52 56 -21,5 -28,5 612,75 462,25 812,25 90 110 16,5 25,5 420,75 272,25 650,25 66 76 -7,5 -8,5 63,75 56,25 72,25 80 96 6,5 11,5 74,75 42,25 132,25 78 86 4,5 1,5 6,75 20,25 2,25 74 84 0,5 -0,5 -0,25 0,25 0,25 Mittelwert 73,5 84,5 Summe 1514 1142 2062 𝑟 = 1514 1142 2062 ≈ 0,987 𝑥 𝑦 (𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2 𝑥 𝑦 𝑟 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2
  • 61. Paul Marx | Grundlagen der Umfrageforschung Regressionsanalyse 61 Regressionsanalyse Regressionsanalyse ist ein mächtiges und flexibles Instrument zur Analyse von assoziativen Beziehungen zwischen einer metrischen abhängigen Variabel und einer oder mehreren unabhängigen Variablen. Ermöglicht • Existenz der Beziehung zu bestimmen • Stärke der Beziehung zu quantifizieren • Mathematisches Modell (Formel) der Beziehung abzuleiten • Werte der abhängigen Variable vorherzusagen • Bei der Analyse des Beitrags einer oder mehreren Variablen von Interesse, den Einfluss anderer unabhängiger Variablen zu berücksichtigen Beispiele: • Können Werbeausgaben die Absatzänderungen erklären? • Kann der Marktanteil auf die Größe der Verkaufsabteilung zurückgeführt werden? • Wird die Qualitätswahrnehmung von Konsumenten von ihrer Wahrnehmung vom Preis beeinflusst?
  • 62. Paul Marx | Grundlagen der Umfrageforschung Regressionsanalyse 62 Werbe- ausgaben, €1.000 Absatz, €1.000 40 377 60 507 70 555 110 779 150 869 160 818 190 862 200 817 y = 2.8239x + 352.07 R² = 0.8364 0 100 200 300 400 500 600 700 800 900 1000 0 50 100 150 200 250 Absatz,€1.000 Werbeausgaben, €1.000 Zusammenhang zwischen Absatz und Werbeausgaben Wie viele Produkteinheiten werden wir absetzten, wenn wir €85.000 für die Werbung ausgeben? Erhobene Daten • Werbeausgaben erklären 83,6% der Varianz vom Absazu. • Jeder zusätzliche in die Werbung investierte Euro bringt €2,82 vom zusätzlichen Absatz. • €85.000 Werbeausgaben resultieren in 2,824 ∙ 85.000 + 325,07 = 240.383,57 Absatz.
  • 63. Paul Marx | Grundlagen der Umfrageforschung 63 Referenzen: Backhaus, Klaus, Bernd Erichson, Wulff Plinke, Rolf Weiber (2015), „Multivariate Analysemethoden: Eine anwendungsorientierte Einführung“, Springer Gabler, 14. Auflage. Malhotra, Naresh K. (2009), „Marketing Research: An Applied Orientation“, Prentice Hall, 6th edition. Myers, James H. (1996), „Segmentation & Positioning for Strategic Marketing Decisions“, South Western Educ Pub . Sulivan III, Michael (2010), „Statistics: Informed Decisions Using Data“, Pearson, 3rd edition. Course “Statistics I” of Elgin Community College. Haftungsausschluss: Diese Präsentation enthält das Bildmaterial, welches nur für die Verbreitung innerhalb dieser Präsentation und ihrer Teile in unveränderter Form lizensiert ist. Die Autoren von abgeleiteten Werken sind angehalten, die für die Verbreitung ihrer Werke notwendige Lizenzen selbst zu beschaffen. Der Autor sowie die mit ihm affilierten Personen und/oder Organisationen können für die Verletzung jeglicher Lizenzbedingungen in keiner Form verantwortlich gemacht werden, sofern diese Verletzungen nicht durch ihr aktives Tun verursacht worden sind – also insbesondere nicht in Fällen der durch sie unkontrollierten Verbreitung dieser Präsentation, ihrer Teile und/oder von dieser Präsentation abgeleiteter Werke. Markennamen und geschützte Warenzeichen sind Eigentum ihrer jeweiligen Inhaber. Die Nennung von Markennamen und geschützter Warenzeichen hat lediglich beschreibenden Charakter. Irrtümer vorbehalten. Diese Präsentation unterliegt der CreativeCommons-Attribution-NonCommercial-ShareAlike-Lizenz1, soweit Anderes nicht explizit angegeben ist. Jede Nutzung oder Verbreitung dieser Präsentation, ihrer Teile und/oder abgeleiteter Werke erfordert einen Verweis auf diese Präsentation und explizite Nennung von Paul Marx und questionStar™. ©2016 Paul Marx, questionStar™. All rights reserved. 1https://creativecommons.org/licenses/by-nc-sa/3.0/deed.de. Die Lizenz gilt nicht für das Bildmaterial.

Hinweis der Redaktion

  1. x-bar Let’s say you weigh 150 lbs, and are in an elevator with a 100lb kid and 350lb walrus. What’s the average weight? The real question is “If you replaced this merry group with 3 identical people and want the same load in the elevator, what should each clone weigh?” The average can be skewed by outliers — it doesn’t deal well with wildly varying samples. The average of 100, 200 and -300 is 0, which is misleading. A helpful way to illustrate this is to think of the mean as the center of gravity - like the balance point. Suppose we consider the ages of the six Jackson cousins, Hudson, Abella, Amelia, Jillian, Katelyn, and Jessica. The figure below represents their ages and the corresponding sample mean. (Sample, in this case, because this isn't all of the Jackson cousins.)
  2. x-bar The median is “the item in the middle”. But doesn’t the average (arithmetic mean) imply the same thing? What gives? Humor me for a second: what’s the “middle” of these numbers? 1, 2, 3, 4, 100 Well, 3 is the middle of the list. And although the average (22) is somewhere in the “middle”, 22 doesn’t really represent the distribution. We’re more likely to get a number closer to 3 than to 22. The average has been pulled up by 100, an outlier. The median solves this problem by taking the number in the middle of a sorted list. If there’s two middle numbers (even number of items), just take their average. Outliers like 100 only tug the median along one item in the sorted list, instead of making a drastic change: the median of 1 2 3 4 is 2.5.
  3. x-bar The median is “the item in the middle”. But doesn’t the average (arithmetic mean) imply the same thing? What gives? Humor me for a second: what’s the “middle” of these numbers? 1, 2, 3, 4, 100 Well, 3 is the middle of the list. And although the average (22) is somewhere in the “middle”, 22 doesn’t really represent the distribution. We’re more likely to get a number closer to 3 than to 22. The average has been pulled up by 100, an outlier. The median solves this problem by taking the number in the middle of a sorted list. If there’s two middle numbers (even number of items), just take their average. Outliers like 100 only tug the median along one item in the sorted list, instead of making a drastic change: the median of 1 2 3 4 is 2.5.
  4. The first thing most students ask when they see this (I did, too) is "Why n-1 instead of just n?" It's a good question, and a difficult to answer in plain English. The key is to look at the purpose of using the sample variance (or any sample statistics, for that matter). That purpose is to get an estimate for the true population variance. Unless we have data for the entire population, our estimate will likely be incorrect. If we look at the average of all possible sample variances, though, that average should be the same as the population variance we're trying to estimate. In other words, we'll be wrong most of the time, but the average of all of our attempts will be correct. The thing is, if we divide by N in the sample variance formula above, our estimate will, on average, be too low. (We can actually prove this mathematically, but it's pretty heady stuff. It's usually not covered until a graduate course in probability and statistics.) We call an estimate like this biased, since it consistently under-estimates the parameter it's trying to predict. Interestingly enough, dividing by n-1 makes the estimate unbiased. (This can also be proven mathematically.) So it may seem like an odd thing to do, but there's very solid mathematical reasoning behind it.
  5. One major problem with the variance is that the units don't really make sense. Take the previous example about the heights of the players on the 2008 US Men's Olympic Basketball team. If we look at the units for that variance, it's 10.64 inches squared. What does that have to do with the dispersion of the data? The data are in inches, not inches squared!
  6. Scheinbare = unechte
  7. Scheinbare = unechte
  8. "People are 'erroneously confident' in their knowledge and underestimate the odds that their information or beliefs will be proved wrong. They tend to seek additional information in ways that confirm what they already believed."
  9. In colloquial usage type I error can be thought of as "convicting an innocent person" and type II error "letting a guilty person go free". From the Bayesian point of view, a type I error is one that looks at information that should not substantially change one's prior estimate of probability, but does. A type II error is one that looks at information which should change one's estimate, but does not. (Though the null hypothesis is not quite the same thing as one's prior estimate, it is, rather, one's pro forma prior estimate.)
  10. a - Significance level, (1-a) - level of confidence
  11. a - Significance level, (1-a) - level of confidence Wilcoxon matched-pairs ranked-signs test is more powerful than the sign test bhängige Stichproben treten meist bei wiederholten Messungen an dem gleichen Untersuchungsobjekt auf. Zum Beispiel besteht die erste Stichprobe aus Personen vor der Behandlung mit einem bestimmten Medikament, und die zweite Stichprobe aus denselben Personen nach der Behandlung, d. h. die Elemente von zwei (oder mehr) Stichproben können einander jeweils paarweise zugeordnet werden. Bei unabhängigen Stichproben besteht kein Zusammenhang zwischen den Elementen der Stichproben. Dies ist beispielsweise der Fall, wenn die Elemente der Stichproben jeweils aus unterschiedlicher Population kommen. Die erste Stichprobe besteht beispielsweise aus Frauen, und die zweite Stichprobe aus Männern, oder wenn Personen nach dem Zufallsprinzip in zwei oder mehrere Gruppen aufgeteilt werden.
  12. a - Significance level, (1-a) - level of confidence Wilcoxon matched-pairs ranked-signs test is more powerful than the sign test
  13. a - Significance level, (1-a) - level of confidence Wilcoxon matched-pairs ranked-signs test is more powerful than the sign test
  14. a - Significance level, (1-a) - level of confidence Wilcoxon matched-pairs ranked-signs test is more powerful than the sign test
  15. a - Significance level, (1-a) - level of confidence Wilcoxon matched-pairs ranked-signs test is more powerful than the sign test
  16. in general, df is calculated as the number of observations less the number of constraints needed to calculate a statistical term
  17. The price of a manufactured item and the profit the company gains from it, for example, do not have a linear relationship. When prices are low, sales are high, but profit is still low since very little is made from each sale. As prices increase, profits increase, but at some point, sales will start to drop, until eventually too steep of a price will drive sales down so far as to not be profitable. This might be represented by the third, "Nonlinear" image.
  18. Any use or distribution of this presentation, its parts and/or derivative works is allowed only for non-commercial purpose and requires a link to this presentation and reference to Paul Marx and questionStar™.