SlideShare ist ein Scribd-Unternehmen logo
1 von 170
Seite 1
Fachbereich Wirtschaftswissenschaften
Einführung in SPSS
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Masterstudiengang Konsumentenpsychologie
Wintersemester 2015 / 2016 | 18.09.2015 – 20.09.2015
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 2
Fachbereich Wirtschaftswissenschaften
Einführung in SPSS
Wesentliche Kursinhalte
 Kurzvorstellung
 Organisatorisches
 Was ist SPSS?
 Alternativen
 Grundlagen
 Grundbegriffe
 Skalenniveaus
 Datenerhebung
 Grafische Darstellungsformen
 Balkendiagramme
 Kreisdiagramme
 Streudiagramme
 Stem-and-Leaf
 Histogramme
 Box-Plots
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
 Lagemaße
 Arithmetisches Mittel
 Median
 Modus
 Streuungsmaße
 Varianz
 Standardabweichung
 Interquartilsabstand
 Spannweite
 Verteilungsmaße
 Umgang mit Ausreißern
 Leverage-Effekt
 Identifikation
 Analyse
 Statistische Testverfahren
 Kolmogorov-Smirnov-
Anpassungstest auf NV
 Chi²-Unabhängigkeitstest
 Korrelationskoeffizienten
 Bravais-Pearson
 Spearman
 Kendall
 Lineare Regression
 Bearbeitung von Daten
 Fälle sortieren
 Fälle gewichten
 Fälle auswählen
 Daten klassieren
Seite 3
Fachbereich Wirtschaftswissenschaften
Kurzvorstellung
Arbeit, Forschung und Lehre
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Arbeit bei der HarzOptics GmbH
- An-Institut der HS Harz (seit 2007)
- Gegründet 2006, 5 Mitarbeiter/innen
- Entwicklung optischer Messverfahren
zur Qualitätssicherung in der Luftfahrt
- Projektierung des Breitbandausbaus im
Auftrag von Kreisen und Kommunen
- Fernlehrgang „Technische Optik“
Arbeit an der Hochschule Harz
- Seit 2010 Forschung im Bereich AAL
und Telepflege, seit 2013 Fundraising
- IHK-Forschungspreis 2006
- 3. Platz Hugo-Junkers-Preis 2008
- 3. Platz Hugo-Junkers-Preis 2012
- NoAE Innovation Award 2011/2012
Bisherige Lehrerfahrung
- Lehrbeauftragter an der HS Harz von
2006 bis 2010 (Marktforschung, SPSS,
HTML, Businessinformationssysteme &
strategisches Informationsmanagement)
- Dozent für die Harzer Hochschulgruppe
(2007 bis 2008) sowie an der Sternwarte
St. Andreasberg / VHS Goslar (seit 2011)
© MDKK GmbH
Seite 4
Fachbereich Wirtschaftswissenschaften
Mein zentrales Forschungsthema
Umweltfreundliche Beleuchtungsplanung
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Innenraumsimulation mit DIALux (Sternwarte Sankt Andreasberg) Außenraumsimulation mit DIALux (Ortsteil Freiheit in Osterode)
Seite 5
Fachbereich Wirtschaftswissenschaften
Organisatorisches
Wie wird dieser Kurs ablaufen?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
– Kurs über 2 SWS -> 16 Vorlesungs-
einheiten über jeweils 90 Minuten in
Vorbereitung auf die SPSS-Nutzung
in der Marktforschungs-Vorlesung
– Ziel: Erlernung der wichtigsten
Grundregeln der Arbeit mit SPSS
– Sekundärziel: Kurze Wiederholung
zentraler Inhalte aus Statistik I & II
– Der Kurs endet mit einer Klausur über
60 Minuten, die am PC abgelegt wird
Gruppiertes Balkendiagramm (generiert aus © ALLBUS-Daten)
Seite 6
Fachbereich Wirtschaftswissenschaften
Softwarealternativen zu SPSS
Für Übungen am heimischen Rechner…
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
PAST
- Paleontological Statistics Software
Package for Education and Data Analysis
(Universities of Copenhagen and Oslo)
http://folk.uio.no/ohammer/past/
PSPP
- Open Source-“Nachbau“ von SPSS
- Identische Funktionen und Bedienung,
„Look & Feel“ ist sehr gut vergleichbar
https://www.gnu.org/software/pspp/
NSDstat
- Entwickelt durch den Norwegian Social
Science Data Service (Stat. Bundesamt)
- In Deutschland vertrieben durch GESIS
(Leibniz-Institut für Sozialwissenschaften)
http://www.gesis.org/unser-angebot/
daten-analysieren/software/nsdstat/
Seite 7
Fachbereich Wirtschaftswissenschaften
Bücher zum Umgang mit SPSS
(Schleichwerbung eingeschlossen)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
F. Brosius: SPSS 21, mitp-Verlag, Hardcover-Ausgabe, Farbe,
1.027 Seiten, Wachtendonk, 2013 ISBN: 978-3-826-69454-7.
C. Reinboth: Multivariate Analyseverfahren in der
Marktforschung, LuLu-Verlag, Paperback-Ausgabe,
sw, 193 Seiten, Morrisville, 2006.
C. Reinboth: Induktive Statistik – Übungsaufgaben mit
Musterlösungen, eBook, GRIN-Verlag für wissenschaftliche
Texte, 75 Seiten, München, 2013, ISBN: 978-3-656-53867-7.
Seite 8
Fachbereich Wirtschaftswissenschaften
Grundbegriffe der Statistik
Wer erinnert sich noch?
 Grundgesamtheit / Population
= Menge aller relevanten statistischen Einheiten
 Teilgesamtheit / Teilpopulation
= Betrachtete Teilmenge einer Grundgesamtheit
 Stichprobe
= Real untersuchte Teilmenge einer Grundgesamtheit
 Statistische Einheiten
= Einzelne im Rahmen einer Erhebung untersuchte Objekte
 Merkmal
= Interessierende Größe der statistischen Einheit (Variable)
 Ausprägung
= konkreter Merkmalswert einer statistischen Einheit (Wert)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Alle Studenten
an der HS Harz
(davon) genau 35
befragte Studenten
Alter
23 Jahre
Klaus
Meier
(davon) alle
BWL-Studenten
Seite 9
Fachbereich Wirtschaftswissenschaften
Methoden der Datengewinnung
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Frage: Wie werden Daten erhoben?
primärstatistisch sekundärstatistisch tertiärstatistisch
Nur noch
aggregierte
Daten
Ganz neu
erhobene
Daten
Bereits
existierende
Daten
Methodik Ablauf Umfang
Experiment
Erfassung
Beobachtung
Befragung
Querschnitt
Längsschnitt
mündlich
schriftlich
Vollerhebung
Teilerhebung
willkürlich
zufällig
bewusst
Seite 10
Fachbereich Wirtschaftswissenschaften
Statistische Skalenniveaus
Wer erinnert sich noch?
 Nominalskala
 Daten sind nur Bezeichnungen ohne Rangordnung
 Feststellbar ist lediglich Gleichheit oder Ungleichheit
 Ordinalskala
 Daten können in eine Rangordnung gebracht werden
 Abstände zwischen Daten sind aber nicht interpretierbar
 Intervallskala
 Daten können in eine Rangordnung gebracht werden
 Abstände zwischen Daten sind ebenfalls interpretierbar
 Verhältnisskala
 Wie Intervallskala – nur mit natürlichem Nullpunkt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Geschlecht, Telefonnummern,
Kontonummern, Geschmack…
Schulnoten, Präferenzrangfolgen,
Dienstrang, Zufriedenheit…
Temperaturen in Celsius oder
Fahrenheit, Jahreszahlen…
Temperaturen in Kelvin, Zeit,
Streckenlängen, Wassertiefen…
Seite 11
Fachbereich Wirtschaftswissenschaften
Statistische Skalenniveaus
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Daten
Nominalskala Ordinalskala
Kardinalskala /
metrische Skala
meist
stetig
meist
diskret
meist
diskret
häufbar
(mehrere Ausprägungen)
nicht häufbar
(nur eine Ausprägung)
Intervallskala
(kein natürlicher Nullpunkt)
Verhältnisskala
(natürlicher Nullpunkt)
• keine Rangordnung
Beispiele
• Geschlecht
• Studiengang
• Familienstand
• Telefonnummer
• Rangordnung
• Keine interpretier-
baren Abstände
Beispiele
• Schulnoten
• Steuerklassen
• Präferenzrankings
• Rangordnung
• Interpretierbare Abstände
Beispiele
• Preis in EUR
• Abstand in cm
Seite 12
Fachbereich Wirtschaftswissenschaften
Was ist SPSS?
Statistical Package for Social Sciences
 SPSS ist eines der marktführenden Softwareprodukte für statistische Analysen in
der Sozial- und Gesundheitswissenschaft sowie in der Markt- und Meinungsforschung
 Es wurde 1983 von SPSS Inc., einer Ausgründung der Stanford University, entwickelt
 Der Name wechselte mehrfach von „Statistical Package for Social Sciences“ über
„Superior Performing Software System“ und „Predictive Analysis Software“ (PASW)
bis zu IBM SPSS STATISTICS seit der Übernahme von SPSS Inc. durch IBM in 2009
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
www.ibm.com/software/de/analytics/spss/
Seite 13
Fachbereich Wirtschaftswissenschaften
Wichtige SPSS-Menübefehle
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Datei
• Erstellen, Öffnen & Importieren von Daten
• Ausdrucken kompletter Datensätze
Bearbeiten
• Löschen, Kopieren & Einfügen von Daten
• Optionen > SPSS-Grundeinstellungen
Ansicht
• Ein- und Ausblenden von Symbolleisten
• Einstellung von Schriftart und -größe
• Anzeigen von Labels oder Werten
Daten
• Einfügen von Variablen und Fällen
• Sortieren und Transponieren von Fällen
• Zusammenfügen von SPSS-Dateien
• Gewichtung von Fällen für Analysen
• Auswahl von Fällen für Analysen
Transformieren
• Bildung von Rangfolgen
• Umkodieren von Variablen
Analysieren & Grafiken
• Statistische Analyseverfahren
Seite 14
Fachbereich Wirtschaftswissenschaften
SPSS-Dateitypen
 Datendateien - *.sav
 Datendateien enthalten die zu analysierenden Daten
 Die Datenstruktur ähnelt der einer Tabellenkalkulation
 Der Datenimport aus anderen Programmen ist möglich
 Ausgabedateien *.spo
 Analyseergebnisse werden in Ausgabedateien geschrieben
 Es können mehrere Ausgabedateien gleichzeitig offen sein
 Erfolgreiche Analysen können permanent gesichert werden
 Syntaxdateien *.sps
 SPSS-Verfahren können auch selbst programmiert werden
 Ein selbsterstelltes Programm wird als Syntax gespeichert
 SPSS-Programmierung ist nicht Bestandteil dieses Kurses
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 15
Fachbereich Wirtschaftswissenschaften
SPSS-Variablenansicht
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Merkmale und
Merkmalsnamen
Labels für diskrete
Merkmalsausprägungen
Platzhalter für
fehlende Werte
Skalenniveaus
(Messniveaus)
Seite 16
Fachbereich Wirtschaftswissenschaften
SPSS-Datenansicht
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Statistische Einheit
(Befragte/r, Fall…)
Ausprägungen
(Merkmalswerte)
Seite 17
Fachbereich Wirtschaftswissenschaften
Unser erster Beispieldatensatz: Merkmale
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
• Geschlecht (geschl): numerisch, 0 Dezimalstellen, 2 Labels, nominales Niveau
• Einkommen (einkom): numerisch, 2 Dezimalstellen, keine Labels, metrisches Niveau
• Studienjahre (studj): numerisch, 0 Dezimalstellen, keine Labels, metrisches Niveau
• Krankentage (kranktg): numerisch, 0 Dezimalstellen, keine Labels, metrisches Niveau
Bitte legen Sie diese Merkmale nun in einem leeren Datenblatt an
Seite 18
Fachbereich Wirtschaftswissenschaften
Unser erster Beispieldatensatz: Ausprägungen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Bitte tragen Sie diese Ausprägungen
nun in einem leeren Datenblatt ein
Seite 19
Fachbereich Wirtschaftswissenschaften
Zu Beginn einer Datenanalyse…
…ist es sinnvoll, einen Überblick über die vorliegenden Daten zu bekommen
– Darstellung von Lage und Verteilung der Werte – gibt es Auffälligkeiten?
– Lagemaße: Arithmetisches Mittel, Median, Perzentile, Modus
– Streumaße: Spannweite, Interquartilsabstand, Varianz, Standardabweichung
– Grafische Darstellung: Balkendiagram, Kreisdiagramm, Streudiagramm, Box-Plot…
– Lassen sich extrem große oder kleine Werte (Ausreißer) identifizieren?
– Sind außergewöhnliche Umstände oder Fehler die Ursache?
– Verzerren die Ausreißer die Ergebnisse der weiteren Analyse?
– Ist es möglich, sie aus der weiteren Analyse auszuschließen?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 20
Fachbereich Wirtschaftswissenschaften
Zu Beginn einer Datenanalyse…
– Erfüllen die Daten die Voraussetzungen für weiterführende Verfahren?
– Liegt eine Normalverteilung vor?
– Liegt eine Gleichheit der Varianzen vor?
Alle angesprochenen Fragestellungen fallen in den Aufgabenbereich der
explorativen Datenanalyse, die wir in diesem Kurs kennenlernen werden.
Welche Verfahren im Rahmen einer explorativen Datenanalyse abzuarbeiten
sind, ist nicht explizit festgelegt. Vielmehr gilt es, die geeigneten Methoden
und grafischen Darstellungsformen aus dem „Baukasten“ der explorativen
Datenanalyse passend zu Daten sowie zu Fragestellungen auszuwählen.
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 21
Fachbereich Wirtschaftswissenschaften
Eine Verteilung überblicken
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Frage: Wie sieht die vorliegende Verteilung aus?
grafisch
Lagemaße
Streuungsmaße
Verteilungsmaße
Balkendiagramme, Kreisdiagramme, Histogramme,
Säulendiagramme, Box-Plots, Stem-and-Leaf-Plots
Arithmetisches Mittel, getrimmtes arithmetisches Mittel, Median,
Perzentilwerte, Modus, geometrisches Mittel, harmonisches Mittel
Varianz, Standardabweichung, Variationskoeffizient, Spann-
weite, Interquartilsabstand, Fünf-Werte-Zusammenfassung
Momentenkoeffizient der Schiefe,
Quartilskoeffizient der Schiefe, Kurtosis
Seite 22
Fachbereich Wirtschaftswissenschaften
Grafische Darstellung univariater Daten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mögliche Darstellungsformen
• diskrete Merkmale
• wenige Ausprägungen
• stetige Merkmale
• viele Ausprägungen
Stabdiagramm
Säulendiagramm
Balkendiagramm
Kreisdiagramm
Stem-and-Leaf
Histogramm
Box-Plot
P-P- & Q-Q-Plots
Seite 23
Fachbereich Wirtschaftswissenschaften
Balken- und Kreisdiagramme
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 24
Fachbereich Wirtschaftswissenschaften
Säulen- und Balkendiagramme
– Säulen- und Balkendiagramme eignen sich insbesondere für die Visualisierung
diskreter Merkmale mit einer überschaubaren Anzahl an Ausprägungen
– Stetige Merkmale sollten vor einer Diagrammerstellung klassiert werden
– SPSS gestattet die Darstellung relativer sowie absoluter Häufigkeiten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 25
Fachbereich Wirtschaftswissenschaften
Erstellung von Balkendiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte Dialogfelder > Balken
Seite 26
Fachbereich Wirtschaftswissenschaften
Erstellung von Balkendiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 27
Fachbereich Wirtschaftswissenschaften
Erstellung von Balkendiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 28
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit eingeblendeten absoluten Werten Mit eingeblendeten Beschriftungen
Seite 29
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit veränderten Farben und Schatten In Form einer 3D-Effektdarstellung
Seite 30
Fachbereich Wirtschaftswissenschaften
Kreisdiagramme
– Wie Balkendiagramme eignen sich Kreisdiagramme primär für die Visualisierung
diskreter Merkmale mit einer überschaubaren Anzahl an Ausprägungen
– Stetige Merkmale sollten vor einer Diagrammerstellung klassiert werden
– SPSS gestattet die Darstellung relativer sowie absoluter Häufigkeiten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 31
Fachbereich Wirtschaftswissenschaften
Erstellung von Kreisdiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte
Dialogfelder > Kreis
Seite 32
Fachbereich Wirtschaftswissenschaften
Erstellung von Kreisdiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 33
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit eingeblendeten absoluten Werten Mit eingeblendeten Beschriftungen
Seite 34
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit veränderten Farben und Schatten In Form einer 3D-Effektdarstellung
Seite 35
Fachbereich Wirtschaftswissenschaften
Box-Plots und Histogramme
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 36
Fachbereich Wirtschaftswissenschaften
Histogramme
– Ein Histogramm zeigt die Häufigkeitsverteilung intervallskalierter Merkmale
– Dabei wird von nach der Größe geordneten Daten ausgegangen, die in n Klassen
aufgeteilt werden, welche theoretisch nicht die gleiche Breite besitzen müssen
(SPSS erstellt Histogramme standardmäßig jedoch mit gleichbreiten Klassen)
– Über jeder Klasse wird ein Rechteck konstruiert, dessen Flächeninhalt sich
proportional zur absoluten bzw. relativen Häufigkeit dieser Klasse verhält
– Die Visualisierung von Daten mittels Histogrammen eignet sich primär
für stetige Merkmale mit einer großen Anzahl an Ausprägungen
– In SPSS ist zu beachten, dass maximal 21 Klassen gebildet werden können
– Außerdem kann eine Normalverteilungskurve in das Histogramm eingeblendet
werden, aus der abgelesen werden kann, wie eine Normalverteilung bei Daten mit
gleichem Mittelwert und gleicher Streuung aussehen würde (Voraussetzungsprüfung)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 37
Fachbereich Wirtschaftswissenschaften
Erstellung von Histogrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte Dialogfelder > Histogramm
Seite 38
Fachbereich Wirtschaftswissenschaften
Erstellung von Histogrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 39
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit veränderten Klassenbreiten
(erhebliche Manipulationsmöglichkeiten)
Seite 40
Fachbereich Wirtschaftswissenschaften
Box-Plots
– Box-Plots bieten einen Verteilungsüberblick und gestatten Verteilungsvergleiche
– Sie stellen Lage und Streuung dar und dienen zudem der Ausreißeridentifikation
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Median
Oberes Quartil
Unteres Quartil
Größter Nicht-Ausreißer
Kleinster Nicht-Ausreißer
*
42
16
27
Ausreißer
Ausreißer
Extremwert
IQR4 IQR7 IQR
Seite 41
Fachbereich Wirtschaftswissenschaften
Box-Plots
– Aus der Lage des Medians im Box-Plot lässt sich die Form einer Verteilung ablesen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Symmetrische Verteilung
Linkssteile Verteilung
Rechtssteile Verteilung
Seite 42
Fachbereich Wirtschaftswissenschaften
Box-Plots
– Sollen mehrere Verteilungen bzw. mehrere überschneidungsfreie Gruppen (z.B.
männliche und weibliche Angestellte) in einer Verteilung miteinander verglichen
werden, lassen sich Box-Plots nebeneinander darstellen
– Weitergehende Vergleiche sind über gruppierte Box-Plots möglich, d.h. es erfolgt
eine Aufteilung anhand mehr als nur eines Merkmals (beispielsweise anhand des
Geschlechts und des Einkommens, wodurch sich vier Gruppen ergeben)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 43
Fachbereich Wirtschaftswissenschaften
Erstellung von Box-Plots mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte Dialogfelder > Box-Plots
Um einen Blox-Plot für eine
Einzelvariable zu generieren,
muss – eher kontraintuitiv – die
Option Einfach > Auswertung
über verschiedene Variablen
selektiert werden
Seite 44
Fachbereich Wirtschaftswissenschaften
Erstellung von Box-Plots mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 45
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Als T-Balken-Variante Mit veränderten Farben
Seite 46
Fachbereich Wirtschaftswissenschaften
Stem-and-Leaf-Plots
– Die Stem-and-Leaf-Plots (Stamm-Blatt-Diagramme) eignen sich im Gegensatz
zu Kreis- und Balkendiagrammen vor allem zur Darstellung stetiger Merkmale
– Der große Vorteil gegenüber jeder anderen grafischen Darstellungsform ist,
dass die Originaldaten (zumindest bis zu einer gewissen Genauigkeit) noch aus
dem Diagramm abgelesen werden können
– Das Diagramm ist aufgebaut wie ein gekipptes Histogramm, d.h. flächenproportional
– Der „Stamm“ besteht aus der ersten Ziffer, die „Blätter“ aus der jeweils folgenden
– Sehr große oder sehr kleine Zahlen (Ausreißer) können auf- oder abgerundet
sowie als Extremwerte ausgewiesen oder aus dem Diagramm gestrichen werden
– Stem-and-Leaf-Plots können – neben Box-Plots – bemerkenswert gut
dazu genutzt werden, um zwei Verteilungen miteinander zu vergleichen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 47
Fachbereich Wirtschaftswissenschaften
Stem-and-Leaf-Plots
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
1 | 1 1 1 2 2 3 4 5 7 7
2 | 2 2 4
3 | 3 3 3 4 5 8 8
4 | 1 2 9 9 9 9
2 Extremes
Stem width: 10
Each leaf: 1 case(s) Datensatz A Datensatz B
8 8 8 3 2 | 1 | 1 1 1 2 2 3 4 5 7 7
2 1 | 2 | 2 2 4
9 5 4 43 3 | 3 | 3 3 3 4 5 8 8
4 3 32 1 | 4 | 1 2 9 9 9 9
3 Extremes 2 Extremes
Stem width: 10
Each leaf: 1 case(s)
Singulärer Stem-and-Leaf-Plot
Vergleichender
Stem-and-Leaf-Plot
Seite 48
Fachbereich Wirtschaftswissenschaften
Erstellung von Stem-and-Leaf-Plots mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Deskriptive Statistik > Explorative Datenanalyse
Wie ist das Ergebnis
zu interpretieren?
Seite 49
Fachbereich Wirtschaftswissenschaften
Grafische Darstellung multivariater Daten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Darstellungsformen
Bivariate Darstellung Multivariate Darstellung
2D-Streudiagramme 3D-Streudiagramme
Streudiagramm-MatrixProfildiagramme
Andrew‘s Fourier
Chernoff-Gesichter
Seite 50
Fachbereich Wirtschaftswissenschaften
Streudiagramme und Streudiagramm-Matrizen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 51
Fachbereich Wirtschaftswissenschaften
Streudiagramme
– Streudiagramme stellen die gemeinsame Verteilung der Werte zweier Variablen
(bzw. dreier Variablen in einem 3D-Streudiagramm) dar, indem die entsprechenden
Werte beider Variablen gegeneinander abgetragen werden
– Lage und Verteilung der Wertepaare ermöglichen Rückschlüsse auf mögliche
Zusammenhänge -> Einstieg in die inhaltliche Interpretation von Datensätzen
– Beispiel: Treten in der Tendenz große Werte der einen Variablen gepaart mit großen
Werten der anderen Variablen auf, so kann ein positiver Zusammenhang vermutet
werden (beispielsweise bei Werbeausgaben und Verkaufszahlen)
– Ein gefundener Zusammenhang kann nicht in eine bestimmte Richtung interpretiert
werden, d.h. aus der Grafik ist nicht abzulesen, ob Variable A Variable B beeinflusst
oder umgekehrt, bzw. ob lediglich ein Scheinzusammenhang besteht
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 52
Fachbereich Wirtschaftswissenschaften
Erstellung von Streudiagrammen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte
Dialogfelder >
Streu-/Punktdiagramm
Wie ist das Ergebnis
zu interpretieren?
Seite 53
Fachbereich Wirtschaftswissenschaften
Verschiedene Diagrammspielarten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Mit linearer Regressionsgeraden
Seite 54
Fachbereich Wirtschaftswissenschaften
Streudiagramm-Matrix
– Liegt ein multivariater Fall vor, d.h. sollen für mehrere Variablenpaare jeweils
gemeinsame Verteilungen dargestellt werden, ist anstelle einer Reihe bivariater
Streudiagramme ein gemeinsames Streudiagramm in Form einer Matrix sinnvoll
– Eine Streudiagramm-Matrix gestattet den schnellen Überblick über die Vielzahl aller
möglichen Paarverteilungen und ermöglicht das rasche Auffinden symmetrischer oder
anderweitig auffälliger Einzel-Streudiagramme
– Jedes einzelne Streudiagramm taucht zweimal in der Matrix auf (einmal oberhalb und
einmal unterhalb der Hauptdiagonalen), wobei die jeweiligen Achsen der Diagramme
miteinander vertauscht sind (Gehalt <> Anfangsgehalt; Anfangsgehalt <> Gehalt)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 55
Fachbereich Wirtschaftswissenschaften
Erstellung von Matrizen mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Grafik > Alte
Dialogfelder >
Streu-/Punktdiagramm
Wie ist das Ergebnis
zu interpretieren?
Seite 56
Fachbereich Wirtschaftswissenschaften
Analyse bivariater Zusammenhänge
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Frage: Liegt in einem bivariaten Datensatz ein Zusammenhang vor?
grafisch nominalskaliert ordinalskaliert metrisch
stetig
diskret
Streudiagramm
Scatterplot-Matrix
Balkendiagramme
(gruppiert, bedingt)
Chi²-Koeffizient Konkordanz-
koeffizient
nach Kendall
Rangkorrelations-
koeffizient nach
Spearman
Bravais-Pearson-
Korrelations-
koeffizient
Seite 57
Fachbereich Wirtschaftswissenschaften
Lagemaße / Maße der zentralen Tendenz
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Daten
Nominalskala Ordinalskala
Kardinalskala /
metrische Skala
meist
stetig
meist
diskret
meist
diskret
Intervallskala
(kein natürlicher Nullpunkt)
Verhältnisskala
(natürlicher Nullpunkt)
• Modus • Median
• Quartile
• Quantile
• Perzentile
• geometrisches Mittel
• harmonisches Mittel
• arithmetisches Mittel
(inkl. gewichtet, getrimmt...)
Lagemaße, die ein niedriges Skalenniveau
voraussetzen können problemlos für Datensätze
eines höheren Skalenniveaus berechnet werden
✔
Seite 58
Fachbereich Wirtschaftswissenschaften
Das arithmetische Mittel
– Das arithmetische Mittel ist das bekannteste statistische Lagemaß (Standardmittel)
– Es kann nur für metrisch skalierte Daten berechnet werden (Intervall-/Verhältnisskala)
– Vorsicht: SPSS „berechnet“ das arithmetische Mittel auch für nichtmetrische Daten
– Anwender/innen benötigen daher Methodenkenntnisse (klassischer Fehler: Schulnoten)
– Liegen von einem metrischen Merkmal x
insgesamt n Werte vor, berechnet sich das
arithmetische Mittel auf Basis dieser Formel:
– Das arithmetische Mittel ist nicht robust, d.h. empfindlich gegenüber Ausreißern:
(1, 2, 3, 4) -> (1+2+3+4) / 4 = 2,5
(1, 2, 3, 50) -> (1+2+3+50) / 4 = 14
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
x =
1
n
xi
i=1
n
å
Seite 59
Fachbereich Wirtschaftswissenschaften
Berechnung des arithm. Mittels mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 60
Fachbereich Wirtschaftswissenschaften
Berechnung des arithm. Mittels mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 61
Fachbereich Wirtschaftswissenschaften
Der Median
– Der Median ist derjenige Wert, der in der Mitte der geordneten Verteilung liegt
– Die Berechnung des Medians setzt daher mindestens ordinalskalierte Daten voraus
– Bei einer ungeraden Anzahl an Werten wird der
mittlere Wert der geordneten Verteilung gewählt:
– Bei einer geraden Anzahl an Werten wird das
arithmetische Mittel der mittleren Werte gewählt:
– Der Median ist äußerst robust, d.h. er wird von Ausreißern kaum beeinflusst:
(1, 2, 3, 4) -> Median: 2,5
(1, 2, 3, 50) -> Median: 2,5
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
xmed = x
(
x+1
2
)
xmed =
1
2
(x
(
n
2
)
+ x
(
(n+1)
2
)
)
Seite 62
Fachbereich Wirtschaftswissenschaften
Berechnung des Medians mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 63
Fachbereich Wirtschaftswissenschaften
Berechnung des Medians mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 64
Fachbereich Wirtschaftswissenschaften
Die Perzentilwerte
– Perzentilwerte sind Werte, unterhalb derer ein definierter Anteil aller Werte liegt
– Für die Perzentilberechnung müssen mindestens ordinalskalierte Daten vorliegen
– Der bekannteste Perzentilwert ist das 50%-Perzentil – der bereits bekannte Median
– Häufig erfolgt eine „Vierteilung“ des Wertebereichs mit den sogenannten Quartilen:
– 25%-Perzentil (25% aller Werte liegen unterhalb dieses Wertes, 75% liegen oberhalb)
– 50%-Perzentil – Median (50% aller Werte liegen unter- bzw. oberhalb dieses Wertes)
– 75%-Perzentil (75% aller Werte liegen unterhalb dieses Wertes, 25% liegen oberhalb)
– Die Quartile spielen u.a. für die Bildung von Box-Plots (Grenzen der Box)
sowie für die Unterscheidung in Ausreißer und Extremwerte (IQR) eine Rolle
– Wie der Median sind auch die restlichen Perzentile robust gegenüber Ausreißern
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 65
Fachbereich Wirtschaftswissenschaften
Berechnung von Perzentilwerten mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 66
Fachbereich Wirtschaftswissenschaften
Berechnung von Perzentilwerten mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Lassen sich auch beliebige
Perzentilwerte berechnen?
Können die Perzentilwerte
auch aus der Tabelle der
Häufigkeitsverteilung
abgelesen werden?
Seite 67
Fachbereich Wirtschaftswissenschaften
Der Modus
– Der Modus (oder Modalwert) ist der in den Daten am häufigsten auftretende Wert
– Bei klassierten Daten entspricht der Modus die Klassenmitte der Klasse mit den
meisten Fällen (dies gilt allerdings nur beim Vorliegen gleichbreiter Klassen)
– Der Modus eignet sich vor allem für diskrete Daten (Punktwahrscheinlichkeit)
– Er wird v.a. für nominalskalierte Daten gebildet, für die sich kein anderes Lagemaß eignet
– Bei metrisch skalierten Daten kann der Modus über gleichbreite Klassen gebildet werden
– Vorteil: Der Modus ist ohne Rechnung erkennbar und lässt sich leicht bestimmen
– Nachteil: Der Modus ist nur interpretierbar, wenn ein klares Maximum existiert
– Achtung: Sind in einem diskreten Datensatz mehrere Werte mit gleicher Häufigkeit
vertreten, gibt SPSS nur den in der Häufigkeitstabelle zuoberst stehenden Wert aus
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 68
Fachbereich Wirtschaftswissenschaften
Berechnung des Modus mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 69
Fachbereich Wirtschaftswissenschaften
Berechnung des Modus mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Weist diese Verteilung ein
klares Maximum auf?
Seite 70
Fachbereich Wirtschaftswissenschaften
Zusammenfassung der Lagemaße
– Lagemaße beschreiben das Zentrum einer Verteilung
– Arithmetisches Mittel
– Sogenanntes „Standardmittel“
– Nicht robust gegenüber Ausreißern
– Daten müssen stets metrisch skaliert sein
– Getrimmtes arithmetisches Mittel
– Arithmetisches Mittel nach Entfernung einiger Randdaten
– Trimmung der Daten erfolgt stets beidseitig symmetrisch
– Die Trimmung des Mittels mildert Ausreißereffekte ab
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
x =
1
n
xi
i=1
n
å
xget =
1
nget
xi
i=1
nget
å
Seite 71
Fachbereich Wirtschaftswissenschaften
Zusammenfassung der Lagemaße
– Median
– Mittlerer Wert der geordneten Verteilung
– Von Ausreißern praktisch nicht beeinflussbar
– Daten müssen mindestens ordinalskaliert sein
– Für gerade und ungerade n existieren zwei Formeln
– Perzentile
– „Verallgemeinerung“ des Medians
– Anstelle von 50% werden andere Prozentzahlen gewählt
– In der Praxis spielen vor allem Quantile und Quartile eine Rolle
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
xmed = x
(
x+1
2
)
xmed =
1
2
(x
(
n
2
)
+ x
(
(n+1)
2
)
)
xp = xk
xp =
1
2
(xk + x(k+1) )
Seite 72
Fachbereich Wirtschaftswissenschaften
Zusammenfassung der Lagemaße
– Modus
– Am häufigsten auftretender Wert in den Daten
– Kann schon für nominalskalierte Werte berechnet werden
– Nur sinnvoll, wenn ein einzelnes, klares Maximum vorliegt
– Geometrisches Mittel
– Lagemaß für relative Veränderungen (Wachstum)
– In solchen Fällen das einzig zulässiges Lagemaß
– Faktoren können unterschiedlich gewichtet werden
– Harmonisches Mittel
– Kommt bei Quotienten zum Einsatz (Geschwindigkeiten...)
– Kann analog zum geometrischen Mittel gewichtet werden
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
xmod = axmax
xgeom = x1...xn
n
xhar =
1
1
xii=1
n
å
Seite 73
Fachbereich Wirtschaftswissenschaften
Berechnung multipler Lagemaße mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 74
Fachbereich Wirtschaftswissenschaften
Berechnung multipler Lagemaße mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Welche Grafiken könnten diese tabellarische Darstellung sinnvoll ergänzen?
Seite 75
Fachbereich Wirtschaftswissenschaften
Lagemaße und Verteilungsformen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Lagemaß min. Skalenniveau
Modalwert Nominalskalenniveau
Median / Perzentile Ordinalskalenniveau
Arithmetisches Mittel Metrisches Skalenniveau
Verhältnis der Lagemaße Form der Verteilung
Symmetrische Verteilung
Rechtssteile Verteilung
Linkssteile Verteilung
x » xmed » xmod
x < xmed < xmod
x > xmed > xmod
Seite 76
Fachbereich Wirtschaftswissenschaften
Das „SPSS-Analyseproblem“
– SPSS führt JEDE Analyse unabhängig von den Voraussetzungen durch!
– ...also auch die Berechnung des arithmetischen Mittels
– ... aus Schulnoten
– ... aus Geschlechtern
– ... aus Kontonummern
– ... aus Telefonnummern
– ... aus Präferenzrängen
– Bei komplexen Verfahren sind noch weit schlimmere „Vergehen“ denkbar
– Die fachlichen Kenntnisse der Anwender/innen sind daher entscheidend
– Darum: KEINE Analyse ohne vorherige Prüfung der Voraussetzungen!
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 77
Fachbereich Wirtschaftswissenschaften
Streuungsmaße / Dispersionsmaße
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 78
Fachbereich Wirtschaftswissenschaften
Die Spannweite
– Die Spannweite ist als der absolute Abstand zwischen dem jeweils kleinsten
(Minimum) und größten (Maximum) Wert im untersuchten Datensatz definiert
– Die Spannweite ist als Streuungsmaß in den meisten Fällen ungenügend, da
sie – soweit vorhanden – extrem stark von Ausreißern beeinflusst wird
– Existieren an beiden Verteilungsrändern Ausreißer, wird der Wert der
Spannweite tatsächlich sogar ausschließlich (!) durch diese bestimmt
(1, 2, 3, 4, 5) -> Spannweite: 4
(1, 2, 3, 4, 50) -> Spannweite: 49
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 79
Fachbereich Wirtschaftswissenschaften
Berechnung der Spannweite mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 80
Fachbereich Wirtschaftswissenschaften
Der Interquartilsabstand
– Der Interquartilsabstand (IQR = Inter Quartile Range) ist definiert als
der Abstand zwischen dem oberen (75%) und dem unteren Quartil (25%)
– Da die Quartile bekanntlich nicht von Ausreißern beeinflusst werden
können, ist der IQR als Streuungsmaß deutlich robuster als die Spannweite
– Quartile, Minimum und Maximum bilden die Fünf-Werte-Zusammenfassung
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
} IQR
Seite 81
Fachbereich Wirtschaftswissenschaften
Varianz und Standardabweichung
– Die Varianz (bzw. Standardabweichung) ist das meistgenutzte Streuungsmaß
– Sie berechnet sich als Summe der quadrierten Abweichungen der Einzelwerte
(Ausgleich negativer und positiver Abweichungen) vom arithmetischen Mittel,
geteilt durch die Gesamtzahl aller Werte
– Bei der Berechnung der Stichproben-Varianz (SPSS) stehen die Freiheitsgrade im Nenner
– Die Varianz wird immer kleiner, je näher die Einzelwerte am arithmetischen Mittel liegen
– Sind alle Werte mit dem Mittel identisch (keine Streuung), ergibt sich eine Nullvarianz
– Bei der Interpretation ist zu beachten, dass mit quadrierten Werten gerechnet wird
– Auch die Varianz ist also in der quadrierten Einheit dimensioniert (z.B. in €² statt in €)
– Die Standardabweichung als Quadratwurzel der Varianz erleichtert die Interpretation
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑆² =
1
(𝑁 − 1)
𝑖=1
𝑁
(𝑋𝑖 − 𝑋)²
Seite 82
Fachbereich Wirtschaftswissenschaften
Berechnung der Varianz mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 83
Fachbereich Wirtschaftswissenschaften
Berechnung der Varianz mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 84
Fachbereich Wirtschaftswissenschaften
Streuungsmaße / Dispersionsparameter
– Streuungsmaße geben Auskunft darüber, wie stark Daten
um das Zentrum einer Verteilung (Mittelwert) streuen
– Empirische Varianz
– Mittlere quadrierte Abweichung vom arithmetischen Mittel
– Kann daher nur für metrisch skalierte Daten berechnet werden
– Varianz ist nicht robust, d.h. empfindlich gegenüber Ausreißern
– Standardabweichung
– Durch die Quadrierung ist die Varianz schwer interpretierbar,
da sie sich in Einheiten wie z.B. €² oder Stunden² ausdrückt
– Die Standardabweichung ist die positive Wurzel der Varianz
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑠² =
1
𝑛
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)²
𝑠 = + 𝑠²
Seite 85
Fachbereich Wirtschaftswissenschaften
Streuungsmaße / Dispersionsparameter
– Variationskoeffizient
– Streuungen mit unterschiedlichen Maßstäben sind nicht vergleichbar
– Beispiel: Währungsschwankungen in verschiedenen Währungen
– Ist der Mittelwert positiv, können die Daten aber normiert werden
– Der entstehende Variationskoeffizient gestattet direkte Vergleiche
– Spannweite
– Differenz zwischen größtem und kleinstem Wert
– In die Berechnung fließen also nur wenige Daten ein
– Differenz wird dadurch massiv durch Ausreißer beeinflusst
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑣 =
𝑠
𝑥
𝑏𝑒𝑖 𝑥 > 0
𝑑 𝑠 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
Seite 86
Fachbereich Wirtschaftswissenschaften
Streuungsmaße / Dispersionsparameter
– Interquartilsabstand (IQR)
– Der IQR ist der Abstand zwischen oberem und unterem Quartil
– Er wird für Box-Plot und Fünf-Werte-Zusammenfassung benötigt
– Fünf-Werte-Zusammenfassung
– Hochkomprimierte Darstellung von Streuung und Lage einer Verteilung,
bestehend aus dem Minimum, dem Maximum und den drei Quartilen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝐼𝑄𝑅 = 𝑥0,75 − 𝑥0,25
[𝑥 𝑚𝑖𝑛, 𝑥0,25 , 𝑥0,5, 𝑥0,75 , 𝑥 𝑚𝑎𝑥]
Seite 87
Fachbereich Wirtschaftswissenschaften
Schiefe und Wölbung
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
• Verteilungen können nach Schiefe unterschieden werden
• Symmetrische Verteilungen (spiegelbildlich)
• Linkssteile und rechtsschiefe Verteilungen
• Rechtssteile und linksschiefe Verteilungen
• Zudem kann nach der Wölbung unterschieden werden
• Der Wölbungsgrad entspricht
der Wölbung einer Normalverteilung
• Die Wölbung verläuft flacher als
die Wölbung einer Normalverteilung
• Die Wölbung verläuft spitzer als
die Wölbung einer Normalverteilung
Quelle: Wikimedia Commons / User:
Christian Schirm / Lizenz: gemeinfrei
Seite 88
Fachbereich Wirtschaftswissenschaften
Schiefe und Wölbung
– Momentenkoeffizient der Schiefe
– Abweichung der Verteilung von der symmetrischen Form
– Die Daten müssen dabei mindestens intervallskaliert sein
– Es ergeben sich positive Werte für linkssteile Verteilungen
und negative Werte für rechtssteile Verteilungen
– Quartilskoeffizient der Schiefe
– Koeffizient wird mit den Quartilen gebildet
– Daten müssen daher lediglich ordinalskaliert sein
– Interpretation ist identisch zum Momentenkoeffizient
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑔 𝑚 =
𝑚3
𝑠³
𝑚𝑖𝑡 𝑚3 =
1
𝑛
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)³
𝑢𝑛𝑑 𝑠³ = (
1
𝑛
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2)³
𝑔0,25 =
[ 𝑥0,75 − 𝑥 𝑚𝑒𝑑 − 𝑥 𝑚𝑒𝑑 − 𝑥0,25 ]
(𝑥0,75 − 𝑥0,25)
Seite 89
Fachbereich Wirtschaftswissenschaften
Schiefe und Wölbung
– Kurtosis / Exzeß
– Abweichung der Wölbung von der einer Normalverteilung
– Es ergeben sich positive Werte für spitze Verteilungen
und negative Werte für flache Verteilungen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑔 𝑚 =
𝑚4
𝑠4
𝑚𝑖𝑡 𝑚4 =
1
𝑛
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)4
𝑢𝑛𝑑 𝑠4 = (
1
𝑛
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)²)4
Seite 90
Fachbereich Wirtschaftswissenschaften
Berechnung der Schiefe / Wölbung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren >
Deskriptive
Statistiken >
Häufigkeiten
Seite 91
Fachbereich Wirtschaftswissenschaften
Berechnung der Schiefe / Wölbung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 92
Fachbereich Wirtschaftswissenschaften
Der richtige Umgang mit Ausreißern
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
?
?
Seite 93
Fachbereich Wirtschaftswissenschaften
Einführung in die Ausreißeranalyse
– Bei einem Ausreißer handelt es sich um einen gemessenen oder erhobenen Wert,
der nicht den Erwartungen entspricht bzw. der nicht zu den übrigen Werten passt
– Es existiert keine eindeutige Definition darüber, wann ein Wert als Ausreißer
bezeichnet werden kann – beim Box-Plot werden z.B. alle Werte außerhalb
des vierfachen IQR-Bereichs um den Median als Ausreißer klassifiziert
– Es gibt drei mögliche Ursachen für das Auftreten eines Ausreißers:
– Der Ausreißer wurde durch einen verfahrenstechnischen Fehler verursacht, so etwa
einen Fehler bei der Dateneingabe, beim Codieren der Daten oder einen technischen
Ausfall bei der Datenerfassung bzw. -speicherung
– Der Ausreißer kennzeichnet einen außergewöhnlichen Wert, etwa eine einzelne aus dem
Rahmen fallende Beobachtung (der einzige Millionär), die sich jedoch erklären lässt – solche
Ausreißer können mitunter ein Hinweis darauf sein, dass die Befragung falsch angelegt wurde
– Der Ausreißer kennzeichnet einen korrekt erfassten Wert, für den es keinerlei Erklärung gibt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 94
Fachbereich Wirtschaftswissenschaften
Einführung in die Ausreißeranalyse
– Es ist zwischen normalen und multivariaten Ausreißern zu unterscheiden:
– „Normaler“ Ausreißer = außergewöhnlich großer oder kleiner Wert
(beispielsweise das persönliche Einkommen im Millionenbereich)
– Multivariater Ausreißer = für sich betrachtet im normalen Bereich liegende
Einzelwerte, die in ihrer Kombination quer durch die Variablen jedoch einen
einzigartigen Fall ergeben (beispielsweise die 86jährige Frau mit Internetanschluss)
– Die entscheidende Frage jeder Ausreißeranalyse lautet: Werden die Ausreißer
im Datensatz beibehalten oder können bzw. sollen sie verworfen werden?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 95
Fachbereich Wirtschaftswissenschaften
Der Leverage-Effekt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Ausreißer können eine
Regressionsgerade zu
sich „hinziehen“ und so das
Ergebnis stark beeinflussen
Seite 96
Fachbereich Wirtschaftswissenschaften
Die grafische Identifikation von Ausreißern
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Unterscheidung in Ausreißer
und extreme Werte im Box-Plot
Grafische Identifikation von
Ausreißern im Streudiagramm
Seite 97
Fachbereich Wirtschaftswissenschaften
Erstellung einer Extremwerttabelle mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Deskriptive Statistiken
> Explorative Datenanalyse
Seite 98
Fachbereich Wirtschaftswissenschaften
Erstellung einer Extremwerttabelle mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 99
Fachbereich Wirtschaftswissenschaften
Wie ist mit Ausreißern umzugehen?
– Generell gibt es drei Möglichkeiten:
– Eingang in die Analyse
– Ausschluss aus der Analyse
– Kennzeichnung als fehlender Wert
– Insbesondere drei Fragen sind für die Entscheidungsfindung von Bedeutung:
– Wie ist das Auftreten der Ausreißer zu erklären?
– Handelt es sich um Eingabefehler und ist es möglich, diese zu bereinigen?
– Was sagen die Werte über Anlage und Durchführung der Erhebung aus?
– Welche Auswirkungen haben die Ausreißer auf die Ergebnisse der Datenanalyse?
– Beeinflussen sie beispielsweise den Verlauf einer Regressionsgraden? (Leverage-Effekt)
– Welcher Datenverlust entsteht, wenn die Ausreißer aus dem Datensatz entfernt werden?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 100
Fachbereich Wirtschaftswissenschaften
Statistische Tests: K-S-A und Chi²-Test
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 101
Fachbereich Wirtschaftswissenschaften
Die Normalverteilung
– Die Gauß- oder Normalverteilung ist die wichtigste
kontinuierliche Wahrscheinlichkeitsverteilung
– Die zugehörige Dichtefunktion ist
als Gaußsche Glockenkurve bekannt
– Wesentliche Eigenschaften der Normalverteilung
– Dichtefunktion ist glockenförmig und symmetrisch
– Erwartungswert, Median und Modus sind gleich
– Zufallsvariable hat eine unendliche Spannweite
– Viele statistische Verfahren setzen die Normalverteilung
der Daten in der Grundgesamtheit voraus, weshalb häufig zu
prüfen ist, ob eine solche Verteilung vorliegt (auch näherungsweise)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 102
Fachbereich Wirtschaftswissenschaften
Dichtefunktionen div. Normalverteilungen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Quelle: Wikimedia Commons / User: InductiveLoad / Lizenz: gemeinfrei
Seite 103
Fachbereich Wirtschaftswissenschaften
Der Kolmogorov-Smirnov-Anpassungstest
– Die Prüfung auf Vorliegen einer Normalverteilung kann in SPSS auch mit einem
Anpassungstest wie etwa dem Kolmogorov-Smirnov-Test durchgeführt werden
– Der Test arbeitet mit der kumulierten empirischen
und der kumulierten erwarteten Referenzverteilung
– Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der
Prüfgröße Z nach Kolmogorov-Smirnov verwendet, mit der dann aus einer Tabelle
der für einen Stichprobenumfang n kritische Wert für die maximale Differenz bei
einem gegebenen Signifikanzniveau abgelesen werden kann
– Nullhypothese H0 des Tests: Es liegt eine Normalverteilung vor
– Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese
falsch ist (sog. Irrtumswahrscheinlichkeit – Erläuterungen folgen auf der nächsten Folie)
– Je größer die Wahrscheinlichkeit (eines Fehlers bei der Ablehnung der Nullhypothese)
ausfällt, desto eher ist somit vom Vorliegen einer Normalverteilung der Werte auszugehen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 104
Fachbereich Wirtschaftswissenschaften
Exkurs: Die Irrtumswahrscheinlichkeit
– Die Irrtumswahrscheinlichkeit gibt die Wahrscheinlichkeit dafür
an, dass das Zurückweisen einer Nullhypothese falsch ist
– Je größer dieser Wert also ausfällt, umso wahrscheinlicher ist demnach,
dass ein Zurückweisen der getesteten Nullhypothese H0 ein Irrtum wäre
– Das für eine Verwerfung der H0 zu erreichende Signifikanzniveau ist
vor der Durchführung von Tests (und niemals post hoc) festzulegen
– In SPSS werden die Ergebnisse aller statistischen Tests ausnahmslos über eine
Irrtumswahrscheinlichkeit ausgegeben – das richtige Verständnis ist also wichtig
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Großer Signifikanzwert = Nullhypothese beibehalten
Kleiner Signifikanzwert = Nullhypothese zurückweisen
Seite 105
Fachbereich Wirtschaftswissenschaften
Berechnung des K-S-A mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Nicht-parametrische-Tests >
Alte Dialogfelder > K-S bei einer Stichprobe
Wie ist das Ergebnis
zu interpretieren?
Seite 106
Fachbereich Wirtschaftswissenschaften
Erstellung eines Histogramms mit NV-Kurve
– Eine Prüfung auf Normalverteilung lässt sich alternativ (allerdings nur
näherungsweise, da ein Interpretationsspielraum verbleibt) mit einem
Histogramm mit überlagerter Normalverteilungskurve durchführen
– Die Balken des Histogramms spiegeln die Breite der Wertebereiche wieder –
da zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im
Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck
– Dies ermöglicht den direkten visuellen Vergleich mit einer überlagerten
theoretischen Idealverteilung, wie beispielsweise der Normalverteilung
– Der Grad der Abweichung einer Normalverteilung lässt sich auch anhand
verschiedener Maßzahlen wie Exzeß (Kurtosis) und Schiefe bestimmen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 107
Fachbereich Wirtschaftswissenschaften
Histogramm mit Normalverteilungskurve
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Bestätigt das Histogramm
das Ergebnis des K-S-A?
Lässt sich die grafische
Analyse manipulieren?
Seite 108
Fachbereich Wirtschaftswissenschaften
Chi²-Unabhängigkeitstest
 Beim Chi²-Unabhängigkeitstest (nachfolgend Chi²-Test) werden zwei
nominal skalierte Merkmale auf stochastische Unabhängigkeit geprüft
 Hierzu werden die real beobachteten Häufigkeiten mit den zu erwartenden
Häufigkeiten bei völliger Unabhängigkeit der beiden Merkmale verglichen
 Die bei Unabhängigkeit der Merkmale zu erwartende Verteilung lässt sich
berechnen, indem man die Randsummen miteinander multipliziert und
durch die Anzahl der Gesamtwerte teilt
 Dazu ein Beispiel. Wir befragen 100 Personen nach ihrem Schulabschluss
sowie nach dem Schulabschluss ihrer Eltern um festzustellen, ob sich ein
Zusammenhang finden lässt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 109
Fachbereich Wirtschaftswissenschaften
Chi²-Unabhängigkeitstest
 Zur Berechnung der zu erwartenden Wahrscheinlichkeiten
werden nachfolgend zunächst die Randsummen kalkuliert
 Indem man die Randsummen multipliziert und durch die Gesamtsumme
dividiert, erhält man den bei Unabhängigkeit zu erwartenden Wert, d.h.
55 * 54 / 100 = 29,7 anstelle von 43
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 110
Fachbereich Wirtschaftswissenschaften
Chi²-Unabhängigkeitstest
 Es ergeben sich die folgenden zu erwartenden Häufigkeiten
 So würden sich also die 100 Befragten auf die Kategorien verteilen, gäbe es
überhaupt keinen Zusammenhang zwischen dem eigenen Schulabschluss
und dem Schulabschluss der Eltern
 Dass die tatsächlichen Werte von diesen Werten stark abweichen, ist
bereits ein Indikator dafür, dass es einen Zusammenhang geben könnte –
mit Hilfe des Chi²-Tests lässt sich herausfinden, ob dies tatsächlich der Fall ist
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 111
Fachbereich Wirtschaftswissenschaften
Chi²-Unabhängigkeitstest
 Dazu werden die Differenzen zwischen erwartetem und tatsächlichem Wert
quadriert und durch die zu erwartenden Werte dividiert, die Summe dieser
Berechnungen ergibt dann den entscheidenden Chi-Quadrat-Wert
(43 – 29,7)^2 / 29,7 = 5,955
(11 – 24,3)^2 / 24,3 = 7,279
(12 – 25,3)^2 / 25,3 = 6,991
(34 – 20,7)^2 / 20,7 = 8,545
= 28,77
 Es ergibt sich demnach ein Chi-Quadrat-Wert von 28,77
 Dieser ist dem Vergleichswert aus der tabellierten Chi²-Verteilung gegenüberzustellen,
wobei ein Fehlerniveau a von 5% (d.h. 1 – a = 0,950) bei einem Freiheitsgrad gewählt
wurde (da sich unter Beibehaltung der Randsummen ein Wert frei festlegen lässt)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 112
Fachbereich Wirtschaftswissenschaften
Chi²-Unabhängigkeitstest
 In der Verteilungstabelle landet man bei dieser Vorgehensweise bei
einem Vergleichswert von 3,84, der im Rahmen des Testverfahrens
auch als „kritischer Wert“ bezeichnet wird
 Wird dieser durch den errechneten Wert überschritten, gilt die Nullhypothese, nach
der die beiden Variablen „eigener Schulabschluss“ und „Schulabschluss der Eltern“
als voneinander völlig unabhängig einzustufen sind, als abgelehnt
 Da dies hier der Fall ist, lautet der Schluss, dass mit hoher Wahrscheinlichkeit
ein statistisch signifikanter Zusammenhang zwischen den Variablen besteht
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 113
Fachbereich Wirtschaftswissenschaften
Durchführung des Chi²-Unabhängigkeitstests
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Deskriptive Statistiken > Kreuztabellen
Seite 114
Fachbereich Wirtschaftswissenschaften
Durchführung des Chi²-Unabhängigkeitstests
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 115
Fachbereich Wirtschaftswissenschaften
Durchführung des Chi²-Unabhängigkeitstests
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Nullhypothese H0: Völlige Unabhängigkeit
der Variablen in der Grundgesamtheit
Kann diese Nullhypothese verworfen werden?
Seite 116
Fachbereich Wirtschaftswissenschaften
Das Prinzip der Korrelationskoeffizienten
– Für zwei Variablen X und Y kann dann ein Zusammenhang unterstellt werden
(dieser muss aber real nicht existieren), wenn sie sich gleichmäßig verändern
– Gleichsinnig = wird X größer wird Y größer; wird X kleiner wird Y kleiner
– Gegensinnig = wird X größer wird Y kleiner; wird X kleiner wird Y größer
– Die Berechnung von Korrelationskoeffizienten orientiert sich am Skalenniveau
– Nominalskalenniveau: Chi²-Koeffizient
– Ordinalskalenniveau: Spearman, Kendall
– Metrisches Skalenniveau: Bravais-Pearson
– Grundsätzlich immer möglich ist auch eine grafische Analyse der Daten
– Diskrete Daten: Gruppierte Balkendiagramme, Bedingte Balkendiagramme
– Stetige Daten: Zwei- und dreidimensionale Streudiagramme, Scatterplot-Matrix
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 117
Fachbereich Wirtschaftswissenschaften
Der Bravais-Pearson-Korrelationskoeffizient
– Für metrisch skalierte Merkmale wird in den meisten Fällen der Bravais-Pearson-
Korrelationskoeffizient berechnet (obwohl auch andere Koeffizienten möglich sind)
– Bei der Interpretation zu beachten: Der Bravais-Pearson-Korrelationskoeffizient
misst ausschließlich den linearen Zusammenhang zwischen zwei Variablen
– Nicht-lineare (z.B. quadratische oder logarithmische) Zusammenhänge werden
somit nicht aufgedeckt, auch wenn sie stark oder sogar vollkommen sein sollten
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑟 =
[ 𝑖=1
𝑛
𝑥𝑖 𝑦𝑖 − 𝑛 𝑥 𝑦]
[ 𝑖=1
𝑛
𝑥2
𝑖 − 𝑛 𝑥2
𝑖=1
𝑛
(𝑥2
𝑖 − 𝑛 𝑥2)]
Seite 118
Fachbereich Wirtschaftswissenschaften
Der Bravais-Pearson-Korrelationskoeffizient
– Der Koeffizient r kann Werte zwischen -1 und +1 annehmen
– Bei positiven Werten liegt ein positiver Zusammenhang vor,
d.h. die Wertepaare liegen auf einer steigenden Gerade
– Bei negativen Werten liegt ein negativer Zusammenhang vor,
d.h. die Wertepaare liegen auf einer fallenden Gerade
– Werte nahe Null deuten darauf hin, dass keinerlei lineare
Korrelation zwischen den beiden Variablen vorliegt
– Interpretation des Betrags (!) von r
– r = 0 = keine Korrelation
– 0 < r < 0,5 = schwache Korrelation
– 0,5 <= r < 0,8 = mittlere Korrelation
– 0,8 <= r < 1 = starke Korrelation
– r = 1 = perfekte Korrelation
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 119
Fachbereich Wirtschaftswissenschaften
Bravais-Pearson-Korrelationskoeffizient
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Quelle: WikiBooks / User: Philipendula / Lizenz: GNU-Lizenz für freie Dokumentationen
Seite 120
Fachbereich Wirtschaftswissenschaften
Berechnung des B-P-K mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Korrelation > Bivariat
Seite 121
Fachbereich Wirtschaftswissenschaften
Berechnung des B-P-K mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Welches Ergebnis lässt
das Streudiagramm erwarten?
Seite 122
Fachbereich Wirtschaftswissenschaften
Spearman-Rangkorrelationskoeffizient
– Für ordinalskalierte Merkmale bieten sich zwei Zusammenhangsmaße an:
– Der Rangkorrelationskoeffizient nach Spearman
– Der Konkordanzkoeffizient nach Kendall
– Der Rangkorrelationskoeffizient nach Spearman misst
den monotonen Zusammenhang zweier Variablen
– Für die n Datenpaare werden dabei innerhalb jeder Variablen zunächst Ränge gebildet
– Die kleinste Ausprägung von X erhält den Wert 1, die zweitkleinste den Wert 2 etc. pp.
– Für Y wird identisch vorgegangen, auch hier erhält die kleinste Ausprägung die 1 etc.
– Anschließend werden die Rangdifferenzen d der jeweiligen Datenpaare gebildet
– Auf Basis dieser Differenzwerte lässt sich dann der Rangkorrelationskoeffizient
(nach obenstehender Formel) berechnen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑝 = 1 −
6 𝑖=1
𝑛
𝑑𝑖
𝑛2 − 1 𝑛
Seite 123
Fachbereich Wirtschaftswissenschaften
Spearman-Rangkorrelationskoeffizient
– Die Ergebnisse liegen stets zwischen -1 und +1
– p > 0 = gleichsinniger monotoner Zusammenhang
(große X-Werte gehen mit großen Y-Werten einher und umgekehrt)
– p ~ 0 = es besteht kein monotoner Zusammenhang
(damit kann auch kein linearer bestehen!)
– p < 0 = gegenseitiger monotoner Zusammenhang
(große X-Werte gehen mit kleinen Y-Werten einher und umgekehrt)
– Wichtig: Das Verfahren liefert nur dann genaue Resultate, wenn
keine Rangplatzbindungen (die sogenannten ties) auftreten
– Haben Beobachtungen identische Werte, ordnet man
allen identischen Daten einen Durchschnittsrang zu
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 124
Fachbereich Wirtschaftswissenschaften
Konkordanzkoeffizient nach Kendall
– Alternativ zu Spearman kann für Ordinaldaten auch Kendalls Tau berechnet werden
– Die Berechnung benötigt die Anzahl konkordanter (K) und diskordanter (D) Paare
– Zur Bestimmung der Paare wird eine der Datenreihen nach der Größe geordnet
– Anschließend wird untersucht, inwieweit sich die zweite Datenreihe „mitsortiert“ hat
– Für jedes Datenpaar aus den beiden Datenreihen (yi, yj) mit i < j gilt:
– ist yi < yj, so ist das Paar konkordant (K)
– ist yi > yj, so ist das Paar diskordant (D)
– ist yi = yj, so liegt eine Bindung vor (wird nicht mitgezählt)
– Sind alle Paare entsprechend untersucht worden, wird tau (Formel) berechnet
– Auch hier gilt, dass das Ergebnis nur Bestand hat, wenn keine Bindungen auftreten
– Einige wenige Bindungen können ignoriert werden, da sie das Ergebnis kaum verzerren
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑡𝑎𝑢 = 1 −
2 (𝐾 − 𝐷)
𝑛 (𝑛 − 1)
Seite 125
Fachbereich Wirtschaftswissenschaften
Einige Konfidenzintervalle
– Ein Konfidenzintervall (auch Vertrauensintervall, Erwartungsbereich) gestattet
die Lageeinschätzung eines Parameters bei einer festlegbaren Sicherheit
– Erwartungswert eines normalverteilten
Merkmals bei bekannter Varianz
– Erwartungswert eines normalverteilten
Merkmals bei unbekannter Varianz
– Erwartungswert eines unbekannt verteilten
Merkmals bei unbekannter Varianz
– Varianz eines normalverteilten Merkmals
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 126
Fachbereich Wirtschaftswissenschaften
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Quelle: WikiWand / User: Philipendula / Lizenz: Creative Commons Share Alike 3.0
Seite 127
Fachbereich Wirtschaftswissenschaften
Berechnung des Mittelwertintervalls mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Deskriptive Statistik > Explorative Datenanalyse
Seite 128
Fachbereich Wirtschaftswissenschaften
Berechnung des Mittelwertintervalls mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 129
Fachbereich Wirtschaftswissenschaften
Lineare Regression
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 130
Fachbereich Wirtschaftswissenschaften
Lineare Regression
– Die Regressionsanalyse ist das meistverwendete multivariate Analyseverfahren
– Im Rahmen einer (einfachen) linearen Regressionsanalyse wird die Beziehung
zwischen einer abhängigen und einer unabhängigen Variablen untersucht, um
– Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse)
– Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose)
– Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei
Veränderungen am Produktpreis, den Werbeausgaben oder der Anzahl
der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)?
– Ergebnis des Verfahrens ist die lineare Regressionsfunktion
Y = f(X)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 131
Fachbereich Wirtschaftswissenschaften
Lineare Regression
– Ein besonders Problem stellen interdependente Beziehungen dar
– Beeinflusst der Bekanntheitsgrad eines Produkts die Absatzmenge oder
beeinflusst die Absatzmenge den Bekanntheitsgrad eines Produkts?
– Beeinflusst die Qualität einer Vorlesung die Motivation der Studierenden
oder beeinflusst die Motivation der Studierenden die Qualität der Vorlesung?
– Ein solches interdependentes Beziehungssystem ist nicht in einer einzelnen
Regressionsgleichung erfassbar, sondern nur in einem Mehrgleichungsmodell
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 132
Fachbereich Wirtschaftswissenschaften
Schätzung der Regressionsfunktion
– Der Zusammenhang zwischen den beiden
Variablen im Streudiagramm ist selten perfekt
– Beide Variablen bewegen sich hier im Beispiel
jedoch tendenziell in die gleiche Richtung,
ein linearer Trend ist klar erkennbar
– Es kommen nun theoretisch zahlreiche Geraden in
Frage, um den Verlauf der Punkte nachzuzeichnen
Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 133
Fachbereich Wirtschaftswissenschaften
Schätzung der Regressionsfunktion
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?
Seite 134
Fachbereich Wirtschaftswissenschaften
Methode der kleinsten Quadrate
– Minimierung der Summe der Abweichungsquadrate
= Methode der kleinsten Quadrate
– Die Methode der kleinsten Quadrate zielt – wie auch die intuitive Methode
der simplen Abstandsminimierung – auf die Minimierung der senkrechten
Abstände der realen Werte von der Gerade ab
– Die Abstände werden jedoch quadriert, so dass negative Vorzeichen wegfallen,
wodurch die Kompensation negativer und positiver Abstände vermieden wird
– Schlussendlich wird diejenige Gerade selektiert, bei der die Summe der quadrierten
Abstände minimal wird -> sie ist die an die realen Werte bestangepasste Gerade
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 135
Fachbereich Wirtschaftswissenschaften
Methode der kleinsten Quadrate
– Durch Umformung der Zielfunktion erhält
man die Parameter der Regressionsfunktion
– Regressionskoeffizient:
– Konstantes Glied/Konstante:
– Die Gleichung der Regressionsgeraden lautet dann:
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑘=1
𝐾
𝑒² 𝑘 =
𝑘=1
𝐾
[𝑦 𝑘 − 𝑎 + 𝑏 𝑥 𝑘]²
𝑏 =
(𝐼( 𝑥𝐼 𝑦 𝑘) − 𝑥𝐼 𝑦𝐼)
(𝐼( 𝑥² 𝑘) − 𝑥 𝑘)²
𝑎 = 𝑦 − 𝑏 𝑥
Y = a * b + X
Seite 136
Fachbereich Wirtschaftswissenschaften
Das Bestimmtheitsmaß R²
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 137
Fachbereich Wirtschaftswissenschaften
Das Bestimmtheitsmaß R²
– Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind (nicht
alle Punkte liegen unmittelbar auf der Geraden), natürlich nur imperfekt wieder
– Es ist daher mit der Regressionsfunktion nur selten möglich, sämtliche
Veränderungen in Y ausschließlich durch die Koeffizienten zu erklären
– In der Regel wird ein Teil der Veränderungen erklärt werden
können, ein anderer Teil wird dagegen unaufgeklärt bleiben
– Das Verhältnis von erklärter Streuung zur Gesamtstreuung
ist ein gutes Maß für die Güte des linearen Regressionsmodells
– Die Residuen werden bei der Berechnung dieser Maßzahl quadriert,
damit sich positive und negative Abweichungen nicht neutralisieren
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 138
Fachbereich Wirtschaftswissenschaften
Das Bestimmtheitsmaß R²
– Die Berechnung des Güßtemaßes R² erfolgt mit:
– TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen
– ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen
– RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen
– Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet
– R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder
> Güte der Anpassung und damit Güte des Regressionsmodells
– R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1
– R² = 1 -> Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang
– Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab
– Beachte: R² ist ein Maß für den linearen – und nur für diesen – Zusammenhang
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
𝑅² =
𝐸𝑆𝑆
𝑇𝑆𝑆
Seite 139
Fachbereich Wirtschaftswissenschaften
Berechnung einer lin. Regression mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Analysieren > Regression > Linear
Seite 140
Fachbereich Wirtschaftswissenschaften
Berechnung einer lin. Regression mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie ist das Ergebnis
zu interpretieren?
Seite 141
Fachbereich Wirtschaftswissenschaften
Berechnung einer lin. Regression mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Regressionsfunktion: y = 19,576 + 0,918 x
Seite 142
Fachbereich Wirtschaftswissenschaften
Was sonst noch wichtig ist…
– Bearbeitung von Daten
– Fälle sortieren
– Fälle gewichten
– Fälle auswählen
– Daten klassieren
– Was man wissen sollte…
– Was sind Dummy-Variablen?
– Wie geht man mit fehlenden
Werten und Ausreißern um?
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 143
Fachbereich Wirtschaftswissenschaften
Sortieren von Fällen
– Die Fälle in einer Datendatei lassen sich zur besseren Übersichtlichkeit sortieren
– Möglich ist auf- oder absteigendes Sortieren anhand einer oder mehrerer Variablen
– Werden mehrere Variablen ausgewählt, wird nach der zuoberst stehenden Variablen sortiert
– Fälle mit identischen Wertenwerden anhand der nächstfolgenden Variablen sortiert usw. usf.
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Daten >
Fälle sortieren
Seite 144
Fachbereich Wirtschaftswissenschaften
Auswahl von Fällen
– Bisweilen ist es sinnvoll, nur manche Fälle in die Auswertung einfließen zu lassen
– Hierzu lassen sich einzelne Fälle anhand von logischen Statements auswählen
– Beispiel: Auswahl aller Befragten mit einem Einkommen von weniger als 2000 €
– SPSS generiert hier eine neue Filtervariable (filter_$) am Ende des Variablenfeldes
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Daten >
Fälle auswählen
Seite 145
Fachbereich Wirtschaftswissenschaften
Exkurs: Logische Operatoren
– Statements mit einem logischen UND sind WAHR, wenn
alle im Statement enthaltenen Bedingungen WAHR werden
– In der in SPSS verwendeten Statement-Syntax wird
das logische UND durch das Symbol „&“ ausgedrückt
– Statements mit einem logischen ODER sind WAHR, wenn mindestens
eines der beiden im Statement enthaltenen Bedingungen WAHR wird
– Die schließt den Fall mit ein, dass beide Bedingungen WAHR werden
– In der in SPSS verwendeten Statement-Syntax wird
das logische ODER durch das Symbol „|“ ausgedrückt
– Durch das logische NICHT verkehrt sich die
Bedeutung jedes Statements in das jeweilige Gegenteil
– In der in SPSS verwendeten Statement-Syntax wird
das logische NICHT durch das Symbol „~“ ausgedrückt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
&
|
~
Seite 146
Fachbereich Wirtschaftswissenschaften
Exkurs: Logische Operatoren
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Statement A Statement B UND
WAHR WAHR WAHR
WAHR FALSCH FALSCH
FALSCH WAHR FALSCH
FALSCH FALSCH FALSCH
Statement A Statement B ODER
WAHR WAHR WAHR
WAHR FALSCH WAHR
FALSCH WAHR WAHR
FALSCH FALSCH FALSCH
Statement A NICHT
WAHR FALSCH
FALSCH WAHR
Seite 147
Fachbereich Wirtschaftswissenschaften
Exkurs: Logische Operatoren
– Beispiel: Auswahl aller weiblichen Befragten
Statement: Geschlecht = „weiblich“
SPSS-Syntax: geschl = 2
– Beispiel: Auswahl aller Befragten mit einem Einkommen von unter 3000 €
Statement: Einkommen < 3000 €
SPSS-Syntax: einkom < 3000
– Beispiel: Auswahl aller weiblichen Befragten mit einem Einkommen von mehr als 2000 €
Statement: Geschlecht = „weiblich“ UND Einkommen > 2000 €
SPSS-Syntax: geschl = 2 & einkom > 2000
– Beispiel: Auswahl aller Befragten, die männlich sind oder ein Einkommen über 1500 € haben
Statement: Geschlecht = „männlich“ ODER Einkommen > 1500 €
SPSS-Syntax: geschl = 1 | einkom > 1500
(Männliche Befragte mit einem Einkommen über 1500 € werden nicht doppelt selektiert)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 148
Fachbereich Wirtschaftswissenschaften
Auswahl von Fällen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 149
Fachbereich Wirtschaftswissenschaften
Auswahl von Fällen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Wie lassen sich alle
weiblichen Befragten
auswählen?
Wie lassen sich alle
weiblichen Befragten
mit einem Einkommen
von mehr als 2.000 €
auswählen?
Seite 150
Fachbereich Wirtschaftswissenschaften
Auswahl von Fällen
– Neben der Auswahl mittels logischer Statements gibt es noch weitere
Auswahlverfahren, die nachfolgend jedoch nicht weiter benötigt werden
– Auswahl nach Zeitintervall
– Sind die Fälle z.B. mit einem Datumsstempel versehen, kann ein Zeitintervall selektiert werden
– Ziehung einer Zufallsstichprobe
– Aus der Grundgesamtheit aller erfassten Fälle lässt sich auch eine Zufallsstichprobe ziehen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 151
Fachbereich Wirtschaftswissenschaften
Gewichtung von Fällen
– Unter bestimmten Umständen ist eine Gewichtung von Fällen sinnvoll
– Beispiel: Online-Befragung zum Thema Internetsucht (Hahn & Jerusalem)
– Erkenntnis der Untersuchung: Es besteht ein starker Zusammenhang
zwischen der Suchtgefahr und dem Lebensalter sowie dem Geschlecht
– Besonders internetsuchtgefährdet sind demnach junge Männer unter 20 Jahren
– Befinden sich zu viele junge Männer in der Stichprobe, wird das Problem überschätzt
– Beispiel-Annahme: Junge Männer kommen in einer Stichprobe
zum Thema doppelt so häufig vor wie in der Grundgesamtheit
– Ältere Frauen sind in der Stichprobe dagegen unterrepräsentiert
– Den sich aus dieser Unter- bzw. Überrepräsentation ergebenden
Verzerrungen, kann durch eine Gewichtung begegnet werden
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 152
Fachbereich Wirtschaftswissenschaften
Gewichtung von Fällen
– So könnten junge Männer etwa mit dem Faktor 0,5 abgewichtet,
ältere Frauen dagegen mit dem Faktor 2 aufgewichtet werden
– Die geschätzte Zahl der Internetsüchtigen unter allen Nutzern
reduziert sich durch diese Umgewichtung der Fälle deutlich
– Vorsicht: Es besteht die Gefahr, bereits in den Daten existierende
systematische Verzerrungen durch die Gewichtung zu verstärken
– Beispiel: Über 70-jährige sind bei Online-Befragungen ebenfalls sehr selten vertreten
– Inwiefern ist es vertretbar, die wenigen (seltsamen) Probanden stark überzugewichten?
– Vorgehensweise: Es wird eine neue Variable erstellt, die für jeden männlichen
Befragten den Wert 0,5 und für jeden weiblichen Befragten den Wert 2 annimmt
– Die hierfür benötigte Funktion „umkodieren“ kann auch für andere Zwecke
eingesetzt werden, so etwa für die bereits bekannte Datenklassierung
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 153
Fachbereich Wirtschaftswissenschaften
Durchführung einer Gewichtung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Transformieren > Umkodieren in andere Variablen
Seite 154
Fachbereich Wirtschaftswissenschaften
Durchführung einer Gewichtung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 155
Fachbereich Wirtschaftswissenschaften
Durchführung einer Gewichtung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Daten > Fälle gewichten
Wie wirkt sich diese
Gewichtung auf die
absoluten Zahlen im
Balkendiagramm aus?
Seite 156
Fachbereich Wirtschaftswissenschaften
Durchführung einer Gewichtung mit SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
ungewichtete Daten
Seite 157
Fachbereich Wirtschaftswissenschaften
Arbeit mit Dummy-Variablen
– Für viele Analyseverfahren wird ein metrisches Skalenniveau vorausgesetzt
– Sollen nominalskalierte Daten trotz ihres zu niedrigen Skalenniveaus in ein
solches Verfahren einfließen, müssen Dummy-Variablen gebildet werden
– Dummy-Variablen sind binäre Variablen, die nur die Werte 0 und 1 annehmen
– Jede dichotome Variable lässt sich in eine solche Dummy-Variable transformieren:
0 = Ausprägung liegt nicht vor 1 = Ausprägung liegt vor
– Beispiel: Untersuchung der Einflüsse von Verpackungseigenschaften auf das Kaufverhalten:
Die Dummy-Variable q1 ist für rote Verpackungen 1 und für nicht-rote Verpackungen 0. Analog
lässt sich auch eine Dummy-Variable q2 für Gelb und q3 für Grün definieren. Existieren aber
nur diese drei Verpackungsfarben, kann auf q3 verzichtet werden, da gilt: Wenn q1 = 0 und
q2 = 0 ist q3 = 1. Drei Farben lassen sich daher über nur zwei Dummy-Variablen darstellen.
– Regel: Eine Variable mit n Ausprägungen lässt sich in n-1 Dummy-Variablen abbilden
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 158
Fachbereich Wirtschaftswissenschaften
Das Problem der fehlenden Daten
– Unter fehlenden Daten sind einzelne fehlende Werte zu verstehen
– Typische fehlende Werte bei Personenbefragungen:
– Angaben zum Einkommen
– Angaben zum eigenen Körper
– Angaben zum Sexualverhalten
– Fehlende Werte sind dann ein Problem, wenn ein Zusammenhang zwischen
der Wahrscheinlichkeit des Fehlens und einem anderen Sachverhalt zu
vermuten ist, die Verteilung der fehlenden Werte also keine zufällige ist
– Beispiel: Kommt es bei der Frage nach dem Einkommen tendenziell eher zu
Auskunftsverweigerungen bei Personen mit niedrigem Einkommen, so wird
dies das erhobene Durchschnittseinkommen nach oben verzerren
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 159
Fachbereich Wirtschaftswissenschaften
Das Problem der fehlenden Daten
– Bei der Untersuchung fehlender Daten ist daher vor allem zu klären:
– Fehlen so viele Werte, dass eine sinnvolle Auswertung des Datensatzes unmöglich ist?
– Sind die fehlenden Werte zufällig gestreut oder lässt sich ein Muster identifizieren?
– Generell bieten sich drei Möglichkeiten des Umgangs mit fehlenden Daten an:
– Einzelne Fälle oder einzelne Variablen werden von der weiteren Auswertung ausgeschlossen
– Es werden ausschließlich die vollständigen Fälle zur weiteren Auswertung zugelassen
– Die fehlenden Werte werden induktiv oder statistisch ersetzt
– Die richtige Entscheidung hängt von den Ursachen für das Fehlen der Werte ab
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 160
Fachbereich Wirtschaftswissenschaften
Ursachen für fehlende Daten
– Das Fehlen von Daten kann auf vier Ursachen zurückgeführt werden:
– Dateneingabefehler (z.B. Buchstaben in einem Zahlenfeld)
– Codierungs- und Übertragungsfehler während
der Eingabe oder der Speicherung von Daten
– Ungenaue Datenfelder bei der Erhebung
(z.B. „Studienrichtung“ bei einer Befragung von Nicht-Akademikern)
– Aktionen des Befragten wie etwa das Vergessen von Angaben, widersinnige
Angaben (höchster Schulabschluss ist die Mittlere Reife, trotzdem wurde eine
Abiturnote eingetragen), Nichtauskunftsfähigkeit oder bewusste Entscheidung,
eine Frage nicht zu beantworten (Einkommen, Körper, Sexualverhalten...)
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 161
Fachbereich Wirtschaftswissenschaften
Ursachen für fehlende Daten
– Das Auftreten von fehlenden Werten ist bei der Arbeit mit realen
Daten keinesfalls die Ausnahme, sondern vielmehr die Regel
– Die Wahrscheinlichkeit für das Auftreten fehlender Werte
steigt erfahrungsgemäß mit der Größe des Datensatzes
– Bei der Analyse langer Zeitreihen, z.B. der Auswertung der Niederschlagsmengen
der letzten 200 Jahre, werden aufgrund von Katastrophen, Krieg oder anderen
Gründen immer wieder einzelne Werte nicht erfasst worden sein
– Gerade in der sozialwissenschaftlichen Forschung und bei der Marktforschung im
Zuge der Befragung von hunderten oder tausenden Personen, kommt es aufgrund
verschiedenster Ursachen häufig zu Einzelausfällen
– Mit fehlenden Daten ist bei jeder marktforscherischen Untersuchung zu
rechnen – ihr Auftreten sollte demzufolge keinesfalls ignoriert werden!
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 162
Fachbereich Wirtschaftswissenschaften
Zufälligkeitsgrade
– Man unterscheidet in drei Zufälligkeitsgrade bezüglich des Auftretens fehlender Daten
MCAR,
MAR und
NRM
– Der Zufälligkeitsgrad entscheidet, wie mit fehlenden Werten umzugehen ist
– MCAR = missing completely at random
– Fehlende Werte treten vollkommen zufällig auf
– Die Wahrscheinlichkeit des Fehlens steht nicht in Zusammenhang mit anderen Größen
– Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y
und der Variable Y selbst (niedrige Einkommen werden tendenziell nicht angegeben) oder
eine Korrelation mit einer anderen Variable X (Frauen sind tendenziell weniger bereit,
Auskünfte über ihr Körpergewicht zu machen) feststellbar
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 163
Fachbereich Wirtschaftswissenschaften
Zufälligkeitsgrade
– MAR = missing at random
– Das Auftreten von fehlenden Werten steht (teilweise)
in Zusammenhang mit einer anderen erhobenen Variablen
– Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y
und der Variable Y selbst feststellbar, wohl aber eine (schwache) Korrelation des Auftretens
von fehlenden Y-Werten mit einer anderen Variable X
– NRM = nonrandom missing
– Das Auftreten von fehlenden Werten folgt klar erkennbaren
Gesetzmäßigkeiten, eine Zufälligkeit ist sicher auszuschließen
– Es kann entweder ein Zusammenhang zwischen dem Auftreten von fehlenden Werten der
Variable Y und der Variable Y selbst oder mit einer anderen Variable X oder auch beides
vorliegen, d.h. das Auftreten eines fehlenden Wertes kann vollständig durch eine andere
Variable oder durch die Variable selbst erklärt werden
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 164
Fachbereich Wirtschaftswissenschaften
Umgang mit fehlenden Daten
– Der Umgang mit fehlenden Daten hängt wesentlich von deren Zufälligkeitsgrad ab
– CCA = complete case approach
– Es werden ausschließlich vollständige Fälle für die weitere Analyse verwendet
– Alle Fälle mit auch nur einem fehlenden Wert werden aus dem Datensatz entfernt
– Die Methode kann nur bei zufällig fehlenden Daten (MCAR) angewendet werden
– Günstig ist sie bei einer großen Stichprobe, in der Löschungen unkritisch sind
– Ausschluss von Fällen oder Variablen
– Ziel des selektiven Ausschlusses ist die Verringerung des Gesamtanteils fehlender Werte
– Abwägung zwischen Datenverlust und Reduktion der Probleme durch fehlende Werte
– Günstigste Methode für nicht zufällig auftretende fehlende Werte (MAR, NRM)
– Der Ausschluss von Fällen kann fallweise oder paarweise erfolgen
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 165
Fachbereich Wirtschaftswissenschaften
Umgang mit fehlenden Daten
– Ersetzen fehlender Werte
– Grundidee: metrische Daten (und zwar ausschließlich diese)
lassen sich ersetzen, wenn Regelmäßigkeiten erkennbar sind
– Möglich ist der Ersatz von Werten über verschiedene induktive
(nichtmathematische) und statistische (mathematische) Verfahren
– Die wesentlichen Gefahren bei dieser Vorgehensweise bestehen darin, dass
man den Datensatz für vollständig hält bzw. durch Ersetzungen verzerrt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 166
Fachbereich Wirtschaftswissenschaften
Ausschlussverfahren
– Fallweiser Ausschluss
– Fehlt ein einzelner Wert, wird der komplette Fall von der weiteren Analyse ausgeschlossen
– Vorteil: Asymmetrien werden vermieden, da keine Teilfälle in die Analyse eingehen
– Nachteil: Relevantes Datenmaterial geht verloren, der Stichprobenumfang sinkt
– Paarweiser Ausschluss
– Fehlen einzelne Werte, wird mit den restlichen Werten des Falles weitergearbeitet
– Vorteil: Alle Fälle bleiben erhalten, der Stichprobenumfang verändert sich nicht
– Nachteil: Bei multivariaten Analysen u.U. unterschiedlich große Datensätze
– Um Fälle zu vermeiden, bei denen auf unterschiedlich große Datensätze
zurückgegriffen und dabei verglichen wird, ist der fallweise Ausschluss
das weitaus häufiger verwendete Ausschlussverfahren
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 167
Fachbereich Wirtschaftswissenschaften
Ersatzwertverfahren
– Induktive Verfahren
– Die fehlenden Werte werden auf der Basis von
Informationen ersetzt, die über die Stichprobe vorliegen
– Nachbeobachtungen: Zusätzliche Beobachtungen oder Befragungen
werden angestellt (Wie wirkt sich das auf die Repräsentativität aus?)
– Externe Konstanten: Ein konstanter Wert aus einer externen Quelle
oder aus einer früheren Studie wird ersatzweise verwendet
– Statistische Verfahren
– Mittelwertersatz: Der fehlende Wert einer Variable wird durch das Mittel der Variablen ersetzt
– Es existieren verschiedene Formen des Mittelwertersatzes: Ersatz durch das Mittel oder den
Median der Nachbarpunkte, Ersatz durch einen Zeitreihen-Mittelwert und lineare Interpolation
– Vorteil: Die Verfahren sind leicht anwendbar, benötigt werden nur die jeweiligen Mittelwerte
– Nachteil: Die Varianz, die Verteilung der Daten und eventuelle Korrelationen werden verzerrt
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 168
Fachbereich Wirtschaftswissenschaften
Ersatzwertverfahren
– Linearer Trend: Ein fehlender Variablenwert
wird durch einen linearen Trendwert ersetzt
– Voraussetzung: Für die gültigen Werte lässt sich
ein aussagekräftiger linearer Trend identifizieren
– In diesem Fall können fehlende Werte durch die entsprechenden
Werte der Trendgraden an der betreffenden Stelle ersetzt werden
– Nachteil: Der (durch zufällige Artefakte möglicherweise überschätzte) lineare Trend in
den Variablen wird unbotmäßig verstärkt, die Varianz der Verteilung verringert sich
– Grundsätzlich ist bei allen Ersatzwertverfahren zu beachten, dass die Einbringung
von Schätz- und Ersatzwerten in den Datensatz dokumentiert und im Datensatz
so gut wie möglich kenntlich gemacht werden muss, damit im Rahmen einer
sekundärstatistischen Analyse nicht von realen Werten ausgegangen wird
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 169
Fachbereich Wirtschaftswissenschaften
Vielen Dank für
die Aufmerksamkeit!
Einführung in SPSS
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)
Seite 170
Fachbereich Wirtschaftswissenschaften
Christian Reinboth
Telefon +49 3943 – 896
Telefax +49 3943 – 5896
E-Mail creinboth@hs-harz.de
Friedrichstraße 57 –  59
38855 Wernigerode
18.09.2015 - 20.09.2015
Christian Reinboth, Dipl.-Wi.Inf.(FH)

Weitere ähnliche Inhalte

Andere mochten auch

Ingenieria industrial nixon zarate
Ingenieria industrial nixon zarateIngenieria industrial nixon zarate
Ingenieria industrial nixon zaratenixon13zarate
 
AvailabilityGuard™ de Continuity Software
AvailabilityGuard™ de Continuity SoftwareAvailabilityGuard™ de Continuity Software
AvailabilityGuard™ de Continuity SoftwareSIA Group
 
CancióN De Boda
CancióN De BodaCancióN De Boda
CancióN De BodaFrida Bibi
 
Ceddet el fenómeno de la falsificación v2 (1)
Ceddet el fenómeno de la falsificación v2 (1)Ceddet el fenómeno de la falsificación v2 (1)
Ceddet el fenómeno de la falsificación v2 (1)Fundación CEDDET
 
Cuando Quiero Dibujar Puedo
Cuando Quiero Dibujar PuedoCuando Quiero Dibujar Puedo
Cuando Quiero Dibujar PuedoTatica Leandro
 
Great Responsive-ability Web Design
Great Responsive-ability Web DesignGreat Responsive-ability Web Design
Great Responsive-ability Web DesignMike Wilcox
 
Bebidas funcionales, Aloe Vera Drink, BIO
Bebidas funcionales, Aloe Vera Drink, BIOBebidas funcionales, Aloe Vera Drink, BIO
Bebidas funcionales, Aloe Vera Drink, BIOPFN
 
Jerarquia de proxys sibling ing freddy alfonso beltran
Jerarquia de proxys sibling ing freddy alfonso beltranJerarquia de proxys sibling ing freddy alfonso beltran
Jerarquia de proxys sibling ing freddy alfonso beltranbeppo
 
8826869222 Jaipur Tourism City Appu Ghar Shops Villas
8826869222 Jaipur Tourism City Appu Ghar Shops Villas8826869222 Jaipur Tourism City Appu Ghar Shops Villas
8826869222 Jaipur Tourism City Appu Ghar Shops Villassarveshnassa11
 
Exp redesiids lv2_06
Exp redesiids lv2_06Exp redesiids lv2_06
Exp redesiids lv2_06Carlos Gomez
 
San martin de porres
San martin de porresSan martin de porres
San martin de porresYefry Paredes
 
Measuring IPv6 ISP performance
Measuring IPv6 ISP performanceMeasuring IPv6 ISP performance
Measuring IPv6 ISP performanceAPNIC
 
Como crear slideshare en tu teléfono móvil
Como crear slideshare en tu teléfono móvilComo crear slideshare en tu teléfono móvil
Como crear slideshare en tu teléfono móvilLaura Nagles
 
Parcerias no mercado imobiliário
Parcerias no mercado imobiliárioParcerias no mercado imobiliário
Parcerias no mercado imobiliáriocorretor_global
 
Jueves, Mesa 1 Cristina Miró Guillén
Jueves, Mesa 1 Cristina Miró GuillénJueves, Mesa 1 Cristina Miró Guillén
Jueves, Mesa 1 Cristina Miró GuillénJornadasGMV2013
 

Andere mochten auch (20)

Ingenieria industrial nixon zarate
Ingenieria industrial nixon zarateIngenieria industrial nixon zarate
Ingenieria industrial nixon zarate
 
AvailabilityGuard™ de Continuity Software
AvailabilityGuard™ de Continuity SoftwareAvailabilityGuard™ de Continuity Software
AvailabilityGuard™ de Continuity Software
 
CancióN De Boda
CancióN De BodaCancióN De Boda
CancióN De Boda
 
Apt pics ppt1
Apt pics   ppt1Apt pics   ppt1
Apt pics ppt1
 
Ceddet el fenómeno de la falsificación v2 (1)
Ceddet el fenómeno de la falsificación v2 (1)Ceddet el fenómeno de la falsificación v2 (1)
Ceddet el fenómeno de la falsificación v2 (1)
 
Cuando Quiero Dibujar Puedo
Cuando Quiero Dibujar PuedoCuando Quiero Dibujar Puedo
Cuando Quiero Dibujar Puedo
 
Great Responsive-ability Web Design
Great Responsive-ability Web DesignGreat Responsive-ability Web Design
Great Responsive-ability Web Design
 
4 wd
4 wd4 wd
4 wd
 
Poesía de la experiencia: dos generaciones
Poesía de la experiencia: dos generacionesPoesía de la experiencia: dos generaciones
Poesía de la experiencia: dos generaciones
 
CDU Fokus Aprile 2015
CDU Fokus Aprile 2015CDU Fokus Aprile 2015
CDU Fokus Aprile 2015
 
Bebidas funcionales, Aloe Vera Drink, BIO
Bebidas funcionales, Aloe Vera Drink, BIOBebidas funcionales, Aloe Vera Drink, BIO
Bebidas funcionales, Aloe Vera Drink, BIO
 
Jerarquia de proxys sibling ing freddy alfonso beltran
Jerarquia de proxys sibling ing freddy alfonso beltranJerarquia de proxys sibling ing freddy alfonso beltran
Jerarquia de proxys sibling ing freddy alfonso beltran
 
8826869222 Jaipur Tourism City Appu Ghar Shops Villas
8826869222 Jaipur Tourism City Appu Ghar Shops Villas8826869222 Jaipur Tourism City Appu Ghar Shops Villas
8826869222 Jaipur Tourism City Appu Ghar Shops Villas
 
Exp redesiids lv2_06
Exp redesiids lv2_06Exp redesiids lv2_06
Exp redesiids lv2_06
 
San martin de porres
San martin de porresSan martin de porres
San martin de porres
 
Measuring IPv6 ISP performance
Measuring IPv6 ISP performanceMeasuring IPv6 ISP performance
Measuring IPv6 ISP performance
 
Como crear slideshare en tu teléfono móvil
Como crear slideshare en tu teléfono móvilComo crear slideshare en tu teléfono móvil
Como crear slideshare en tu teléfono móvil
 
Google web designer
Google web designerGoogle web designer
Google web designer
 
Parcerias no mercado imobiliário
Parcerias no mercado imobiliárioParcerias no mercado imobiliário
Parcerias no mercado imobiliário
 
Jueves, Mesa 1 Cristina Miró Guillén
Jueves, Mesa 1 Cristina Miró GuillénJueves, Mesa 1 Cristina Miró Guillén
Jueves, Mesa 1 Cristina Miró Guillén
 

Ähnlich wie Einführung in SPSS

Tekom jt 2018 ptk11 __ swot-bsc __ schaffner (public)
Tekom jt 2018    ptk11 __ swot-bsc __ schaffner (public)Tekom jt 2018    ptk11 __ swot-bsc __ schaffner (public)
Tekom jt 2018 ptk11 __ swot-bsc __ schaffner (public)Michael Schaffner
 
Berufsbildung: Leitfaden für Betriebe
Berufsbildung: Leitfaden für BetriebeBerufsbildung: Leitfaden für Betriebe
Berufsbildung: Leitfaden für BetriebeSTRIMgroup
 
STRIM Workforce Analytics Fachtagung 2017
STRIM Workforce Analytics Fachtagung 2017STRIM Workforce Analytics Fachtagung 2017
STRIM Workforce Analytics Fachtagung 2017STRIMgroup
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...CONOGY GmbH
 
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?e-teaching.org
 
Wertbeitrag eines Datenqualitätsmanagements zum Unternehmenserfolg
Wertbeitrag eines Datenqualitätsmanagements zum UnternehmenserfolgWertbeitrag eines Datenqualitätsmanagements zum Unternehmenserfolg
Wertbeitrag eines Datenqualitätsmanagements zum UnternehmenserfolgThomas Schäffer
 
Management- und Brancheninformationssysteme
Management- und BrancheninformationssystemeManagement- und Brancheninformationssysteme
Management- und BrancheninformationssystemeChristian Reinboth
 
Transline seminar 2013 schaffner ziele und leistungskennzahlen
Transline seminar 2013 schaffner   ziele und leistungskennzahlenTransline seminar 2013 schaffner   ziele und leistungskennzahlen
Transline seminar 2013 schaffner ziele und leistungskennzahlenMichael Schaffner (Prof. Dr.-Ing.)
 

Ähnlich wie Einführung in SPSS (11)

Tekom jt 2018 ptk11 __ swot-bsc __ schaffner (public)
Tekom jt 2018    ptk11 __ swot-bsc __ schaffner (public)Tekom jt 2018    ptk11 __ swot-bsc __ schaffner (public)
Tekom jt 2018 ptk11 __ swot-bsc __ schaffner (public)
 
Berufsbildung: Leitfaden für Betriebe
Berufsbildung: Leitfaden für BetriebeBerufsbildung: Leitfaden für Betriebe
Berufsbildung: Leitfaden für Betriebe
 
STRIM Workforce Analytics Fachtagung 2017
STRIM Workforce Analytics Fachtagung 2017STRIM Workforce Analytics Fachtagung 2017
STRIM Workforce Analytics Fachtagung 2017
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
 
Tekom jt 2013 schaffner sturz kennzahlensystem
Tekom jt 2013 schaffner sturz   kennzahlensystemTekom jt 2013 schaffner sturz   kennzahlensystem
Tekom jt 2013 schaffner sturz kennzahlensystem
 
Tekom jt 2013 schaffner sturz kennzahlensystem
Tekom jt 2013 schaffner sturz   kennzahlensystemTekom jt 2013 schaffner sturz   kennzahlensystem
Tekom jt 2013 schaffner sturz kennzahlensystem
 
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
 
Wertbeitrag eines Datenqualitätsmanagements zum Unternehmenserfolg
Wertbeitrag eines Datenqualitätsmanagements zum UnternehmenserfolgWertbeitrag eines Datenqualitätsmanagements zum Unternehmenserfolg
Wertbeitrag eines Datenqualitätsmanagements zum Unternehmenserfolg
 
Tekom jt 2012 schaffner sturz workshop kennzahlen
Tekom jt 2012 schaffner sturz   workshop kennzahlenTekom jt 2012 schaffner sturz   workshop kennzahlen
Tekom jt 2012 schaffner sturz workshop kennzahlen
 
Management- und Brancheninformationssysteme
Management- und BrancheninformationssystemeManagement- und Brancheninformationssysteme
Management- und Brancheninformationssysteme
 
Transline seminar 2013 schaffner ziele und leistungskennzahlen
Transline seminar 2013 schaffner   ziele und leistungskennzahlenTransline seminar 2013 schaffner   ziele und leistungskennzahlen
Transline seminar 2013 schaffner ziele und leistungskennzahlen
 

Mehr von Christian Reinboth

Lichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungLichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungChristian Reinboth
 
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzForschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzChristian Reinboth
 
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Christian Reinboth
 
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Christian Reinboth
 
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Christian Reinboth
 
Digitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieDigitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieChristian Reinboth
 
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Christian Reinboth
 
Light Pollution and LED Lighting
Light Pollution and LED LightingLight Pollution and LED Lighting
Light Pollution and LED LightingChristian Reinboth
 
Lichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikLichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikChristian Reinboth
 
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Christian Reinboth
 
Crowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenCrowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenChristian Reinboth
 
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichVorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichChristian Reinboth
 
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Christian Reinboth
 
Erstellung einer Breitband-Karte mit QGIS
Erstellung einer Breitband-Karte mit QGISErstellung einer Breitband-Karte mit QGIS
Erstellung einer Breitband-Karte mit QGISChristian Reinboth
 
An Introduction to Operations Management
An Introduction to Operations ManagementAn Introduction to Operations Management
An Introduction to Operations ManagementChristian Reinboth
 
Impressionen vom AAL-Lehrgang an der MHH
Impressionen vom AAL-Lehrgang an der MHHImpressionen vom AAL-Lehrgang an der MHH
Impressionen vom AAL-Lehrgang an der MHHChristian Reinboth
 

Mehr von Christian Reinboth (20)

Lichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungLichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und Lichtplanung
 
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzForschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
 
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
 
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
 
Einführung in DIALux
Einführung in DIALuxEinführung in DIALux
Einführung in DIALux
 
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
 
Digitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieDigitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und Wundfotografie
 
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
 
Light Pollution and LED Lighting
Light Pollution and LED LightingLight Pollution and LED Lighting
Light Pollution and LED Lighting
 
Lichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikLichtplanung und optische Messtechnik
Lichtplanung und optische Messtechnik
 
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
 
Crowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenCrowdfunding von Forschungsprojekten
Crowdfunding von Forschungsprojekten
 
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichVorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
 
Abschlussbericht MOPF
Abschlussbericht MOPFAbschlussbericht MOPF
Abschlussbericht MOPF
 
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
 
LEDs in der Außenbeleuchtung
LEDs in der AußenbeleuchtungLEDs in der Außenbeleuchtung
LEDs in der Außenbeleuchtung
 
Erstellung einer Breitband-Karte mit QGIS
Erstellung einer Breitband-Karte mit QGISErstellung einer Breitband-Karte mit QGIS
Erstellung einer Breitband-Karte mit QGIS
 
An Introduction to Operations Management
An Introduction to Operations ManagementAn Introduction to Operations Management
An Introduction to Operations Management
 
Das Jahr 1923
Das Jahr 1923Das Jahr 1923
Das Jahr 1923
 
Impressionen vom AAL-Lehrgang an der MHH
Impressionen vom AAL-Lehrgang an der MHHImpressionen vom AAL-Lehrgang an der MHH
Impressionen vom AAL-Lehrgang an der MHH
 

Einführung in SPSS

  • 1. Seite 1 Fachbereich Wirtschaftswissenschaften Einführung in SPSS Christian Reinboth, Dipl.-Wi.Inf.(FH) Masterstudiengang Konsumentenpsychologie Wintersemester 2015 / 2016 | 18.09.2015 – 20.09.2015 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 2. Seite 2 Fachbereich Wirtschaftswissenschaften Einführung in SPSS Wesentliche Kursinhalte  Kurzvorstellung  Organisatorisches  Was ist SPSS?  Alternativen  Grundlagen  Grundbegriffe  Skalenniveaus  Datenerhebung  Grafische Darstellungsformen  Balkendiagramme  Kreisdiagramme  Streudiagramme  Stem-and-Leaf  Histogramme  Box-Plots 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)  Lagemaße  Arithmetisches Mittel  Median  Modus  Streuungsmaße  Varianz  Standardabweichung  Interquartilsabstand  Spannweite  Verteilungsmaße  Umgang mit Ausreißern  Leverage-Effekt  Identifikation  Analyse  Statistische Testverfahren  Kolmogorov-Smirnov- Anpassungstest auf NV  Chi²-Unabhängigkeitstest  Korrelationskoeffizienten  Bravais-Pearson  Spearman  Kendall  Lineare Regression  Bearbeitung von Daten  Fälle sortieren  Fälle gewichten  Fälle auswählen  Daten klassieren
  • 3. Seite 3 Fachbereich Wirtschaftswissenschaften Kurzvorstellung Arbeit, Forschung und Lehre 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Arbeit bei der HarzOptics GmbH - An-Institut der HS Harz (seit 2007) - Gegründet 2006, 5 Mitarbeiter/innen - Entwicklung optischer Messverfahren zur Qualitätssicherung in der Luftfahrt - Projektierung des Breitbandausbaus im Auftrag von Kreisen und Kommunen - Fernlehrgang „Technische Optik“ Arbeit an der Hochschule Harz - Seit 2010 Forschung im Bereich AAL und Telepflege, seit 2013 Fundraising - IHK-Forschungspreis 2006 - 3. Platz Hugo-Junkers-Preis 2008 - 3. Platz Hugo-Junkers-Preis 2012 - NoAE Innovation Award 2011/2012 Bisherige Lehrerfahrung - Lehrbeauftragter an der HS Harz von 2006 bis 2010 (Marktforschung, SPSS, HTML, Businessinformationssysteme & strategisches Informationsmanagement) - Dozent für die Harzer Hochschulgruppe (2007 bis 2008) sowie an der Sternwarte St. Andreasberg / VHS Goslar (seit 2011) © MDKK GmbH
  • 4. Seite 4 Fachbereich Wirtschaftswissenschaften Mein zentrales Forschungsthema Umweltfreundliche Beleuchtungsplanung 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Innenraumsimulation mit DIALux (Sternwarte Sankt Andreasberg) Außenraumsimulation mit DIALux (Ortsteil Freiheit in Osterode)
  • 5. Seite 5 Fachbereich Wirtschaftswissenschaften Organisatorisches Wie wird dieser Kurs ablaufen? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) – Kurs über 2 SWS -> 16 Vorlesungs- einheiten über jeweils 90 Minuten in Vorbereitung auf die SPSS-Nutzung in der Marktforschungs-Vorlesung – Ziel: Erlernung der wichtigsten Grundregeln der Arbeit mit SPSS – Sekundärziel: Kurze Wiederholung zentraler Inhalte aus Statistik I & II – Der Kurs endet mit einer Klausur über 60 Minuten, die am PC abgelegt wird Gruppiertes Balkendiagramm (generiert aus © ALLBUS-Daten)
  • 6. Seite 6 Fachbereich Wirtschaftswissenschaften Softwarealternativen zu SPSS Für Übungen am heimischen Rechner… 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) PAST - Paleontological Statistics Software Package for Education and Data Analysis (Universities of Copenhagen and Oslo) http://folk.uio.no/ohammer/past/ PSPP - Open Source-“Nachbau“ von SPSS - Identische Funktionen und Bedienung, „Look & Feel“ ist sehr gut vergleichbar https://www.gnu.org/software/pspp/ NSDstat - Entwickelt durch den Norwegian Social Science Data Service (Stat. Bundesamt) - In Deutschland vertrieben durch GESIS (Leibniz-Institut für Sozialwissenschaften) http://www.gesis.org/unser-angebot/ daten-analysieren/software/nsdstat/
  • 7. Seite 7 Fachbereich Wirtschaftswissenschaften Bücher zum Umgang mit SPSS (Schleichwerbung eingeschlossen) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) F. Brosius: SPSS 21, mitp-Verlag, Hardcover-Ausgabe, Farbe, 1.027 Seiten, Wachtendonk, 2013 ISBN: 978-3-826-69454-7. C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlag, Paperback-Ausgabe, sw, 193 Seiten, Morrisville, 2006. C. Reinboth: Induktive Statistik – Übungsaufgaben mit Musterlösungen, eBook, GRIN-Verlag für wissenschaftliche Texte, 75 Seiten, München, 2013, ISBN: 978-3-656-53867-7.
  • 8. Seite 8 Fachbereich Wirtschaftswissenschaften Grundbegriffe der Statistik Wer erinnert sich noch?  Grundgesamtheit / Population = Menge aller relevanten statistischen Einheiten  Teilgesamtheit / Teilpopulation = Betrachtete Teilmenge einer Grundgesamtheit  Stichprobe = Real untersuchte Teilmenge einer Grundgesamtheit  Statistische Einheiten = Einzelne im Rahmen einer Erhebung untersuchte Objekte  Merkmal = Interessierende Größe der statistischen Einheit (Variable)  Ausprägung = konkreter Merkmalswert einer statistischen Einheit (Wert) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Alle Studenten an der HS Harz (davon) genau 35 befragte Studenten Alter 23 Jahre Klaus Meier (davon) alle BWL-Studenten
  • 9. Seite 9 Fachbereich Wirtschaftswissenschaften Methoden der Datengewinnung 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Frage: Wie werden Daten erhoben? primärstatistisch sekundärstatistisch tertiärstatistisch Nur noch aggregierte Daten Ganz neu erhobene Daten Bereits existierende Daten Methodik Ablauf Umfang Experiment Erfassung Beobachtung Befragung Querschnitt Längsschnitt mündlich schriftlich Vollerhebung Teilerhebung willkürlich zufällig bewusst
  • 10. Seite 10 Fachbereich Wirtschaftswissenschaften Statistische Skalenniveaus Wer erinnert sich noch?  Nominalskala  Daten sind nur Bezeichnungen ohne Rangordnung  Feststellbar ist lediglich Gleichheit oder Ungleichheit  Ordinalskala  Daten können in eine Rangordnung gebracht werden  Abstände zwischen Daten sind aber nicht interpretierbar  Intervallskala  Daten können in eine Rangordnung gebracht werden  Abstände zwischen Daten sind ebenfalls interpretierbar  Verhältnisskala  Wie Intervallskala – nur mit natürlichem Nullpunkt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Geschlecht, Telefonnummern, Kontonummern, Geschmack… Schulnoten, Präferenzrangfolgen, Dienstrang, Zufriedenheit… Temperaturen in Celsius oder Fahrenheit, Jahreszahlen… Temperaturen in Kelvin, Zeit, Streckenlängen, Wassertiefen…
  • 11. Seite 11 Fachbereich Wirtschaftswissenschaften Statistische Skalenniveaus 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Daten Nominalskala Ordinalskala Kardinalskala / metrische Skala meist stetig meist diskret meist diskret häufbar (mehrere Ausprägungen) nicht häufbar (nur eine Ausprägung) Intervallskala (kein natürlicher Nullpunkt) Verhältnisskala (natürlicher Nullpunkt) • keine Rangordnung Beispiele • Geschlecht • Studiengang • Familienstand • Telefonnummer • Rangordnung • Keine interpretier- baren Abstände Beispiele • Schulnoten • Steuerklassen • Präferenzrankings • Rangordnung • Interpretierbare Abstände Beispiele • Preis in EUR • Abstand in cm
  • 12. Seite 12 Fachbereich Wirtschaftswissenschaften Was ist SPSS? Statistical Package for Social Sciences  SPSS ist eines der marktführenden Softwareprodukte für statistische Analysen in der Sozial- und Gesundheitswissenschaft sowie in der Markt- und Meinungsforschung  Es wurde 1983 von SPSS Inc., einer Ausgründung der Stanford University, entwickelt  Der Name wechselte mehrfach von „Statistical Package for Social Sciences“ über „Superior Performing Software System“ und „Predictive Analysis Software“ (PASW) bis zu IBM SPSS STATISTICS seit der Übernahme von SPSS Inc. durch IBM in 2009 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) www.ibm.com/software/de/analytics/spss/
  • 13. Seite 13 Fachbereich Wirtschaftswissenschaften Wichtige SPSS-Menübefehle 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Datei • Erstellen, Öffnen & Importieren von Daten • Ausdrucken kompletter Datensätze Bearbeiten • Löschen, Kopieren & Einfügen von Daten • Optionen > SPSS-Grundeinstellungen Ansicht • Ein- und Ausblenden von Symbolleisten • Einstellung von Schriftart und -größe • Anzeigen von Labels oder Werten Daten • Einfügen von Variablen und Fällen • Sortieren und Transponieren von Fällen • Zusammenfügen von SPSS-Dateien • Gewichtung von Fällen für Analysen • Auswahl von Fällen für Analysen Transformieren • Bildung von Rangfolgen • Umkodieren von Variablen Analysieren & Grafiken • Statistische Analyseverfahren
  • 14. Seite 14 Fachbereich Wirtschaftswissenschaften SPSS-Dateitypen  Datendateien - *.sav  Datendateien enthalten die zu analysierenden Daten  Die Datenstruktur ähnelt der einer Tabellenkalkulation  Der Datenimport aus anderen Programmen ist möglich  Ausgabedateien *.spo  Analyseergebnisse werden in Ausgabedateien geschrieben  Es können mehrere Ausgabedateien gleichzeitig offen sein  Erfolgreiche Analysen können permanent gesichert werden  Syntaxdateien *.sps  SPSS-Verfahren können auch selbst programmiert werden  Ein selbsterstelltes Programm wird als Syntax gespeichert  SPSS-Programmierung ist nicht Bestandteil dieses Kurses 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 15. Seite 15 Fachbereich Wirtschaftswissenschaften SPSS-Variablenansicht 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Merkmale und Merkmalsnamen Labels für diskrete Merkmalsausprägungen Platzhalter für fehlende Werte Skalenniveaus (Messniveaus)
  • 16. Seite 16 Fachbereich Wirtschaftswissenschaften SPSS-Datenansicht 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Statistische Einheit (Befragte/r, Fall…) Ausprägungen (Merkmalswerte)
  • 17. Seite 17 Fachbereich Wirtschaftswissenschaften Unser erster Beispieldatensatz: Merkmale 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) • Geschlecht (geschl): numerisch, 0 Dezimalstellen, 2 Labels, nominales Niveau • Einkommen (einkom): numerisch, 2 Dezimalstellen, keine Labels, metrisches Niveau • Studienjahre (studj): numerisch, 0 Dezimalstellen, keine Labels, metrisches Niveau • Krankentage (kranktg): numerisch, 0 Dezimalstellen, keine Labels, metrisches Niveau Bitte legen Sie diese Merkmale nun in einem leeren Datenblatt an
  • 18. Seite 18 Fachbereich Wirtschaftswissenschaften Unser erster Beispieldatensatz: Ausprägungen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Bitte tragen Sie diese Ausprägungen nun in einem leeren Datenblatt ein
  • 19. Seite 19 Fachbereich Wirtschaftswissenschaften Zu Beginn einer Datenanalyse… …ist es sinnvoll, einen Überblick über die vorliegenden Daten zu bekommen – Darstellung von Lage und Verteilung der Werte – gibt es Auffälligkeiten? – Lagemaße: Arithmetisches Mittel, Median, Perzentile, Modus – Streumaße: Spannweite, Interquartilsabstand, Varianz, Standardabweichung – Grafische Darstellung: Balkendiagram, Kreisdiagramm, Streudiagramm, Box-Plot… – Lassen sich extrem große oder kleine Werte (Ausreißer) identifizieren? – Sind außergewöhnliche Umstände oder Fehler die Ursache? – Verzerren die Ausreißer die Ergebnisse der weiteren Analyse? – Ist es möglich, sie aus der weiteren Analyse auszuschließen? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 20. Seite 20 Fachbereich Wirtschaftswissenschaften Zu Beginn einer Datenanalyse… – Erfüllen die Daten die Voraussetzungen für weiterführende Verfahren? – Liegt eine Normalverteilung vor? – Liegt eine Gleichheit der Varianzen vor? Alle angesprochenen Fragestellungen fallen in den Aufgabenbereich der explorativen Datenanalyse, die wir in diesem Kurs kennenlernen werden. Welche Verfahren im Rahmen einer explorativen Datenanalyse abzuarbeiten sind, ist nicht explizit festgelegt. Vielmehr gilt es, die geeigneten Methoden und grafischen Darstellungsformen aus dem „Baukasten“ der explorativen Datenanalyse passend zu Daten sowie zu Fragestellungen auszuwählen. 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 21. Seite 21 Fachbereich Wirtschaftswissenschaften Eine Verteilung überblicken 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Frage: Wie sieht die vorliegende Verteilung aus? grafisch Lagemaße Streuungsmaße Verteilungsmaße Balkendiagramme, Kreisdiagramme, Histogramme, Säulendiagramme, Box-Plots, Stem-and-Leaf-Plots Arithmetisches Mittel, getrimmtes arithmetisches Mittel, Median, Perzentilwerte, Modus, geometrisches Mittel, harmonisches Mittel Varianz, Standardabweichung, Variationskoeffizient, Spann- weite, Interquartilsabstand, Fünf-Werte-Zusammenfassung Momentenkoeffizient der Schiefe, Quartilskoeffizient der Schiefe, Kurtosis
  • 22. Seite 22 Fachbereich Wirtschaftswissenschaften Grafische Darstellung univariater Daten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mögliche Darstellungsformen • diskrete Merkmale • wenige Ausprägungen • stetige Merkmale • viele Ausprägungen Stabdiagramm Säulendiagramm Balkendiagramm Kreisdiagramm Stem-and-Leaf Histogramm Box-Plot P-P- & Q-Q-Plots
  • 23. Seite 23 Fachbereich Wirtschaftswissenschaften Balken- und Kreisdiagramme 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 24. Seite 24 Fachbereich Wirtschaftswissenschaften Säulen- und Balkendiagramme – Säulen- und Balkendiagramme eignen sich insbesondere für die Visualisierung diskreter Merkmale mit einer überschaubaren Anzahl an Ausprägungen – Stetige Merkmale sollten vor einer Diagrammerstellung klassiert werden – SPSS gestattet die Darstellung relativer sowie absoluter Häufigkeiten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 25. Seite 25 Fachbereich Wirtschaftswissenschaften Erstellung von Balkendiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Balken
  • 26. Seite 26 Fachbereich Wirtschaftswissenschaften Erstellung von Balkendiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 27. Seite 27 Fachbereich Wirtschaftswissenschaften Erstellung von Balkendiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 28. Seite 28 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit eingeblendeten absoluten Werten Mit eingeblendeten Beschriftungen
  • 29. Seite 29 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit veränderten Farben und Schatten In Form einer 3D-Effektdarstellung
  • 30. Seite 30 Fachbereich Wirtschaftswissenschaften Kreisdiagramme – Wie Balkendiagramme eignen sich Kreisdiagramme primär für die Visualisierung diskreter Merkmale mit einer überschaubaren Anzahl an Ausprägungen – Stetige Merkmale sollten vor einer Diagrammerstellung klassiert werden – SPSS gestattet die Darstellung relativer sowie absoluter Häufigkeiten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 31. Seite 31 Fachbereich Wirtschaftswissenschaften Erstellung von Kreisdiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Kreis
  • 32. Seite 32 Fachbereich Wirtschaftswissenschaften Erstellung von Kreisdiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 33. Seite 33 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit eingeblendeten absoluten Werten Mit eingeblendeten Beschriftungen
  • 34. Seite 34 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit veränderten Farben und Schatten In Form einer 3D-Effektdarstellung
  • 35. Seite 35 Fachbereich Wirtschaftswissenschaften Box-Plots und Histogramme 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 36. Seite 36 Fachbereich Wirtschaftswissenschaften Histogramme – Ein Histogramm zeigt die Häufigkeitsverteilung intervallskalierter Merkmale – Dabei wird von nach der Größe geordneten Daten ausgegangen, die in n Klassen aufgeteilt werden, welche theoretisch nicht die gleiche Breite besitzen müssen (SPSS erstellt Histogramme standardmäßig jedoch mit gleichbreiten Klassen) – Über jeder Klasse wird ein Rechteck konstruiert, dessen Flächeninhalt sich proportional zur absoluten bzw. relativen Häufigkeit dieser Klasse verhält – Die Visualisierung von Daten mittels Histogrammen eignet sich primär für stetige Merkmale mit einer großen Anzahl an Ausprägungen – In SPSS ist zu beachten, dass maximal 21 Klassen gebildet werden können – Außerdem kann eine Normalverteilungskurve in das Histogramm eingeblendet werden, aus der abgelesen werden kann, wie eine Normalverteilung bei Daten mit gleichem Mittelwert und gleicher Streuung aussehen würde (Voraussetzungsprüfung) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 37. Seite 37 Fachbereich Wirtschaftswissenschaften Erstellung von Histogrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Histogramm
  • 38. Seite 38 Fachbereich Wirtschaftswissenschaften Erstellung von Histogrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 39. Seite 39 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit veränderten Klassenbreiten (erhebliche Manipulationsmöglichkeiten)
  • 40. Seite 40 Fachbereich Wirtschaftswissenschaften Box-Plots – Box-Plots bieten einen Verteilungsüberblick und gestatten Verteilungsvergleiche – Sie stellen Lage und Streuung dar und dienen zudem der Ausreißeridentifikation 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Median Oberes Quartil Unteres Quartil Größter Nicht-Ausreißer Kleinster Nicht-Ausreißer * 42 16 27 Ausreißer Ausreißer Extremwert IQR4 IQR7 IQR
  • 41. Seite 41 Fachbereich Wirtschaftswissenschaften Box-Plots – Aus der Lage des Medians im Box-Plot lässt sich die Form einer Verteilung ablesen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Symmetrische Verteilung Linkssteile Verteilung Rechtssteile Verteilung
  • 42. Seite 42 Fachbereich Wirtschaftswissenschaften Box-Plots – Sollen mehrere Verteilungen bzw. mehrere überschneidungsfreie Gruppen (z.B. männliche und weibliche Angestellte) in einer Verteilung miteinander verglichen werden, lassen sich Box-Plots nebeneinander darstellen – Weitergehende Vergleiche sind über gruppierte Box-Plots möglich, d.h. es erfolgt eine Aufteilung anhand mehr als nur eines Merkmals (beispielsweise anhand des Geschlechts und des Einkommens, wodurch sich vier Gruppen ergeben) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 43. Seite 43 Fachbereich Wirtschaftswissenschaften Erstellung von Box-Plots mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Box-Plots Um einen Blox-Plot für eine Einzelvariable zu generieren, muss – eher kontraintuitiv – die Option Einfach > Auswertung über verschiedene Variablen selektiert werden
  • 44. Seite 44 Fachbereich Wirtschaftswissenschaften Erstellung von Box-Plots mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 45. Seite 45 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Als T-Balken-Variante Mit veränderten Farben
  • 46. Seite 46 Fachbereich Wirtschaftswissenschaften Stem-and-Leaf-Plots – Die Stem-and-Leaf-Plots (Stamm-Blatt-Diagramme) eignen sich im Gegensatz zu Kreis- und Balkendiagrammen vor allem zur Darstellung stetiger Merkmale – Der große Vorteil gegenüber jeder anderen grafischen Darstellungsform ist, dass die Originaldaten (zumindest bis zu einer gewissen Genauigkeit) noch aus dem Diagramm abgelesen werden können – Das Diagramm ist aufgebaut wie ein gekipptes Histogramm, d.h. flächenproportional – Der „Stamm“ besteht aus der ersten Ziffer, die „Blätter“ aus der jeweils folgenden – Sehr große oder sehr kleine Zahlen (Ausreißer) können auf- oder abgerundet sowie als Extremwerte ausgewiesen oder aus dem Diagramm gestrichen werden – Stem-and-Leaf-Plots können – neben Box-Plots – bemerkenswert gut dazu genutzt werden, um zwei Verteilungen miteinander zu vergleichen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 47. Seite 47 Fachbereich Wirtschaftswissenschaften Stem-and-Leaf-Plots 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 1 | 1 1 1 2 2 3 4 5 7 7 2 | 2 2 4 3 | 3 3 3 4 5 8 8 4 | 1 2 9 9 9 9 2 Extremes Stem width: 10 Each leaf: 1 case(s) Datensatz A Datensatz B 8 8 8 3 2 | 1 | 1 1 1 2 2 3 4 5 7 7 2 1 | 2 | 2 2 4 9 5 4 43 3 | 3 | 3 3 3 4 5 8 8 4 3 32 1 | 4 | 1 2 9 9 9 9 3 Extremes 2 Extremes Stem width: 10 Each leaf: 1 case(s) Singulärer Stem-and-Leaf-Plot Vergleichender Stem-and-Leaf-Plot
  • 48. Seite 48 Fachbereich Wirtschaftswissenschaften Erstellung von Stem-and-Leaf-Plots mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistik > Explorative Datenanalyse Wie ist das Ergebnis zu interpretieren?
  • 49. Seite 49 Fachbereich Wirtschaftswissenschaften Grafische Darstellung multivariater Daten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Darstellungsformen Bivariate Darstellung Multivariate Darstellung 2D-Streudiagramme 3D-Streudiagramme Streudiagramm-MatrixProfildiagramme Andrew‘s Fourier Chernoff-Gesichter
  • 50. Seite 50 Fachbereich Wirtschaftswissenschaften Streudiagramme und Streudiagramm-Matrizen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 51. Seite 51 Fachbereich Wirtschaftswissenschaften Streudiagramme – Streudiagramme stellen die gemeinsame Verteilung der Werte zweier Variablen (bzw. dreier Variablen in einem 3D-Streudiagramm) dar, indem die entsprechenden Werte beider Variablen gegeneinander abgetragen werden – Lage und Verteilung der Wertepaare ermöglichen Rückschlüsse auf mögliche Zusammenhänge -> Einstieg in die inhaltliche Interpretation von Datensätzen – Beispiel: Treten in der Tendenz große Werte der einen Variablen gepaart mit großen Werten der anderen Variablen auf, so kann ein positiver Zusammenhang vermutet werden (beispielsweise bei Werbeausgaben und Verkaufszahlen) – Ein gefundener Zusammenhang kann nicht in eine bestimmte Richtung interpretiert werden, d.h. aus der Grafik ist nicht abzulesen, ob Variable A Variable B beeinflusst oder umgekehrt, bzw. ob lediglich ein Scheinzusammenhang besteht 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 52. Seite 52 Fachbereich Wirtschaftswissenschaften Erstellung von Streudiagrammen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Streu-/Punktdiagramm Wie ist das Ergebnis zu interpretieren?
  • 53. Seite 53 Fachbereich Wirtschaftswissenschaften Verschiedene Diagrammspielarten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Mit linearer Regressionsgeraden
  • 54. Seite 54 Fachbereich Wirtschaftswissenschaften Streudiagramm-Matrix – Liegt ein multivariater Fall vor, d.h. sollen für mehrere Variablenpaare jeweils gemeinsame Verteilungen dargestellt werden, ist anstelle einer Reihe bivariater Streudiagramme ein gemeinsames Streudiagramm in Form einer Matrix sinnvoll – Eine Streudiagramm-Matrix gestattet den schnellen Überblick über die Vielzahl aller möglichen Paarverteilungen und ermöglicht das rasche Auffinden symmetrischer oder anderweitig auffälliger Einzel-Streudiagramme – Jedes einzelne Streudiagramm taucht zweimal in der Matrix auf (einmal oberhalb und einmal unterhalb der Hauptdiagonalen), wobei die jeweiligen Achsen der Diagramme miteinander vertauscht sind (Gehalt <> Anfangsgehalt; Anfangsgehalt <> Gehalt) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 55. Seite 55 Fachbereich Wirtschaftswissenschaften Erstellung von Matrizen mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Grafik > Alte Dialogfelder > Streu-/Punktdiagramm Wie ist das Ergebnis zu interpretieren?
  • 56. Seite 56 Fachbereich Wirtschaftswissenschaften Analyse bivariater Zusammenhänge 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Frage: Liegt in einem bivariaten Datensatz ein Zusammenhang vor? grafisch nominalskaliert ordinalskaliert metrisch stetig diskret Streudiagramm Scatterplot-Matrix Balkendiagramme (gruppiert, bedingt) Chi²-Koeffizient Konkordanz- koeffizient nach Kendall Rangkorrelations- koeffizient nach Spearman Bravais-Pearson- Korrelations- koeffizient
  • 57. Seite 57 Fachbereich Wirtschaftswissenschaften Lagemaße / Maße der zentralen Tendenz 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Daten Nominalskala Ordinalskala Kardinalskala / metrische Skala meist stetig meist diskret meist diskret Intervallskala (kein natürlicher Nullpunkt) Verhältnisskala (natürlicher Nullpunkt) • Modus • Median • Quartile • Quantile • Perzentile • geometrisches Mittel • harmonisches Mittel • arithmetisches Mittel (inkl. gewichtet, getrimmt...) Lagemaße, die ein niedriges Skalenniveau voraussetzen können problemlos für Datensätze eines höheren Skalenniveaus berechnet werden ✔
  • 58. Seite 58 Fachbereich Wirtschaftswissenschaften Das arithmetische Mittel – Das arithmetische Mittel ist das bekannteste statistische Lagemaß (Standardmittel) – Es kann nur für metrisch skalierte Daten berechnet werden (Intervall-/Verhältnisskala) – Vorsicht: SPSS „berechnet“ das arithmetische Mittel auch für nichtmetrische Daten – Anwender/innen benötigen daher Methodenkenntnisse (klassischer Fehler: Schulnoten) – Liegen von einem metrischen Merkmal x insgesamt n Werte vor, berechnet sich das arithmetische Mittel auf Basis dieser Formel: – Das arithmetische Mittel ist nicht robust, d.h. empfindlich gegenüber Ausreißern: (1, 2, 3, 4) -> (1+2+3+4) / 4 = 2,5 (1, 2, 3, 50) -> (1+2+3+50) / 4 = 14 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) x = 1 n xi i=1 n å
  • 59. Seite 59 Fachbereich Wirtschaftswissenschaften Berechnung des arithm. Mittels mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 60. Seite 60 Fachbereich Wirtschaftswissenschaften Berechnung des arithm. Mittels mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 61. Seite 61 Fachbereich Wirtschaftswissenschaften Der Median – Der Median ist derjenige Wert, der in der Mitte der geordneten Verteilung liegt – Die Berechnung des Medians setzt daher mindestens ordinalskalierte Daten voraus – Bei einer ungeraden Anzahl an Werten wird der mittlere Wert der geordneten Verteilung gewählt: – Bei einer geraden Anzahl an Werten wird das arithmetische Mittel der mittleren Werte gewählt: – Der Median ist äußerst robust, d.h. er wird von Ausreißern kaum beeinflusst: (1, 2, 3, 4) -> Median: 2,5 (1, 2, 3, 50) -> Median: 2,5 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) xmed = x ( x+1 2 ) xmed = 1 2 (x ( n 2 ) + x ( (n+1) 2 ) )
  • 62. Seite 62 Fachbereich Wirtschaftswissenschaften Berechnung des Medians mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 63. Seite 63 Fachbereich Wirtschaftswissenschaften Berechnung des Medians mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 64. Seite 64 Fachbereich Wirtschaftswissenschaften Die Perzentilwerte – Perzentilwerte sind Werte, unterhalb derer ein definierter Anteil aller Werte liegt – Für die Perzentilberechnung müssen mindestens ordinalskalierte Daten vorliegen – Der bekannteste Perzentilwert ist das 50%-Perzentil – der bereits bekannte Median – Häufig erfolgt eine „Vierteilung“ des Wertebereichs mit den sogenannten Quartilen: – 25%-Perzentil (25% aller Werte liegen unterhalb dieses Wertes, 75% liegen oberhalb) – 50%-Perzentil – Median (50% aller Werte liegen unter- bzw. oberhalb dieses Wertes) – 75%-Perzentil (75% aller Werte liegen unterhalb dieses Wertes, 25% liegen oberhalb) – Die Quartile spielen u.a. für die Bildung von Box-Plots (Grenzen der Box) sowie für die Unterscheidung in Ausreißer und Extremwerte (IQR) eine Rolle – Wie der Median sind auch die restlichen Perzentile robust gegenüber Ausreißern 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 65. Seite 65 Fachbereich Wirtschaftswissenschaften Berechnung von Perzentilwerten mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 66. Seite 66 Fachbereich Wirtschaftswissenschaften Berechnung von Perzentilwerten mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren? Lassen sich auch beliebige Perzentilwerte berechnen? Können die Perzentilwerte auch aus der Tabelle der Häufigkeitsverteilung abgelesen werden?
  • 67. Seite 67 Fachbereich Wirtschaftswissenschaften Der Modus – Der Modus (oder Modalwert) ist der in den Daten am häufigsten auftretende Wert – Bei klassierten Daten entspricht der Modus die Klassenmitte der Klasse mit den meisten Fällen (dies gilt allerdings nur beim Vorliegen gleichbreiter Klassen) – Der Modus eignet sich vor allem für diskrete Daten (Punktwahrscheinlichkeit) – Er wird v.a. für nominalskalierte Daten gebildet, für die sich kein anderes Lagemaß eignet – Bei metrisch skalierten Daten kann der Modus über gleichbreite Klassen gebildet werden – Vorteil: Der Modus ist ohne Rechnung erkennbar und lässt sich leicht bestimmen – Nachteil: Der Modus ist nur interpretierbar, wenn ein klares Maximum existiert – Achtung: Sind in einem diskreten Datensatz mehrere Werte mit gleicher Häufigkeit vertreten, gibt SPSS nur den in der Häufigkeitstabelle zuoberst stehenden Wert aus 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 68. Seite 68 Fachbereich Wirtschaftswissenschaften Berechnung des Modus mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 69. Seite 69 Fachbereich Wirtschaftswissenschaften Berechnung des Modus mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren? Weist diese Verteilung ein klares Maximum auf?
  • 70. Seite 70 Fachbereich Wirtschaftswissenschaften Zusammenfassung der Lagemaße – Lagemaße beschreiben das Zentrum einer Verteilung – Arithmetisches Mittel – Sogenanntes „Standardmittel“ – Nicht robust gegenüber Ausreißern – Daten müssen stets metrisch skaliert sein – Getrimmtes arithmetisches Mittel – Arithmetisches Mittel nach Entfernung einiger Randdaten – Trimmung der Daten erfolgt stets beidseitig symmetrisch – Die Trimmung des Mittels mildert Ausreißereffekte ab 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) x = 1 n xi i=1 n å xget = 1 nget xi i=1 nget å
  • 71. Seite 71 Fachbereich Wirtschaftswissenschaften Zusammenfassung der Lagemaße – Median – Mittlerer Wert der geordneten Verteilung – Von Ausreißern praktisch nicht beeinflussbar – Daten müssen mindestens ordinalskaliert sein – Für gerade und ungerade n existieren zwei Formeln – Perzentile – „Verallgemeinerung“ des Medians – Anstelle von 50% werden andere Prozentzahlen gewählt – In der Praxis spielen vor allem Quantile und Quartile eine Rolle 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) xmed = x ( x+1 2 ) xmed = 1 2 (x ( n 2 ) + x ( (n+1) 2 ) ) xp = xk xp = 1 2 (xk + x(k+1) )
  • 72. Seite 72 Fachbereich Wirtschaftswissenschaften Zusammenfassung der Lagemaße – Modus – Am häufigsten auftretender Wert in den Daten – Kann schon für nominalskalierte Werte berechnet werden – Nur sinnvoll, wenn ein einzelnes, klares Maximum vorliegt – Geometrisches Mittel – Lagemaß für relative Veränderungen (Wachstum) – In solchen Fällen das einzig zulässiges Lagemaß – Faktoren können unterschiedlich gewichtet werden – Harmonisches Mittel – Kommt bei Quotienten zum Einsatz (Geschwindigkeiten...) – Kann analog zum geometrischen Mittel gewichtet werden 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) xmod = axmax xgeom = x1...xn n xhar = 1 1 xii=1 n å
  • 73. Seite 73 Fachbereich Wirtschaftswissenschaften Berechnung multipler Lagemaße mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 74. Seite 74 Fachbereich Wirtschaftswissenschaften Berechnung multipler Lagemaße mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Welche Grafiken könnten diese tabellarische Darstellung sinnvoll ergänzen?
  • 75. Seite 75 Fachbereich Wirtschaftswissenschaften Lagemaße und Verteilungsformen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Lagemaß min. Skalenniveau Modalwert Nominalskalenniveau Median / Perzentile Ordinalskalenniveau Arithmetisches Mittel Metrisches Skalenniveau Verhältnis der Lagemaße Form der Verteilung Symmetrische Verteilung Rechtssteile Verteilung Linkssteile Verteilung x » xmed » xmod x < xmed < xmod x > xmed > xmod
  • 76. Seite 76 Fachbereich Wirtschaftswissenschaften Das „SPSS-Analyseproblem“ – SPSS führt JEDE Analyse unabhängig von den Voraussetzungen durch! – ...also auch die Berechnung des arithmetischen Mittels – ... aus Schulnoten – ... aus Geschlechtern – ... aus Kontonummern – ... aus Telefonnummern – ... aus Präferenzrängen – Bei komplexen Verfahren sind noch weit schlimmere „Vergehen“ denkbar – Die fachlichen Kenntnisse der Anwender/innen sind daher entscheidend – Darum: KEINE Analyse ohne vorherige Prüfung der Voraussetzungen! 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 77. Seite 77 Fachbereich Wirtschaftswissenschaften Streuungsmaße / Dispersionsmaße 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 78. Seite 78 Fachbereich Wirtschaftswissenschaften Die Spannweite – Die Spannweite ist als der absolute Abstand zwischen dem jeweils kleinsten (Minimum) und größten (Maximum) Wert im untersuchten Datensatz definiert – Die Spannweite ist als Streuungsmaß in den meisten Fällen ungenügend, da sie – soweit vorhanden – extrem stark von Ausreißern beeinflusst wird – Existieren an beiden Verteilungsrändern Ausreißer, wird der Wert der Spannweite tatsächlich sogar ausschließlich (!) durch diese bestimmt (1, 2, 3, 4, 5) -> Spannweite: 4 (1, 2, 3, 4, 50) -> Spannweite: 49 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 79. Seite 79 Fachbereich Wirtschaftswissenschaften Berechnung der Spannweite mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 80. Seite 80 Fachbereich Wirtschaftswissenschaften Der Interquartilsabstand – Der Interquartilsabstand (IQR = Inter Quartile Range) ist definiert als der Abstand zwischen dem oberen (75%) und dem unteren Quartil (25%) – Da die Quartile bekanntlich nicht von Ausreißern beeinflusst werden können, ist der IQR als Streuungsmaß deutlich robuster als die Spannweite – Quartile, Minimum und Maximum bilden die Fünf-Werte-Zusammenfassung 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) } IQR
  • 81. Seite 81 Fachbereich Wirtschaftswissenschaften Varianz und Standardabweichung – Die Varianz (bzw. Standardabweichung) ist das meistgenutzte Streuungsmaß – Sie berechnet sich als Summe der quadrierten Abweichungen der Einzelwerte (Ausgleich negativer und positiver Abweichungen) vom arithmetischen Mittel, geteilt durch die Gesamtzahl aller Werte – Bei der Berechnung der Stichproben-Varianz (SPSS) stehen die Freiheitsgrade im Nenner – Die Varianz wird immer kleiner, je näher die Einzelwerte am arithmetischen Mittel liegen – Sind alle Werte mit dem Mittel identisch (keine Streuung), ergibt sich eine Nullvarianz – Bei der Interpretation ist zu beachten, dass mit quadrierten Werten gerechnet wird – Auch die Varianz ist also in der quadrierten Einheit dimensioniert (z.B. in €² statt in €) – Die Standardabweichung als Quadratwurzel der Varianz erleichtert die Interpretation 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑆² = 1 (𝑁 − 1) 𝑖=1 𝑁 (𝑋𝑖 − 𝑋)²
  • 82. Seite 82 Fachbereich Wirtschaftswissenschaften Berechnung der Varianz mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 83. Seite 83 Fachbereich Wirtschaftswissenschaften Berechnung der Varianz mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 84. Seite 84 Fachbereich Wirtschaftswissenschaften Streuungsmaße / Dispersionsparameter – Streuungsmaße geben Auskunft darüber, wie stark Daten um das Zentrum einer Verteilung (Mittelwert) streuen – Empirische Varianz – Mittlere quadrierte Abweichung vom arithmetischen Mittel – Kann daher nur für metrisch skalierte Daten berechnet werden – Varianz ist nicht robust, d.h. empfindlich gegenüber Ausreißern – Standardabweichung – Durch die Quadrierung ist die Varianz schwer interpretierbar, da sie sich in Einheiten wie z.B. €² oder Stunden² ausdrückt – Die Standardabweichung ist die positive Wurzel der Varianz 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑠² = 1 𝑛 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)² 𝑠 = + 𝑠²
  • 85. Seite 85 Fachbereich Wirtschaftswissenschaften Streuungsmaße / Dispersionsparameter – Variationskoeffizient – Streuungen mit unterschiedlichen Maßstäben sind nicht vergleichbar – Beispiel: Währungsschwankungen in verschiedenen Währungen – Ist der Mittelwert positiv, können die Daten aber normiert werden – Der entstehende Variationskoeffizient gestattet direkte Vergleiche – Spannweite – Differenz zwischen größtem und kleinstem Wert – In die Berechnung fließen also nur wenige Daten ein – Differenz wird dadurch massiv durch Ausreißer beeinflusst 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑣 = 𝑠 𝑥 𝑏𝑒𝑖 𝑥 > 0 𝑑 𝑠 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
  • 86. Seite 86 Fachbereich Wirtschaftswissenschaften Streuungsmaße / Dispersionsparameter – Interquartilsabstand (IQR) – Der IQR ist der Abstand zwischen oberem und unterem Quartil – Er wird für Box-Plot und Fünf-Werte-Zusammenfassung benötigt – Fünf-Werte-Zusammenfassung – Hochkomprimierte Darstellung von Streuung und Lage einer Verteilung, bestehend aus dem Minimum, dem Maximum und den drei Quartilen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝐼𝑄𝑅 = 𝑥0,75 − 𝑥0,25 [𝑥 𝑚𝑖𝑛, 𝑥0,25 , 𝑥0,5, 𝑥0,75 , 𝑥 𝑚𝑎𝑥]
  • 87. Seite 87 Fachbereich Wirtschaftswissenschaften Schiefe und Wölbung 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) • Verteilungen können nach Schiefe unterschieden werden • Symmetrische Verteilungen (spiegelbildlich) • Linkssteile und rechtsschiefe Verteilungen • Rechtssteile und linksschiefe Verteilungen • Zudem kann nach der Wölbung unterschieden werden • Der Wölbungsgrad entspricht der Wölbung einer Normalverteilung • Die Wölbung verläuft flacher als die Wölbung einer Normalverteilung • Die Wölbung verläuft spitzer als die Wölbung einer Normalverteilung Quelle: Wikimedia Commons / User: Christian Schirm / Lizenz: gemeinfrei
  • 88. Seite 88 Fachbereich Wirtschaftswissenschaften Schiefe und Wölbung – Momentenkoeffizient der Schiefe – Abweichung der Verteilung von der symmetrischen Form – Die Daten müssen dabei mindestens intervallskaliert sein – Es ergeben sich positive Werte für linkssteile Verteilungen und negative Werte für rechtssteile Verteilungen – Quartilskoeffizient der Schiefe – Koeffizient wird mit den Quartilen gebildet – Daten müssen daher lediglich ordinalskaliert sein – Interpretation ist identisch zum Momentenkoeffizient 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑔 𝑚 = 𝑚3 𝑠³ 𝑚𝑖𝑡 𝑚3 = 1 𝑛 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)³ 𝑢𝑛𝑑 𝑠³ = ( 1 𝑛 𝑖=1 𝑛 𝑥𝑖 − 𝑥 2)³ 𝑔0,25 = [ 𝑥0,75 − 𝑥 𝑚𝑒𝑑 − 𝑥 𝑚𝑒𝑑 − 𝑥0,25 ] (𝑥0,75 − 𝑥0,25)
  • 89. Seite 89 Fachbereich Wirtschaftswissenschaften Schiefe und Wölbung – Kurtosis / Exzeß – Abweichung der Wölbung von der einer Normalverteilung – Es ergeben sich positive Werte für spitze Verteilungen und negative Werte für flache Verteilungen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑔 𝑚 = 𝑚4 𝑠4 𝑚𝑖𝑡 𝑚4 = 1 𝑛 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)4 𝑢𝑛𝑑 𝑠4 = ( 1 𝑛 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)²)4
  • 90. Seite 90 Fachbereich Wirtschaftswissenschaften Berechnung der Schiefe / Wölbung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Häufigkeiten
  • 91. Seite 91 Fachbereich Wirtschaftswissenschaften Berechnung der Schiefe / Wölbung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 92. Seite 92 Fachbereich Wirtschaftswissenschaften Der richtige Umgang mit Ausreißern 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) ? ?
  • 93. Seite 93 Fachbereich Wirtschaftswissenschaften Einführung in die Ausreißeranalyse – Bei einem Ausreißer handelt es sich um einen gemessenen oder erhobenen Wert, der nicht den Erwartungen entspricht bzw. der nicht zu den übrigen Werten passt – Es existiert keine eindeutige Definition darüber, wann ein Wert als Ausreißer bezeichnet werden kann – beim Box-Plot werden z.B. alle Werte außerhalb des vierfachen IQR-Bereichs um den Median als Ausreißer klassifiziert – Es gibt drei mögliche Ursachen für das Auftreten eines Ausreißers: – Der Ausreißer wurde durch einen verfahrenstechnischen Fehler verursacht, so etwa einen Fehler bei der Dateneingabe, beim Codieren der Daten oder einen technischen Ausfall bei der Datenerfassung bzw. -speicherung – Der Ausreißer kennzeichnet einen außergewöhnlichen Wert, etwa eine einzelne aus dem Rahmen fallende Beobachtung (der einzige Millionär), die sich jedoch erklären lässt – solche Ausreißer können mitunter ein Hinweis darauf sein, dass die Befragung falsch angelegt wurde – Der Ausreißer kennzeichnet einen korrekt erfassten Wert, für den es keinerlei Erklärung gibt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 94. Seite 94 Fachbereich Wirtschaftswissenschaften Einführung in die Ausreißeranalyse – Es ist zwischen normalen und multivariaten Ausreißern zu unterscheiden: – „Normaler“ Ausreißer = außergewöhnlich großer oder kleiner Wert (beispielsweise das persönliche Einkommen im Millionenbereich) – Multivariater Ausreißer = für sich betrachtet im normalen Bereich liegende Einzelwerte, die in ihrer Kombination quer durch die Variablen jedoch einen einzigartigen Fall ergeben (beispielsweise die 86jährige Frau mit Internetanschluss) – Die entscheidende Frage jeder Ausreißeranalyse lautet: Werden die Ausreißer im Datensatz beibehalten oder können bzw. sollen sie verworfen werden? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 95. Seite 95 Fachbereich Wirtschaftswissenschaften Der Leverage-Effekt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Ausreißer können eine Regressionsgerade zu sich „hinziehen“ und so das Ergebnis stark beeinflussen
  • 96. Seite 96 Fachbereich Wirtschaftswissenschaften Die grafische Identifikation von Ausreißern 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Unterscheidung in Ausreißer und extreme Werte im Box-Plot Grafische Identifikation von Ausreißern im Streudiagramm
  • 97. Seite 97 Fachbereich Wirtschaftswissenschaften Erstellung einer Extremwerttabelle mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Explorative Datenanalyse
  • 98. Seite 98 Fachbereich Wirtschaftswissenschaften Erstellung einer Extremwerttabelle mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 99. Seite 99 Fachbereich Wirtschaftswissenschaften Wie ist mit Ausreißern umzugehen? – Generell gibt es drei Möglichkeiten: – Eingang in die Analyse – Ausschluss aus der Analyse – Kennzeichnung als fehlender Wert – Insbesondere drei Fragen sind für die Entscheidungsfindung von Bedeutung: – Wie ist das Auftreten der Ausreißer zu erklären? – Handelt es sich um Eingabefehler und ist es möglich, diese zu bereinigen? – Was sagen die Werte über Anlage und Durchführung der Erhebung aus? – Welche Auswirkungen haben die Ausreißer auf die Ergebnisse der Datenanalyse? – Beeinflussen sie beispielsweise den Verlauf einer Regressionsgraden? (Leverage-Effekt) – Welcher Datenverlust entsteht, wenn die Ausreißer aus dem Datensatz entfernt werden? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 100. Seite 100 Fachbereich Wirtschaftswissenschaften Statistische Tests: K-S-A und Chi²-Test 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 101. Seite 101 Fachbereich Wirtschaftswissenschaften Die Normalverteilung – Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung – Die zugehörige Dichtefunktion ist als Gaußsche Glockenkurve bekannt – Wesentliche Eigenschaften der Normalverteilung – Dichtefunktion ist glockenförmig und symmetrisch – Erwartungswert, Median und Modus sind gleich – Zufallsvariable hat eine unendliche Spannweite – Viele statistische Verfahren setzen die Normalverteilung der Daten in der Grundgesamtheit voraus, weshalb häufig zu prüfen ist, ob eine solche Verteilung vorliegt (auch näherungsweise) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 102. Seite 102 Fachbereich Wirtschaftswissenschaften Dichtefunktionen div. Normalverteilungen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Quelle: Wikimedia Commons / User: InductiveLoad / Lizenz: gemeinfrei
  • 103. Seite 103 Fachbereich Wirtschaftswissenschaften Der Kolmogorov-Smirnov-Anpassungstest – Die Prüfung auf Vorliegen einer Normalverteilung kann in SPSS auch mit einem Anpassungstest wie etwa dem Kolmogorov-Smirnov-Test durchgeführt werden – Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung – Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz bei einem gegebenen Signifikanzniveau abgelesen werden kann – Nullhypothese H0 des Tests: Es liegt eine Normalverteilung vor – Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (sog. Irrtumswahrscheinlichkeit – Erläuterungen folgen auf der nächsten Folie) – Je größer die Wahrscheinlichkeit (eines Fehlers bei der Ablehnung der Nullhypothese) ausfällt, desto eher ist somit vom Vorliegen einer Normalverteilung der Werte auszugehen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 104. Seite 104 Fachbereich Wirtschaftswissenschaften Exkurs: Die Irrtumswahrscheinlichkeit – Die Irrtumswahrscheinlichkeit gibt die Wahrscheinlichkeit dafür an, dass das Zurückweisen einer Nullhypothese falsch ist – Je größer dieser Wert also ausfällt, umso wahrscheinlicher ist demnach, dass ein Zurückweisen der getesteten Nullhypothese H0 ein Irrtum wäre – Das für eine Verwerfung der H0 zu erreichende Signifikanzniveau ist vor der Durchführung von Tests (und niemals post hoc) festzulegen – In SPSS werden die Ergebnisse aller statistischen Tests ausnahmslos über eine Irrtumswahrscheinlichkeit ausgegeben – das richtige Verständnis ist also wichtig 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Großer Signifikanzwert = Nullhypothese beibehalten Kleiner Signifikanzwert = Nullhypothese zurückweisen
  • 105. Seite 105 Fachbereich Wirtschaftswissenschaften Berechnung des K-S-A mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Nicht-parametrische-Tests > Alte Dialogfelder > K-S bei einer Stichprobe Wie ist das Ergebnis zu interpretieren?
  • 106. Seite 106 Fachbereich Wirtschaftswissenschaften Erstellung eines Histogramms mit NV-Kurve – Eine Prüfung auf Normalverteilung lässt sich alternativ (allerdings nur näherungsweise, da ein Interpretationsspielraum verbleibt) mit einem Histogramm mit überlagerter Normalverteilungskurve durchführen – Die Balken des Histogramms spiegeln die Breite der Wertebereiche wieder – da zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck – Dies ermöglicht den direkten visuellen Vergleich mit einer überlagerten theoretischen Idealverteilung, wie beispielsweise der Normalverteilung – Der Grad der Abweichung einer Normalverteilung lässt sich auch anhand verschiedener Maßzahlen wie Exzeß (Kurtosis) und Schiefe bestimmen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 107. Seite 107 Fachbereich Wirtschaftswissenschaften Histogramm mit Normalverteilungskurve 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Bestätigt das Histogramm das Ergebnis des K-S-A? Lässt sich die grafische Analyse manipulieren?
  • 108. Seite 108 Fachbereich Wirtschaftswissenschaften Chi²-Unabhängigkeitstest  Beim Chi²-Unabhängigkeitstest (nachfolgend Chi²-Test) werden zwei nominal skalierte Merkmale auf stochastische Unabhängigkeit geprüft  Hierzu werden die real beobachteten Häufigkeiten mit den zu erwartenden Häufigkeiten bei völliger Unabhängigkeit der beiden Merkmale verglichen  Die bei Unabhängigkeit der Merkmale zu erwartende Verteilung lässt sich berechnen, indem man die Randsummen miteinander multipliziert und durch die Anzahl der Gesamtwerte teilt  Dazu ein Beispiel. Wir befragen 100 Personen nach ihrem Schulabschluss sowie nach dem Schulabschluss ihrer Eltern um festzustellen, ob sich ein Zusammenhang finden lässt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 109. Seite 109 Fachbereich Wirtschaftswissenschaften Chi²-Unabhängigkeitstest  Zur Berechnung der zu erwartenden Wahrscheinlichkeiten werden nachfolgend zunächst die Randsummen kalkuliert  Indem man die Randsummen multipliziert und durch die Gesamtsumme dividiert, erhält man den bei Unabhängigkeit zu erwartenden Wert, d.h. 55 * 54 / 100 = 29,7 anstelle von 43 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 110. Seite 110 Fachbereich Wirtschaftswissenschaften Chi²-Unabhängigkeitstest  Es ergeben sich die folgenden zu erwartenden Häufigkeiten  So würden sich also die 100 Befragten auf die Kategorien verteilen, gäbe es überhaupt keinen Zusammenhang zwischen dem eigenen Schulabschluss und dem Schulabschluss der Eltern  Dass die tatsächlichen Werte von diesen Werten stark abweichen, ist bereits ein Indikator dafür, dass es einen Zusammenhang geben könnte – mit Hilfe des Chi²-Tests lässt sich herausfinden, ob dies tatsächlich der Fall ist 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 111. Seite 111 Fachbereich Wirtschaftswissenschaften Chi²-Unabhängigkeitstest  Dazu werden die Differenzen zwischen erwartetem und tatsächlichem Wert quadriert und durch die zu erwartenden Werte dividiert, die Summe dieser Berechnungen ergibt dann den entscheidenden Chi-Quadrat-Wert (43 – 29,7)^2 / 29,7 = 5,955 (11 – 24,3)^2 / 24,3 = 7,279 (12 – 25,3)^2 / 25,3 = 6,991 (34 – 20,7)^2 / 20,7 = 8,545 = 28,77  Es ergibt sich demnach ein Chi-Quadrat-Wert von 28,77  Dieser ist dem Vergleichswert aus der tabellierten Chi²-Verteilung gegenüberzustellen, wobei ein Fehlerniveau a von 5% (d.h. 1 – a = 0,950) bei einem Freiheitsgrad gewählt wurde (da sich unter Beibehaltung der Randsummen ein Wert frei festlegen lässt) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 112. Seite 112 Fachbereich Wirtschaftswissenschaften Chi²-Unabhängigkeitstest  In der Verteilungstabelle landet man bei dieser Vorgehensweise bei einem Vergleichswert von 3,84, der im Rahmen des Testverfahrens auch als „kritischer Wert“ bezeichnet wird  Wird dieser durch den errechneten Wert überschritten, gilt die Nullhypothese, nach der die beiden Variablen „eigener Schulabschluss“ und „Schulabschluss der Eltern“ als voneinander völlig unabhängig einzustufen sind, als abgelehnt  Da dies hier der Fall ist, lautet der Schluss, dass mit hoher Wahrscheinlichkeit ein statistisch signifikanter Zusammenhang zwischen den Variablen besteht 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 113. Seite 113 Fachbereich Wirtschaftswissenschaften Durchführung des Chi²-Unabhängigkeitstests 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistiken > Kreuztabellen
  • 114. Seite 114 Fachbereich Wirtschaftswissenschaften Durchführung des Chi²-Unabhängigkeitstests 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 115. Seite 115 Fachbereich Wirtschaftswissenschaften Durchführung des Chi²-Unabhängigkeitstests 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Nullhypothese H0: Völlige Unabhängigkeit der Variablen in der Grundgesamtheit Kann diese Nullhypothese verworfen werden?
  • 116. Seite 116 Fachbereich Wirtschaftswissenschaften Das Prinzip der Korrelationskoeffizienten – Für zwei Variablen X und Y kann dann ein Zusammenhang unterstellt werden (dieser muss aber real nicht existieren), wenn sie sich gleichmäßig verändern – Gleichsinnig = wird X größer wird Y größer; wird X kleiner wird Y kleiner – Gegensinnig = wird X größer wird Y kleiner; wird X kleiner wird Y größer – Die Berechnung von Korrelationskoeffizienten orientiert sich am Skalenniveau – Nominalskalenniveau: Chi²-Koeffizient – Ordinalskalenniveau: Spearman, Kendall – Metrisches Skalenniveau: Bravais-Pearson – Grundsätzlich immer möglich ist auch eine grafische Analyse der Daten – Diskrete Daten: Gruppierte Balkendiagramme, Bedingte Balkendiagramme – Stetige Daten: Zwei- und dreidimensionale Streudiagramme, Scatterplot-Matrix 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 117. Seite 117 Fachbereich Wirtschaftswissenschaften Der Bravais-Pearson-Korrelationskoeffizient – Für metrisch skalierte Merkmale wird in den meisten Fällen der Bravais-Pearson- Korrelationskoeffizient berechnet (obwohl auch andere Koeffizienten möglich sind) – Bei der Interpretation zu beachten: Der Bravais-Pearson-Korrelationskoeffizient misst ausschließlich den linearen Zusammenhang zwischen zwei Variablen – Nicht-lineare (z.B. quadratische oder logarithmische) Zusammenhänge werden somit nicht aufgedeckt, auch wenn sie stark oder sogar vollkommen sein sollten 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑟 = [ 𝑖=1 𝑛 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥 𝑦] [ 𝑖=1 𝑛 𝑥2 𝑖 − 𝑛 𝑥2 𝑖=1 𝑛 (𝑥2 𝑖 − 𝑛 𝑥2)]
  • 118. Seite 118 Fachbereich Wirtschaftswissenschaften Der Bravais-Pearson-Korrelationskoeffizient – Der Koeffizient r kann Werte zwischen -1 und +1 annehmen – Bei positiven Werten liegt ein positiver Zusammenhang vor, d.h. die Wertepaare liegen auf einer steigenden Gerade – Bei negativen Werten liegt ein negativer Zusammenhang vor, d.h. die Wertepaare liegen auf einer fallenden Gerade – Werte nahe Null deuten darauf hin, dass keinerlei lineare Korrelation zwischen den beiden Variablen vorliegt – Interpretation des Betrags (!) von r – r = 0 = keine Korrelation – 0 < r < 0,5 = schwache Korrelation – 0,5 <= r < 0,8 = mittlere Korrelation – 0,8 <= r < 1 = starke Korrelation – r = 1 = perfekte Korrelation 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 119. Seite 119 Fachbereich Wirtschaftswissenschaften Bravais-Pearson-Korrelationskoeffizient 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Quelle: WikiBooks / User: Philipendula / Lizenz: GNU-Lizenz für freie Dokumentationen
  • 120. Seite 120 Fachbereich Wirtschaftswissenschaften Berechnung des B-P-K mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Korrelation > Bivariat
  • 121. Seite 121 Fachbereich Wirtschaftswissenschaften Berechnung des B-P-K mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren? Welches Ergebnis lässt das Streudiagramm erwarten?
  • 122. Seite 122 Fachbereich Wirtschaftswissenschaften Spearman-Rangkorrelationskoeffizient – Für ordinalskalierte Merkmale bieten sich zwei Zusammenhangsmaße an: – Der Rangkorrelationskoeffizient nach Spearman – Der Konkordanzkoeffizient nach Kendall – Der Rangkorrelationskoeffizient nach Spearman misst den monotonen Zusammenhang zweier Variablen – Für die n Datenpaare werden dabei innerhalb jeder Variablen zunächst Ränge gebildet – Die kleinste Ausprägung von X erhält den Wert 1, die zweitkleinste den Wert 2 etc. pp. – Für Y wird identisch vorgegangen, auch hier erhält die kleinste Ausprägung die 1 etc. – Anschließend werden die Rangdifferenzen d der jeweiligen Datenpaare gebildet – Auf Basis dieser Differenzwerte lässt sich dann der Rangkorrelationskoeffizient (nach obenstehender Formel) berechnen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑝 = 1 − 6 𝑖=1 𝑛 𝑑𝑖 𝑛2 − 1 𝑛
  • 123. Seite 123 Fachbereich Wirtschaftswissenschaften Spearman-Rangkorrelationskoeffizient – Die Ergebnisse liegen stets zwischen -1 und +1 – p > 0 = gleichsinniger monotoner Zusammenhang (große X-Werte gehen mit großen Y-Werten einher und umgekehrt) – p ~ 0 = es besteht kein monotoner Zusammenhang (damit kann auch kein linearer bestehen!) – p < 0 = gegenseitiger monotoner Zusammenhang (große X-Werte gehen mit kleinen Y-Werten einher und umgekehrt) – Wichtig: Das Verfahren liefert nur dann genaue Resultate, wenn keine Rangplatzbindungen (die sogenannten ties) auftreten – Haben Beobachtungen identische Werte, ordnet man allen identischen Daten einen Durchschnittsrang zu 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 124. Seite 124 Fachbereich Wirtschaftswissenschaften Konkordanzkoeffizient nach Kendall – Alternativ zu Spearman kann für Ordinaldaten auch Kendalls Tau berechnet werden – Die Berechnung benötigt die Anzahl konkordanter (K) und diskordanter (D) Paare – Zur Bestimmung der Paare wird eine der Datenreihen nach der Größe geordnet – Anschließend wird untersucht, inwieweit sich die zweite Datenreihe „mitsortiert“ hat – Für jedes Datenpaar aus den beiden Datenreihen (yi, yj) mit i < j gilt: – ist yi < yj, so ist das Paar konkordant (K) – ist yi > yj, so ist das Paar diskordant (D) – ist yi = yj, so liegt eine Bindung vor (wird nicht mitgezählt) – Sind alle Paare entsprechend untersucht worden, wird tau (Formel) berechnet – Auch hier gilt, dass das Ergebnis nur Bestand hat, wenn keine Bindungen auftreten – Einige wenige Bindungen können ignoriert werden, da sie das Ergebnis kaum verzerren 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑡𝑎𝑢 = 1 − 2 (𝐾 − 𝐷) 𝑛 (𝑛 − 1)
  • 125. Seite 125 Fachbereich Wirtschaftswissenschaften Einige Konfidenzintervalle – Ein Konfidenzintervall (auch Vertrauensintervall, Erwartungsbereich) gestattet die Lageeinschätzung eines Parameters bei einer festlegbaren Sicherheit – Erwartungswert eines normalverteilten Merkmals bei bekannter Varianz – Erwartungswert eines normalverteilten Merkmals bei unbekannter Varianz – Erwartungswert eines unbekannt verteilten Merkmals bei unbekannter Varianz – Varianz eines normalverteilten Merkmals 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 126. Seite 126 Fachbereich Wirtschaftswissenschaften 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Quelle: WikiWand / User: Philipendula / Lizenz: Creative Commons Share Alike 3.0
  • 127. Seite 127 Fachbereich Wirtschaftswissenschaften Berechnung des Mittelwertintervalls mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Deskriptive Statistik > Explorative Datenanalyse
  • 128. Seite 128 Fachbereich Wirtschaftswissenschaften Berechnung des Mittelwertintervalls mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 129. Seite 129 Fachbereich Wirtschaftswissenschaften Lineare Regression 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 130. Seite 130 Fachbereich Wirtschaftswissenschaften Lineare Regression – Die Regressionsanalyse ist das meistverwendete multivariate Analyseverfahren – Im Rahmen einer (einfachen) linearen Regressionsanalyse wird die Beziehung zwischen einer abhängigen und einer unabhängigen Variablen untersucht, um – Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse) – Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose) – Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)? – Ergebnis des Verfahrens ist die lineare Regressionsfunktion Y = f(X) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 131. Seite 131 Fachbereich Wirtschaftswissenschaften Lineare Regression – Ein besonders Problem stellen interdependente Beziehungen dar – Beeinflusst der Bekanntheitsgrad eines Produkts die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad eines Produkts? – Beeinflusst die Qualität einer Vorlesung die Motivation der Studierenden oder beeinflusst die Motivation der Studierenden die Qualität der Vorlesung? – Ein solches interdependentes Beziehungssystem ist nicht in einer einzelnen Regressionsgleichung erfassbar, sondern nur in einem Mehrgleichungsmodell 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 132. Seite 132 Fachbereich Wirtschaftswissenschaften Schätzung der Regressionsfunktion – Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist selten perfekt – Beide Variablen bewegen sich hier im Beispiel jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist klar erkennbar – Es kommen nun theoretisch zahlreiche Geraden in Frage, um den Verlauf der Punkte nachzuzeichnen Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 133. Seite 133 Fachbereich Wirtschaftswissenschaften Schätzung der Regressionsfunktion 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?
  • 134. Seite 134 Fachbereich Wirtschaftswissenschaften Methode der kleinsten Quadrate – Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate – Die Methode der kleinsten Quadrate zielt – wie auch die intuitive Methode der simplen Abstandsminimierung – auf die Minimierung der senkrechten Abstände der realen Werte von der Gerade ab – Die Abstände werden jedoch quadriert, so dass negative Vorzeichen wegfallen, wodurch die Kompensation negativer und positiver Abstände vermieden wird – Schlussendlich wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal wird -> sie ist die an die realen Werte bestangepasste Gerade 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 135. Seite 135 Fachbereich Wirtschaftswissenschaften Methode der kleinsten Quadrate – Durch Umformung der Zielfunktion erhält man die Parameter der Regressionsfunktion – Regressionskoeffizient: – Konstantes Glied/Konstante: – Die Gleichung der Regressionsgeraden lautet dann: 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑘=1 𝐾 𝑒² 𝑘 = 𝑘=1 𝐾 [𝑦 𝑘 − 𝑎 + 𝑏 𝑥 𝑘]² 𝑏 = (𝐼( 𝑥𝐼 𝑦 𝑘) − 𝑥𝐼 𝑦𝐼) (𝐼( 𝑥² 𝑘) − 𝑥 𝑘)² 𝑎 = 𝑦 − 𝑏 𝑥 Y = a * b + X
  • 136. Seite 136 Fachbereich Wirtschaftswissenschaften Das Bestimmtheitsmaß R² 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 137. Seite 137 Fachbereich Wirtschaftswissenschaften Das Bestimmtheitsmaß R² – Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind (nicht alle Punkte liegen unmittelbar auf der Geraden), natürlich nur imperfekt wieder – Es ist daher mit der Regressionsfunktion nur selten möglich, sämtliche Veränderungen in Y ausschließlich durch die Koeffizienten zu erklären – In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird dagegen unaufgeklärt bleiben – Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des linearen Regressionsmodells – Die Residuen werden bei der Berechnung dieser Maßzahl quadriert, damit sich positive und negative Abweichungen nicht neutralisieren 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 138. Seite 138 Fachbereich Wirtschaftswissenschaften Das Bestimmtheitsmaß R² – Die Berechnung des Güßtemaßes R² erfolgt mit: – TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen – ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen – RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen – Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet – R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung und damit Güte des Regressionsmodells – R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1 – R² = 1 -> Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang – Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab – Beachte: R² ist ein Maß für den linearen – und nur für diesen – Zusammenhang 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) 𝑅² = 𝐸𝑆𝑆 𝑇𝑆𝑆
  • 139. Seite 139 Fachbereich Wirtschaftswissenschaften Berechnung einer lin. Regression mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Analysieren > Regression > Linear
  • 140. Seite 140 Fachbereich Wirtschaftswissenschaften Berechnung einer lin. Regression mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie ist das Ergebnis zu interpretieren?
  • 141. Seite 141 Fachbereich Wirtschaftswissenschaften Berechnung einer lin. Regression mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Regressionsfunktion: y = 19,576 + 0,918 x
  • 142. Seite 142 Fachbereich Wirtschaftswissenschaften Was sonst noch wichtig ist… – Bearbeitung von Daten – Fälle sortieren – Fälle gewichten – Fälle auswählen – Daten klassieren – Was man wissen sollte… – Was sind Dummy-Variablen? – Wie geht man mit fehlenden Werten und Ausreißern um? 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 143. Seite 143 Fachbereich Wirtschaftswissenschaften Sortieren von Fällen – Die Fälle in einer Datendatei lassen sich zur besseren Übersichtlichkeit sortieren – Möglich ist auf- oder absteigendes Sortieren anhand einer oder mehrerer Variablen – Werden mehrere Variablen ausgewählt, wird nach der zuoberst stehenden Variablen sortiert – Fälle mit identischen Wertenwerden anhand der nächstfolgenden Variablen sortiert usw. usf. 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Daten > Fälle sortieren
  • 144. Seite 144 Fachbereich Wirtschaftswissenschaften Auswahl von Fällen – Bisweilen ist es sinnvoll, nur manche Fälle in die Auswertung einfließen zu lassen – Hierzu lassen sich einzelne Fälle anhand von logischen Statements auswählen – Beispiel: Auswahl aller Befragten mit einem Einkommen von weniger als 2000 € – SPSS generiert hier eine neue Filtervariable (filter_$) am Ende des Variablenfeldes 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Daten > Fälle auswählen
  • 145. Seite 145 Fachbereich Wirtschaftswissenschaften Exkurs: Logische Operatoren – Statements mit einem logischen UND sind WAHR, wenn alle im Statement enthaltenen Bedingungen WAHR werden – In der in SPSS verwendeten Statement-Syntax wird das logische UND durch das Symbol „&“ ausgedrückt – Statements mit einem logischen ODER sind WAHR, wenn mindestens eines der beiden im Statement enthaltenen Bedingungen WAHR wird – Die schließt den Fall mit ein, dass beide Bedingungen WAHR werden – In der in SPSS verwendeten Statement-Syntax wird das logische ODER durch das Symbol „|“ ausgedrückt – Durch das logische NICHT verkehrt sich die Bedeutung jedes Statements in das jeweilige Gegenteil – In der in SPSS verwendeten Statement-Syntax wird das logische NICHT durch das Symbol „~“ ausgedrückt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) & | ~
  • 146. Seite 146 Fachbereich Wirtschaftswissenschaften Exkurs: Logische Operatoren 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Statement A Statement B UND WAHR WAHR WAHR WAHR FALSCH FALSCH FALSCH WAHR FALSCH FALSCH FALSCH FALSCH Statement A Statement B ODER WAHR WAHR WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR FALSCH FALSCH FALSCH Statement A NICHT WAHR FALSCH FALSCH WAHR
  • 147. Seite 147 Fachbereich Wirtschaftswissenschaften Exkurs: Logische Operatoren – Beispiel: Auswahl aller weiblichen Befragten Statement: Geschlecht = „weiblich“ SPSS-Syntax: geschl = 2 – Beispiel: Auswahl aller Befragten mit einem Einkommen von unter 3000 € Statement: Einkommen < 3000 € SPSS-Syntax: einkom < 3000 – Beispiel: Auswahl aller weiblichen Befragten mit einem Einkommen von mehr als 2000 € Statement: Geschlecht = „weiblich“ UND Einkommen > 2000 € SPSS-Syntax: geschl = 2 & einkom > 2000 – Beispiel: Auswahl aller Befragten, die männlich sind oder ein Einkommen über 1500 € haben Statement: Geschlecht = „männlich“ ODER Einkommen > 1500 € SPSS-Syntax: geschl = 1 | einkom > 1500 (Männliche Befragte mit einem Einkommen über 1500 € werden nicht doppelt selektiert) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 148. Seite 148 Fachbereich Wirtschaftswissenschaften Auswahl von Fällen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 149. Seite 149 Fachbereich Wirtschaftswissenschaften Auswahl von Fällen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Wie lassen sich alle weiblichen Befragten auswählen? Wie lassen sich alle weiblichen Befragten mit einem Einkommen von mehr als 2.000 € auswählen?
  • 150. Seite 150 Fachbereich Wirtschaftswissenschaften Auswahl von Fällen – Neben der Auswahl mittels logischer Statements gibt es noch weitere Auswahlverfahren, die nachfolgend jedoch nicht weiter benötigt werden – Auswahl nach Zeitintervall – Sind die Fälle z.B. mit einem Datumsstempel versehen, kann ein Zeitintervall selektiert werden – Ziehung einer Zufallsstichprobe – Aus der Grundgesamtheit aller erfassten Fälle lässt sich auch eine Zufallsstichprobe ziehen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 151. Seite 151 Fachbereich Wirtschaftswissenschaften Gewichtung von Fällen – Unter bestimmten Umständen ist eine Gewichtung von Fällen sinnvoll – Beispiel: Online-Befragung zum Thema Internetsucht (Hahn & Jerusalem) – Erkenntnis der Untersuchung: Es besteht ein starker Zusammenhang zwischen der Suchtgefahr und dem Lebensalter sowie dem Geschlecht – Besonders internetsuchtgefährdet sind demnach junge Männer unter 20 Jahren – Befinden sich zu viele junge Männer in der Stichprobe, wird das Problem überschätzt – Beispiel-Annahme: Junge Männer kommen in einer Stichprobe zum Thema doppelt so häufig vor wie in der Grundgesamtheit – Ältere Frauen sind in der Stichprobe dagegen unterrepräsentiert – Den sich aus dieser Unter- bzw. Überrepräsentation ergebenden Verzerrungen, kann durch eine Gewichtung begegnet werden 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 152. Seite 152 Fachbereich Wirtschaftswissenschaften Gewichtung von Fällen – So könnten junge Männer etwa mit dem Faktor 0,5 abgewichtet, ältere Frauen dagegen mit dem Faktor 2 aufgewichtet werden – Die geschätzte Zahl der Internetsüchtigen unter allen Nutzern reduziert sich durch diese Umgewichtung der Fälle deutlich – Vorsicht: Es besteht die Gefahr, bereits in den Daten existierende systematische Verzerrungen durch die Gewichtung zu verstärken – Beispiel: Über 70-jährige sind bei Online-Befragungen ebenfalls sehr selten vertreten – Inwiefern ist es vertretbar, die wenigen (seltsamen) Probanden stark überzugewichten? – Vorgehensweise: Es wird eine neue Variable erstellt, die für jeden männlichen Befragten den Wert 0,5 und für jeden weiblichen Befragten den Wert 2 annimmt – Die hierfür benötigte Funktion „umkodieren“ kann auch für andere Zwecke eingesetzt werden, so etwa für die bereits bekannte Datenklassierung 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 153. Seite 153 Fachbereich Wirtschaftswissenschaften Durchführung einer Gewichtung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Transformieren > Umkodieren in andere Variablen
  • 154. Seite 154 Fachbereich Wirtschaftswissenschaften Durchführung einer Gewichtung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 155. Seite 155 Fachbereich Wirtschaftswissenschaften Durchführung einer Gewichtung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) Daten > Fälle gewichten Wie wirkt sich diese Gewichtung auf die absoluten Zahlen im Balkendiagramm aus?
  • 156. Seite 156 Fachbereich Wirtschaftswissenschaften Durchführung einer Gewichtung mit SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH) ungewichtete Daten
  • 157. Seite 157 Fachbereich Wirtschaftswissenschaften Arbeit mit Dummy-Variablen – Für viele Analyseverfahren wird ein metrisches Skalenniveau vorausgesetzt – Sollen nominalskalierte Daten trotz ihres zu niedrigen Skalenniveaus in ein solches Verfahren einfließen, müssen Dummy-Variablen gebildet werden – Dummy-Variablen sind binäre Variablen, die nur die Werte 0 und 1 annehmen – Jede dichotome Variable lässt sich in eine solche Dummy-Variable transformieren: 0 = Ausprägung liegt nicht vor 1 = Ausprägung liegt vor – Beispiel: Untersuchung der Einflüsse von Verpackungseigenschaften auf das Kaufverhalten: Die Dummy-Variable q1 ist für rote Verpackungen 1 und für nicht-rote Verpackungen 0. Analog lässt sich auch eine Dummy-Variable q2 für Gelb und q3 für Grün definieren. Existieren aber nur diese drei Verpackungsfarben, kann auf q3 verzichtet werden, da gilt: Wenn q1 = 0 und q2 = 0 ist q3 = 1. Drei Farben lassen sich daher über nur zwei Dummy-Variablen darstellen. – Regel: Eine Variable mit n Ausprägungen lässt sich in n-1 Dummy-Variablen abbilden 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 158. Seite 158 Fachbereich Wirtschaftswissenschaften Das Problem der fehlenden Daten – Unter fehlenden Daten sind einzelne fehlende Werte zu verstehen – Typische fehlende Werte bei Personenbefragungen: – Angaben zum Einkommen – Angaben zum eigenen Körper – Angaben zum Sexualverhalten – Fehlende Werte sind dann ein Problem, wenn ein Zusammenhang zwischen der Wahrscheinlichkeit des Fehlens und einem anderen Sachverhalt zu vermuten ist, die Verteilung der fehlenden Werte also keine zufällige ist – Beispiel: Kommt es bei der Frage nach dem Einkommen tendenziell eher zu Auskunftsverweigerungen bei Personen mit niedrigem Einkommen, so wird dies das erhobene Durchschnittseinkommen nach oben verzerren 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 159. Seite 159 Fachbereich Wirtschaftswissenschaften Das Problem der fehlenden Daten – Bei der Untersuchung fehlender Daten ist daher vor allem zu klären: – Fehlen so viele Werte, dass eine sinnvolle Auswertung des Datensatzes unmöglich ist? – Sind die fehlenden Werte zufällig gestreut oder lässt sich ein Muster identifizieren? – Generell bieten sich drei Möglichkeiten des Umgangs mit fehlenden Daten an: – Einzelne Fälle oder einzelne Variablen werden von der weiteren Auswertung ausgeschlossen – Es werden ausschließlich die vollständigen Fälle zur weiteren Auswertung zugelassen – Die fehlenden Werte werden induktiv oder statistisch ersetzt – Die richtige Entscheidung hängt von den Ursachen für das Fehlen der Werte ab 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 160. Seite 160 Fachbereich Wirtschaftswissenschaften Ursachen für fehlende Daten – Das Fehlen von Daten kann auf vier Ursachen zurückgeführt werden: – Dateneingabefehler (z.B. Buchstaben in einem Zahlenfeld) – Codierungs- und Übertragungsfehler während der Eingabe oder der Speicherung von Daten – Ungenaue Datenfelder bei der Erhebung (z.B. „Studienrichtung“ bei einer Befragung von Nicht-Akademikern) – Aktionen des Befragten wie etwa das Vergessen von Angaben, widersinnige Angaben (höchster Schulabschluss ist die Mittlere Reife, trotzdem wurde eine Abiturnote eingetragen), Nichtauskunftsfähigkeit oder bewusste Entscheidung, eine Frage nicht zu beantworten (Einkommen, Körper, Sexualverhalten...) 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 161. Seite 161 Fachbereich Wirtschaftswissenschaften Ursachen für fehlende Daten – Das Auftreten von fehlenden Werten ist bei der Arbeit mit realen Daten keinesfalls die Ausnahme, sondern vielmehr die Regel – Die Wahrscheinlichkeit für das Auftreten fehlender Werte steigt erfahrungsgemäß mit der Größe des Datensatzes – Bei der Analyse langer Zeitreihen, z.B. der Auswertung der Niederschlagsmengen der letzten 200 Jahre, werden aufgrund von Katastrophen, Krieg oder anderen Gründen immer wieder einzelne Werte nicht erfasst worden sein – Gerade in der sozialwissenschaftlichen Forschung und bei der Marktforschung im Zuge der Befragung von hunderten oder tausenden Personen, kommt es aufgrund verschiedenster Ursachen häufig zu Einzelausfällen – Mit fehlenden Daten ist bei jeder marktforscherischen Untersuchung zu rechnen – ihr Auftreten sollte demzufolge keinesfalls ignoriert werden! 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 162. Seite 162 Fachbereich Wirtschaftswissenschaften Zufälligkeitsgrade – Man unterscheidet in drei Zufälligkeitsgrade bezüglich des Auftretens fehlender Daten MCAR, MAR und NRM – Der Zufälligkeitsgrad entscheidet, wie mit fehlenden Werten umzugehen ist – MCAR = missing completely at random – Fehlende Werte treten vollkommen zufällig auf – Die Wahrscheinlichkeit des Fehlens steht nicht in Zusammenhang mit anderen Größen – Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y und der Variable Y selbst (niedrige Einkommen werden tendenziell nicht angegeben) oder eine Korrelation mit einer anderen Variable X (Frauen sind tendenziell weniger bereit, Auskünfte über ihr Körpergewicht zu machen) feststellbar 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 163. Seite 163 Fachbereich Wirtschaftswissenschaften Zufälligkeitsgrade – MAR = missing at random – Das Auftreten von fehlenden Werten steht (teilweise) in Zusammenhang mit einer anderen erhobenen Variablen – Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y und der Variable Y selbst feststellbar, wohl aber eine (schwache) Korrelation des Auftretens von fehlenden Y-Werten mit einer anderen Variable X – NRM = nonrandom missing – Das Auftreten von fehlenden Werten folgt klar erkennbaren Gesetzmäßigkeiten, eine Zufälligkeit ist sicher auszuschließen – Es kann entweder ein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y und der Variable Y selbst oder mit einer anderen Variable X oder auch beides vorliegen, d.h. das Auftreten eines fehlenden Wertes kann vollständig durch eine andere Variable oder durch die Variable selbst erklärt werden 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 164. Seite 164 Fachbereich Wirtschaftswissenschaften Umgang mit fehlenden Daten – Der Umgang mit fehlenden Daten hängt wesentlich von deren Zufälligkeitsgrad ab – CCA = complete case approach – Es werden ausschließlich vollständige Fälle für die weitere Analyse verwendet – Alle Fälle mit auch nur einem fehlenden Wert werden aus dem Datensatz entfernt – Die Methode kann nur bei zufällig fehlenden Daten (MCAR) angewendet werden – Günstig ist sie bei einer großen Stichprobe, in der Löschungen unkritisch sind – Ausschluss von Fällen oder Variablen – Ziel des selektiven Ausschlusses ist die Verringerung des Gesamtanteils fehlender Werte – Abwägung zwischen Datenverlust und Reduktion der Probleme durch fehlende Werte – Günstigste Methode für nicht zufällig auftretende fehlende Werte (MAR, NRM) – Der Ausschluss von Fällen kann fallweise oder paarweise erfolgen 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 165. Seite 165 Fachbereich Wirtschaftswissenschaften Umgang mit fehlenden Daten – Ersetzen fehlender Werte – Grundidee: metrische Daten (und zwar ausschließlich diese) lassen sich ersetzen, wenn Regelmäßigkeiten erkennbar sind – Möglich ist der Ersatz von Werten über verschiedene induktive (nichtmathematische) und statistische (mathematische) Verfahren – Die wesentlichen Gefahren bei dieser Vorgehensweise bestehen darin, dass man den Datensatz für vollständig hält bzw. durch Ersetzungen verzerrt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 166. Seite 166 Fachbereich Wirtschaftswissenschaften Ausschlussverfahren – Fallweiser Ausschluss – Fehlt ein einzelner Wert, wird der komplette Fall von der weiteren Analyse ausgeschlossen – Vorteil: Asymmetrien werden vermieden, da keine Teilfälle in die Analyse eingehen – Nachteil: Relevantes Datenmaterial geht verloren, der Stichprobenumfang sinkt – Paarweiser Ausschluss – Fehlen einzelne Werte, wird mit den restlichen Werten des Falles weitergearbeitet – Vorteil: Alle Fälle bleiben erhalten, der Stichprobenumfang verändert sich nicht – Nachteil: Bei multivariaten Analysen u.U. unterschiedlich große Datensätze – Um Fälle zu vermeiden, bei denen auf unterschiedlich große Datensätze zurückgegriffen und dabei verglichen wird, ist der fallweise Ausschluss das weitaus häufiger verwendete Ausschlussverfahren 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 167. Seite 167 Fachbereich Wirtschaftswissenschaften Ersatzwertverfahren – Induktive Verfahren – Die fehlenden Werte werden auf der Basis von Informationen ersetzt, die über die Stichprobe vorliegen – Nachbeobachtungen: Zusätzliche Beobachtungen oder Befragungen werden angestellt (Wie wirkt sich das auf die Repräsentativität aus?) – Externe Konstanten: Ein konstanter Wert aus einer externen Quelle oder aus einer früheren Studie wird ersatzweise verwendet – Statistische Verfahren – Mittelwertersatz: Der fehlende Wert einer Variable wird durch das Mittel der Variablen ersetzt – Es existieren verschiedene Formen des Mittelwertersatzes: Ersatz durch das Mittel oder den Median der Nachbarpunkte, Ersatz durch einen Zeitreihen-Mittelwert und lineare Interpolation – Vorteil: Die Verfahren sind leicht anwendbar, benötigt werden nur die jeweiligen Mittelwerte – Nachteil: Die Varianz, die Verteilung der Daten und eventuelle Korrelationen werden verzerrt 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 168. Seite 168 Fachbereich Wirtschaftswissenschaften Ersatzwertverfahren – Linearer Trend: Ein fehlender Variablenwert wird durch einen linearen Trendwert ersetzt – Voraussetzung: Für die gültigen Werte lässt sich ein aussagekräftiger linearer Trend identifizieren – In diesem Fall können fehlende Werte durch die entsprechenden Werte der Trendgraden an der betreffenden Stelle ersetzt werden – Nachteil: Der (durch zufällige Artefakte möglicherweise überschätzte) lineare Trend in den Variablen wird unbotmäßig verstärkt, die Varianz der Verteilung verringert sich – Grundsätzlich ist bei allen Ersatzwertverfahren zu beachten, dass die Einbringung von Schätz- und Ersatzwerten in den Datensatz dokumentiert und im Datensatz so gut wie möglich kenntlich gemacht werden muss, damit im Rahmen einer sekundärstatistischen Analyse nicht von realen Werten ausgegangen wird 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 169. Seite 169 Fachbereich Wirtschaftswissenschaften Vielen Dank für die Aufmerksamkeit! Einführung in SPSS 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)
  • 170. Seite 170 Fachbereich Wirtschaftswissenschaften Christian Reinboth Telefon +49 3943 – 896 Telefax +49 3943 – 5896 E-Mail creinboth@hs-harz.de Friedrichstraße 57 –  59 38855 Wernigerode 18.09.2015 - 20.09.2015 Christian Reinboth, Dipl.-Wi.Inf.(FH)