Regressionsanalyse - Basic Econometrics (Folien).
Der Kurs vermittelt Verständnis, Wissen und Fähigkeiten im Umgang mit Regressionanalyse - der wohl am meisten eingesetzten und deshalb wichtigsten Technik der Datenanalyse.
Der Kurs eignet sich sehr gut sowohl für Masterstudierenden wirtschaftswissenschaftlicher Fächer, als auch für Doktoranden.
2. Grundlegende Literatur zur Veranstaltung
Backhaus, Klaus, Bernd Erichson, Wulff Plinke und Rolf Weiber: Multivariate
Analysemethoden: Eine anwendungsorientierte Einführung, ab 9. Auflage
Berlin: Springer
Gujarati, Damodar N. (2003): Basic Econometrics, International Edition, 4.
Auflage, New-York: McGraw-Hill Education
Auer, Ludwig (2007): Oekonometrie, 4. Aufl., Springer
www.wikipedia.de, en.wikipedia.org, www.google.de
Dr. Paul Marx
Folie 2
3. Inhalte der Veranstaltung
1.
Einführung in das Fach Ökonometrie
2.
Einfache Regressionsanalyse
3.
Multiple Regressionsanalyse
4.
Regression durch den Ursprung
5.
Annahmen des Linearen Regressionsmodells
6.
Relaxation von Annahmen des klassischen Regressionsmodells
7.
…
Dr. Paul Marx
Folie 3
5. Begriff der Ökonometrie
Ökonometrie
= oikonomia (gr. Wirtschaft) + metron (gr. Messung)
= Messen wirtschaftlicher Phänomene
Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, welches die
ökonomische Theorie sowie mathematische Methoden und statistische Daten
zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und
ökonomische Phänomene quantitativ zu analysieren.
(bzw. ökonomische Zusammenhänge zu quantifizieren)
Dr. Paul Marx
Folie 5
6. Entstehen der Ökonometrie
XVII Jh: Erste Versuche der quantitativen Forschung in der ökonomischen
Theorie (politische Arithmetik). Nutzung von ökonomischen Daten zur
Berechnung vom „Nationalen Einkommen“ und Suche nach ökonomischen
Gesetzmäßigkeiten (analog zu physischen, astronomischen und anderen
naturwissenschaftlichen Gesetzten
William Petty, Charles d’Avenant, Henry King
W. Petty (1623-1687)
Erfindung der Korrelation: Untersuchung der Beziehungen zwischen der
Heiratsrate und dem Wohlstand (unter Verwendung mehrerer
Wohlstandsindikatoren); Entwicklung verschiedener Hilfsmaßnahmen für
unterschiedliche Armutsniveaus; Erforschung von Zeitreihen für
ökonomische Variablen
Francis Galton, Karl Pearson, Francis Ysidro Edgeworth, H. Hooker
K. Pearson (1857-1936)
1830er: Insuffizienz der neoklassischen Theorie für die Lösung von
Problemen der sinkenden Geschäftsaktivitäten und Massenarbeitslosigkeit. Eine ök. Theorie kann nur dann überzeugend sein, wenn
sie die ök. Phänomene erklärt. Praktische Anwendung solcher Theorien
erfordert Quantifizierung von grundlegenden ökonomischen Größen.
F. Edgeworth (1845-1926)
Dr. Paul Marx
Folie 7
7. Entstehen der Ökonometrie
H.L. Moore (1869-1958)
N. D. Kondratiev (1892-1938)
1911: Erste ökonometrische Arbeit. H. Moore „Laws of Wages: An essay
in statistical economics“ mit der Analyse vom Arbeitsmarkt, statistischer
Überprüfung von Clark‘s Produktivitätstheorie und Entwicklung der
Grundlagen für die Strategien zur Vereinigung vom Proletariat. Er zeigt
Möglichkeiten zur Ausarbeitung der sozialen Politik mit Hilfe
mathematischer Berechnungen Grundlagen basierend auf faktischen
Daten. R. Benini wendet zum ersten Mal die multiple Regressionsanalyse
an für Schätzung der Nachfragefunktion.
Erforschung von ökonomischen Zyklen: 7-11 jährige Investitionszyklen, 35 j. Liquiditätszyklen, 15-20 j. Zyklen in der Bauwirtschaft, 45-60 j.
Konjunkturzyklen („Kondratiev waves“)
Theorie der ökonomischen Barometer insb. auf dem Fonds- und
Geldmärkten. Analyse von Trends, Saisonalität, Kursschwankungen usw.
Anwendung der Astronomischen, Meteorologischen und Physischen
Methoden (z.B. Harmonische Analyse) bei ökonomischer Modellierung.
W. C. Mitchell (1874-1948)
Dr. Paul Marx
Folie 8
8. Historische Entwicklung der Ökonometrie
I. Fischer (1867-1947)
R. A. K. Frisch (1895-1973)
Jan Tinbergen (1903 - 1994)
1930: Gründung von „The Econometric Society, an International Society
for the Advancement of Economic Theory in its Relation with Statistics
and Mathematics“unter Vorsitz von I. Fischer.
1933: Gründung von „Journal of Econometrics“ durch R. Frisch.
1941: Erstes Lehrbuch in Ökonometrie von Jan Tinbergen (später
Nobelpreisträger für Entwicklung und Anwendung von dynamischen
Modellen zur Analyse von ökonomischen Prozessen, zusammen mit
Frisch)
1970er: Ökonometrie = empirische Beurteilung und Unterstützung von
Modellen der ökonomischen Theorie. „Statistische Daten beschützen die
Theorie vom Dogmatismus“.
- ARIMA-Modell von Box-Jenkins (Zeitreihenanalyse)
- Nobelpreis für Klein‘s Schwankungsmodelle der Ökonomie und
ökonomischer Politik
1980: Gründung des Projekts „LINK“ mit dem Ziel, statistische Modelle
aller Länder zu einem System zusammenzuführen, um internationale
ökonomische Zusammenhänge und Welthandel besser verstehen und
prognostizieren zu können.
Dr. Paul Marx
Folie 9
9. Ökonometrie heute
Verständnis, dass ohne ökonometrische
Methoden keine moderne Makro- und
Mikroökonomische Analyse möglich ist.
Ökonometrie wird als eigenständige Disziplin
in führenden Universitäten der Welt
unterrichtet.
Ökonometrische Zeitschriften
Journal of Econometrics (Schweiz)
Econometric Reviews (USA)
Econometrica (USA)
Sankhya. Indian Journal of Statistics
Ser.D. Quantitative Economics (Indien)
Publications Econometriques (Frankreich)
Quantile (Russland)
Applied Econometrics (Russland)
Dr. Paul Marx
Nobelpreise für Entwicklungen im
Fach Ökonometrische
1980 Lawrence Klein Entwicklung
ökonometrischer Modelle und deren
Anwendung zur Analyse von
Wirtschaftsentwicklungen und von
wirtschaftspolitischen Maßnahmen
1989 Trygve Haavelmo:
wahrscheinlichkeitstheoretische Fundierung der
Ökonometrie und die Analyse simultaner
ökonomischer Strukturen
2000 James Heckman und Daniel
McFadden: mikroökonometrische Forschungen
im Bereich der Selektion und der Analyse
diskreter Entscheidungen.
2003 Robert Engle und Clive
Granger: Ergebnisse im Bereich
der Zeitreihenanalyse.
Folie 10
10. Ökonometrie als eine eigenständige Disziplin
Ökonomische Theorie:
–
–
hauptsächlich Postulate und Hypothesen qualitativer Natur
ÖM liefert empirischen Inhalt für Theorien
Mathematische Ökonomie:
–
–
Ausdrück ökonomischer Theorie in mathematischer Form, ohne Bezug auf Messbarkeit oder
Überprüfung der Theorie.
ÖM überprüft die Formeln
Ökonomische Statistik:
–
–
Akkumuliert, analysiert und präsentiert die Daten aus der Wirtschaft (z.B. BIP, ALO, usw.)
ÖM überprüft mit Hilfe dieser Daten ökonomische Theorien
Mathematische Statistik:
–
–
Arbeitet Instrumente und Methoden z.B. für den Vertrieb aus. Die Daten werden den Resultaten
von kontrollierten Experimenten entnommen
ÖM wendet diese Methoden auf nicht kontrollierte – also reale – Daten an.
Dr. Paul Marx
Folie 11
11. Methoden der Ökonometrie
Regressionsanalyse
– Feststellung von kausalen Zusammenhängen und Analyse von Beziehungen zwischen
einer abhängigen und einer oder mehreren unabhängigen Variablen (Spezialfall eines
Strukturgleichungsmodells)
Zeitreihenanalyse
– Mathematisch-statistische Analyse von Zeitreihen und Vorhersage (Trends) ihrer
zukünftigen Entwicklung, Erkennung von Veränderungen in Zeitreihen (serielle bzw.
saisonale Komponenten)
Paneldatenanalyse
– Wie entwickeln sich die Merkmale im Zeitablauf unter Berücksichtigung von
Unterschiedlichkeiten der Individuen?
– Kohorten-, Perioden- , und Alterseffekte
Dr. Paul Marx
Folie 12
12. Einige Beispiele aus der Wirtschaft und wissenschaftlicher Praxis
PRAKTISCHE RELEVANZ DER
REGRESSIONSANALYSE
Dr. Paul Marx
Folie 14
13. Relevanz der Regressionsanalyse für die Praxis
Ursachenanalyse
–
–
Gibt es einen Zusammenhang zwischen [ökonomischen] Größen (a.k.a. Variablen)?
Wie Stark ist der Einfluss einzelner unabhängigen Variablen auf die anhängige Variable?
(Wirkungs-) Prognosen
–
–
–
Wie verändert sich die abhängige Variable bei einer Änderung in der unabhängigen Variable?
Wie verändert sich die anhängige Variable im Zeitablauf und damit c.p. in der Zukunft?
Schätzung des Wertes der abhängigen Variable bei gegebenen Input-Daten.
Dr. Paul Marx
Folie 15
14. Beispiele von Anwendungsfeldern für
Regressionsanalyse
Banken – Feststellung von Kreditwürdigkeit von Kunden
Versicherung – Berechnung der Höhe von Versicherungsprämie
Rentenversicherung – Bestimmung des Rentenversicherungsanteils am Bruttolohn
Transport, Beförderung – Berechnung von günstigsten Routen
Logistik, Lagerwirtschaft – Planung vom Datum und Lieferumfang so, dass die Lagerhallen
optimal besetzt und Mietkosten möglichst gering sind.
Retailing – verkaufszahlenoptimale Aufstellung der Produkte im Regal
Werbung – Auswahl der Werbekanäle mit maximaler Werbewirkung und minimalen
Werbekosten
Medizin – Vergleich der Effektivität unterschieldicher Medikamente, Auffinden von
Nebenwirkungen (Biometrie, Biostatistik)
Filmindustrie – Bestimmung der Erfolgsfaktoren von Spielfilme, Bestimmung des optimalen
Zeitfensters zwischen Kinostart und DVD-Verkauf, Bestimmung vom Schadensumfang durch
Piraterie
Usw.
Dr. Paul Marx
Folie 16
15. Wovon hängt Verkaufsmenge eines Produktes ab?
Produktpreis
0,034
Werbeausgaben
0,794
0,325
Intensität der
Betreuung durch
Merchandiser
Verkaufsmenge
am PoS
(Lebensmittel)
Loyalität der
Verkäufer
Dr. Paul Marx
Folie 17
16. Wovon hängt Verkaufsmenge eines Produktes ab?
Produktpreis
0,034
Werbeausgaben
0,313
0,395
Loyalität der
Verkäufer
0,457
Verkaufsmenge
am PoS
(Lebensmittel)
0,196
0,605
Intensität der
Betreuung durch
Merchandiser
Dr. Paul Marx
Folie 18
17. Erfolgsfaktoren deutschsprachiger Filme in den US-Kinos
Thematik
Genre
(II Weltkrieg, DDR, Liebe,
True Story,
Homosexualität, Familie,
Jüdisch, Musik, Andere)
(Komödie, Drama, Doku,
Thriller, Action)
Produktionsfirma
0,354
Verleiher
Hauptdarsteller
0,194
Drehort
USEinspielergebnis
Kritiken
(Anzahl, Bewertung)
0,350
Previews
Startort
0,347
0,227
0,118
Start-Weekend
Box-Office
Altersfreigabe
Laufzeit in
Deutschland
Dr. Paul Marx
Pre-Release-Awards
Festivals
Folie 20
20. Ziel der Regressionsanalyse
Regressionsanalyse ist ein statistisches Analyseverfahren.
Ziel der Regressionsanalyse ist es, Beziehungen zwischen einer abhängigen und einer oder
mehreren unabhängigen Variablen festzustellen und zu quantifizieren
Grundlage: empirische Daten (z.B. aus Befragungen oder Beobachtungen)
Dr. Paul Marx
Folie 23
21. Methodologie von Ökonometrie
1. Formulierung einer Theorie oder Hypothese
2.
3.
4.
5.
6.
7.
8.
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 24
22. Formulierung von Hypothesen
Zunächst keine methodenanalytische Fragestellungen
Vorabüberlegungen des Forschers
–
–
–
Ausschließlich fachliche Gesichtspunkte evtl. Erfahrungen
Abgrenzung des Untersuchungszieles und -gegenstands
Formulierung von logischen Zusammenhängen
Z.B. Absatzmenge eines Monopolisten steht in einer inversen Relation zum Preis
Wahl des Untersuchungsansatzes, der vermutete Ursache-Wirkungs-Beziehungen möglichst
vollständig enthält.
Dr. Paul Marx
Folie 25
23. Methodologie von Ökonometrie
1.
Formulierung einer Theorie oder Hypothese
2. Spezifizierung eines mathematischen Modells der Theorie
3.
4.
5.
6.
7.
8.
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 26
24. Spezifizierung des mathematischen Modells
Preis
p ax b
p = abhängige Variable
x = unabhängige Variable
a
a
1
Y
P reis
X Menge
b
Menge (x)
Dr. Paul Marx
Folie 27
25. Spezifizierung des mathematischen Modells
p ax b
Preis
mit a<0 und b>0
b
a
a
Y
X
1
Menge (x)
exakte (!) Beziehung zwischen Variablen
Dr. Paul Marx
Folie 28
26. Methodologie von Ökonometrie
1.
2.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
3. Spezifizierung des statistischen oder ökonometrischen Modells
4.
5.
6.
7.
8.
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 29
27. Spezifizierung des ökonometrischen Modells
ˆ
yi 0 1 xi ui
ui
= Fehlerterm
= zufällige Variable
= stochastische Variable
Preis
mit
In der Realität ist die Beziehung
zwischen (ökonomischen) Größen fast
nie exakt
u
u
Warum?
Menge
Dr. Paul Marx
• Weitere nicht beobachtete Variablen?
• Fehlerbehaftete, ungenaue Messung?
• Theorie stimmt nur ungefähr?
• Einfluss zufälliger Größen?
•…
Folie 30
28. Spezifizierung des ökonometrischen Modells
Preis
Fehlerterm = Residualgröße = Residuum = nicht erklärte Abweichung des
Beobachtungswertes vom entsprechenden Schätzwert
ˆ
yi 0 1 xi ui
u3
ˆ
ui yi yi
y3
ˆ
y3
x3
Menge
Dr. Paul Marx
Folie 31
29. Methodologie von Ökonometrie
1.
2.
3.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
4. Datenerhebung
5.
6.
7.
8.
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 32
31. Methodologie von Ökonometrie
1.
2.
3.
4.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
5. Schätzung der Parameter des ökonometrischen Modells
6.
7.
8.
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 34
32. Schätzung der Parameter des ökonometrischen Modells
Gesucht wird die Gerade, die y in Abhängigkeit von x möglichst genau bestimmt
Diese Gerade ist oft nach Augenmaß gut festlegbar
Für die rechnerische Bestimmung stellt sich die Frage, nach welchem Kriterium die Gerade
festzulegen ist?
Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen
Mittelwert lässt sich durch den unterstellten linearen Einfluss der Unabhängigen Variable
erklären und welcher Anteil verbleibt als unerklärte Residuen?
Dr. Paul Marx
Folie 35
34. Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
Gesucht wird die Gerade, für die die Summe der Abstandsquadrate der tatsächlichen Werte
von den durch die Gerade vorausgesagten Werten am geringsten wird, d.h. geringer als für
jede andere Gerade
Quadrieren, damit sich die positiven und negativen Abweichungen nicht kompensieren
Zielfunktion lautet also:
N
N
u [ y
i 1
2
i
i 1
i
( 0 1 xi )]2 min
N
ˆ
( yi yi ) 2 min
i 1
Dr. Paul Marx
Folie 37
35. Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
Lösung:
1
alternative Formel
N ( xi yi ) ( xi )( yi )
N ( x ) ( xi )
2
i
2
1
[( x x )( y y )]
[( x x ) ]
i
i
2
i
0 y 1 x
mit
y Mittelwert geschätzter Funktionswerte
x Mittelwert unabhängiger Variable
N Anzahl von Beobachtungen (= I)
Dr. Paul Marx
Folie 39
36. Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
1
Preis, €
p
10
16
18
23
30
33
39
169
24,143
Absatz, Stk.
x
26
28
19
24
15
6
8
126
18
N ( xi yi ) ( xi )( yi )
N ( xi2 ) ( xi ) 2
x*y
260
448
342
552
450
198
312
2562
x2
676
784
361
576
225
36
64
2722
7 2562 126 169
1,057
7 2722 126 2
0 y 1 x 24,143 (1,057) 18 43,174
Dr. Paul Marx
Folie 40
37. Schätzung der Parameter des ökonometrischen Modells
Preis
ˆ
yi 0 1 xi ui
0 43,174
1 1,057
45
40
35
30
25
20
15
y 43,174 1,057 x
10
5
0
0
Dr. Paul Marx
5
10
15
20
25
30
35
40
Menge
Folie 41
38. Methodologie von Ökonometrie
1.
2.
3.
4.
5.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
6. Test von Hypothesen
7.
8.
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 42
39. Test von Hypothesen
A theory or hypothesis that is not verifiable by appeal to empirical evidence may not be
admissible as a part of scientific enquiry (Milton Freedman 1953)
Ausgehend davon, dass ein Model eine Approximation von Realität ist, muss ein
zuverlässiges Kriterium entwickelt werden, um die „Güte“ dieser Approximation zu
überprüfen, bzw. um die Theorie oder Hypothese zu bestätigen (oder zu verwerfen).
Preis, €
Absatz, Stk.
Schätzwert
10
16
18
23
30
33
39
26
28
19
24
15
6
8
32
26
24
19
12
9
3
Dr. Paul Marx
Abweichung
(gemessen – geschätzt)
-6
2
-5
5
3
-3
5
War die Schätzung
gut?
Folie 43
40. Test von Hypothesen: Standardfehler der Schätzung
Der Standardfehler der Schätzung gibt an, welcher mittlere Fehler bei Verwendung der
Regressionsfunktion zur Schätzung der abhängigen Variable gemacht wird:
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
N
s
u
i 1
2
i
( N J 1)
yi
10
16
18
23
30
33
39
169
24,14
ˆ
yi
15,69
13,58
23,09
17,81
27,32
36,83
34,72
ˆ
yi yi ( yi yi ) 2
ˆ
-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28
32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37
In unserem Beispiel:
s
131,37
(7 1 1)
26,274 5,125
d.h. der wahre p-Wert liegt im Bereich
Bezogen auf den Mittelwert beträgt der durchschnittliche Fehler:
Dr. Paul Marx
ˆ
yi 5,125
5,125 / 24,14 = 0,21 = 21%
Folie 44
41. Test von Hypothesen
Gründe für die Abweichungen
Natürliche Variabilität
Ungenauigkeiten, Messfehler
Nach der Schätzung kann die Gesamt-Abweichung vom Mittelwert (=Varianz) in zwei Teile zerlegt
werden:
Vom Modell „erklärte“ Abweichung
„Nicht erklärte“ Abweichung (Restschwankung)
Dr. Paul Marx
Folie 45
42. Preis (y)
Test von Hypothesen
45
Gesamtabweichung
(vom Mittelwert)
40
35
30
_
Y
25
20
15
10
5
0
0
5
10
15
Dr. Paul Marx
20
25
30
35
40
Menge (x)
Folie 46
43. Preis (y)
Test von Hypothesen
45
Erklärte Abweichung
40
35
30
_
Y
25
20
15
10
5
0
0
5
10
15
Dr. Paul Marx
20
25
30
35
40
Menge (x)
Folie 47
44. Preis (y)
Test von Hypothesen
45
Nicht erklärte Abweichung
(Restschwankung)
40
35
30
_
Y
25
20
15
10
5
0
0
5
10
15
Dr. Paul Marx
20
25
30
35
40
Menge (x)
Folie 48
45. Test von Hypothesen: Bestimmtheitsmaß
=
Gesamtstreuung
N
(y
i 1
i
y)
2
+
erklärte
Streuung
N
ˆ
(y
i 1
i
y)
2
nicht erklärte
Streuung
N
(y
i 1
i
ˆ
yi ) 2
Je höher der Anteil der erklärten Abweichung (bzw. je geringer der Anteil der
Restschwankung) an der Gesamtstreuung um den Mittelwert ist, desto „besser“ lassen sich
die y-Werte mit der Regressionsfunktion schätzen.
Dr. Paul Marx
Folie 49
46. N
( yi y )
2
i 1
Gesamtstreuung
N
ˆ
( yi y )
2
i 1
=
erklärte
Streuung
N
ˆ
( y i yi ) 2
i 1
+
nicht erklärte
Streuung
y
ˆ
y
y
Dr. Paul Marx
Folie 50
47. Test von Hypothesen: Bestimmtheitsmaß
Bestimmtheitsmaß:
N
r
2
( yi y ) 2
ˆ
i 1
N
( yi y ) 2
erklärte Streuung
Gesamtstreuung
0 r2 1
i 1
N
r2 1
ˆ
(y y )
i 1
N
i
2
i
( yi y ) 2
1
nicht erklärte Streuung
Gesamtstre uung
i 1
Dr. Paul Marx
Folie 51
48. Test von Hypothesen: Bestimmtheitsmaß
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
N
r2
yi
10
16
18
23
30
33
39
169
24,14
ˆ
(y
i
y)2
(y
i
y)2
i 1
N
i 1
r2 1
(y
i 1
N
i
(y
i 1
i
15,69
13,58
23,09
17,81
27,32
36,83
34,72
-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28
32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37
yi y
( yi y ) 2
ˆ
yi y
ˆ
( yi y ) 2
-14,14
-8,14
-6,14
-1,14
5,86
8,86
14,86
200,02
66,31
37,73
1,31
34,31
78,45
220,73
638,86
-8,45
-10,56
-1,05
-6,34
3,18
12,69
10,58
71,42
111,62
1,11
40,16
10,09
161,01
111,83
507,23
In unserem Modell sind
N
ˆ
yi yi ( yi yi ) 2
ˆ
ˆ
yi
ˆ
yi ) 2
y)
2
507,23
0,794
638,86
1
131,37
1 0,205 0,795
638,86
Dr. Paul Marx
79,5% der Varianz auf die
erklärende Variable MENGE
und
20,5% auf nicht erfasste
Einflusse zurückzuführen
Folie 52
49. Test von Hypothesen:
Signifikanz des Zusammenhangs (F-Test)
Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichprobe
Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit übertragen
werden?
Es könnte sein, dass in der Realität die Veränderung der Funktionswerte gar nicht auf die
lineare Veränderung der unabhängigen Modellvariablen zurückzuführen ist.
Der Wert von r2 kann sich aufgrund zufälliger Einflusse ergeben haben.
Die Frage ist nun, wie signifikant die Abhängigkeit des Regressands von Regressoren ist?
M.a.W. wie (un)wahrscheinlich ist es, dass es keinen Zusammenhang zwischen der
unabhängigen und abhängigen Variablen gibt?
Die Prüfung von Gültigkeit der Regressionsfunktion als Ganzer: F-Test
Dr. Paul Marx
Folie 53
50. Test von Hypothesen: F-Test
Ablauf des F-Tests:
1.
Aufstellen der „Nullhypothese“ (H0):
„Es besteht kein Zusammenhang zwischen der abhängigen und den unabhängigen
Variablen!“
–
–
j= 0, für j [ 0; J ]
Regressionsgleichung ist unbrauchbar
Alternativhypothese (H1): „Der Zusammenhang besteht! r2 ist signifikant von null
verschieden!“
2.
Verlässlichkeit des Testergebnisses (Vertrauenswahrscheinlichkeit) wird vorgegeben
–
–
–
üblicherweise 0,95 oder 0,99
D.h. mit einer Wahrscheinlichkeit von 95% bzw. 99% kann man sich darauf verlassen, dass H0 nicht
zu unrecht abgelehnt wird.
M.a.W. wird H0 abgelehnt, so ist mit 95%- bzw. 99%-igen Wahrscheinlichkeit die H1 richtig.
Dr. Paul Marx
Folie 54
51. Test von Hypothesen: zwei Fehlerarten
Die Entscheidung eine Hypothese zu verwerfen, kann fehlerhaft sein
Es wird zwischen 2 Arten von Fehlern unterschieden:
H0 richtig
H0 falsch
verwerfen
Fehler I Art ()
kein Fehler
akzeptieren
kein Fehler
Fehler II Art
Fehler I Art () = Signifikanzniveau (1- = Vertrauenswahrscheinlichkeit)
Statement: „Einfluss besteht“; in Wirklichkeit: „kein Einfluss“
Fehler II Art () = Teststärke
Statement: „kein Einfluss“; in Wirklichkeit: „Einfluss besteht“
Simultane Minimierung beider Fehlerarten ist unmöglich. Falsche Positives sind „wichtiger“,
da mehr Schaden. Daher wird zunächst minimiert.
Dr. Paul Marx
Folie 55
52. Test von Hypothesen: F-Test
3.
Berechnung des empirischen F-Wertes aufgrund von Stichprobendaten bzw. - werte
ˆ
( y y)
Femp
2
J
ˆ
( y y) 2
N J 1
r2
J
1 r 2
N J 1
erklärte Streuung / J
nicht erklärte Streuung / ( N J 1)
mit
N
= Anzahl der Beobachtungswerte (Fälle)
J
= Anzahl von Regressoren
N – J – 1 = Zahl der Freiheitsgrade der Regression
Femp
0,79 / 1
18,809
(1 0,79) / (7 1 1)
Dr. Paul Marx
Folie 56
53. Test von Hypothesen: F-Test
4.
Vergleich des empirischen F-Wertes (Femp) mit einem theoretischen F-Wert (Ftab) anhand
einer Tabelle
Entscheidungskriterium:
Femp Ftab Ho verworfen, es gilt H1
Femp Ftab Ho nicht verworfen
Dr. Paul Marx
Folie 57
54. Test von Hypothesen: F-Test
F-Tabelle: 95% Vertrauenswahrscheinlichkeit (Ausschnitt)
hier
Für unser Beispiel:
f1: J = Zahl der erklärenden Variablen
f2: N-J-1 = Anzahl Freiheitsgrade
(N = Zahl der Beobachtungswerte)
J = 1; N = 7; N-J-1 = 5; Femp = 18,809
18,809 > 6,61 Ho verworfen!
Dr. Paul Marx
Folie 58
55. Test von Hypothesen: F-Test
F-Tabelle: 99% Vertrauenswahrscheinlichkeit (Ausschnitt)
Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; Femp = 18,809
18,809 > 16,26 Ho verworfen!
Dr. Paul Marx
Folie 59
56. Test von Hypothesen: F-Test
F-Tabelle: 99,9% Vertrauenswahrscheinlichkeit (Ausschnitt)
Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; Femp = 18,809
18,809 < 47,04 Ho nicht verworfen!
Dr. Paul Marx
Folie 60
57. Test von Hypothesen: F-Test
Vertrauenswahrscheinlichkeit
95%
(0,95)
99%
(0,99)
99,9%
(0,999)
H1
H1
H0
0,05
0,01
0,001
Signifikanzniveau
Die geschätzte Funktion
y 43,174 1,057 x
erklärt 79% des Zusammenhangs von y und x
signifikant auf dem Niveau von 0,01.
Dr. Paul Marx
Folie 61
58. Test von Hypothesen: Gültigkeit von Regressionskoeffizienten
für die Grundgesamtheit (T-Test)
Die Schätzung der Funktionsparameter basiert auf bekannten Daten
Wie zuverlässig sind die geschätzten -Werte für Prognosen?
T-Test
Geprüft wird, ob tatsächlicher -Wert gleich Null ist (Also j=0), d.h.
Ho: „Faktor xj hat in der Grundgesamtheit keinen Einfluss auf y. Der ermittelte Wert von j
gilt nur für die Stichprobe.“
H1: „Der Einfluss vom Faktor xj in der Grundgesamtheit ist signifikant größer Null“
Dr. Paul Marx
Folie 62
59. Test von Hypothesen: T-Test
Ähnlich wie beim F-Test wird eine Prüfgröße errechnet und mit dem Tabellenwert verglichen
temp
ˆ
j j
getestet wird j=0
S j
S j | j 0 s
1
N
( xi x )
2
S 0
i 1
temp
N
( xi x ) 2
i 1
Wahrer Regressionskoeffizient (unbekannt)
S j
x2
Regressionskoeffizient des j-ten Regressor
j
1
s
N
S j
Errechneter t-Wert
ˆ
j
temp
ˆ
j
Standardfehler des Regressionskoeffizienten des j-ten Regressors
Dr. Paul Marx
Folie 63
60. Test von Hypothesen: T-Test
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
p 43,174 1,057 x
N
s
u
i 1
2
i
( N J 1)
S j | j 0 s
5,125
1
N
(x x)
1
s
N
2
1
0,24
454
i
i 1
S 0
5,125
x2
N
(x x)
i 1
2
1 182
5,125
4,743
7 454
i
Dr. Paul Marx
pi
xi
xi x
10
16
18
23
30
33
39
169
24,14
26
28
19
24
15
6
8
-8
-2
0
5
12
15
21
( xi x ) 2
64
100
1
36
9
144
100
454,00
18,00
temp1
ˆ
1
S 1
temp 0
ˆ
0
S 0
1,057
4,404
0,24
43,174
9,102
4,743
Folie 64
61. Test von Hypothesen: T-Test
Vergleich mit dem Tabellenwert:
|temp| ttab Ho verworfen
|temp| ttab Ho nicht verworfen
Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; temp = -4,404
=0,95:
=0,99:
=0,999:
4,395 > 2,57 Ho verworfen!
4,395 > 4,03 Ho verworfen!
4,395 < 6,86 Ho nicht verworfen!
Dr. Paul Marx
Folie 65
62. Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
Der Einfluss von Variable x1 kann in der Grundgesamtheit mit 99%-iger Wahrscheinlichkeit
(= auf dem Signifikanzniveau von 0,01) vermutet werden.
Wie weit können die wahren j-Werte von den in der Stichprobe ermittelten Werten
abweichen?
ˆ
yi 0 1 xi
Verlauf von Regressionsgerade bei Variation von 0 und 1
Dr. Paul Marx
Verlauf von Regressionsgerade bei Variation von 1
Folie 66
63. Test von Hypothesen: t-Test und
Konfidenzintervall des Regressionskoeffizienten
Ho akzeptieren
Häufigkeit
Ho akzeptieren
Ho verwerfen
(kein Einfluss in der
Grundgesamtheit)
(kein Einfluss in der
Grundgesamtheit)
(Einfluss besteht)
ˆ
Relation vom
geschätzten zu
seinem
Standardfehler ist
kleiner als kritischer
t-Wert
ˆ
t ( )
t
S
t ( ) t S
t ( )
Bei normal
verteilten Residuen
sind die geschätzten
-Koeffizienten
auch normal verteilt
0
t ( )
Dr. Paul Marx
ˆ
Folie 67
64. Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
ˆ
j t S
j
ˆ
j j t S j
Der wahre Wert des Regressionskoeffizienten (für das vorgegebene Signifikanzniveau ) liegt
ˆ
im Bereich
j t S
j
Dieser Bereich nennt sich Konfidenzintervall von j
Für =0,01
1,057 4,03 0,24 1 1,057 4,03 0,24
2,03 1 0,086
Für =0,05
1,057 2,57 0,24 1 1,057 2,57 0,24
1,67 1 0,44
Dr. Paul Marx
Folie 68
65. Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
2,03 1 0,086
24,112 0 62,236
y 43,174 0,086 x
y 43,174 1,057 x
y 43,174 2,03 x
Verlauf von Regressionsgerade bei Variation von 1
Dr. Paul Marx
Folie 69
66. Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
2,03 1 0,086
24,112 0 62,236
y 24,112 0,086 x
y 62,236 2,03 x
y 43,174 1,057 x
Verlauf von Regressionsgerade bei Variation von 0 und 1
Dr. Paul Marx
Folie 70
67. Preis (y)
Test von Hypothesen:
Konfidenzintervall der Regressionsfunktion
45
Konfidenzintervall =
Region der Annahme von H1
40
Konfidenzintervall gibt an, in welchem Bereich der
wahre Regressionskoeffizient mit einer bestimmten
festgelegten Vertrauenswahrscheinlichkeit liegt
35
30
_
Y
25
20
15
=0,01
10
5
=0,05
0
0
5
10
15
20
25
30
35
40
Menge (x)
Vereinfachte Abbildung!
Dr. Paul Marx
Folie 71
68. Preis (y)
Test von Hypothesen:
Konfidenzintervall der Regressionsfunktion
45
Je weiter x vom Mittelwert,
desto ungenauer ist die
Schätzung von y(x)
40
35
Übertragen auf die Regressionsgerade zeigt
Konfidenzintervall an, in welchem Bereich die
wahren Werte liegen können bzw. wie stark sie von
den geschätzten Werten abweichen können (mit
einer bestimmten festgelegten
Vertrauenswahrscheinlichkeit)
30
25
20
15
=0,01
10
5
0
0
5
10
15
Dr. Paul Marx
20
25
30
35
40
Menge (x)
Folie 72
70. Ergebnisse der Regressionsanalyse
ˆ
yi
43,174
S j =
(4,743)
(0,24)
t
=
(9,102)
(-4,404)
=
(0,001)
(0,01)
1,057 xi
Dr. Paul Marx
r2 = 0,795
df = 6
F1,6 = 18,809
Folie 74
71. Ergebnisse der Regressionsanalyse: SPSS
Modellzusammenfassung
a Einflußvariablen : (Konstante), Absatzmenge
Modell
1
R
R-Quadrat
,891(a)
,794
Standardf
Korrigiertes ehler des
R-Quadrat Schätzers
,753
5,12578
ANOVA(b)
a Einflußvariablen : (Konstante), Absatzmenge
b Abhängige Variable: Preis
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
507,489
131,368
638,857
df
Mittel der
Quadrate
1
507,489
5
26,274
6
F
Signifikanz
19,316
,007(a)
Koeffizienten(a)
a Abhängige Variable: Preis
Modell
1
(Konstante)
Absatzmenge
Nicht standardisierte
Koeffizienten
Standardfehl
er
B
43,174
4,744
-1,057
,241
Dr. Paul Marx
Standardisie
rte
Koeffiziente
n
Beta
-,891
T
Signifikanz
9,101
,000
-4,395
,007
Folie 75
72. Methodologie von Ökonometrie
1.
2.
3.
4.
5.
6.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
7. Prognosen / Vorhersagen
8.
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 76
73. ˆ
y 43,174 1,057 x
Preis (y)
Bestimmung der Absatzmenge
45
40
35
x= 18,18
für y=25 x=17,19
30
25
20
x= 13,6
15
=0,05
10
5
0
0
5
10
15
20
25
30
35
40
Menge (x)
Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt
Dr. Paul Marx
Folie 77
74. ˆ
y 43,174 1,057 x
Preis (y)
Bestimmung des Preises
45
40
35
für x=25 y=16,74
30
y= 19,98
25
20
15
=0,05
10
y= 13,61
5
0
0
5
10
15
20
25
30
35
40
Menge (x)
Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt
Dr. Paul Marx
Folie 78
75. Optimale Produktionsmenge und Preis
Gewinnfunktion z.B. G = (y - k) x
mit k = 4
G = yx – 4x = (43,174 – x )x – 4x =
= 43,174 x – x2 – 4 x = 39,174 x – x2
Gmax ist gegeben im Punkt, wo G/x = 0
Preis (y), Gewinn/10
ˆ
y 43,174 1,057 x
45
40
G= 39,174x-x2
35
30
25
20
15
10
5
39,174 – 2x = 0
0
0
5
10
15
20
25
30
35
40
Menge (x)
xopt = 39,174 / 2 = 19,587 = 20
yopt = 43,174 – 20 = 23,17
Dr. Paul Marx
Folie 79
76. Methodologie von Ökonometrie
1.
2.
3.
4.
5.
6.
7.
Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken
Dr. Paul Marx
Folie 80
77. Preis-Absatz-Funktion im Monopol
Aus unserem Beispiel folgt:
xopt = 20
yopt = 23,17
Gopt = 383,4
Reale Nachfrage ist aber höher:
Preis, €
Absatz, Stk.
23
24
G|x=24; p=19,17 = 364,08 < Gopt
Der Monopolist hat keinen Anreiz, mehr zu produzieren. Es entsteht Defizit. Bevölkerung ist
unzufrieden.
Der Staat kann/muss eingreifen:
* Verpflichtung zur Mindestproduktion
* Senkung der Steuer für den Monopolisten
* Subventionierung von Produzenten komplementärer Güter
* Stimulierung des Wettbewerbes
*…
Dr. Paul Marx
Folie 81
78. LOGISCHER FEHLER!!!
In der Realität hängt der Preis nicht von der Absatzmenge ab. Vielmehr hängt der Absatz
vom Preis ab.
Regressionsanalyse bestimmt lediglich die Stärke des Zusammenhangs, jedoch nicht die
Richtung!
Im Zweivariablen-Fall ist es unproblematisch, da die Richtung des Zusammenhanges einfach
umgekehrt werden kann. Wenn mehr Variablen regressiert wären, wäre unsere Schätzung
komplett falsch und irreführend.
Die logische Begründung beim Spezifizieren des Modells ist wichtiger als Kennzahlen!
Übungsaufgabe: Spezifizieren Sie das Model richtig und führen Sie entsprechende
Regressionsanalyse durch.
Dr. Paul Marx
Folie 82
79. Übungsaufgabe
Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei
Werbeausgaben in Höhe von € 85.000 ergeben wird.
Werbeausgaben
(€1000)
40
60
70
110
150
160
190
200
Dr. Paul Marx
Absatz
(€1000)
377
507
555
779
869
818
862
817
Folie 83
81. Multiple Regressionsanalyse
Regressionsanalyse:
–
Analyse von Zusammenhängen zwischen Variablen (x,y)
–
Vorhersage der y-Werte aus x-Werten
–
Versuch, die y-Werte auf die x-Werte „zurückzuführen“
Einfache lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und einer Einflussgröße x
In den meisten Fällen üben mehrere Faktoren gleichzeitig Einfluss auf die zu erklärenden
Variable aus
–
Aufnahme einer zusätzlichen Variable kann mehr Varianz erklären
Multiple lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und mehr als einer Einflussgröße x
Dr. Paul Marx
Folie 85
82. Multiple Regressionsanalyse: ökonometrisches Modell
Das Vorgehen bei der multiplen RA unterscheidet sich konzeptionell nicht von dem
Vorgehen bei der einfachen RA
Das ökonometrische Modell bzw. die Regressionsfunktion wird in der gleichen Form
spezifiziert. Es werden nur mehrere unabhängige Variablen betrachtet.
J
ˆ
yi 0 i xi ui
i 1
Dr. Paul Marx
Folie 86
83. J
Multiple Regressionsanalyse: Beispiel
ˆ
yi 0 i xi ui
i 1
Welche Faktoren beeinflussen die Prüfungsnote im Fach „Basic Econometrics“?
Hypothese: Konsum von Bier und Kaffee in der Lernzeit beeinflusst die Note
–
Je mehr Bier und Kaffee, desto bessere Note
•
•
x1 Anzahl von Biergläser in der Lernzeit
x2 Anzahl von Tassen Kaffee in der Lernzeit
Bier = x1
Note
Kaffee = x2
Dr. Paul Marx
ˆ
yi 0 1 x1 2 x2 ui
Folie 87
84. Schätzen der Regressionsfunktion
Das Optimierungskriterium ist nach wie vor die Minimierung der Summe der quadrierten
Abweichungen
N
u
n 1
min
2
n
min
ui2 ( yi 0 1 x1i 2 x2i )2
zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten
Parametern gebildet
-
Partielle Ableitungen nach Variablen werden gleich 0 gesetzt -> Gleichungssystem entsteht
y 0 1 x1 2 x2
yi x1i 0 x1i 1 x12i 2 x1i x2i
2
yi x2i 0 x2i 1 x1i x2i 2 x2i
Dr. Paul Marx
Folie 88
85. Schätzen der Regressionsfunktion
Lösung des Gleichungssystems führt zu einzelnen i
1
2
2
( yi x1i )( x2i ) ( yi x2i )( x1i x2i )
2
( x12i )( x2i ) ( x1i x2i ) 2
( yi x2i )( x12i ) ( yi x1i )( x1i x2i )
2
( x12i )( x2i ) ( x1i x2i ) 2
0 y 1 x1 2 x2
Dr. Paul Marx
Folie 89
86. Schätzen der Regressionsfunktion: Matrixform
u y Xβ
y Xβ u
y1 1 x11 x21 ... xk1 0 u1
y 1 x x ... x u
2 12 22 k 2 1 2
... ... ... ... ... ... ... ...
yi 1 x1i x2i ... xki i ui
u T u u1 u2
u1
u I
... ui 2 ui2
... i 1
ui
Dr. Paul Marx
u T u (y Xβ )T (y Xβ )
yT y 2 β T X T y β T X T Xβ
(X T X) β X T y
(X T X) 1 (X T X) β (X T X) 1 X T y
Eβ (X T X) 1 X T y
β (X T X) 1 X T y
Folie 90
87. ˆ
yi 0 1 x1 2 x2 ui
Bier = x1
Bier
Interpretation von Regressionskoeffizienten
Kaffee = x2
1
1
Note
Note
Betas sind die partiellen Steigungskoeffizienten
1
2
1= die Änderung im Durchschnittswert von y bei Änderung von x1 um eine Einheit, bei x2=
const
–
Der direkte oder Netto-Effekt einer Einheitsveränderung in x1 unabhängig von allen Effekten von x2
(=was bringt ein zusätzliches Bier für die Note)
0= konstantes Glied (=nichts trinken)
Dr. Paul Marx
Folie 91
88. Standardisierte Regressionskoeffizienten
Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
–
–
Da die Skalen unterschiedlich sind (Bier wird in Gläsern und Kaffe in Tassen gemessen)
Wenn Bier in ml gemessen wird, vergrößert sich der 1-Wert um den Faktor 500
Um die Betas vergleichbar zu machen, muss man
–
die Skalen beider Variablen einheitlich machen und dann mit den umgerechneten Werten eine
neue RA durchführen,
oder
– Die bereits geschätzten Regressionskoeffizienten standardisieren
ˆ Sta ndardabweichung von xi
i
i
St andardabweichung von y
Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen eliminiert. Die Betas
werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren
Wichtigkeit verwendet werden.
Dr. Paul Marx
Folie 92
89. Beispiel
Nicht standardisiert:
Standardisiert:
Note = 0,465 + 0,270 * Kaffee + 0,617 * Bier
Note =
0,518 * Kaffee + 0,781 * Bier
Nicht standardisierte
Koeffizienten
Modell
B
Standardfehler
1 (Konstante)
Kaffee
Bier
,465
,270
,617
,191
,045
,069
Standardisier
te
Koeffizienten
Beta
T
Signifikanz
,518
,781
2,433
5,950
8,975
,072
,004
,001
a. Abhängige Variable: Note
Dr. Paul Marx
Folie 93
90. Korrigiertes Bestimmtheitsmaß
Bei gegebener Stichprobe wird mit der Aufnahme zusätzlicher erklärenden Variablen ein
mehr oder weniger großer Erklärungsanteil hinzugefügt. Dieser Anteil kann u.U. nur zufällig
bedingt sein. r2 kann also nur zunehmen – auch wenn irrelevante Regressoren
aufgenommen werden.
ˆ
erklärte Varianz
nicht erklärte Varianz
ui2
r
1
1
Gesamte Varianz
Gesamte Varianz
( yi y i )2
Nicht steigend mit
Anzahl von Regressoren
2
Unabhängig von Anzahl
der Regressoren
r2 steigt mit steigender Varianz von y, ohne dass der Grad der Anpassung sich verbessert hat.
r2 steigt mit dem Umfang der Stichprobe.
diese negativen Eigenschaften werden durch das korrigierte Bestimmtheitsmaß über den
Korrekturfaktor ausgeglichen.
Dr. Paul Marx
Folie 94
91. Korrigiertes Bestimmtheitsmaß
r2KORR vermindert r2 um eine Korrekturgröße, die desto größer wird, je größer die Zahl der
Regressoren und je kleiner die Zahl der Freiheitsgrade ist.
Dadurch kann r2KORR auch bei der Aufnahme von Regressoren abnehmen.
2
rKORR
ˆ
u /( N J 1) 1 (1 r
1
( y y ) /( N 1)
2
i
2
i
2
KORR
r
2
i
J (1 r 2 )
r
N J 1
2
mit
N
J
N–J–1
)
( N 1)
( N J 1)
= Anzahl der Beobachtungswerte (Fälle)
= Anzahl von Regressoren
= Zahl der Freiheitsgrade
r2KORR kann auch negative Werte annehmen und ist kleiner als r2,
außer falls r2=1, dann r2KORR =1
Dr. Paul Marx
Folie 95
93. Korrigiertes Bestimmtheitsmaß
Mit r2KORR wird es möglich, Schätzungen mit unterschiedlichen erklärenden Variablen oder
unterschiedlicher Varianz der abhängigen Variablen miteinander zu vergleichen.
Dabei müssen folgende Bedingungen erfüllt sein:
–
–
Abhängige Variable und
Stichprobenumfang sind gleich
Warnung vor dem r2korr-Maximierung-Spiel!
–
–
–
Ziel der RA ist nicht das Erreichen des maximal möglichen r2korr , sondern die plausible Schätzung
von Regressionskoeffizienten in der Population
Es ist wichtiger herauszufinden, ob die Regressionskoeffizienten statistisch (nicht)signifikant sind,
oder Vorzeichen haben, die nicht zu erwarten sind
logische bzw. theoretische Relevanz von erklärenden Variablen für den erklärten Faktor und ihre
statistische Signifikanz haben Vorrang!
Dr. Paul Marx
Folie 97
94. Multiple Regressionsanalyse: Anwendungsbeispiel
Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner
Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen
Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren
und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der
Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn
etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über
die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Zahl der
Vertreterbesuche.
Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genannten
Einflussgroßen sich auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang
zwischen z.B. Vertreterbesuchen und Absatzmenge gegeben wäre, dann müssten
überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf
Unterschiede in der Zahl der Besuche zurückführen lassen, z.B.: je höher die Zahl der
Vertreterbesuche, desto höher der Absatz.
Quelle: Backhaus et al.(2006): „Multivariate Analysemethoden“
Dr. Paul Marx
Folie 99
95. Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.
1
2
3
4
5
6
7
8
9
10
Menge
Kartons pro
Periode
Preis pro
Karton
2585
1819
1647
1496
921
2278
1810
1987
1612
1913
12,5
10
9,95
11,5
12
10
8
9
9,5
12,5
Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche
2000
550
1000
800
0
1500
800
1200
1100
1300
109
107
99
70
81
102
110
92
87
79
Ökonometrisches Modell:
Menge = 0
+ 1*Preis
Dr. Paul Marx
+ 2*Ausgaben
+ 3*Besuche
Folie 100
98. SPSS-Output für die Regressionsanalyse
Modellzusammenfassung
Modell
1
R
,962(a)
R-Quadrat
,926
Korrigiertes RQuadrat
,888
Standardfehler
des Schätzers
150,12600
a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
ANOVA(b)
Modell
1
Regression
Residuen
Gesamt
3
Mittel der
Quadrate
560342,900
135226,900
6
22537,817
1816255,600
9
Quadratsumme
1681028,700
df
F
24,862
Signifikanz
,001(a)
a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
b Abhängige Variable: Menge Kartons pro Periode
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
-6,866
9,927
Standardfehler
673,205
38,164
,655
11,085
Standardisierte
Koeffizienten
Beta
,034
T
-,010
,260
Signifikanz
,992
,803
,103
,794
6,382
,001
4,428
,345
2,504
,046
a Abhängige Variable: Menge Kartons pro Periode
Dr. Paul Marx
Folie 103
99. Regressionskoeffizienten
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
-6,866
9,927
Standardfehler
673,205
38,164
,655
11,085
Standardisierte
Koeffizienten
Beta
,034
T
-,010
,260
Signifikanz
,992
,803
,103
,794
6,382
,001
4,428
,345
2,504
,046
a Abhängige Variable: Menge Kartons pro Periode
Menge = 0
+ 1*Preis
+ 2*Ausgaben
+ 3*Besuche
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Regressionskoeffizienten geben den marginalen Effekt der Änderung einer unabhängigen
Variable auf die abhängige Variable an.
–
Z.B. 2 = 0,655 bedeutet, dass 65,5 Kartons mehr abgesetzt werden können, wenn
Verkaufsförderung um 100 erhöht wird. Beim Preis 10 ergibt sich Mehrerlös von 655.
Dr. Paul Marx
Folie 104
100. Standardisierte Regressionskoeffizienten
Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
Die Werte der Regressionskoeffizienten lassen sich nur dann vergleichen, wenn die Variablen
in gleichen Einheiten gemessen wurden.
–
–
–
Der nummerische Wert von i ist abhängig von der Skala, in der xi gemessen wurden.
Z.B. Wenn der Preis in Cent (anstatt in Euro) gemessen wird, vergrößert sich 1 um den Faktor 100
Um z.B. den Einfluss der Anzahl von Vertreterbesuchen mit dem Einfluss vom Preis vergleichbar zu
machen, müsste die Skala für Besuche in „Kosten pro Besuch“ umgewandelt werden.
Standardisierung von Regressionskoeffizienten macht sie vergleichbar.
–
Durch Standardisierung werden die unterschiedlichen Messdimensionen der Variablen eliminiert.
Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß
für deren Wichtigkeit verwendet werden.
Dr. Paul Marx
Folie 105
101. Einflussstärke und
Standardisierte Regressionskoeffizienten
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
-6,866
9,927
Standardfehler
673,205
38,164
,655
11,085
Standardisierte
Koeffizienten
Beta
,034
T
-,010
,260
Signifikanz
,992
,803
,103
,794
6,382
,001
4,428
,345
2,504
,046
a Abhängige Variable: Menge Kartons pro Periode
Nicht standardisiert:
Standardisiert:
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Menge =
0,034*Preis + 0,794*Ausgaben + 0,345*Besuche
Vergleich der relativen Einflussstärken (bzw. Wichtigkeiten)
Nicht standardisiert
Preis
Ausgaben
Besuche
Preis
1
0,065
1,116
Ausgaben
15,155
1
16,923
Standardisiert
Besuche
0,895
0,059
1
Dr. Paul Marx
Preis
Ausgaben
Besuche
Preis
1
23,352
10,147
Ausgaben
0,042
1
0,434
Besuche
0,098
2,301
1
Folie 106
102. Prüfung der Regressionsfunktion
Modellzusammenfassung
Modell
1
R
,962(a)
R-Quadrat
,926
Korrigiertes RQuadrat
,888
Standardfehler
des Schätzers
150,12600
a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
ANOVA(b)
Modell
1
Regression
Residuen
Gesamt
3
Mittel der
Quadrate
560342,900
135226,900
6
22537,817
1816255,600
9
Quadratsumme
1681028,700
df
F
24,862
Signifikanz
,001(a)
a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
b Abhängige Variable: Menge Kartons pro Periode
Der durch die Regressionsbeziehung postulierte Zusammenhang kann empirisch bestätigt
werden.
–
Die Regressionsfunktion erklärt 92,6% der Varianz in der abhängigen Variable (Menge) signifikant mit
der Vertrauenswahrscheinlichkeit von 99,9% (Signifikanzniveau 0,001)
Dr. Paul Marx
Folie 107
103. Prüfung der Regressionskoeffizienten
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
-6,866
9,927
Standardfehler
673,205
38,164
,655
11,085
Standardisierte
Koeffizienten
Beta
,034
T
-,010
,260
Signifikanz
,992
,803
,103
,794
6,382
,001
4,428
,345
2,504
,046
a Abhängige Variable: Menge Kartons pro Periode
–
–
Empirisch: Der Einfluss von 1 ist nicht signifikant (t-Test konnte H0 nicht ablehnen)
Logisch: 1 > 0, d.h. mit dem steigenden Preis muss der Absatz steigen. Zu erwarten ist aber eine
umgekehrte Wirkung.
Dr. Paul Marx
Folie 108
104. Prüfung der Regressionskoeffizienten
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
-6,866
9,927
Standardfehler
673,205
38,164
,655
11,085
Standardisierte
Koeffizienten
Beta
,034
T
-,010
,260
Signifikanz
,992
,803
,103
,794
6,382
,001
4,428
,345
2,504
,046
a Abhängige Variable: Menge Kartons pro Periode
Das bedeutet aber nicht, dass es keinen Zusammenhang zwischen dem Preis und der
Absatzmenge gibt!
–
–
–
Möglicherweise ist dieser Einfluss durch andere Einflüsse überlagert, oder
Wird infolge des geringen Stichprobenumfanges nicht deutlich, oder
Die Varianz bzw. Variabilität in den gemessenen Werten des Preises ist nicht genügend, um seinen
Einfluss feststellen zu können
Dr. Paul Marx
Folie 109
105. Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.
1
2
3
4
5
6
7
8
9
10
Mittelwert
Varianz
Standardabweichung
Menge
Kartons pro
Periode
2585
1819
1647
1496
921
2278
1810
1987
1612
1913
1806,80
201806,18
449,23
Preis pro
Karton
12,5
10
9,95
11,5
12
10
8
9
9,5
12,5
10,50
2,39
1,55
Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche
2000
550
1000
800
0
1500
800
1200
1100
1300
109
107
99
70
81
102
110
92
87
79
Menge Kartons pro Periode;
Preis
3000
1025,00
2500
296250,00
544,29
2000
93,60
195,60
13,99
1500
1000
500
0
0
Dr. Paul Marx
2
4
6
8
10
12
14
Folie 110
106. Prüfung der Regressionskoeffizienten
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Die Regressionsfunktion bildet also nicht den realen Zusammenhang ab und kann nicht zur
Untersuchung des Einflusses vom Preis auf die Absatzmenge verwendet werden.
Mögliche Aushilfen (in der Praxis!!!):
1.
Den Wert des Preises auf seinem (Stichproben-)Mittelwert fixieren. Die RF kann dann zur Schätzung
von Absatzmenge aufgrund von Werbeausgaben und Vertreterbesuchen verwendet werden.
•
•
2.
Risiko: die Restlichen Regressionskoeffizienten haben verzerrten Stichproben- und Modell-Fit
Sinnlos: mit Einsatz von PCs ist der Zeitaufwand für Berechnung eines anderen Modells ist unerheblich
Besser: Modell umformulieren und erneute RA durchführen
Dr. Paul Marx
Folie 111
107. Modellvergleich
Variablen: Preis, Ausgaben, Besuche
Variablen: Ausgaben, Besuche
Modellzusammenfassung
Modell
1
R
,962(a)
R-Quadrat
,926
Korrigiertes RQuadrat
,888
Standardfehler
des Schätzers
150,12600
Modell
1
R
,962(a)
R-Quadrat
,925
Korrigiertes RQuadrat
,903
Standardfehler
des Schätzers
139,77114
Koeffizienten(a)
Modell
1
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche
Nicht
standardisierte
Koeffizienten
Standard
B
fehler
-6,866
673,205
9,927
38,164
Standar
disierte
Koeffizie
nten
Beta
,034
Nicht standardisierte
Koeffizienten
T
-,010
,260
Signifi
kanz
,992
,803
Modell
1
(Konstante)
,655
,103
,794
6,382
,001
Ausgaben für
Verkaufsförderung
11,085
4,428
,345
2,504
,046
Zahl der
Vertreterbesuche
Standar
dfehler
B
r2 > r2
r2KORR < r2KORR
Dr. Paul Marx
144,482
,091
10,487
3,522
Beta
315,250
,664
Standar
disierte
Koeffizi
enten
T
Signif
ikanz
,458
,661
,805
7,338
,000
,326
2,977
,021
Folie 112
108. Methoden zur Auswahl von Variablen (SPSS)
–
–
Die Gesamtanzahl möglicher Modelle steigt faktoriell mit der Anzahl der Variablen an.
Im Fall von 3 unabhängigen Variablen sind 7 unterschiedliche Modelle möglich, alle müssten
berechnet werden
Alternative Vorgehensweisen:
1.
Der Untersucher formuliert ein oder mehrere Modelle, die ihm aufgrund von theoretischen
oder sachlogischen Überlegungen sinnvoll erscheinen und überprüft sie empirisch mit Hilfe
der Regressionsanalyse
2.
Der Untersucher lässt sich vom Computer eine Auswahl von Modellen zeigen und versucht
sie sinnvoll zu interpretieren
Dr. Paul Marx
Folie 113
109. Schrittweise Regressionsanalyse
Bei der Schrittweisen RA erfolgt die Berechnung der Regressionskoeffizienten in mehreren
Schritten:
–
Zunächst wird RA mit einer Variable durchgeführt, die mit der abhängiger Variablen höchste
Korrelation aufweist.
•
–
Bei jedem Schritt wird für jede unberücksichtigte Variable ihr partieller Korrelationskoeffizient und ein „Beta
in“-Wert ausgewiesen, die der Regressionskoeffizient nach einer eventuellen Aufnahme im folgenden Schritt
erhalten würde.
Im jeden nächsten Schritt werden aus den verbliebenen Variablen diejenigen aufgenommen (bzw.
aus bereits aufgenommenen diejenigen ausgeschlossen), die das Toleranzkriterium (nicht) erfüllen.
•
Als Toleranzkriterium dient der F-Wert des partiellen Korrelationskoeffizienten bzw. dessen Signifikanzniveau.
•
Eine Variable wird nur dann aufgenommen, wenn ihr F-Wert einen vorgegebenen Wert übersteigt bzw. wenn
ihr Signifikanzniveau kleiner ist als die vorgegebene F-Wahrscheinlichkeit
•
Umgekehrt wird eine Variable bei Unterschreiten des vorgegebenen F-Wertes bzw. bei Überschreiten des
Grenzwerten für Signifikanzniveau ausgeschlossen
Dr. Paul Marx
Folie 114
111. Schrittweise Regressionsanalyse: WARNUNG!
Es besteht die Gefahr, dass sachlogische Überlegungen in den Hintergrund treten können.
–
Computer trifft seine Auswahl ausschließlich nach statistischen Kriterien und kann nicht erkennen,
ob das Modell auch inhaltlich sinnvoll ist
Daher:
–
Statistisch signifikante Zusammenhänge sollten nur dann akzeptiert werden, wenn sie
sachlogischen Erwartungen entsprechen.
–
Bei Nichtsignifikanz eines Zusammenhanges sollte man nicht folgern, dass es kein Zusammenhang
besteht, wenn ansonsten das Ergebnis sachlich korrekt ist.
–
Bei widersprüchlichen Ergebnissen oder sachlogisch unbegründeten Einflussfaktoren sollte man
nicht zögern, diese aus dem Regressionsmodell zu entfernen (auch wenn der Erklärungsanteil
dadurch sinkt).
Dr. Paul Marx
Folie 116
112. SPSS-Output bei schrittweiser RA
Aufgenommene/Entfernte Variablen(a)
Modell
1
Entfernte
Variablen
Aufgenommene Variablen
Ausgaben für
Verkaufsförderung
.
Zahl der Vertreterbesuche
.
2
Methode
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
a Abhängige Variable: Menge Kartons pro Periode
Modellzusammenfassung
Modell
1
R
,911(a)
R-Quadrat
,829
Korrigiertes RQuadrat
,808
Standardfehler
des Schätzers
196,83086
2
,962(b)
,925
,903
139,77114
a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
Dr. Paul Marx
Folie 117
113. SPSS-Output bei schrittweiser RA (Fortsetzung)
ANOVA(c)
Modell
1
Regression
Residuen
Quadratsumme
1506316,513
1
Mittel der
Quadrate
1506316,513
38742,386
df
2
309939,087
8
Gesamt
1816255,600
1679503,802
2
839751,901
136751,798
7
42,985
,000(b)
19535,971
1816255,600
Signifikanz
,000(a)
9
Regression
F
38,880
9
Residuen
Gesamt
a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode
Dr. Paul Marx
Folie 118
114. SPSS-Output bei schrittweiser RA (Fortsetzung)
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
2
B
1036,373
(Konstante)
Ausgaben für
Verkaufsförderung
(Konstante)
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
Standardfe
hler
138,349
,752
,121
144,482
315,250
,664
,091
10,487
Standardisiert
e
Koeffizienten
3,522
Beta
T
7,491
Signifikanz
,000
6,235
,000
,458
,661
,805
7,338
,000
,326
2,977
,021
,911
a Abhängige Variable: Menge Kartons pro Periode
Ausgeschlossene Variablen(c)
Modell
1
Preis pro Karton
Zahl der Vertreterbesuche
2
Preis pro Karton
Beta In
-,137(a)
,326(a)
,034(b)
Kollinearität
sstatistik
-,920
Signifikanz
,388
Partielle
Korrelation
-,328
Toleranz
,983
2,977
,260
,021
,803
,748
,106
,895
,718
T
a Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode
Dr. Paul Marx
Folie 119
116. Regression durch den Ursprung
(Regression-through-the-Origin)
• Wenn die Konstante (0)nicht signifikant ist, oder
• wenn a-priori erwartet wird, dass die Regressionsgerade
durch den Punkt (0;0) verlaufen wird,
…
führt die Regressionsanalyse ohne Konstante zu genauerer Schätzung von Steigungs- bzw.
Regressionskoeffizienten.
Ökonometrisches Modell der Regressionsgerade hat in diesem Fall folgende Form:
ˆ
yi 1 xi u
J
bzw.
ˆ
yi j x ji u
j 1
0 = 0
Dr. Paul Marx
Folie 121
117. Regression durch den Ursprung : Beispiel
Box-Office (Filmerfolg)
In der Filmerfolgsforschung drückt man meistens den Filmerfolg über seine Einnahmen aus
und versucht diese Größe durch den Einfluss relevanter Merkmale zu begründen.
–
–
1
–
z.B. wird angenommen, dass der Filmerfolg vom Budget
abhängt.
Bei Budget=Null kann man keinen Film drehen. Daher
kann man keine Einnahmen generieren und somit keinen
Erfolg haben.
Regression durch den Ursprung beschreibt diesen
Sachverhalt am besten:
Budget
Filmerfolg = β1 *Budget + u
ˆ
yi 1 xi u
Dr. Paul Marx
Folie 123
118. Regressionskoeffizient bei bivariater Regression durch den Ursprung
ˆ
yi 1 xi u
mit
u min
( y x) ( y
ˆ
u ( y yi )
2
2
1
2
2 1 xy 1 x 2 )
2
* Index i bei Variablen x und y
ist hier zwecks vereinfachten
Darstellung weggelassen
Differenzieren nach β1 und Setzen gleich 0
(2 xy 2 x ) 0
2 xy 2 x 0
2
1
2
1
1
Dr. Paul Marx
x y
x
i
i
2
i
Folie 124
119. Eigenschaften des Modells der
Regression durch den Ursprung
Klassische RA
RA durch den Ursprung
Anzahl von Freiheitsgraden (bei Residuen)
df = (n-j-1)
df = (n-j)
Fehlerterm u
Ist gleich Null
Muss nicht = 0 sein
Bestimmtheitsmaß r2
r2 ist immer positiv, 0 < r2 <1
Dr. Paul Marx
r2 kann negative Werte annehmen
Folie 125
120. raw r2 bei bivariater Regression durch den Ursprung
r2 kann nicht zur Beurteilung der Güte der Schätzung verwendet werden, da
1.
2.
Bei RA durch den Ursprung das „klassische“ r2 negative Werte annehmen kann
Klassisches Model (für welches r2 formuliert war) vorsieht, dass das konstante Glied explizit in die
Regressionsgleichung einbezogen wird
Man kann aber einen sog. raw r2-Wert berechnen:
raw r 2
( xi yi ) 2
x y
2
i
2
i
0 < raw r2 <1
Der Wert von raw r2 kann nicht direkt mit konventionellen r2–Werten verglichen werden!
Dr. Paul Marx
Folie 126
121. Zur Bedeutung von raw r2
raw r2 ist ein unbereinigtes Bestimmtheitsmaß
erklärte Streuung
r
Gesamtstre uung
2
raw r
2
ˆ
y
y
2
i
2
i
ˆ
(y
(y
( x )
y
i
i y)
2
i i
2
i
xi yi
x2
2 i
x
i
2
raw r
yi2
2
raw r
2
y)2
raw r
2
i2 xi2
yi2
mit
2
ˆ
y
y
2
i
2
i
1
xi yi
x
2
i
x y
x
y
2
i
i
2
i
2
i
( xi yi ) 2
x y
2
i
2
i
Dr. Paul Marx
Folie 127
122. Regression durch den Ursprung: Guter Rat
Da die Regressionsanalyse durch den Ursprung spezifische Eigenschaften aufweist, sollte
man sehr vorsichtig an die Wahl eines solchen Modells herangehen.
Wenn man a-priori nicht erwarten kann bzw. durch Theorie und Logik nicht belegt ist, dass
die Regressionsgerade durch den Ursprung verlaufen wird, ist man angehalten, zunächst ein
klassisches Regressionsmodell zu berechnen.
Sonst besteht die Gefahr eines Spezifizierungsfehlers, d.h. der Verletzung von Annahmen der
linearen Regressionsanalyse
Dr. Paul Marx
Folie 128
124. Klassische Regression
Regression durch den Ursprung
Modellzusammenfassung
Modell
1
R
,962(a)
R-Quadrat
,925
Korrigiertes RQuadrat
,903
Standardfehler
des Schätzers
139,77114
Modell
1
R
,998(b)
R-Quadrat(a)
,996
Korrigiertes RQuadrat
,995
Standardfehler
des Schätzers
132,69104
a Bei der Regression durch den Ursprung (Modell ohne konstanten
Term) mißt das R-Quadrat den Anteil der Variabilität in der abhängigen
Variable durch den Ursprung, der durch Regression erklärt werden
kann. Dieses Verfahren KANN NICHT mit dem R-Quadrat bei
Modellen verglichen werden, die einen konstanten Term enthalten.
b Einflußvariablen: Zahl der Vertreterbesuche, Ausgaben für
Verkaufsförderung
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
B
1
(Konstante)
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche
Standar
dfehler
144,482
,091
10,487
3,522
Beta
315,250
,664
Standar
disierte
Koeffizi
enten
Nicht
standardisierte
Koeffizienten
T
Signif
ikanz
,458
,661
,805
7,338
,000
,326
2,977
,021
Dr. Paul Marx
Modell
B
1 Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche
Standa
rdfehler
Standar
disierte
Koeffizi
enten
Beta
T
Signif
ikanz
,662
,086
,409
7,716
,000
12,021
1,042
,612
11,536
,000
a Abhängige Variable: Menge Kartons pro Periode
b Lineare Regression durch den Ursprung
Folie 130
125. Multiple Regressionsanalyse: Beispieldatensatz
actual advertising expenses in Mio. (based on
Ad $ Summary) [ad_$_sum]
First Weekend Box Office
[first_bo]
No. of Attendents in
Germany [att_germ]
imdb User-Rating
[imdb_rat]
Budget [budget]
Martin and Porter Video
Movie Guide Ranking
[movie_gu]
Length [length]
Total Box-Office
[tot_boxo]
Maltin Movie and Video
Guide Ranking [maltin]
Starpower [starpowe]
Punktwert Academy
Awards [a_awards]
Director power [dir_powe]
Review Metascore 0-10
point-Scale [rev_me10]
Anzahl Startleinwände D
[ger_scre]
Anzahl Startleinwände USA
[us_scree]
Produktinhärente EF
Dr. Paul Marx
Weeks in Theater [weeks]
Produktinduzierte EF
Distributionsinduzierte EF
Folie 131
126. Abschnitt 5
ANNAHMEN DES LINEAREN
REGRESSIONSMODELLS (LRM)
Voraussetzungen für eine effiziente Schätzung
und Umgang bei ihrer Verletzung
Dr. Paul Marx
Folie 132
127. Annahmen des linearen Regressionsmodells (LRM)
1.
Variabilität in xi
–
2.
Linearität
–
–
3.
4.
Keine Korrelation zwischen den erklärenden Variablen und der Störgröße
Homoscedastizität
–
9.
Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)
Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–
8.
Modell enthält die relevanten erklärenden Variablen
Stichprobe ist größer, als die Anzahl der Regressoren
–
6.
7.
in Variablen
in Parametern
Metrisches Niveau der Regressoren
Korrekte Spezifizierung vom Modell
–
5.
!
xi müssen variieren: Var(xi) > 0
Störgrößen haben eine konstante Varianz
Keine Autokorrelation
–
Störgrößen sind unkorelliert
10. Keine Multikolinearität
–
Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit
11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx
Folie 133
128. Annahmen des LRM: Variabilität in xi
x variiert nicht (Var(xi) = 0)
x variiert (Var(xi) > 0)
y
y
x
Dr. Paul Marx
x
Folie 134
129. Annahmen des LRM: Linearität
Die KQ-Methode unterstellt, eine additiv-lineare Funktion
J
ˆ
yi 0 j x ji ui
j 1
Geschätzt werden die Koeffizienten einer Gerade bzw. einer mehrdimensionalen Fläche
Wenn der unterstellte Zusammenhang nicht linear ist, kann KQ-Methode nicht angewendet
werden
Dr. Paul Marx
Folie 135
130. Annahmen des LRM: Linearität in Parametern
Typische nicht lineare Verläufe
quadratisch
Cobb-Douglas
exponentiell
reziprok
Niveauänderung
Trendänderung
Dr. Paul Marx
Folie 136
131. Linearisierung
Anwendung einfacher Tricks bringt Linearität zurück!
yi 0 1 xi2
1
y i 0 1
xi
Ersetzen x2 durch x‘
yi 0 1 xi
Ersetzen 1/x durch x‘
yi 0 1 xi
Beide Modelle sind nicht linear in x, aber linear in x‘
Wir können Betas vom modifizierten Modell schätzen. Diese werden auch nach rückgängiger
Variablensubstitution gelten.
Um Konsistenz der Schätzung zu gewährleisten, müssen die Regressoren vor der Schätzung
entsprechend modifiziert werden! (Linearisierung)
Dr. Paul Marx
Folie 137
132. Linearisierung von Pontenzfuntkionen
Quadratische Spezifikation ist im Grunde eine Regression mit zwei Variablen x1 und x2, die
aber nur auf x basiert. Sie ist somit ein Spezialfall der Mehrfachregression:
2 > 0
minimum
yi 0 1 xi 2 xi2
yi 0 1 x1i 2 x2i
Dr. Paul Marx
2 < 0
maximum
Folie 138
133. Linearisierung polynominaler Funktionen
Dieser „Linearisierungsansatz“ ist auf alle polynomiale Funktionen erweiterbar
yi 0 1 xi 2 xi2 3 xi3
yi 0 1 x1i 2 x2i 3 x3i
Es können auch weitere Variablen bzw. Regressoren berücksichtigt werden
Dr. Paul Marx
Folie 139
134. Linearität in Parametern: Log-Log-Modell
yi 0 xi
Log-Log-Modell
1
ln( yi ) ln( 0 ) ln( xi 1 )
ln( yi ) ln( 0 ) 1 ln( xi )
ln( yi ) 1 ln( xi )
1 <0
yi 1 xi
Dr. Paul Marx
Folie 140
135. Das weiß jeder:
Einfachste Operationen mit (natürlichen) Logarithmen
x
Definition: ln( N ) x e N
Folgen: ln( 1) 0, da e 0 1
ln( e) 1, da e1 e
ln( 0)
Eigenschaften: ln( ab) ln( a ) ln( b)
a
ln( ) ln( a ) ln( b)
b
ln a b b ln( a )
1
ln( a ) ln( a )
b
b
Dr. Paul Marx
Folie 141
136. Attraktive Eigenschaften von Log-Log-Modellen:
1. Im Zwei-Variablen-Modell: Einfach festzustellen!
2. Streudiagram von ln(y) auf ln(x) -> ungefähr Linie
ln(y)
yi 0 xi
ln(Absatz)
Absatz
y
1
ln( yi ) ln( 0 ) 1 ln( xi )
x
ln(x)
Preis
3.
ln(Preis)
1 = Elastizität von y‘ in Bezug auf x‘
relative Veränderung in y
=
relative Veränderung in x
(z.B. Preiselastizität vom Absatz)
= const
Dr. Paul Marx
Folie 142
137. Linearität in Parametern: Log-Lin-Modell
In manchen Fällen kann auch die exponentielle Modellierung die Daten gut erklären
y i e 0 1 x
yi e 0 e 1 x
ln( yi ) ln( e 0 ) ln( e 1 x )
1 >0
ln( yi ) 0 1 x
Log-Lineares Regressionsmodell
yi 0 1 x
Semielastizität = relative Veränderung im Regressand / absolute Veränderung im Regressor
Dr. Paul Marx
Folie 144
138. Linearität: Inverses Modell a.k.a. Hyperbolisches Modell
Linear in Parametern
Nicht linear in Variablen
Ersetzen 1/x durch x‘
yi 0 1 xi
(lineares Regressionsmodell)
1
ˆ
y i 0 1
x
Wichtige Eigenschaft:
Bei x ∞
1(1/x) 0,
y 0
d.h. y hat eine Asymptote
Dr. Paul Marx
Folie 145
139. Inverses Modell: Asymptote
ˆ
y i 0 1
y
1 >0
0 >0
y
1
x
1 >0
0 <0
1 <0
0 >0
y
0
0
0
x
0
0
Dr. Paul Marx
x
0
1
x
0
Folie 146
140. Inverses Modell: Beispiel
Sterberate von Kindern (CM) und Pro-Kopf-BIP (PGNP) von 64 Ländern in 1980
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
CM
128
204
202
197
96
209
170
240
241
55
75
1219
24
165
94
96
148
98
161
118
269
189
126
12
167
135
107
72
128
27
152
224
PGNP
1870
130
310
570
2050
200
670
300
120
290
1180
900
1730
1150
1160
1270
580
660
420
1080
290
270
560
4240
240
430
3020
1420
420
19830
420
530
Nr.
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
CM
142
104
287
41
312
77
142
262
215
246
191
182
37
103
67
143
83
223
240
312
12
52
79
61
168
28
121
115
186
47
178
142
Dr. Paul Marx
PGNP
8640
350
230
1620
190
2090
900
230
140
330
1010
300
1730
780
1300
930
690
200
450
280
4430
270
1340
670
410
4370
1310
1470
300
3630
220
560
Man würde erwarten, dass beim
steigenden Pro-Kopf-BIP die
Sterberate sinken würde, weil
Menschen mehr Geld für
Gesundheit haben.
Das ist aber nicht der Fall.
Zunächst sinkt die Sterberate
drastisch. Dann aber wird die
Senkung stark gedämpft.
Bei PGNP ∞ konvergiert CM
zum Wert von ungefähr 82
Folie 147
142. Log-Hyperbolisches Modell
Log-Hyperbolisches a.k.a. logarithmisch-inverses a.k.a. S-Förmiges Modell
ye
0 1
1
x
oder
ln( y ) 0 1
1
x
Zunächst erhöht sich y mit steigender
Wachstumsrate (konvexer Verlauf,
Steigungskoeffizient > 1).
Dann sinkt die Wachstumsrate (konkaver
Verlauf, Steigungskoeffizient zwischen 0 und
1).
Solchen Verlauf haben wir in der letzten Stunde am Beispiel von Abhängigkeit vom Absatz von
Werbungsausgaben beobachtet
Dr. Paul Marx
Folie 149
143. ÜBUNGSAUFGABE
SPSS Datensatz: Absatz von Rosen (1995-1999)
Y
Jahr
1995
1996
1997
1998
1999
Quartal
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
x1
x2
Anzahl von
Durchschnittspreis Durchschnittspreis
verkauften Rosen,
für Dutzend
füt Dutzend
Dutzend
Rosen, $
Nelken, $
11.484
9.348
8.429
10.079
9.240
8.862
6.216
8.253
8.038
7.476
5.911
7.950
6.134
5.868
3.160
5.872
2,26
2,54
3,07
2,91
2,73
2,77
3,59
3,23
2,60
2,89
3,77
3,64
2,82
2,96
4,24
3,69
Dr. Paul Marx
3,49
2,85
4,06
3,64
3,21
3,66
3,76
3,49
3,13
3,20
3,65
3,60
2,94
3,12
3,58
3,53
x3
Durchschnittlich
Trend
verfügbares
wöchentliches
Familieneinkommen,
$
158,11
173,36
165,26
172,92
178,46
198,62
186,28
188,98
180,49
183,33
181,87
185,00
184,00
188,20
175,00
188,00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Folie 150
144. HAUSAUFGABE
Für gegebenen Datensatz
Betrachten Sie folgende Absatzfunktionen:
yt 0 1 x1t 2 x2t 3 x3t ut
ln( yt ) 0 1 ln( x1t ) 2 ln( x2t ) 3 ln( x3t ) ut
1.
2.
3.
4.
5.
Schätzen Sie die Parameter des linearen Modells und interpretieren Sie die Ergebnisse
Schätzen Sie die Parameter des Log-linearen Modells und interpretieren Sie die Ergebnisse
Parameter 1, 2 und 3 zeigen entsprechend Eigenpreis-, Kreuz-Preis- und
Einkommenselastizität an. Welches Vorzeichen haben sie a-priori? Widersprechen
die Berechnungsergebnisse Ihren Erwartungen?
Welches der beiden Modelle würden Sie auf der Basis Ihrer Analyse wählen? Begründen Sie
Ihre Antwort!
Wie kann man die Eigenpreis-, Kreuz-Preis- und Einkommenselastizität für das
lineare Modell berechnen?
Dr. Paul Marx
Folie 151
145. Annahmen des linearen Regressionsmodells (LRM)
1.
Variabilität in xi
–
2.
!
xi müssen variieren: Var(xi) > 0
Linearität
–
–
in Variablen
in Parametern
3. Metrisches Niveau der Regressoren
4.
Korrekte Spezifizierung vom Modell
–
5.
Stichprobe ist größer, als die Anzahl der Regressoren
–
6.
7.
Keine Korrelation zwischen den erklärenden Variablen und der Störgröße
Homoscedastizität
–
9.
Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)
Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–
8.
Modell enthält die relevanten erklärenden Variablen
Störgrößen haben eine konstante Varianz
Keine Autokorrelation
–
Störgrößen sind unkorelliert
10. Keine Multikolinearität
–
Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit
11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx
Folie 152
146. Annahmen des LRM: Metrisches Niveau der Regressoren
Die abhängige Variable in den Regressionsmodellen werden nicht nur von metrisch
skalierten Variablen (wie z.B. Einkommen, Output, Preis, Kosten, Alter, Höhe, Temperatur)
beeinflusst. Oft ist die Analyse der Abhängigkeiten von Variablen qualitativer Natur
interessant (z.B. Geschlecht, Region, Nationalität, Ausbildung, politische Ansichten, usw.).
Nominale Variablen = Indikatoren = Kategorien = Qualitative Variablen
Unabhängig von der Ursache, üben solche Faktoren offensichtlich eine Wirkung auf die
abhängige Variable aus und sollten daher in die Regressionsanalyse eingeschlossen werden.
Dr. Paul Marx
Folie 153
147. Dummy Variablen
Dummy Variablen sind nominale Variablen mit zwei Ausprägungen, die zeigen, ob ein
Merkmal vorhanden ist, oder nicht.
Dummy Variablen per se sind ein Instrument zur Klassifizierung von Daten in exklusive
Kategorien, wie „männlich“, oder „weiblich“.
–
–
–
schwarz = 1, weiß = 0
männlich = 1, weiblich = 0
betrunken = 1, nicht betrunken = 0
Dummy Variablen können genau wie quantitative Variablen in die Regressionsanalyse
eingeschlossen werden.
Regressionsmodelle, die nur aus Dummy Variablen bestehen, werden als
ANOVA-Modelle (Analysis of Variance) bezeichnet.
Dr. Paul Marx
Folie 154
149. ANOVA: Beispiel
Ziel: Herausfinden, ob sich das durchschnittliche Jahreseinkommen von Schullehrern
zwischen unterschiedlichen Staaten variiert.
Nach einfacher Betrachtung des Datensatzes können wir feststellen:
–
–
–
Norden und Nordost:
Süden:
Westen:
$ 24.424,14
$ 22.894
$ 26.158,62
Unterscheiden sich diese Zahlen auch statistisch voneinander?
Das können wir u.a. mittels ANOVA feststellen:
yi 0 2 D2i 3 D3i ui
Dr. Paul Marx
Folie 156
150. ANOVA-Interpretation
yi 0 2 D2i 3 D3i ui
Durchschnittseinkommen von Schullehrern im zentralen Norden und Nordosten
E(yi | D2i=1, D3i=0) = 0+ 2
Durchschnittseinkommen von Schullehrern in südlichen Staaten
E(yi | D2i=0, D3i=1) = 0+ 3
Durchschnittseinkommen von Schullehrern im Westen
E(yi | D2i=0, D3i=0) = 0
Steigungskoeffizienten 2 und 3 geben an, wie stark sich das Durchschnittseinkommen im
Norden bzw. Süden von dem „westlichen“ Durchschnittseinkommen unterscheidet.
Dr. Paul Marx
Folie 157
151. ANOVA-Interpretation
yi 0 2 D2i 3 D3i ui
yi 26.158,62 1734,47 D2i 3264,62D3i
Durchschnittseinkommen im Westen
beträgt $26.158
0 = $26.158
$24.424 (0 + 2)
Einkommen im Norden ist um $1734
kleiner als das im Westen
Einkommen im Süden ist um $3264
kleiner
$22.894 (0 + 3)
West
Northeast and
North Central
South
WARNUNG: Dummy Variablen zeigen nur die Unterschiede auf (ob sie existieren). Sie
erlauben keine kausale Schlussfolgerungen – zeigen also keine Gründe für diese
Unterschiede auf!
Dr. Paul Marx
Folie 158
152. ANOVA-Interpretation
Unterscheiden sich die errechneten Durchschnittseinkommen von nördlichen und südlichen
Staaten vom westlichen Durchschnittseinkommen statistisch signifikant?
yi 26.158,62 1734,47 D2i 3264,62D3i
Sj =
(1128,523)
(1435,953)
(1499,155)
t
(23,180)
(-1,208)
(-2,178)
(0,000)
(0,233)
(0,034)
=
=
r2 = 0,0901
Dafür schauen wir auf das Signifikanzniveau der jeweiligen Steigungskoeffizienten.
von 2 = 23% Unterschied zwischen Norden und Westen ist nicht signifikant!
Dr. Paul Marx
Folie 159
153. 7 Richtlinien zur Nutzung von Dummy Variablen
Regel 1
Für alle qualitativen Regressoren muss die Anzahl von Dummy Variablen um eins kleiner
sein, als die Anzahl der Kategorien des Regressoren.
Wenn die qualitative Variable m Kategorien hat, dann muss die Anzahl von ins Modell
einzuführenden Dummy Variablen (m-1) sein.
Sonst wird man im sog. dummy variable trap gefangen.
Der Grund hierfür ist die perfekte Multikolinearität zwischen 0 und der Summe aller Di, die
durch das Einführen vom Dm entsteht.
Dr. Paul Marx
Folie 160
154. 7 Richtlinien zur Nutzung von Dummy Variablen
Regel 2
Die Kategorie, für die keine Dummy Variable eingeführt wird, wird als
–
–
–
–
BasisBenchmarkKontrollVergleichs-
-Kategorie
bezeichnet.
in unserem Beispiel war die Kategorie „westliche Staaten“ die Basis-Kategorie
Regel 3
0 zeigt den Mittelwert der Basis-Kategorie an.
in unserem Beispiel betrug 0 26.159. Dieser Wert repräsentiert das Durchschnittsgehalt von Schullehrer in der
Basis-Kategorie – also in den westlichen Staaten
Dr. Paul Marx
Folie 161
155. 7 Richtlinien zur Nutzung von Dummy Variablen
Regel 4
Die Koeffizienten bei Dummy Variablen werden als differentielle Schnittpunkte (differential
intercept coefficients) bezeichnet.
Da sie sagen, um wie viel sich der Wert vom Schnittpunkt verändert, wenn die Dummy
Variable den Wert 1 einnimmt.
Der Wert von ungefähr -1734 sagt uns, dass das Durchschnittsgehalt von Schullehrer im Norden von USA kleiner
ist als das Durchschnittsgehalt von westlichen Lehrer um $1734
Regel 5
Die Auswahl von Basis-Kategorie bleibt immer dem Forscher überlassen (wenn die
qualitative Variable mehr als eine Kategorie hat). Manchmal wird die Auswahl durch das
betrachtete Problem per se diktiert.
Im betrachteten Beispiel konnten wir auch z.B. die Kategorie „Staaten im Süden von USA“ als Basis-Kategorie
wählen. Das würde nichts an den finalen Schlussfolgerungen verändern. In diesem Fall würde der Schneideterm
ungefähr $24.894 betragen, was dem Durchschnittsgehalt von Schullehrer im Süden von den USA entspricht.
Dr. Paul Marx
Folie 162
156. 7 Richtlinien zur Nutzung von Dummy Variablen
Regel 6
Man kann die dummy variables trap umgehen und für alle Kategorien eine Dummy Variable
erstellen, indem man den Schnittterm aus dem Regressionsmodell ausschließt.
Für unser Beispiel bekommen wir dann folgendes Modell (Regression durch den Ursprung):
yi 1D1i 2 D2i 3 D3i ui
yi 26.158,62 D1i 24.242,14 D2i 22,894 D3i
Die Interpretation von Regressionsparameter ist in diesem Fall:
1 = Durchschnittsgehalt von Schullehrer in westlichen Staaten
2 = Durchschnittsgehalt von Schullehrer in nördlichen und nordöstlichen Staaten
3 = Durchschnittsgehalt von Schullehrer in südlichen Staaten
M.a.W. das Weglassen des freien Gliedes erlaubt die Einführung von Dummy Variablen
entsprechend der Anzahl von Kategorien und somit die direkte Schätzung der Mittelwerte
der jeweiligen Kategorien.
WARNUNG: Das gilt nur für ANOVA
Dr. Paul Marx
Folie 163
157. 7 Richtlinien zur Nutzung von Dummy Variablen
Regel 7
Welche Methode für die Einführung von Dummy Variablen ist besser?
In den meisten Fällen werden sich die Forscher für Modelle mit dem Schnittpunkt
entscheiden, weil es ihnen erlaubt, die Frage einfacher zu untersuchen, ob die
Kategorisierung einen Unterschied ausmacht.
Wenn das der Fall ist, werden die Unterschiede mit den Koeffizienten bei Dummy Variablen
quantifiziert.
Ob die Kategorisierung relevant bzw. sinnvoll ist, kann mittels t-Tests der Koeffizienten bei
Dummy Variablen gegen 0 geprüft werden. (Oder generell mittels F-Tests am gesamten Set
entsprechender Dummy Variablen)
Dr. Paul Marx
Folie 164
158. ANOVA mit zwei qualitativen Variablen
Beispiel:
Stundenlohn in Abhängigkeit von Familienstatus und Region
11,8148
S j =
(0,4015)
(0,4642)
(0,4854)
t
=
(21,2528)
(2,3688)
(-3,4462)
=
mit
yi
D2
D3
+ 1,0997 D2i
– 1,6729 D3i
yi =
(0,0000)
(0,0182)
(0,0006)
r2 = 0,0322
Sind die Unterschiede
statistisch signifikant?
= Stundenlohn, €
= Familienstatus, 1= verheiratet, 0 = sonst
= Region, 1= Süden, 0 = sonst
Dr. Paul Marx
Folie 165
159. ANOVA mit zwei qualitativen Variablen: Interpretation
yi = 11,8148 + 1,0997 D2i – 1,6729 D3i
Basis-Kategorie: ledig, Wohnort nicht im Süden
Gruppe
Durchschnittsgehalt,
Berechnung
Durchschnittsgehalt, $
Ledige
0
11,81
Verheiratete
0 + 2
12,91
(11,81 + 1,10 )
Wohnort im Süden
0 + 3
10,14
(11,81 – 1,67 )
Verheiratete im Süden
0 + 2 + 3
11, 24
(11,81 + 1,10 – 1,67)
D2 = Familienstatus,
1= verheiratet, 0 = sonst
D3= Region,
1= Süden, 0 = sonst
Dr. Paul Marx
Folie 166
160. Regression mit Mischung aus quantitativen und
qualitativen Variablen: ANCOVA-Modelle
ANOVA-Modelle eignen sich für die Analyse der Unterschiede in den Mittelwerten
unterschiedlicher Gruppen. Diese Modelle bestehen nur aus qualitativen Variablen.
In den meisten Fällen üben aber nicht nur Gruppenzugehörigkeit, sondern auch ein oder
mehrere quantitative Variablen Einfluss auf die abhängige Variable aus.
Regressionsmodelle, die sowohl quantitative, als auch qualitative Variablen enthalten
werden ANCOVA-Modelle genannt.
•
ANCOVA = Analysis of Covariance
ANCOVA erweitert ANOVA um die Methode der statistischen Kontrolle von Effekten
quantitativer Variablen (Kovariate = Kontrollvariablen).
Dr. Paul Marx
Folie 167
162. ANCOVA: Beispiel
Hypothese: Das Durchschnittsgehalt von Schullehrern müsste zwischen drei Regionen nicht
variieren, wenn zusätzliche Variablen herangezogen werden, die nicht über diese Regionen
standardisiert werden können. M.a.W. der von uns festgestellte Unterschied zwischen drei
Regionen ist eigentlich auf andere Faktoren zurückzuführen – nicht auf den Wohnort von
Lehrern.
Z.B. kann das Gehalt von der Höhe der Ausgaben für Ausbildung im konkreten Staat
abhängen.
Um das zu testen, entwickeln wir folgendes Modell:
yi 0 2 D2i 3 D3i 4 xi ui
mit
xi = durchschnittliche staatliche Ausgaben pro Schüler ($)
Dr. Paul Marx
Folie 169
163. ANCOVA: Interpretation
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Standardfe
hler
13269,114
,318
Nothern region
-1673,514
South region
-1144,157
Beta
Spending on publich
school per pupil
r2 = 0,723
T
1395,056
3,289
Standardisiert
e
Koeffizienten
Signifikanz
9,512
,000
,830
10,354
,000
801,170
-,199
-2,089
,042
861,118
-,130
-1,329
,190
a Abhängige Variable: Teacher's salary
yi 13.269,11 1673,514D2i 1144,157 D3i 3,289 xi
Bei Erhöhung der staatlichen Ausgaben um $1 ceteris paribus steigt das Gehalt der Lehrer
um $3,29
Im Vergleich zu dem Modell ohne Kovariaten ist der Unterschied zwischen Norden und
Westen nun signifikant geworden, im Gegensatz zum Unterschied zwischen Süden und
Westen.
Dr. Paul Marx
Folie 170
164. ANCOVA: Interpretation
yi 13.269,11 1673,514D2i 1144,157 D3i 3,289 xi
y
Alle drei geraden sind parallel
(Warum?)
3,29
13,269
1
12,125
1
11,595
Nicht
uterscheidbar
1
3,29
Zwei Regressionsgeraden
(für Westen und Süden)
sind statistisch nicht von einander
unterscheidbar und stellen –
statistisch gesehen –
dieselbe Gerade dar
Dr. Paul Marx
3,29
x
Folie 171
165. Interaktionseffekte mit Dummy Variablen: Prolog
Beispiel:
Durchschnittlicher Stundenlohn in Relation zu Ausbildung, Geschlecht und Hautfarbe
yi 0 2 D2i 3 D3i xi ui
mit
yi
xi
D2
D3
: Stundenlohn, $
: Ausbildung (Jahre, inkl. Schule)
: Geschlecht, 1= weiblich, 0 = männlich
: Hautfarbe, 1 = nicht weiß , 0 = weiß
Dr. Paul Marx
Folie 172
166. Interaktionseffekte mit Dummy Variablen
yi 0 2 D2i 3 D3i xi ui
Annahmen dieses Models:
–
Der Differenzierte Effekt von D2 ist konstant über die beiden Kategorien der Hautfarbe
Wenn der Durchschnittslohn von Männern höher als der von Frauen ist, dann hängt dieser Unterschied nicht
von der Hautfarbe ab.
–
Der Differenzierte Effekt von D3 ist konstant über die beiden Kategorien des Geschlechts
Wenn nicht weiße weniger verdienen, dann gilt das sowohl für Männer als auch für Frauen.
In manchen Fällen sind solche Annahmen untauglich
–
–
–
Es ist möglich, dass der Lohnunterschied zwischen Mann und Frau in verschiedenen
Hautfarbenkategorien unterschiedlich ist. Z.B. der Unterschied im Stundenlohn unter Schwarzen
kann größer sein, als unter Weißen.
M.a.W. es kann eine Interaktion zwischen den qualitativen Variablen D2 und D3 geben.
Der Effekt solcher Interaktionen ist nicht einfach additiv, sondern eher multiplikativ:
yi 0 2 D2i 3 D3i 4 D2i D3i xi ui
Dr. Paul Marx
Folie 173
167. Interaktionseffekt
–
–
–
Bezeichnet Wechselwirkungen zwischen zwei oder mehreren Merkmalen
ein gemeinsamer Effekt zweier Variablen auf die untersuchte abhängige Variable.
Ein Interaktionseffekt bezieht sich darauf, dass die Wirkung einer Variablen mit den Ausprägungen
der anderen Variablen variiert.
Der Tendenz nach führt ceteris paribus in den meisten (modernen) Gesellschaften die Geburt eines Kindes zur
Verringerung des Umfangs der Erwerbstätigkeit von Frauen, während bei den Männern keine oder sogar eine
gegenläufige Wirkung (Steigerung des Umfangs der Erwerbstätigkeit) festzustellen ist.
Kunden, die sich schon einmal beschwert haben, äußern häufig eine vergleichsweise große Unzufriedenheit, als
Kunden, die sich nicht beschwert haben. Es liegt also ein Interaktionseffekt zwischen dem Vorliegen einer
Beschwerde und der Kundenzufriedenheit vor.
Dr. Paul Marx
Folie 174
168. Interaktionseffekte mit Dummy Variablen
yi 0 2 D2i 3 D3i 4 D2i D3i xi ui
Durchschnittlicher Stundenlohn von farbigen Frauen
E(yi | D2i=1, D3i=1) = (0 + 2 + 3 + 4)+ xi
mit
2 : differenzierter Effekt von „Frausein“
3 : differenzierter Effekt von Nicht-Weiß-Sein
4 : differenzierter Effekt von Farbige-Frau-Sein
Letzterer zeigt, dass der durchschnittliche Stundenlohn von nicht-weißen Frauen sich (um
4) von den durchschnittlichen Stundenlöhnen von Frauen oder Nicht-Weißen
unterscheidet.
–
Z.B. wenn alle drei differenzierte Effekte negativ sind, dann verdienen schwarze Arbeiterinnen
wesentlich weniger, als generell Frauen oder generell Nicht-Weiße im Vergleich zu Basis-Kategorie
(weiße Männer).
Dr. Paul Marx
Folie 175
169. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel
Ohne Interaktionseffekt:
yi 0,2610 2,3606 D2i 1,7327 D3i 0,8028 xi
Signifikanz
(0,0561)
(0,0233)
(0,034)
(0,0417)
Ceteris paribus
–
–
Durchschnittlicher Stundenlohn von Frauen ist um $2,36 kleiner
Durchschnittlicher Stundenlohn von nicht weißen ist um $1,73 kleiner
Männer
Frauen
--
-2,36
-1,73
-4,09
Weiß
Nicht weiß
Dr. Paul Marx
Folie 176
170. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel
Mit Interaktionseffekt:
yi 0,2610 2,3606D2i 1,7327 D3i 2,1289D2i D3i 0,8028xi
Sig.
(0,0561)
(0,0233)
(0,034)
(0,0876)
(0,0417)
Bei gleicher Ausbildung:
(2 + 3 + 4) = – 2,3606 – 1,7327 + 2,1289 = –1,964
–
Durchschnittlicher Stundenlohn von nicht weißen Arbeiterinnen ist kleiner um $1,96 als der
Stundenlohn von weißen Männern.
Männer
Frauen
--
-2,36
-1,73
-1,96
Weiß
Nicht weiß
Dr. Paul Marx
Folie 177
171. Stückweise Regression (piecewise linear regression)
Trendänderung, Strukturbrüche
Provision
–
Z.B. bei Änderung der wirtschaftlichen Verhältnisse und besonderen Ereignissen in der
Zeitreihenanalyse
Z.B. Strukturänderung in (Mitarbeiter-) Belohnung
Benzinpreis
–
X* Einführung der
Benzinsteuer
Zeit
Dr. Paul Marx
X* Absatzziel
Verkaufsmenge
Folie 178
172. Steigungskoeffizient der Regressionsgerade
ändert sich im Punkt X*
Provision
Stückweise Regression
Regressionsmodell:
1+2
yi 0 1 xi 2 ( xi X ) Di ui
*
1
1
mit
yi : Provision, €
xi : vom Verkäufer generierte Verkaufsmenge
X* : Schwellenwert, Absatzziel
1
X* Absatzziel
Verkaufsmenge
1, wenn xi X *
D
*
0, wenn xi X
Dr. Paul Marx
Folie 179
173. yi 0 1 xi 2 ( xi X * ) Di ui
Provision
Stückweise Regression
1+2
Provision unter dem Absatzziel
E(yi | Di=0, xi, X*) = 0+ 1 xi
1
1
Provision über dem Absatzziel
E(yi | Di=1, xi, X*) = 0 – 2X* + (1 + 2) xi
Dr. Paul Marx
1
X*
Absatzziel
Verkaufsmenge
Folie 180
174. Stückweise Regression: Beispiel
Hypothetischer Datensatz Kosten/Output
Annahme: Steigung der Kostenfunktion kann
sich ab dem Output-Niveau von 5.500 Einheiten
verändern
Total cost, $
Output, units
256
414
634
778
1.003
1.839
2.081
2.423
2.734
2.914
1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
9.000
10.000
Modell:
yi 0 1 xi 2 ( xi X * ) Di ui
Dr. Paul Marx
Folie 181
175. Stückweise Regression: Beispiel
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1
Standardfe
hler
B
(Konstante)
-145,717
,046
,095
xi-x* D
Beta
,083
r2 = 0,974
T
176,734
,279
Output, units
Standardisiert
e
Koeffizienten
Signifikanz
-,824
,437
,842
6,067
,001
,159
1,145
,290
a Abhängige Variable: Total cost, $
yi 145,717 0,279 xi 0,095( xi X * ) Di ui
Grenzkosten unter dem Schwellenwert: 1 = 0,279
Grenzkosten über dem Schwellenwert: (1 + 2) = 0,279 + 0,095 = 0,374
Dr. Paul Marx
Folie 182