Regressionanalyse

Basic Econometrics:

Regressionsanalyse

Dr. Paul Marx
www.eQuestionnaire.de

Dr. Paul Marx

Folie 1

Grundlegende Literatur zur Veranstaltung



Backhaus, Klaus, Bernd Erichson, Wulff Plinke und Rolf Weiber: Multivariate
Analysemethoden: Eine anwendungsorientierte Einführung, ab 9. Auflage
Berlin: Springer



Gujarati, Damodar N. (2003): Basic Econometrics, International Edition, 4.
Auflage, New-York: McGraw-Hill Education



Auer, Ludwig (2007): Oekonometrie, 4. Aufl., Springer



www.wikipedia.de, en.wikipedia.org, www.google.de 

Dr. Paul Marx

Folie 2

Inhalte der Veranstaltung
1.

Einführung in das Fach Ökonometrie

2.

Einfache Regressionsanalyse

3.

Multiple Regressionsanalyse

4.

Regression durch den Ursprung

5.

Annahmen des Linearen Regressionsmodells

6.

Relaxation von Annahmen des klassischen Regressionsmodells

7.

…

Dr. Paul Marx

Folie 3

Abschnitt 1

EINFÜHRUNG

Dr. Paul Marx

Folie 4

Begriff der Ökonometrie

 Ökonometrie

= oikonomia (gr. Wirtschaft) + metron (gr. Messung)
= Messen wirtschaftlicher Phänomene

 Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, welches die
ökonomische Theorie sowie mathematische Methoden und statistische Daten
zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und
ökonomische Phänomene quantitativ zu analysieren.
 (bzw. ökonomische Zusammenhänge zu quantifizieren)

Dr. Paul Marx

Folie 5

Entstehen der Ökonometrie
 XVII Jh: Erste Versuche der quantitativen Forschung in der ökonomischen
Theorie (politische Arithmetik). Nutzung von ökonomischen Daten zur
Berechnung vom „Nationalen Einkommen“ und Suche nach ökonomischen
Gesetzmäßigkeiten (analog zu physischen, astronomischen und anderen
naturwissenschaftlichen Gesetzten
William Petty, Charles d’Avenant, Henry King
W. Petty (1623-1687)

 Erfindung der Korrelation: Untersuchung der Beziehungen zwischen der
Heiratsrate und dem Wohlstand (unter Verwendung mehrerer
Wohlstandsindikatoren); Entwicklung verschiedener Hilfsmaßnahmen für
unterschiedliche Armutsniveaus; Erforschung von Zeitreihen für
ökonomische Variablen
Francis Galton, Karl Pearson, Francis Ysidro Edgeworth, H. Hooker
K. Pearson (1857-1936)

 1830er: Insuffizienz der neoklassischen Theorie für die Lösung von
Problemen der sinkenden Geschäftsaktivitäten und Massenarbeitslosigkeit. Eine ök. Theorie kann nur dann überzeugend sein, wenn
sie die ök. Phänomene erklärt. Praktische Anwendung solcher Theorien
erfordert Quantifizierung von grundlegenden ökonomischen Größen.

F. Edgeworth (1845-1926)

Dr. Paul Marx

Folie 7

Entstehen der Ökonometrie

H.L. Moore (1869-1958)

N. D. Kondratiev (1892-1938)

 1911: Erste ökonometrische Arbeit. H. Moore „Laws of Wages: An essay
in statistical economics“ mit der Analyse vom Arbeitsmarkt, statistischer
Überprüfung von Clark‘s Produktivitätstheorie und Entwicklung der
Grundlagen für die Strategien zur Vereinigung vom Proletariat. Er zeigt
Möglichkeiten zur Ausarbeitung der sozialen Politik mit Hilfe
mathematischer Berechnungen Grundlagen basierend auf faktischen
Daten. R. Benini wendet zum ersten Mal die multiple Regressionsanalyse
an für Schätzung der Nachfragefunktion.
 Erforschung von ökonomischen Zyklen: 7-11 jährige Investitionszyklen, 35 j. Liquiditätszyklen, 15-20 j. Zyklen in der Bauwirtschaft, 45-60 j.
Konjunkturzyklen („Kondratiev waves“)
 Theorie der ökonomischen Barometer insb. auf dem Fonds- und
Geldmärkten. Analyse von Trends, Saisonalität, Kursschwankungen usw.
Anwendung der Astronomischen, Meteorologischen und Physischen
Methoden (z.B. Harmonische Analyse) bei ökonomischer Modellierung.

W. C. Mitchell (1874-1948)

Dr. Paul Marx

Folie 8

Historische Entwicklung der Ökonometrie

I. Fischer (1867-1947)

R. A. K. Frisch (1895-1973)

Jan Tinbergen (1903 - 1994)

 1930: Gründung von „The Econometric Society, an International Society
for the Advancement of Economic Theory in its Relation with Statistics
and Mathematics“unter Vorsitz von I. Fischer.
 1933: Gründung von „Journal of Econometrics“ durch R. Frisch.
 1941: Erstes Lehrbuch in Ökonometrie von Jan Tinbergen (später
Nobelpreisträger für Entwicklung und Anwendung von dynamischen
Modellen zur Analyse von ökonomischen Prozessen, zusammen mit
Frisch)
 1970er: Ökonometrie = empirische Beurteilung und Unterstützung von
Modellen der ökonomischen Theorie. „Statistische Daten beschützen die
Theorie vom Dogmatismus“.
- ARIMA-Modell von Box-Jenkins (Zeitreihenanalyse)
- Nobelpreis für Klein‘s Schwankungsmodelle der Ökonomie und
ökonomischer Politik
 1980: Gründung des Projekts „LINK“ mit dem Ziel, statistische Modelle
aller Länder zu einem System zusammenzuführen, um internationale
ökonomische Zusammenhänge und Welthandel besser verstehen und
prognostizieren zu können.

Dr. Paul Marx

Folie 9

Ökonometrie heute
 Verständnis, dass ohne ökonometrische
Methoden keine moderne Makro- und
Mikroökonomische Analyse möglich ist.

 Ökonometrie wird als eigenständige Disziplin
in führenden Universitäten der Welt
unterrichtet.

Ökonometrische Zeitschriften









Journal of Econometrics (Schweiz)
Econometric Reviews (USA)
Econometrica (USA)
Sankhya. Indian Journal of Statistics
Ser.D. Quantitative Economics (Indien)
Publications Econometriques (Frankreich)
Quantile (Russland)
Applied Econometrics (Russland)

Dr. Paul Marx

Nobelpreise für Entwicklungen im
Fach Ökonometrische
 1980 Lawrence Klein Entwicklung
ökonometrischer Modelle und deren
Anwendung zur Analyse von
Wirtschaftsentwicklungen und von
wirtschaftspolitischen Maßnahmen
 1989 Trygve Haavelmo:
wahrscheinlichkeitstheoretische Fundierung der
Ökonometrie und die Analyse simultaner
ökonomischer Strukturen
 2000 James Heckman und Daniel
McFadden: mikroökonometrische Forschungen
im Bereich der Selektion und der Analyse
diskreter Entscheidungen.
 2003 Robert Engle und Clive
Granger: Ergebnisse im Bereich
der Zeitreihenanalyse.

Folie 10

Ökonometrie als eine eigenständige Disziplin
 Ökonomische Theorie:
–
–

hauptsächlich Postulate und Hypothesen qualitativer Natur
ÖM liefert empirischen Inhalt für Theorien

 Mathematische Ökonomie:
–
–

Ausdrück ökonomischer Theorie in mathematischer Form, ohne Bezug auf Messbarkeit oder
Überprüfung der Theorie.
ÖM überprüft die Formeln

 Ökonomische Statistik:
–
–

Akkumuliert, analysiert und präsentiert die Daten aus der Wirtschaft (z.B. BIP, ALO, usw.)
ÖM überprüft mit Hilfe dieser Daten ökonomische Theorien

 Mathematische Statistik:
–
–

Arbeitet Instrumente und Methoden z.B. für den Vertrieb aus. Die Daten werden den Resultaten
von kontrollierten Experimenten entnommen
ÖM wendet diese Methoden auf nicht kontrollierte – also reale – Daten an.

Dr. Paul Marx

Folie 11

Methoden der Ökonometrie

 Regressionsanalyse
– Feststellung von kausalen Zusammenhängen und Analyse von Beziehungen zwischen
einer abhängigen und einer oder mehreren unabhängigen Variablen (Spezialfall eines
Strukturgleichungsmodells)

 Zeitreihenanalyse
– Mathematisch-statistische Analyse von Zeitreihen und Vorhersage (Trends) ihrer
zukünftigen Entwicklung, Erkennung von Veränderungen in Zeitreihen (serielle bzw.
saisonale Komponenten)

 Paneldatenanalyse
– Wie entwickeln sich die Merkmale im Zeitablauf unter Berücksichtigung von
Unterschiedlichkeiten der Individuen?
– Kohorten-, Perioden- , und Alterseffekte

Dr. Paul Marx

Folie 12

Einige Beispiele aus der Wirtschaft und wissenschaftlicher Praxis

PRAKTISCHE RELEVANZ DER
REGRESSIONSANALYSE
Dr. Paul Marx

Folie 14

Relevanz der Regressionsanalyse für die Praxis

 Ursachenanalyse
–
–

Gibt es einen Zusammenhang zwischen [ökonomischen] Größen (a.k.a. Variablen)?
Wie Stark ist der Einfluss einzelner unabhängigen Variablen auf die anhängige Variable?

 (Wirkungs-) Prognosen
–
–
–

Wie verändert sich die abhängige Variable bei einer Änderung in der unabhängigen Variable?
Wie verändert sich die anhängige Variable im Zeitablauf und damit c.p. in der Zukunft?
Schätzung des Wertes der abhängigen Variable bei gegebenen Input-Daten.

Dr. Paul Marx

Folie 15

Beispiele von Anwendungsfeldern für
Regressionsanalyse












Banken – Feststellung von Kreditwürdigkeit von Kunden
Versicherung – Berechnung der Höhe von Versicherungsprämie
Rentenversicherung – Bestimmung des Rentenversicherungsanteils am Bruttolohn
Transport, Beförderung – Berechnung von günstigsten Routen
Logistik, Lagerwirtschaft – Planung vom Datum und Lieferumfang so, dass die Lagerhallen
optimal besetzt und Mietkosten möglichst gering sind.
Retailing – verkaufszahlenoptimale Aufstellung der Produkte im Regal
Werbung – Auswahl der Werbekanäle mit maximaler Werbewirkung und minimalen
Werbekosten
Medizin – Vergleich der Effektivität unterschieldicher Medikamente, Auffinden von
Nebenwirkungen (Biometrie, Biostatistik)
Filmindustrie – Bestimmung der Erfolgsfaktoren von Spielfilme, Bestimmung des optimalen
Zeitfensters zwischen Kinostart und DVD-Verkauf, Bestimmung vom Schadensumfang durch
Piraterie
Usw.

Dr. Paul Marx

Folie 16

Wovon hängt Verkaufsmenge eines Produktes ab?

Produktpreis

0,034

Werbeausgaben

0,794

0,325
Intensität der
Betreuung durch
Merchandiser

Verkaufsmenge
am PoS
(Lebensmittel)

Loyalität der
Verkäufer

Dr. Paul Marx

Folie 17

Wovon hängt Verkaufsmenge eines Produktes ab?

Produktpreis
0,034
Werbeausgaben
0,313
0,395
Loyalität der
Verkäufer

0,457

Verkaufsmenge
am PoS
(Lebensmittel)

0,196

0,605

Intensität der
Betreuung durch
Merchandiser

Dr. Paul Marx

Folie 18

Erfolgsfaktoren deutschsprachiger Filme in den US-Kinos
Thematik

Genre

(II Weltkrieg, DDR, Liebe,
True Story,
Homosexualität, Familie,
Jüdisch, Musik, Andere)

(Komödie, Drama, Doku,
Thriller, Action)

Produktionsfirma

0,354
Verleiher
Hauptdarsteller
0,194
Drehort

USEinspielergebnis

Kritiken
(Anzahl, Bewertung)

0,350

Previews

Startort

0,347

0,227
0,118

Start-Weekend
Box-Office

Altersfreigabe

Laufzeit in
Deutschland

Dr. Paul Marx

Pre-Release-Awards

Festivals

Folie 20

Abschnitt 2

EINFACHE LINEARE REGRESSION

Dr. Paul Marx

Folie 21

Methodologie der Ökonometrie und die

GRUNDZÜGE DER
REGRESSIONSANALYSE
Dr. Paul Marx

Folie 22

Ziel der Regressionsanalyse

 Regressionsanalyse ist ein statistisches Analyseverfahren.
Ziel der Regressionsanalyse ist es, Beziehungen zwischen einer abhängigen und einer oder
mehreren unabhängigen Variablen festzustellen und zu quantifizieren
Grundlage: empirische Daten (z.B. aus Befragungen oder Beobachtungen)

Dr. Paul Marx

Folie 23

Methodologie von Ökonometrie

1. Formulierung einer Theorie oder Hypothese
2.
3.
4.
5.
6.
7.
8.

Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 24

Formulierung von Hypothesen

 Zunächst keine methodenanalytische Fragestellungen
 Vorabüberlegungen des Forschers
–
–
–

Ausschließlich fachliche Gesichtspunkte evtl. Erfahrungen
Abgrenzung des Untersuchungszieles und -gegenstands
Formulierung von logischen Zusammenhängen

Z.B. Absatzmenge eines Monopolisten steht in einer inversen Relation zum Preis

 Wahl des Untersuchungsansatzes, der vermutete Ursache-Wirkungs-Beziehungen möglichst
vollständig enthält.

Dr. Paul Marx

Folie 25


1.

Formulierung einer Theorie oder Hypothese

2. Spezifizierung eines mathematischen Modells der Theorie
3.
4.
5.
6.
7.
8.

Datenerhebung
Test von Hypothesen

Dr. Paul Marx

Folie 26

Spezifizierung des mathematischen Modells

Preis

p  ax b

p = abhängige Variable
x = unabhängige Variable

a

a

1

Y
P reis

X Menge

b
Menge (x)

Dr. Paul Marx

Folie 27

Spezifizierung des mathematischen Modells

p  ax b
Preis

mit a<0 und b>0

b

a

a

Y
X

1

Menge (x)

exakte (!) Beziehung zwischen Variablen

Dr. Paul Marx

Folie 28


1.
2.


3. Spezifizierung des statistischen oder ökonometrischen Modells
4.
5.
6.
7.
8.

Datenerhebung
Test von Hypothesen

Dr. Paul Marx

Folie 29

Spezifizierung des ökonometrischen Modells

ˆ
yi   0  1  xi  ui

ui

= Fehlerterm
= zufällige Variable
= stochastische Variable

Preis

mit

In der Realität ist die Beziehung
zwischen (ökonomischen) Größen fast
nie exakt

u

u

Warum?

Menge

Dr. Paul Marx

• Weitere nicht beobachtete Variablen?
• Fehlerbehaftete, ungenaue Messung?
• Theorie stimmt nur ungefähr?
• Einfluss zufälliger Größen?
•…

Folie 30

Spezifizierung des ökonometrischen Modells

Preis

 Fehlerterm = Residualgröße = Residuum = nicht erklärte Abweichung des
Beobachtungswertes vom entsprechenden Schätzwert

ˆ
yi   0  1  xi  ui
u3

ˆ
ui  yi  yi

y3

ˆ
y3
x3

Menge

Dr. Paul Marx

Folie 31


1.
2.
3.


4. Datenerhebung
5.
6.
7.
8.

Test von Hypothesen

Dr. Paul Marx

Folie 32

Datenerhebung
Preis, €

10

–
–
–
–
–
–

15

33

Umsatzstatistiken
Schriftwechsel mit Kunden
Preislisten
Daten statistischer Ämter
Geschäftsberichte
Usw.

24

30

6

39

45

19

23

 Sekundäre Daten
= desk research
= Bereits vorhandene Statistiken

28

18

Beobachtung
Befragung
Experiment
Preis (y)

–
–
–

26

16

 Primäre Daten
= direkte Untersuchung

Absatz, Stk.

8

40
35
30
25
20
15
10
5
0
0

Dr. Paul Marx

5

10

15

20

25

30

35

40
Menge (x)

Folie 33


1.
2.
3.
4.

Datenerhebung

5. Schätzung der Parameter des ökonometrischen Modells
6.
7.
8.

Test von Hypothesen

Dr. Paul Marx

Folie 34


 Gesucht wird die Gerade, die y in Abhängigkeit von x möglichst genau bestimmt
 Diese Gerade ist oft nach Augenmaß gut festlegbar
 Für die rechnerische Bestimmung stellt sich die Frage, nach welchem Kriterium die Gerade
festzulegen ist?

 Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen
Mittelwert lässt sich durch den unterstellten linearen Einfluss der Unabhängigen Variable
erklären und welcher Anteil verbleibt als unerklärte Residuen?

Dr. Paul Marx

Folie 35

ˆ
yi   0  1  xi  ui

45

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5
0
0

5

10

15

20

25

30

35

40

45

je kleiner u,
desto
genauer ^
y

5
0
0

5

10

15

20

25

30

35

40

0

5

10

15

20

25

30

35

40

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5

5

0

0
0

5

10

15

20

25

30

35

40

Dr. Paul Marx

Folie 36

Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
 Gesucht wird die Gerade, für die die Summe der Abstandsquadrate der tatsächlichen Werte
von den durch die Gerade vorausgesagten Werten am geringsten wird, d.h. geringer als für
jede andere Gerade
 Quadrieren, damit sich die positiven und negativen Abweichungen nicht kompensieren
 Zielfunktion lautet also:
N

N

 u  [ y
i 1

2
i

i 1

i

 (  0  1  xi )]2  min

N

ˆ
( yi  yi ) 2  min

i 1

Dr. Paul Marx

Folie 37

 Lösung:

1 

alternative Formel

N ( xi yi )  ( xi )(  yi )
N ( x )  ( xi )
2
i

2

1

[( x  x )( y  y )]

[( x  x ) ]
i

i

2

i

 0  y  1 x
mit

y  Mittelwert geschätzter Funktionswerte
x  Mittelwert unabhängiger Variable
N  Anzahl von Beobachtungen (= I)

Dr. Paul Marx

Folie 39

Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

1 

Preis, €
p
10
16
18
23
30
33
39
169
24,143

Absatz, Stk.
x
26
28
19
24
15
6
8
126
18

N ( xi yi )  ( xi )( yi )
N ( xi2 )  ( xi ) 2



x*y
260
448
342
552
450
198
312
2562

x2
676
784
361
576
225
36
64
2722

7  2562  126 169
 1,057
7  2722  126 2

 0  y  1 x  24,143  (1,057) 18  43,174

Dr. Paul Marx

Folie 40


Preis

ˆ
yi   0  1  xi  ui
 0  43,174
1  1,057

45
40
35
30
25
20
15

y  43,174  1,057  x

10
5
0
0

Dr. Paul Marx

5

10

15

20

25

30

35

40
Menge

Folie 41


1.
2.
3.
4.
5.

Datenerhebung

6. Test von Hypothesen
7.
8.


Dr. Paul Marx

Folie 42

Test von Hypothesen

A theory or hypothesis that is not verifiable by appeal to empirical evidence may not be
admissible as a part of scientific enquiry (Milton Freedman 1953)
Ausgehend davon, dass ein Model eine Approximation von Realität ist, muss ein
zuverlässiges Kriterium entwickelt werden, um die „Güte“ dieser Approximation zu
überprüfen, bzw. um die Theorie oder Hypothese zu bestätigen (oder zu verwerfen).

Preis, €

Absatz, Stk.

Schätzwert

10
16
18
23
30
33
39

26
28
19
24
15
6
8

32
26
24
19
12
9
3

Dr. Paul Marx

Abweichung
(gemessen – geschätzt)
-6
2
-5
5
3
-3
5

War die Schätzung
gut?

Folie 43

Test von Hypothesen: Standardfehler der Schätzung

 Der Standardfehler der Schätzung gibt an, welcher mittlere Fehler bei Verwendung der
Regressionsfunktion zur Schätzung der abhängigen Variable gemacht wird:
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

N

s

u
i 1

2
i

( N  J  1)

yi
10
16
18
23
30
33
39
169
24,14

ˆ
yi
15,69
13,58
23,09
17,81
27,32
36,83
34,72

ˆ
yi  yi ( yi  yi ) 2
ˆ
-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28

32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37

In unserem Beispiel:

s

131,37

(7  1  1)

26,274  5,125

d.h. der wahre p-Wert liegt im Bereich

Bezogen auf den Mittelwert beträgt der durchschnittliche Fehler:

Dr. Paul Marx

ˆ
yi  5,125

5,125 / 24,14 = 0,21 = 21%

Folie 44

Test von Hypothesen

Gründe für die Abweichungen
 Natürliche Variabilität
 Ungenauigkeiten, Messfehler
Nach der Schätzung kann die Gesamt-Abweichung vom Mittelwert (=Varianz) in zwei Teile zerlegt
werden:
 Vom Modell „erklärte“ Abweichung
 „Nicht erklärte“ Abweichung (Restschwankung)

Dr. Paul Marx

Folie 45

Preis (y)

Test von Hypothesen
45

Gesamtabweichung
(vom Mittelwert)

40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 46

Preis (y)

Test von Hypothesen
45

Erklärte Abweichung
40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 47

Preis (y)

Test von Hypothesen
45

Nicht erklärte Abweichung
(Restschwankung)

40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 48

Test von Hypothesen: Bestimmtheitsmaß

=

Gesamtstreuung
N

(y
i 1

i

 y)

2



+

erklärte
Streuung
N

ˆ
(y
i 1

i

 y)

2



nicht erklärte
Streuung
N

(y
i 1

i

ˆ
 yi ) 2

Je höher der Anteil der erklärten Abweichung (bzw. je geringer der Anteil der
Restschwankung) an der Gesamtstreuung um den Mittelwert ist, desto „besser“ lassen sich
die y-Werte mit der Regressionsfunktion schätzen.

Dr. Paul Marx

Folie 49

N

 ( yi  y )

2



i 1

Gesamtstreuung

N

ˆ
 ( yi  y )

2



i 1

=

erklärte
Streuung

N

ˆ
( y i  yi ) 2

i 1

+

nicht erklärte
Streuung

y

ˆ
y

y

Dr. Paul Marx

Folie 50


 Bestimmtheitsmaß:
N

r 
2

( yi  y ) 2
 ˆ



i 1
N

( yi  y ) 2


erklärte Streuung
Gesamtstreuung

0  r2  1

i 1

N

r2  1 

ˆ
(y  y )
i 1
N

i

2

i

( yi  y ) 2


 1 

nicht erklärte Streuung
Gesamtstre uung

i 1

Dr. Paul Marx

Folie 51

Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
N

r2 

yi
10
16
18
23
30
33
39
169
24,14

ˆ
(y

i

 y)2

(y

i

 y)2

i 1
N

i 1

r2  1 

(y
i 1
N

i

(y
i 1

i

15,69
13,58
23,09
17,81
27,32
36,83
34,72

-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28

32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37

yi  y

( yi  y ) 2

ˆ
yi  y

ˆ
( yi  y ) 2

-14,14
-8,14
-6,14
-1,14
5,86
8,86
14,86

200,02
66,31
37,73
1,31
34,31
78,45
220,73
638,86

-8,45
-10,56
-1,05
-6,34
3,18
12,69
10,58

71,42
111,62
1,11
40,16
10,09
161,01
111,83
507,23

In unserem Modell sind


N

ˆ
yi  yi ( yi  yi ) 2
ˆ

ˆ
yi

ˆ
 yi ) 2
 y)

2

507,23
 0,794
638,86

 1 

131,37
 1  0,205  0,795
638,86

Dr. Paul Marx

79,5% der Varianz auf die
erklärende Variable MENGE
und
20,5% auf nicht erfasste
Einflusse zurückzuführen

Folie 52

Test von Hypothesen:
Signifikanz des Zusammenhangs (F-Test)
 Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichprobe
 Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit übertragen
werden?
 Es könnte sein, dass in der Realität die Veränderung der Funktionswerte gar nicht auf die
lineare Veränderung der unabhängigen Modellvariablen zurückzuführen ist.
Der Wert von r2 kann sich aufgrund zufälliger Einflusse ergeben haben.
 Die Frage ist nun, wie signifikant die Abhängigkeit des Regressands von Regressoren ist?
M.a.W. wie (un)wahrscheinlich ist es, dass es keinen Zusammenhang zwischen der
unabhängigen und abhängigen Variablen gibt?
 Die Prüfung von Gültigkeit der Regressionsfunktion als Ganzer: F-Test

Dr. Paul Marx

Folie 53

Test von Hypothesen: F-Test

 Ablauf des F-Tests:
1.

Aufstellen der „Nullhypothese“ (H0):
„Es besteht kein Zusammenhang zwischen der abhängigen und den unabhängigen
Variablen!“
–
–

j= 0, für j [ 0; J ]
Regressionsgleichung ist unbrauchbar

Alternativhypothese (H1): „Der Zusammenhang besteht! r2 ist signifikant von null
verschieden!“
2.

Verlässlichkeit des Testergebnisses (Vertrauenswahrscheinlichkeit) wird vorgegeben
–
–
–

üblicherweise 0,95 oder 0,99
D.h. mit einer Wahrscheinlichkeit von 95% bzw. 99% kann man sich darauf verlassen, dass H0 nicht
zu unrecht abgelehnt wird.
M.a.W. wird H0 abgelehnt, so ist mit 95%- bzw. 99%-igen Wahrscheinlichkeit die H1 richtig.

Dr. Paul Marx

Folie 54

Test von Hypothesen: zwei Fehlerarten

 Die Entscheidung eine Hypothese zu verwerfen, kann fehlerhaft sein
 Es wird zwischen 2 Arten von Fehlern unterschieden:

H0 richtig

H0 falsch

verwerfen

Fehler I Art ()

kein Fehler

akzeptieren

kein Fehler

Fehler II Art

 Fehler I Art () = Signifikanzniveau (1- = Vertrauenswahrscheinlichkeit)


Statement: „Einfluss besteht“; in Wirklichkeit: „kein Einfluss“

 Fehler II Art () = Teststärke


Statement: „kein Einfluss“; in Wirklichkeit: „Einfluss besteht“

 Simultane Minimierung beider Fehlerarten ist unmöglich. Falsche Positives sind „wichtiger“,
da mehr Schaden. Daher wird zunächst  minimiert.

Dr. Paul Marx

Folie 55


3.

Berechnung des empirischen F-Wertes aufgrund von Stichprobendaten bzw. - werte

ˆ
 ( y  y)
Femp 

2

J
ˆ
 ( y  y) 2
N  J 1



r2
J
1 r 2
N  J 1



erklärte Streuung / J
nicht erklärte Streuung / ( N  J  1)

mit
N
= Anzahl der Beobachtungswerte (Fälle)
J
= Anzahl von Regressoren
N – J – 1 = Zahl der Freiheitsgrade der Regression

Femp 

0,79 / 1
 18,809
(1  0,79) / (7  1  1)

Dr. Paul Marx

Folie 56


4.

Vergleich des empirischen F-Wertes (Femp) mit einem theoretischen F-Wert (Ftab) anhand
einer Tabelle
Entscheidungskriterium:
Femp  Ftab  Ho verworfen, es gilt H1

Femp  Ftab  Ho nicht verworfen

Dr. Paul Marx

Folie 57

F-Tabelle: 95% Vertrauenswahrscheinlichkeit (Ausschnitt)

hier

Für unser Beispiel:

f1: J = Zahl der erklärenden Variablen
f2: N-J-1 = Anzahl Freiheitsgrade
(N = Zahl der Beobachtungswerte)

J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 > 6,61  Ho verworfen!

Dr. Paul Marx

Folie 58

F-Tabelle: 99% Vertrauenswahrscheinlichkeit (Ausschnitt)

J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 > 16,26  Ho verworfen!

Dr. Paul Marx

Folie 59

F-Tabelle: 99,9% Vertrauenswahrscheinlichkeit (Ausschnitt)

J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 < 47,04  Ho nicht verworfen!

Dr. Paul Marx

Folie 60


Vertrauenswahrscheinlichkeit
95%
(0,95)

99%
(0,99)

99,9%
(0,999)

H1

H1

H0

0,05

0,01

0,001

Signifikanzniveau
Die geschätzte Funktion

y  43,174  1,057  x
erklärt 79% des Zusammenhangs von y und x
signifikant auf dem Niveau von 0,01.

Dr. Paul Marx

Folie 61

Test von Hypothesen: Gültigkeit von Regressionskoeffizienten
für die Grundgesamtheit (T-Test)
 Die Schätzung der Funktionsparameter basiert auf bekannten Daten
 Wie zuverlässig sind die geschätzten -Werte für Prognosen?

T-Test
 Geprüft wird, ob tatsächlicher -Wert gleich Null ist (Also j=0), d.h.
Ho: „Faktor xj hat in der Grundgesamtheit keinen Einfluss auf y. Der ermittelte Wert von j
gilt nur für die Stichprobe.“
H1: „Der Einfluss vom Faktor xj in der Grundgesamtheit ist signifikant größer Null“

Dr. Paul Marx

Folie 62

Test von Hypothesen: T-Test

 Ähnlich wie beim F-Test wird eine Prüfgröße errechnet und mit dem Tabellenwert verglichen

temp 

ˆ
j j

getestet wird j=0

S j

S  j | j 0  s 

1
N

 ( xi  x )

2



S 0

i 1

temp 

N

( xi  x ) 2

i 1

Wahrer Regressionskoeffizient (unbekannt)

S j 

x2

Regressionskoeffizient des j-ten Regressor

j 

1
 s

N

S j

Errechneter t-Wert

ˆ
j 

temp 

ˆ
j

Standardfehler des Regressionskoeffizienten des j-ten Regressors

Dr. Paul Marx

Folie 63

Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

p  43,174  1,057  x
N

s

u
i 1

2
i

( N  J  1)

S  j | j 0  s 

 5,125

1
N

 (x  x)

1
 s

N

2

1
 0,24
454

i

i 1

S 0

 5,125 

x2
N

 (x  x)
i 1

2

1 182
 5,125 

 4,743
7 454

i

Dr. Paul Marx

pi

xi

xi  x

10
16
18
23
30
33
39
169
24,14

26
28
19
24
15
6
8

-8
-2
0
5
12
15
21

( xi  x ) 2
64
100
1
36
9
144
100
454,00

18,00

temp1 

ˆ
1
S 1

temp 0 



ˆ
0
S 0

 1,057
 4,404
0,24



43,174
 9,102
4,743

Folie 64


Vergleich mit dem Tabellenwert:
|temp|  ttab  Ho verworfen
|temp|  ttab  Ho nicht verworfen

J = 1; N = 7; N-J-1 = 5; temp = -4,404

=0,95:
=0,99:
=0,999:

4,395 > 2,57  Ho verworfen!
4,395 > 4,03  Ho verworfen!
4,395 < 6,86  Ho nicht verworfen!

Dr. Paul Marx

Folie 65

Konfidenzintervall des Regressionskoeffizienten
 Der Einfluss von Variable x1 kann in der Grundgesamtheit mit 99%-iger Wahrscheinlichkeit
(= auf dem Signifikanzniveau von 0,01) vermutet werden.
 Wie weit können die wahren j-Werte von den in der Stichprobe ermittelten Werten
abweichen?

ˆ
yi   0  1  xi

Verlauf von Regressionsgerade bei Variation von 0 und 1

Dr. Paul Marx

Verlauf von Regressionsgerade bei Variation von 1

Folie 66

Test von Hypothesen: t-Test und
Ho akzeptieren
Häufigkeit

Ho akzeptieren

Ho verwerfen

(kein Einfluss in der
Grundgesamtheit)

(kein Einfluss in der
Grundgesamtheit)

(Einfluss besteht)

ˆ
 
Relation vom
geschätzten  zu
seinem
Standardfehler ist
kleiner als kritischer
t-Wert

ˆ
 

t ( )

t


S

 t ( )  t  S 
t ( )

Bei normal
verteilten Residuen
sind die geschätzten
-Koeffizienten
auch normal verteilt

0

 t ( )

Dr. Paul Marx

ˆ




Folie 67

ˆ
 j  t  S

j

ˆ
  j   j  t  S j

 Der wahre Wert des Regressionskoeffizienten (für das vorgegebene Signifikanzniveau ) liegt
ˆ
im Bereich
 j  t  S
j

 Dieser Bereich nennt sich Konfidenzintervall von j
Für =0,01

1,057  4,03  0,24  1  1,057  4,03  0,24
 2,03  1   0,086

Für =0,05

1,057  2,57  0,24  1  1,057  2,57  0,24

1,67  1   0,44

Dr. Paul Marx

Folie 68

 2,03  1   0,086
24,112   0  62,236

y  43,174  0,086  x

y  43,174  1,057  x
y  43,174  2,03  x
Verlauf von Regressionsgerade bei Variation von 1

Dr. Paul Marx

Folie 69

 2,03  1   0,086
24,112   0  62,236

y  24,112  0,086  x

y  62,236  2,03  x

y  43,174  1,057  x

Verlauf von Regressionsgerade bei Variation von 0 und 1

Dr. Paul Marx

Folie 70

Preis (y)

Konfidenzintervall der Regressionsfunktion
45

Konfidenzintervall =
Region der Annahme von H1

40

Konfidenzintervall gibt an, in welchem Bereich der
wahre Regressionskoeffizient mit einer bestimmten
festgelegten Vertrauenswahrscheinlichkeit liegt

35

30

_
Y

25

20

15

=0,01
10

5

=0,05
0

0

5

10

15

20

25

30

35

40

Menge (x)

Vereinfachte Abbildung!
Dr. Paul Marx

Folie 71

Preis (y)

45

Je weiter x vom Mittelwert,
desto ungenauer ist die
Schätzung von y(x)

40

35

Übertragen auf die Regressionsgerade zeigt
Konfidenzintervall an, in welchem Bereich die
wahren Werte liegen können bzw. wie stark sie von
den geschätzten Werten abweichen können (mit
einer bestimmten festgelegten
Vertrauenswahrscheinlichkeit)

30

25

20

15

=0,01
10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 72

Häufigkeit von y

Preis (y)

Dr. Paul Marx

Folie 73

Ergebnisse der Regressionsanalyse

ˆ
yi 

43,174

S j =

(4,743)

(0,24)

t

=

(9,102)

(-4,404)

 =

(0,001)

(0,01)

 1,057  xi

Dr. Paul Marx

r2 = 0,795
df = 6
F1,6 = 18,809

Folie 74

Ergebnisse der Regressionsanalyse: SPSS
Modellzusammenfassung
a Einflußvariablen : (Konstante), Absatzmenge

Modell
1

R
R-Quadrat
,891(a)
,794

Standardf
Korrigiertes ehler des
R-Quadrat Schätzers
,753
5,12578

ANOVA(b)
a Einflußvariablen : (Konstante), Absatzmenge
b Abhängige Variable: Preis
Modell

1

Regression
Residuen
Gesamt

Quadrats
umme
507,489
131,368
638,857

df

Mittel der
Quadrate
1
507,489
5
26,274
6

F
Signifikanz
19,316
,007(a)

Koeffizienten(a)
a Abhängige Variable: Preis

Modell
1

(Konstante)
Absatzmenge

Nicht standardisierte
Koeffizienten
Standardfehl
er
B
43,174
4,744
-1,057
,241

Dr. Paul Marx

Standardisie
rte
Koeffiziente
n
Beta
-,891

T
Signifikanz
9,101
,000
-4,395
,007

Folie 75


1.
2.
3.
4.
5.
6.

Datenerhebung
Test von Hypothesen

7. Prognosen / Vorhersagen
8.


Dr. Paul Marx

Folie 76

ˆ
y  43,174  1,057  x

Preis (y)

Bestimmung der Absatzmenge

45
40
35

x= 18,18

für y=25  x=17,19

30
25
20

x= 13,6

15

=0,05

10
5
0
0

5

10

15

20

25

30

35

40

Menge (x)

Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt

Dr. Paul Marx

Folie 77

ˆ
y  43,174  1,057  x

Preis (y)

Bestimmung des Preises

45
40
35

für x=25  y=16,74

30

y= 19,98

25
20
15

=0,05

10

y= 13,61

5
0
0

5

10

15

20

25

30

35

40

Menge (x)

Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt

Dr. Paul Marx

Folie 78

Optimale Produktionsmenge und Preis

Gewinnfunktion z.B. G = (y - k) x
mit k = 4
G = yx – 4x = (43,174 – x )x – 4x =
= 43,174 x – x2 – 4 x = 39,174 x – x2
Gmax ist gegeben im Punkt, wo G/x = 0

Preis (y), Gewinn/10

ˆ
y  43,174  1,057  x

45
40

G= 39,174x-x2

35
30
25
20
15
10
5

39,174 – 2x = 0

0
0



5

10

15

20

25

30

35

40
Menge (x)

xopt = 39,174 / 2 = 19,587 = 20
yopt = 43,174 – 20 = 23,17

Dr. Paul Marx

Folie 79


1.
2.
3.
4.
5.
6.
7.

Datenerhebung
Test von Hypothesen

8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 80

Preis-Absatz-Funktion im Monopol

Aus unserem Beispiel folgt:
xopt = 20
yopt = 23,17
Gopt = 383,4

Reale Nachfrage ist aber höher:
Preis, €

Absatz, Stk.

23

24

G|x=24; p=19,17 = 364,08 < Gopt

Der Monopolist hat keinen Anreiz, mehr zu produzieren. Es entsteht Defizit. Bevölkerung ist
unzufrieden.
Der Staat kann/muss eingreifen:
* Verpflichtung zur Mindestproduktion
* Senkung der Steuer für den Monopolisten
* Subventionierung von Produzenten komplementärer Güter
* Stimulierung des Wettbewerbes
*…

Dr. Paul Marx

Folie 81

LOGISCHER FEHLER!!!

 In der Realität hängt der Preis nicht von der Absatzmenge ab. Vielmehr hängt der Absatz
vom Preis ab.
 Regressionsanalyse bestimmt lediglich die Stärke des Zusammenhangs, jedoch nicht die
Richtung!
Im Zweivariablen-Fall ist es unproblematisch, da die Richtung des Zusammenhanges einfach
umgekehrt werden kann. Wenn mehr Variablen regressiert wären, wäre unsere Schätzung
komplett falsch und irreführend.
 Die logische Begründung beim Spezifizieren des Modells ist wichtiger als Kennzahlen!

 Übungsaufgabe: Spezifizieren Sie das Model richtig und führen Sie entsprechende
Regressionsanalyse durch.

Dr. Paul Marx

Folie 82

Übungsaufgabe
Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei
Werbeausgaben in Höhe von € 85.000 ergeben wird.
Werbeausgaben
(€1000)
40
60
70
110
150
160
190
200

Dr. Paul Marx

Absatz
(€1000)
377
507
555
779
869
818
862
817

Folie 83

Abschnitt 3

MULTIPLE REGRESSIONSANALYSE
Wenn es mehrere unabhängige Variablen gibt

Dr. Paul Marx

Folie 84

Multiple Regressionsanalyse

 Regressionsanalyse:
–

Analyse von Zusammenhängen zwischen Variablen (x,y)

–

Vorhersage der y-Werte aus x-Werten

–

Versuch, die y-Werte auf die x-Werte „zurückzuführen“

 Einfache lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und einer Einflussgröße x
 In den meisten Fällen üben mehrere Faktoren gleichzeitig Einfluss auf die zu erklärenden
Variable aus
–

Aufnahme einer zusätzlichen Variable kann mehr Varianz erklären

 Multiple lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und mehr als einer Einflussgröße x

Dr. Paul Marx

Folie 85

Multiple Regressionsanalyse: ökonometrisches Modell

 Das Vorgehen bei der multiplen RA unterscheidet sich konzeptionell nicht von dem
Vorgehen bei der einfachen RA
 Das ökonometrische Modell bzw. die Regressionsfunktion wird in der gleichen Form
spezifiziert. Es werden nur mehrere unabhängige Variablen betrachtet.
J

ˆ
yi   0    i xi  ui
i 1

Dr. Paul Marx

Folie 86

J

Multiple Regressionsanalyse: Beispiel

ˆ
yi   0    i xi  ui
i 1

 Welche Faktoren beeinflussen die Prüfungsnote im Fach „Basic Econometrics“?
 Hypothese: Konsum von Bier und Kaffee in der Lernzeit beeinflusst die Note
–

Je mehr Bier und Kaffee, desto bessere Note
•
•

x1 Anzahl von Biergläser in der Lernzeit
x2 Anzahl von Tassen Kaffee in der Lernzeit

Bier = x1
Note
Kaffee = x2

Dr. Paul Marx

ˆ
yi   0  1 x1   2 x2  ui

Folie 87

Schätzen der Regressionsfunktion

 Das Optimierungskriterium ist nach wie vor die Minimierung der Summe der quadrierten
Abweichungen
N

u
n 1

min

2
n

 min

ui2   ( yi  0  1 x1i  2 x2i )2


 zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten
Parametern gebildet
-

Partielle Ableitungen nach Variablen werden gleich 0 gesetzt -> Gleichungssystem entsteht

y   0  1 x1   2 x2

yi x1i  0  x1i 1  x12i  2  x1i x2i


2
yi x2i  0  x2i 1  x1i x2i   2  x2i


Dr. Paul Marx

Folie 88

Schätzen der Regressionsfunktion



Lösung des Gleichungssystems führt zu einzelnen i

1 

2 

2
( yi x1i )(  x2i )  ( yi x2i )(  x1i x2i )
2
( x12i )(  x2i )  ( x1i x2i ) 2

( yi x2i )(  x12i )  ( yi x1i )(  x1i x2i )
2
( x12i )(  x2i )  ( x1i x2i ) 2

 0  y  1 x1   2 x2

Dr. Paul Marx

Folie 89

Schätzen der Regressionsfunktion: Matrixform

u  y  Xβ

y  Xβ  u
 y1   1 x11 x21 ... xk1    0   u1 
 y   1 x x ... x     u 
 2    12 22 k 2   1    2 
 ...  ... ... ... ... ...   ...   ... 
  
   
yi   1 x1i x2i ... xki    i   ui 


u T u  u1 u2

 u1 
u  I
... ui   2    ui2
 ...  i 1
 
 ui 

Dr. Paul Marx

u T u  (y  Xβ )T (y  Xβ )
 yT y 2 β T X T y β T X T Xβ
(X T X) β  X T y
(X T X) 1 (X T X) β  (X T X) 1 X T y
Eβ  (X T X) 1 X T y
β  (X T X) 1 X T y

Folie 90

ˆ
yi   0  1 x1   2 x2  ui
Bier = x1

Bier

Interpretation von Regressionskoeffizienten

Kaffee = x2

1

1
Note

Note

 Betas sind die partiellen Steigungskoeffizienten

1

2

 1= die Änderung im Durchschnittswert von y bei Änderung von x1 um eine Einheit, bei x2=
const
–

Der direkte oder Netto-Effekt einer Einheitsveränderung in x1 unabhängig von allen Effekten von x2
(=was bringt ein zusätzliches Bier für die Note)

 0= konstantes Glied (=nichts trinken)

Dr. Paul Marx

Folie 91

Standardisierte Regressionskoeffizienten
 Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
–
–

Da die Skalen unterschiedlich sind (Bier wird in Gläsern und Kaffe in Tassen gemessen)
Wenn Bier in ml gemessen wird, vergrößert sich der 1-Wert um den Faktor 500

 Um die Betas vergleichbar zu machen, muss man
–

die Skalen beider Variablen einheitlich machen und dann mit den umgerechneten Werten eine
neue RA durchführen,

oder
– Die bereits geschätzten Regressionskoeffizienten standardisieren

ˆ    Sta ndardabweichung von xi
i
i
St andardabweichung von y

Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen eliminiert. Die Betas
werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren
Wichtigkeit verwendet werden.
Dr. Paul Marx

Folie 92

Beispiel
Nicht standardisiert:
Standardisiert:

Note = 0,465 + 0,270 * Kaffee + 0,617 * Bier
Note =
0,518 * Kaffee + 0,781 * Bier

Koeffizienten

Modell

B

Standardfehler

1 (Konstante)
Kaffee
Bier

,465
,270
,617

,191
,045
,069

Standardisier
te
Koeffizienten

Beta

T

Signifikanz

,518
,781

2,433
5,950
8,975

,072
,004
,001

a. Abhängige Variable: Note

Dr. Paul Marx

Folie 93

Korrigiertes Bestimmtheitsmaß

 Bei gegebener Stichprobe wird mit der Aufnahme zusätzlicher erklärenden Variablen ein
mehr oder weniger großer Erklärungsanteil hinzugefügt. Dieser Anteil kann u.U. nur zufällig
bedingt sein. r2 kann also nur zunehmen – auch wenn irrelevante Regressoren
aufgenommen werden.

ˆ
erklärte Varianz
nicht erklärte Varianz
 ui2
r 
 1
 1
Gesamte Varianz
Gesamte Varianz
 ( yi  y i )2

Nicht steigend mit 
Anzahl von Regressoren

2

Unabhängig von Anzahl
der Regressoren

 r2 steigt mit steigender Varianz von y, ohne dass der Grad der Anpassung sich verbessert hat.
 r2 steigt mit dem Umfang der Stichprobe.
 diese negativen Eigenschaften werden durch das korrigierte Bestimmtheitsmaß über den
Korrekturfaktor ausgeglichen.

Dr. Paul Marx

Folie 94

 r2KORR vermindert r2 um eine Korrekturgröße, die desto größer wird, je größer die Zahl der
Regressoren und je kleiner die Zahl der Freiheitsgrade ist.
 Dadurch kann r2KORR auch bei der Aufnahme von Regressoren abnehmen.

2
rKORR

ˆ
 u /( N  J 1)  1  (1  r
 1
 ( y  y ) /( N  1)
2
i

2

i

2
KORR

r

2

i

J  (1  r 2 )
r 
N  J 1
2

mit
N
J
N–J–1

)

( N  1)
( N  J  1)

= Anzahl der Beobachtungswerte (Fälle)
= Anzahl von Regressoren
= Zahl der Freiheitsgrade

 r2KORR kann auch negative Werte annehmen und ist kleiner als r2,
außer falls r2=1, dann r2KORR =1

Dr. Paul Marx

Folie 95


Modell

R
1

Korrigiertes RQuadrat

R-Quadrat
,985

,970

,955

Standardfehler
des Schätzers
,297

Einflußvariablen: (Konstante), Bier, Kaffee

Dr. Paul Marx

Folie 96


 Mit r2KORR wird es möglich, Schätzungen mit unterschiedlichen erklärenden Variablen oder
unterschiedlicher Varianz der abhängigen Variablen miteinander zu vergleichen.
 Dabei müssen folgende Bedingungen erfüllt sein:
–
–

Abhängige Variable und
Stichprobenumfang sind gleich

 Warnung vor dem r2korr-Maximierung-Spiel!
–
–
–

Ziel der RA ist nicht das Erreichen des maximal möglichen r2korr , sondern die plausible Schätzung
von Regressionskoeffizienten in der Population
Es ist wichtiger herauszufinden, ob die Regressionskoeffizienten statistisch (nicht)signifikant sind,
oder Vorzeichen haben, die nicht zu erwarten sind
logische bzw. theoretische Relevanz von erklärenden Variablen für den erklärten Faktor und ihre
statistische Signifikanz haben Vorrang!

Dr. Paul Marx

Folie 97

Multiple Regressionsanalyse: Anwendungsbeispiel

Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner
Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen
Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren
und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der
Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn
etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über
die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Zahl der
Vertreterbesuche.
Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genannten
Einflussgroßen sich auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang
zwischen z.B. Vertreterbesuchen und Absatzmenge gegeben wäre, dann müssten
überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf
Unterschiede in der Zahl der Besuche zurückführen lassen, z.B.: je höher die Zahl der
Vertreterbesuche, desto höher der Absatz.
Quelle: Backhaus et al.(2006): „Multivariate Analysemethoden“

Dr. Paul Marx

Folie 99

Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.

1
2
3
4
5
6
7
8
9
10

Menge
Kartons pro
Periode

Preis pro
Karton

2585
1819
1647
1496
921
2278
1810
1987
1612
1913

12,5
10
9,95
11,5
12
10
8
9
9,5
12,5

Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche

2000
550
1000
800
0
1500
800
1200
1100
1300

109
107
99
70
81
102
110
92
87
79

Ökonometrisches Modell:
Menge = 0

+ 1*Preis

Dr. Paul Marx

+ 2*Ausgaben

+ 3*Besuche

Folie 100

SPSS-Dateneditor: Auswahl des Analyseverfahrens

Dr. Paul Marx

Folie 101

SPSS: Dialogfenster „Lineare Regression“

Dr. Paul Marx

Folie 102

SPSS-Output für die Regressionsanalyse
Modell
1

R
,962(a)

R-Quadrat
,926

,888

Standardfehler
des Schätzers
150,12600

a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton

ANOVA(b)
Modell
1

Regression
Residuen
Gesamt

3

Mittel der
Quadrate
560342,900

135226,900

6

22537,817

1816255,600

9

Quadratsumme
1681028,700

df

F
24,862

Signifikanz
,001(a)

b Abhängige Variable: Menge Kartons pro Periode

Koeffizienten(a)
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655

11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 103

Regressionskoeffizienten
Koeffizienten(a)
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046


Menge = 0
+ 1*Preis
+ 2*Ausgaben
+ 3*Besuche
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
 Regressionskoeffizienten geben den marginalen Effekt der Änderung einer unabhängigen
Variable auf die abhängige Variable an.
–

Z.B. 2 = 0,655 bedeutet, dass 65,5 Kartons mehr abgesetzt werden können, wenn
Verkaufsförderung um 100 erhöht wird. Beim Preis 10 ergibt sich Mehrerlös von 655.

Dr. Paul Marx

Folie 104


 Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
 Die Werte der Regressionskoeffizienten lassen sich nur dann vergleichen, wenn die Variablen
in gleichen Einheiten gemessen wurden.
–
–
–

Der nummerische Wert von i ist abhängig von der Skala, in der xi gemessen wurden.
Z.B. Wenn der Preis in Cent (anstatt in Euro) gemessen wird, vergrößert sich 1 um den Faktor 100
Um z.B. den Einfluss der Anzahl von Vertreterbesuchen mit dem Einfluss vom Preis vergleichbar zu
machen, müsste die Skala für Besuche in „Kosten pro Besuch“ umgewandelt werden.

 Standardisierung von Regressionskoeffizienten macht sie vergleichbar.
–

Durch Standardisierung werden die unterschiedlichen Messdimensionen der Variablen eliminiert.
Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß
für deren Wichtigkeit verwendet werden.

Dr. Paul Marx

Folie 105

Einflussstärke und
Koeffizienten(a)
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046


Nicht standardisiert:
Standardisiert:

Menge =
0,034*Preis + 0,794*Ausgaben + 0,345*Besuche

Vergleich der relativen Einflussstärken (bzw. Wichtigkeiten)
Nicht standardisiert

Preis
Ausgaben
Besuche

Preis
1
0,065
1,116

Ausgaben
15,155
1
16,923

Standardisiert

Besuche
0,895
0,059
1

Dr. Paul Marx

Preis
Ausgaben
Besuche

Preis
1
23,352
10,147

Ausgaben
0,042
1
0,434

Besuche
0,098
2,301
1

Folie 106

Prüfung der Regressionsfunktion
Modell
1

R
,962(a)

R-Quadrat
,926

,888

Standardfehler
des Schätzers
150,12600


ANOVA(b)
Modell
1

Regression
Residuen

Gesamt

3

Mittel der
Quadrate
560342,900

135226,900

6

22537,817

1816255,600

9

Quadratsumme
1681028,700

df

F
24,862

Signifikanz
,001(a)

b Abhängige Variable: Menge Kartons pro Periode

 Der durch die Regressionsbeziehung postulierte Zusammenhang kann empirisch bestätigt
werden.
–

Die Regressionsfunktion erklärt 92,6% der Varianz in der abhängigen Variable (Menge) signifikant mit
der Vertrauenswahrscheinlichkeit von 99,9% (Signifikanzniveau 0,001)

Dr. Paul Marx

Folie 107

Prüfung der Regressionskoeffizienten

Koeffizienten(a)
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046


–
–

Empirisch: Der Einfluss von 1 ist nicht signifikant (t-Test konnte H0 nicht ablehnen)
Logisch: 1 > 0, d.h. mit dem steigenden Preis muss der Absatz steigen. Zu erwarten ist aber eine
umgekehrte Wirkung.

Dr. Paul Marx

Folie 108


Koeffizienten(a)
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046


 Das bedeutet aber nicht, dass es keinen Zusammenhang zwischen dem Preis und der
Absatzmenge gibt!
–
–
–

Möglicherweise ist dieser Einfluss durch andere Einflüsse überlagert, oder
Wird infolge des geringen Stichprobenumfanges nicht deutlich, oder
Die Varianz bzw. Variabilität in den gemessenen Werten des Preises ist nicht genügend, um seinen
Einfluss feststellen zu können

Dr. Paul Marx

Folie 109

Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.

1
2
3
4
5
6
7
8
9
10
Mittelwert
Varianz
Standardabweichung

Menge
Kartons pro
Periode
2585
1819
1647
1496
921
2278
1810
1987
1612
1913
1806,80
201806,18
449,23

Preis pro
Karton
12,5
10
9,95
11,5
12
10
8
9
9,5
12,5
10,50
2,39
1,55

Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche
2000
550
1000
800
0
1500
800
1200
1100
1300

109
107
99
70
81
102
110
92
87
79

Menge Kartons pro Periode;
Preis

3000

1025,00
2500
296250,00
544,29
2000

93,60
195,60
13,99

1500
1000
500
0
0

Dr. Paul Marx

2

4

6

8

10

12

14

Folie 110


 Die Regressionsfunktion bildet also nicht den realen Zusammenhang ab und kann nicht zur
Untersuchung des Einflusses vom Preis auf die Absatzmenge verwendet werden.
 Mögliche Aushilfen (in der Praxis!!!):
1.

Den Wert des Preises auf seinem (Stichproben-)Mittelwert fixieren. Die RF kann dann zur Schätzung
von Absatzmenge aufgrund von Werbeausgaben und Vertreterbesuchen verwendet werden.
•
•

2.

Risiko: die Restlichen Regressionskoeffizienten haben verzerrten Stichproben- und Modell-Fit
Sinnlos: mit Einsatz von PCs ist der Zeitaufwand für Berechnung eines anderen Modells ist unerheblich

Besser: Modell umformulieren und erneute RA durchführen

Dr. Paul Marx

Folie 111

Modellvergleich
Variablen: Preis, Ausgaben, Besuche

Variablen: Ausgaben, Besuche

Modell
1

R
,962(a)

R-Quadrat
,926

,888

Standardfehler
des Schätzers
150,12600

Modell
1

R
,962(a)

R-Quadrat
,925

,903

Standardfehler
des Schätzers
139,77114

Koeffizienten(a)

Modell
1

(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche

Nicht
standardisierte
Koeffizienten
Standard
B
fehler
-6,866
673,205
9,927
38,164

Standar
disierte
Koeffizie
nten
Beta
,034

Koeffizienten
T
-,010
,260

Signifi
kanz
,992
,803

Modell
1

(Konstante)

,655

,103

,794

6,382

,001

Ausgaben für
Verkaufsförderung

11,085

4,428

,345

2,504

,046

Zahl der
Vertreterbesuche



Standar
dfehler

B

r2 > r2

r2KORR < r2KORR

Dr. Paul Marx

144,482

,091

10,487

3,522

Beta

315,250

,664

Standar
disierte
Koeffizi
enten

T

Signif
ikanz

,458

,661

,805

7,338

,000

,326

2,977

,021



Folie 112

Methoden zur Auswahl von Variablen (SPSS)
–
–

Die Gesamtanzahl möglicher Modelle steigt faktoriell mit der Anzahl der Variablen an.
Im Fall von 3 unabhängigen Variablen sind 7 unterschiedliche Modelle möglich, alle müssten
berechnet werden

 Alternative Vorgehensweisen:

1.

Der Untersucher formuliert ein oder mehrere Modelle, die ihm aufgrund von theoretischen
oder sachlogischen Überlegungen sinnvoll erscheinen und überprüft sie empirisch mit Hilfe
der Regressionsanalyse

2.

Der Untersucher lässt sich vom Computer eine Auswahl von Modellen zeigen und versucht
sie sinnvoll zu interpretieren

Dr. Paul Marx

Folie 113

Schrittweise Regressionsanalyse

 Bei der Schrittweisen RA erfolgt die Berechnung der Regressionskoeffizienten in mehreren
Schritten:
–

Zunächst wird RA mit einer Variable durchgeführt, die mit der abhängiger Variablen höchste
Korrelation aufweist.
•

–

Bei jedem Schritt wird für jede unberücksichtigte Variable ihr partieller Korrelationskoeffizient und ein „Beta
in“-Wert ausgewiesen, die der Regressionskoeffizient nach einer eventuellen Aufnahme im folgenden Schritt
erhalten würde.

Im jeden nächsten Schritt werden aus den verbliebenen Variablen diejenigen aufgenommen (bzw.
aus bereits aufgenommenen diejenigen ausgeschlossen), die das Toleranzkriterium (nicht) erfüllen.
•

Als Toleranzkriterium dient der F-Wert des partiellen Korrelationskoeffizienten bzw. dessen Signifikanzniveau.

•

Eine Variable wird nur dann aufgenommen, wenn ihr F-Wert einen vorgegebenen Wert übersteigt bzw. wenn
ihr Signifikanzniveau kleiner ist als die vorgegebene F-Wahrscheinlichkeit

•

Umgekehrt wird eine Variable bei Unterschreiten des vorgegebenen F-Wertes bzw. bei Überschreiten des
Grenzwerten für Signifikanzniveau ausgeschlossen

Dr. Paul Marx

Folie 114

Schrittweise Regressionsanalyse: SPSS-Dialogs

Dr. Paul Marx

Folie 115

Schrittweise Regressionsanalyse: WARNUNG!

 Es besteht die Gefahr, dass sachlogische Überlegungen in den Hintergrund treten können.
–

Computer trifft seine Auswahl ausschließlich nach statistischen Kriterien und kann nicht erkennen,
ob das Modell auch inhaltlich sinnvoll ist

 Daher:
–

Statistisch signifikante Zusammenhänge sollten nur dann akzeptiert werden, wenn sie
sachlogischen Erwartungen entsprechen.

–

Bei Nichtsignifikanz eines Zusammenhanges sollte man nicht folgern, dass es kein Zusammenhang
besteht, wenn ansonsten das Ergebnis sachlich korrekt ist.

–

Bei widersprüchlichen Ergebnissen oder sachlogisch unbegründeten Einflussfaktoren sollte man
nicht zögern, diese aus dem Regressionsmodell zu entfernen (auch wenn der Erklärungsanteil
dadurch sinkt).

Dr. Paul Marx

Folie 116

SPSS-Output bei schrittweiser RA
Aufgenommene/Entfernte Variablen(a)

Modell
1

Entfernte
Variablen

Aufgenommene Variablen
Ausgaben für
Verkaufsförderung

.


.

2

Methode
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).



Modell
1

R
,911(a)

R-Quadrat
,829

,808

Standardfehler
des Schätzers
196,83086

2

,962(b)

,925

,903

139,77114

a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche

Dr. Paul Marx

Folie 117

SPSS-Output bei schrittweiser RA (Fortsetzung)

ANOVA(c)
Modell
1

Regression
Residuen

Quadratsumme
1506316,513

1

Mittel der
Quadrate
1506316,513
38742,386

df

2

309939,087

8

Gesamt

1816255,600
1679503,802

2

839751,901

136751,798

7

42,985

,000(b)

19535,971

1816255,600

Signifikanz
,000(a)

9

Regression

F
38,880

9

Residuen
Gesamt

a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 118

SPSS-Output bei schrittweiser RA (Fortsetzung)
Koeffizienten(a)

Koeffizienten
Modell
1

2

B
1036,373

(Konstante)
Ausgaben für
Verkaufsförderung
(Konstante)
Ausgaben für
Verkaufsförderung

Standardfe
hler
138,349

,752

,121

144,482

315,250

,664

,091

10,487

Standardisiert
e
Koeffizienten

3,522

Beta

T
7,491

Signifikanz
,000

6,235

,000

,458

,661

,805

7,338

,000

,326

2,977

,021

,911


Ausgeschlossene Variablen(c)

Modell
1

Preis pro Karton

2

Preis pro Karton

Beta In
-,137(a)

,326(a)
,034(b)

Kollinearität
sstatistik

-,920

Signifikanz
,388

Partielle
Korrelation
-,328

Toleranz
,983

2,977
,260

,021
,803

,748
,106

,895
,718

T

a Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 119

Abschnitt 4

REGRESSION DURCH DEN
URSPRUNG
Wenn Null Input Null Output ergibt

Dr. Paul Marx

Folie 120

(Regression-through-the-Origin)
• Wenn die Konstante (0)nicht signifikant ist, oder
• wenn a-priori erwartet wird, dass die Regressionsgerade
durch den Punkt (0;0) verlaufen wird,
…

führt die Regressionsanalyse ohne Konstante zu genauerer Schätzung von Steigungs- bzw.
Regressionskoeffizienten.

 Ökonometrisches Modell der Regressionsgerade hat in diesem Fall folgende Form:

ˆ
yi  1  xi  u

J

bzw.

ˆ
yi    j x ji  u
j 1

0 = 0

Dr. Paul Marx

Folie 121

Regression durch den Ursprung : Beispiel

Box-Office (Filmerfolg)

 In der Filmerfolgsforschung drückt man meistens den Filmerfolg über seine Einnahmen aus
und versucht diese Größe durch den Einfluss relevanter Merkmale zu begründen.

–
–
1

–

z.B. wird angenommen, dass der Filmerfolg vom Budget
abhängt.
Bei Budget=Null kann man keinen Film drehen. Daher
kann man keine Einnahmen generieren und somit keinen
Erfolg haben.
Regression durch den Ursprung beschreibt diesen
Sachverhalt am besten:

Budget

Filmerfolg = β1 *Budget + u

ˆ
yi  1  xi  u

Dr. Paul Marx

Folie 123

Regressionskoeffizient bei bivariater Regression durch den Ursprung
ˆ
yi  1  xi  u

mit

 u  min
 ( y   x)   ( y

ˆ
u   ( y  yi )

2

2

1

2

 2 1 xy  1 x 2 )
2

* Index i bei Variablen x und y
ist hier zwecks vereinfachten
Darstellung weggelassen

Differenzieren nach β1 und Setzen gleich 0

 (2 xy  2 x )  0
 2 xy  2   x  0
2

1

2

1

1

Dr. Paul Marx

x y

x
i

i

2
i

Folie 124

Eigenschaften des Modells der
Klassische RA

RA durch den Ursprung
Anzahl von Freiheitsgraden (bei Residuen)

df = (n-j-1)

df = (n-j)

Fehlerterm u
Ist gleich Null

Muss nicht = 0 sein

Bestimmtheitsmaß r2
r2 ist immer positiv, 0 < r2 <1

Dr. Paul Marx

r2 kann negative Werte annehmen

Folie 125

raw r2 bei bivariater Regression durch den Ursprung

 r2 kann nicht zur Beurteilung der Güte der Schätzung verwendet werden, da
1.
2.

Bei RA durch den Ursprung das „klassische“ r2 negative Werte annehmen kann
Klassisches Model (für welches r2 formuliert war) vorsieht, dass das konstante Glied explizit in die
Regressionsgleichung einbezogen wird

 Man kann aber einen sog. raw r2-Wert berechnen:

raw r 2 

( xi yi ) 2

x  y
2
i

2
i

0 < raw r2 <1

 Der Wert von raw r2 kann nicht direkt mit konventionellen r2–Werten verglichen werden!

Dr. Paul Marx

Folie 126

Zur Bedeutung von raw r2

 raw r2 ist ein unbereinigtes Bestimmtheitsmaß

erklärte Streuung
r 

Gesamtstre uung
2

raw r

2

ˆ
y

y

2
i
2
i

ˆ
(y
(y

 ( x )

y

i

i  y)

2

i i
2
i

  xi yi 


x2
2   i
 x
i 
2
raw r  

yi2

2

raw r 
2

 y)2



raw r

2

i2  xi2

 yi2

mit

2

ˆ
y

y

2
i
2
i

1  

xi yi

x

2
i

 x y 
x
y

2

i

i
2
i
2
i

( xi yi ) 2

x  y
2
i

2
i

Dr. Paul Marx

Folie 127

Regression durch den Ursprung: Guter Rat

 Da die Regressionsanalyse durch den Ursprung spezifische Eigenschaften aufweist, sollte
man sehr vorsichtig an die Wahl eines solchen Modells herangehen.
 Wenn man a-priori nicht erwarten kann bzw. durch Theorie und Logik nicht belegt ist, dass
die Regressionsgerade durch den Ursprung verlaufen wird, ist man angehalten, zunächst ein
klassisches Regressionsmodell zu berechnen.
Sonst besteht die Gefahr eines Spezifizierungsfehlers, d.h. der Verletzung von Annahmen der
linearen Regressionsanalyse

Dr. Paul Marx

Folie 128

Regression durch den Ursprung: SPSS-Dialogs

Dr. Paul Marx

Folie 129

Klassische Regression


Modell
1

R
,962(a)

R-Quadrat
,925

,903

Standardfehler
des Schätzers
139,77114

Modell
1

R
,998(b)

R-Quadrat(a)
,996

,995

Standardfehler
des Schätzers
132,69104

a Bei der Regression durch den Ursprung (Modell ohne konstanten
Term) mißt das R-Quadrat den Anteil der Variabilität in der abhängigen
Variable durch den Ursprung, der durch Regression erklärt werden
kann. Dieses Verfahren KANN NICHT mit dem R-Quadrat bei
Modellen verglichen werden, die einen konstanten Term enthalten.
b Einflußvariablen: Zahl der Vertreterbesuche, Ausgaben für
Verkaufsförderung

Koeffizienten(a)

Koeffizienten
Modell
B
1

(Konstante)
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche

Standar
dfehler

144,482

,091

10,487

3,522

Beta

315,250

,664

Standar
disierte
Koeffizi
enten

Nicht
standardisierte
Koeffizienten

T

Signif
ikanz

,458

,661

,805

7,338

,000

,326

2,977

,021

Dr. Paul Marx

Modell
B
1 Ausgaben für
Verkaufsförderung

Standa
rdfehler

Standar
disierte
Koeffizi
enten

Beta

T

Signif
ikanz

,662

,086

,409

7,716

,000

12,021

1,042

,612

11,536

,000

b Lineare Regression durch den Ursprung

Folie 130

Multiple Regressionsanalyse: Beispieldatensatz
actual advertising expenses in Mio. (based on
Ad $ Summary) [ad_$_sum]

First Weekend Box Office
[first_bo]

No. of Attendents in
Germany [att_germ]

imdb User-Rating
[imdb_rat]
Budget [budget]
Martin and Porter Video
Movie Guide Ranking
[movie_gu]

Length [length]
Total Box-Office
[tot_boxo]

Maltin Movie and Video
Guide Ranking [maltin]

Starpower [starpowe]

Punktwert Academy
Awards [a_awards]

Director power [dir_powe]

Review Metascore 0-10
point-Scale [rev_me10]

Anzahl Startleinwände D
[ger_scre]

Anzahl Startleinwände USA
[us_scree]

Produktinhärente EF

Dr. Paul Marx

Weeks in Theater [weeks]

Produktinduzierte EF

Distributionsinduzierte EF

Folie 131

Abschnitt 5

ANNAHMEN DES LINEAREN
REGRESSIONSMODELLS (LRM)
Voraussetzungen für eine effiziente Schätzung
und Umgang bei ihrer Verletzung

Dr. Paul Marx

Folie 132

Annahmen des linearen Regressionsmodells (LRM)
1.

Variabilität in xi
–

2.

Linearität
–
–

3.
4.

Keine Korrelation zwischen den erklärenden Variablen und der Störgröße

Homoscedastizität
–

9.

Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)

Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–

8.

Modell enthält die relevanten erklärenden Variablen

Stichprobe ist größer, als die Anzahl der Regressoren
–

6.
7.

in Variablen
in Parametern

Metrisches Niveau der Regressoren
Korrekte Spezifizierung vom Modell
–

5.

!
xi müssen variieren: Var(xi) > 0

Störgrößen haben eine konstante Varianz

Keine Autokorrelation
–

Störgrößen sind unkorelliert

10. Keine Multikolinearität
–

Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit

11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx

Folie 133

Annahmen des LRM: Variabilität in xi
x variiert nicht (Var(xi) = 0)

x variiert (Var(xi) > 0)

y

y

x

Dr. Paul Marx

x

Folie 134

Annahmen des LRM: Linearität
 Die KQ-Methode unterstellt, eine additiv-lineare Funktion
J

ˆ
yi   0    j  x ji  ui
j 1

 Geschätzt werden die Koeffizienten einer Gerade bzw. einer mehrdimensionalen Fläche

 Wenn der unterstellte Zusammenhang nicht linear ist, kann KQ-Methode nicht angewendet
werden

Dr. Paul Marx

Folie 135

Annahmen des LRM: Linearität in Parametern
 Typische nicht lineare Verläufe

quadratisch

Cobb-Douglas

exponentiell

reziprok

Niveauänderung

Trendänderung

Dr. Paul Marx

Folie 136

Linearisierung

 Anwendung einfacher Tricks bringt Linearität zurück!

yi   0  1  xi2
1
y i   0  1 
xi

Ersetzen x2 durch x‘ 

yi   0  1  xi

Ersetzen 1/x durch x‘ 

yi   0  1  xi

 Beide Modelle sind nicht linear in x, aber linear in x‘
 Wir können Betas vom modifizierten Modell schätzen. Diese werden auch nach rückgängiger
Variablensubstitution gelten.

 Um Konsistenz der Schätzung zu gewährleisten, müssen die Regressoren vor der Schätzung
entsprechend modifiziert werden! (Linearisierung)

Dr. Paul Marx

Folie 137

Linearisierung von Pontenzfuntkionen

 Quadratische Spezifikation ist im Grunde eine Regression mit zwei Variablen x1 und x2, die
aber nur auf x basiert. Sie ist somit ein Spezialfall der Mehrfachregression:

2 > 0

 minimum

yi   0  1  xi   2  xi2




yi   0  1  x1i   2  x2i

Dr. Paul Marx

2 < 0

 maximum

Folie 138

Linearisierung polynominaler Funktionen

 Dieser „Linearisierungsansatz“ ist auf alle polynomiale Funktionen erweiterbar

yi   0  1  xi   2  xi2   3  xi3





yi   0  1  x1i   2  x2i  3  x3i

 Es können auch weitere Variablen bzw. Regressoren berücksichtigt werden

Dr. Paul Marx

Folie 139

Linearität in Parametern: Log-Log-Modell

yi   0 xi

 Log-Log-Modell

1



ln( yi )  ln( 0 )  ln( xi 1 )
ln( yi )  ln(  0 )  1 ln( xi )

ln( yi )    1 ln( xi )

1 <0

yi    1 xi

Dr. Paul Marx

Folie 140

Das weiß jeder: 
Einfachste Operationen mit (natürlichen) Logarithmen
x
Definition: ln( N )  x  e  N

Folgen: ln( 1)  0, da e 0  1

ln( e)  1, da e1  e
ln( 0)  
Eigenschaften: ln( ab)  ln( a )  ln( b)

a
ln( )  ln( a )  ln( b)
b
ln a b  b ln( a )
1
ln( a )  ln( a )
b
b

Dr. Paul Marx

Folie 141

 Attraktive Eigenschaften von Log-Log-Modellen:
1. Im Zwei-Variablen-Modell: Einfach festzustellen!
2. Streudiagram von ln(y) auf ln(x) -> ungefähr Linie
ln(y)

yi  0 xi

ln(Absatz)

Absatz

y
 1

ln( yi )  ln(  0 )  1 ln( xi )

x

ln(x)

Preis

3.

ln(Preis)

1 = Elastizität von y‘ in Bezug auf x‘
relative Veränderung in y
=

relative Veränderung in x

(z.B. Preiselastizität vom Absatz)

= const

Dr. Paul Marx

Folie 142

Linearität in Parametern: Log-Lin-Modell

 In manchen Fällen kann auch die exponentielle Modellierung die Daten gut erklären

y i  e  0  1  x
yi  e 0 e 1 x
ln( yi )  ln( e 0 )  ln( e 1 x )

1 >0

ln( yi )   0  1  x
 Log-Lineares Regressionsmodell

yi   0  1  x

 Semielastizität = relative Veränderung im Regressand / absolute Veränderung im Regressor

Dr. Paul Marx

Folie 144

Linearität: Inverses Modell a.k.a. Hyperbolisches Modell

 Linear in Parametern
 Nicht linear in Variablen
 Ersetzen 1/x durch x‘ 

yi   0  1  xi
(lineares Regressionsmodell)

1
ˆ
y i   0  1 
x

 Wichtige Eigenschaft:
Bei x  ∞
1(1/x)  0,
y  0

d.h. y hat eine Asymptote

Dr. Paul Marx

Folie 145

Inverses Modell: Asymptote
ˆ
y i   0  1 

y

1 >0
0 >0

y

1
x

1 >0
0 <0

1 <0
0 >0

y

0

0
0

x

0

0

Dr. Paul Marx

x

0

 1

x

0

Folie 146

Inverses Modell: Beispiel
Sterberate von Kindern (CM) und Pro-Kopf-BIP (PGNP) von 64 Ländern in 1980
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

CM
128
204
202
197
96
209
170
240
241
55
75
1219
24
165
94
96
148
98
161
118
269
189
126
12
167
135
107
72
128
27
152
224

PGNP
1870
130
310
570
2050
200
670
300
120
290
1180
900
1730
1150
1160
1270
580
660
420
1080
290
270
560
4240
240
430
3020
1420
420
19830
420
530

Nr.
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64

CM
142
104
287
41
312
77
142
262
215
246
191
182
37
103
67
143
83
223
240
312
12
52
79
61
168
28
121
115
186
47
178
142

Dr. Paul Marx

PGNP
8640
350
230
1620
190
2090
900
230
140
330
1010
300
1730
780
1300
930
690
200
450
280
4430
270
1340
670
410
4370
1310
1470
300
3630
220
560

Man würde erwarten, dass beim
steigenden Pro-Kopf-BIP die
Sterberate sinken würde, weil
Menschen mehr Geld für
Gesundheit haben.
Das ist aber nicht der Fall.
Zunächst sinkt die Sterberate
drastisch. Dann aber wird die
Senkung stark gedämpft.
Bei PGNP  ∞ konvergiert CM
zum Wert von ungefähr 82

Folie 147

Inverses Modell: Beispiel
CM  81,343  27.356,075

1
PGNP
i

0 82

Dr. Paul Marx

Folie 148

Log-Hyperbolisches Modell

 Log-Hyperbolisches a.k.a. logarithmisch-inverses a.k.a. S-Förmiges Modell

ye

 0  1

1
x

oder

ln( y )   0  1

1
x

 Zunächst erhöht sich y mit steigender
Wachstumsrate (konvexer Verlauf,
Steigungskoeffizient > 1).
 Dann sinkt die Wachstumsrate (konkaver
Verlauf, Steigungskoeffizient zwischen 0 und
1).

Solchen Verlauf haben wir in der letzten Stunde am Beispiel von Abhängigkeit vom Absatz von
Werbungsausgaben beobachtet

Dr. Paul Marx

Folie 149

ÜBUNGSAUFGABE
 SPSS Datensatz: Absatz von Rosen (1995-1999)
Y
Jahr

1995
1996

1997

1998

1999

Quartal

III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II

x1

x2

Anzahl von
Durchschnittspreis Durchschnittspreis
verkauften Rosen,
für Dutzend
füt Dutzend
Dutzend
Rosen, $
Nelken, $

11.484
9.348
8.429
10.079
9.240
8.862
6.216
8.253
8.038
7.476
5.911
7.950
6.134
5.868
3.160
5.872

2,26
2,54
3,07
2,91
2,73
2,77
3,59
3,23
2,60
2,89
3,77
3,64
2,82
2,96
4,24
3,69

Dr. Paul Marx

3,49
2,85
4,06
3,64
3,21
3,66
3,76
3,49
3,13
3,20
3,65
3,60
2,94
3,12
3,58
3,53

x3
Durchschnittlich
Trend
verfügbares
wöchentliches
Familieneinkommen,
$
158,11
173,36
165,26
172,92
178,46
198,62
186,28
188,98
180,49
183,33
181,87
185,00
184,00
188,20
175,00
188,00

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Folie 150

HAUSAUFGABE
Für gegebenen Datensatz
 Betrachten Sie folgende Absatzfunktionen:

yt   0  1 x1t   2 x2t   3 x3t  ut
ln( yt )   0  1 ln( x1t )   2 ln( x2t )   3 ln( x3t )  ut
1.
2.
3.

4.
5.

Schätzen Sie die Parameter des linearen Modells und interpretieren Sie die Ergebnisse
Schätzen Sie die Parameter des Log-linearen Modells und interpretieren Sie die Ergebnisse
Parameter 1, 2 und 3 zeigen entsprechend Eigenpreis-, Kreuz-Preis- und
Einkommenselastizität an. Welches Vorzeichen haben sie a-priori? Widersprechen
die Berechnungsergebnisse Ihren Erwartungen?
Welches der beiden Modelle würden Sie auf der Basis Ihrer Analyse wählen? Begründen Sie
Ihre Antwort!
Wie kann man die Eigenpreis-, Kreuz-Preis- und Einkommenselastizität für das
lineare Modell berechnen?

Dr. Paul Marx

Folie 151

Annahmen des linearen Regressionsmodells (LRM)
1.

Variabilität in xi
–

2.

!
xi müssen variieren: Var(xi) > 0

Linearität
–
–

in Variablen
in Parametern

3. Metrisches Niveau der Regressoren
4.

Korrekte Spezifizierung vom Modell
–

5.

Stichprobe ist größer, als die Anzahl der Regressoren
–

6.
7.

Keine Korrelation zwischen den erklärenden Variablen und der Störgröße

Homoscedastizität
–

9.

Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)

Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–

8.

Modell enthält die relevanten erklärenden Variablen

Störgrößen haben eine konstante Varianz

Keine Autokorrelation
–

Störgrößen sind unkorelliert

10. Keine Multikolinearität
–

Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit

11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx

Folie 152

Annahmen des LRM: Metrisches Niveau der Regressoren

 Die abhängige Variable in den Regressionsmodellen werden nicht nur von metrisch
skalierten Variablen (wie z.B. Einkommen, Output, Preis, Kosten, Alter, Höhe, Temperatur)
beeinflusst. Oft ist die Analyse der Abhängigkeiten von Variablen qualitativer Natur
interessant (z.B. Geschlecht, Region, Nationalität, Ausbildung, politische Ansichten, usw.).
 Nominale Variablen = Indikatoren = Kategorien = Qualitative Variablen

 Unabhängig von der Ursache, üben solche Faktoren offensichtlich eine Wirkung auf die
abhängige Variable aus und sollten daher in die Regressionsanalyse eingeschlossen werden.

Dr. Paul Marx

Folie 153

Dummy Variablen
 Dummy Variablen sind nominale Variablen mit zwei Ausprägungen, die zeigen, ob ein
Merkmal vorhanden ist, oder nicht.
 Dummy Variablen per se sind ein Instrument zur Klassifizierung von Daten in exklusive
Kategorien, wie „männlich“, oder „weiblich“.
–
–
–

schwarz = 1, weiß = 0
männlich = 1, weiblich = 0
betrunken = 1, nicht betrunken = 0

 Dummy Variablen können genau wie quantitative Variablen in die Regressionsanalyse
eingeschlossen werden.
 Regressionsmodelle, die nur aus Dummy Variablen bestehen, werden als
ANOVA-Modelle (Analysis of Variance) bezeichnet.

Dr. Paul Marx

Folie 154

ANOVA: Beispiel
SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986)
Salary
19.583
20.263
20.325
26.800
29.470
26.610
30.678
27.170
25.853
24.500
24.274
27.170
30.168
26.525
27.360
21.690
21.974
20.816
18.095
20.939
22.644
24.624
27.186
33.990
23.382
20.627

Spending
3346
3114
3554
4642
4669
4888
5710
5536
4168
3547
3159
3621
3782
4247
3982
3568
3155
3059
2967
3285
3914
4517
4349
5020
3594
2821

D2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0

D3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1

Salary
22.795
21.570
22.080
22.250
20.940
21.800
22.934
18.443
19.538
20.460
21.419
25.160
22.482
20.969
27.224
25.892
22.644
24.640
22.341
25.610
26.015
25.788
29.132
41.480
25.845

Spending
3366
2920
2980
3731
2853
2533
2729
2305
2642
3124
2752
3429
3947
2509
5440
4042
3402
2829
2297
2932
3705
4123
3608
8349
3766

D2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

D3
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0

D2 = Staaten in
Nordost in im zentralen
Norden (21 Staaten)
D3 = südliche Staaten
(17 Staaten)

13 westliche Staaten
(nicht kodiert)

Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986

Dr. Paul Marx

Folie 155

ANOVA: Beispiel

 Ziel: Herausfinden, ob sich das durchschnittliche Jahreseinkommen von Schullehrern
zwischen unterschiedlichen Staaten variiert.
 Nach einfacher Betrachtung des Datensatzes können wir feststellen:
–
–
–

Norden und Nordost:
Süden:
Westen:

$ 24.424,14
$ 22.894
$ 26.158,62

 Unterscheiden sich diese Zahlen auch statistisch voneinander?
 Das können wir u.a. mittels ANOVA feststellen:

yi   0   2 D2i  3 D3i  ui

Dr. Paul Marx

Folie 156

ANOVA-Interpretation
yi   0   2 D2i  3 D3i  ui
 Durchschnittseinkommen von Schullehrern im zentralen Norden und Nordosten

E(yi | D2i=1, D3i=0) = 0+ 2
 Durchschnittseinkommen von Schullehrern in südlichen Staaten

E(yi | D2i=0, D3i=1) = 0+ 3
 Durchschnittseinkommen von Schullehrern im Westen

E(yi | D2i=0, D3i=0) = 0
 Steigungskoeffizienten 2 und 3 geben an, wie stark sich das Durchschnittseinkommen im
Norden bzw. Süden von dem „westlichen“ Durchschnittseinkommen unterscheidet.

Dr. Paul Marx

Folie 157

yi   0   2 D2i  3 D3i  ui

yi  26.158,62  1734,47 D2i  3264,62D3i
 Durchschnittseinkommen im Westen
beträgt $26.158

0 = $26.158
$24.424 (0 + 2)

 Einkommen im Norden ist um $1734
kleiner als das im Westen
 Einkommen im Süden ist um $3264
kleiner

$22.894 (0 + 3)

West

Northeast and
North Central

South

 WARNUNG: Dummy Variablen zeigen nur die Unterschiede auf (ob sie existieren). Sie
erlauben keine kausale Schlussfolgerungen – zeigen also keine Gründe für diese
Unterschiede auf!

Dr. Paul Marx

Folie 158


 Unterscheiden sich die errechneten Durchschnittseinkommen von nördlichen und südlichen
Staaten vom westlichen Durchschnittseinkommen statistisch signifikant?

yi  26.158,62  1734,47 D2i  3264,62D3i
Sj =

(1128,523)

(1435,953)

(1499,155)

t

(23,180)

(-1,208)

(-2,178)

(0,000)

(0,233)

(0,034)

=

 =

r2 = 0,0901

 Dafür schauen wir auf das Signifikanzniveau der jeweiligen Steigungskoeffizienten.
  von 2 = 23%  Unterschied zwischen Norden und Westen ist nicht signifikant!

Dr. Paul Marx

Folie 159

7 Richtlinien zur Nutzung von Dummy Variablen

Regel 1
Für alle qualitativen Regressoren muss die Anzahl von Dummy Variablen um eins kleiner
sein, als die Anzahl der Kategorien des Regressoren.
Wenn die qualitative Variable m Kategorien hat, dann muss die Anzahl von ins Modell
einzuführenden Dummy Variablen (m-1) sein.

Sonst wird man im sog. dummy variable trap gefangen.
Der Grund hierfür ist die perfekte Multikolinearität zwischen 0 und der Summe aller Di, die
durch das Einführen vom Dm entsteht.

Dr. Paul Marx

Folie 160


Regel 2
Die Kategorie, für die keine Dummy Variable eingeführt wird, wird als
–
–
–
–

BasisBenchmarkKontrollVergleichs-

-Kategorie

bezeichnet.
in unserem Beispiel war die Kategorie „westliche Staaten“ die Basis-Kategorie

Regel 3
0 zeigt den Mittelwert der Basis-Kategorie an.
in unserem Beispiel betrug 0 26.159. Dieser Wert repräsentiert das Durchschnittsgehalt von Schullehrer in der
Basis-Kategorie – also in den westlichen Staaten

Dr. Paul Marx

Folie 161


Regel 4
Die Koeffizienten bei Dummy Variablen werden als differentielle Schnittpunkte (differential
intercept coefficients) bezeichnet.
Da sie sagen, um wie viel sich der Wert vom Schnittpunkt verändert, wenn die Dummy
Variable den Wert 1 einnimmt.
Der Wert von ungefähr -1734 sagt uns, dass das Durchschnittsgehalt von Schullehrer im Norden von USA kleiner
ist als das Durchschnittsgehalt von westlichen Lehrer um $1734

Regel 5
Die Auswahl von Basis-Kategorie bleibt immer dem Forscher überlassen (wenn die
qualitative Variable mehr als eine Kategorie hat). Manchmal wird die Auswahl durch das
betrachtete Problem per se diktiert.
Im betrachteten Beispiel konnten wir auch z.B. die Kategorie „Staaten im Süden von USA“ als Basis-Kategorie
wählen. Das würde nichts an den finalen Schlussfolgerungen verändern. In diesem Fall würde der Schneideterm
ungefähr $24.894 betragen, was dem Durchschnittsgehalt von Schullehrer im Süden von den USA entspricht.

Dr. Paul Marx

Folie 162


Regel 6
Man kann die dummy variables trap umgehen und für alle Kategorien eine Dummy Variable
erstellen, indem man den Schnittterm aus dem Regressionsmodell ausschließt.
Für unser Beispiel bekommen wir dann folgendes Modell (Regression durch den Ursprung):

yi  1D1i   2 D2i  3 D3i  ui
yi  26.158,62 D1i  24.242,14 D2i  22,894 D3i
Die Interpretation von Regressionsparameter ist in diesem Fall:
1 = Durchschnittsgehalt von Schullehrer in westlichen Staaten
2 = Durchschnittsgehalt von Schullehrer in nördlichen und nordöstlichen Staaten
3 = Durchschnittsgehalt von Schullehrer in südlichen Staaten

M.a.W. das Weglassen des freien Gliedes erlaubt die Einführung von Dummy Variablen
entsprechend der Anzahl von Kategorien und somit die direkte Schätzung der Mittelwerte
der jeweiligen Kategorien.
WARNUNG: Das gilt nur für ANOVA

Dr. Paul Marx

Folie 163


Regel 7
Welche Methode für die Einführung von Dummy Variablen ist besser?

 In den meisten Fällen werden sich die Forscher für Modelle mit dem Schnittpunkt
entscheiden, weil es ihnen erlaubt, die Frage einfacher zu untersuchen, ob die
Kategorisierung einen Unterschied ausmacht.
 Wenn das der Fall ist, werden die Unterschiede mit den Koeffizienten bei Dummy Variablen
quantifiziert.
 Ob die Kategorisierung relevant bzw. sinnvoll ist, kann mittels t-Tests der Koeffizienten bei
Dummy Variablen gegen 0 geprüft werden. (Oder generell mittels F-Tests am gesamten Set
entsprechender Dummy Variablen)

Dr. Paul Marx

Folie 164

ANOVA mit zwei qualitativen Variablen

Beispiel:
Stundenlohn in Abhängigkeit von Familienstatus und Region

11,8148

S j =

(0,4015)

(0,4642)

(0,4854)

t

=

(21,2528)

(2,3688)

(-3,4462)

 =
mit
yi
D2
D3

+ 1,0997 D2i

– 1,6729 D3i

yi =

(0,0000)

(0,0182)

(0,0006)

r2 = 0,0322
Sind die Unterschiede
statistisch signifikant?

= Stundenlohn, €
= Familienstatus, 1= verheiratet, 0 = sonst
= Region, 1= Süden, 0 = sonst

Dr. Paul Marx

Folie 165

ANOVA mit zwei qualitativen Variablen: Interpretation
yi = 11,8148 + 1,0997 D2i – 1,6729 D3i
 Basis-Kategorie: ledig, Wohnort nicht im Süden
Gruppe

Durchschnittsgehalt,
Berechnung

Durchschnittsgehalt, $

Ledige

0

11,81

Verheiratete

0 + 2

12,91
(11,81 + 1,10 )

Wohnort im Süden

0 + 3

10,14
(11,81 – 1,67 )

Verheiratete im Süden

0 + 2 + 3

11, 24
(11,81 + 1,10 – 1,67)

D2 = Familienstatus,
1= verheiratet, 0 = sonst
D3= Region,
1= Süden, 0 = sonst

Dr. Paul Marx

Folie 166

Regression mit Mischung aus quantitativen und
qualitativen Variablen: ANCOVA-Modelle
 ANOVA-Modelle eignen sich für die Analyse der Unterschiede in den Mittelwerten
unterschiedlicher Gruppen. Diese Modelle bestehen nur aus qualitativen Variablen.
 In den meisten Fällen üben aber nicht nur Gruppenzugehörigkeit, sondern auch ein oder
mehrere quantitative Variablen Einfluss auf die abhängige Variable aus.
 Regressionsmodelle, die sowohl quantitative, als auch qualitative Variablen enthalten
werden ANCOVA-Modelle genannt.
•

ANCOVA = Analysis of Covariance

 ANCOVA erweitert ANOVA um die Methode der statistischen Kontrolle von Effekten
quantitativer Variablen (Kovariate = Kontrollvariablen).

Dr. Paul Marx

Folie 167

ANCOVA: Beispiel
SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986)
Salary
19.583
20.263
20.325
26.800
29.470
26.610
30.678
27.170
25.853
24.500
24.274
27.170
30.168
26.525
27.360
21.690
21.974
20.816
18.095
20.939
22.644
24.624
27.186
33.990
23.382
20.627

Spending
3346
3114
3554
4642
4669
4888
5710
5536
4168
3547
3159
3621
3782
4247
3982
3568
3155
3059
2967
3285
3914
4517
4349
5020
3594
2821

D2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0

D3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1

Salary
22.795
21.570
22.080
22.250
20.940
21.800
22.934
18.443
19.538
20.460
21.419
25.160
22.482
20.969
27.224
25.892
22.644
24.640
22.341
25.610
26.015
25.788
29.132
41.480
25.845

Spending
3366
2920
2980
3731
2853
2533
2729
2305
2642
3124
2752
3429
3947
2509
5440
4042
3402
2829
2297
2932
3705
4123
3608
8349
3766

D2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

D3
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0

D2 = Staaten in
Nordost in im zentralen
Norden (21 Staaten)
D3 = südliche Staaten
(17 Staaten)

13 westliche Staaten
(nicht kodiert)

Was ist hier die BasisKategorie?

Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986

Dr. Paul Marx

Folie 168

ANCOVA: Beispiel

 Hypothese: Das Durchschnittsgehalt von Schullehrern müsste zwischen drei Regionen nicht
variieren, wenn zusätzliche Variablen herangezogen werden, die nicht über diese Regionen
standardisiert werden können. M.a.W. der von uns festgestellte Unterschied zwischen drei
Regionen ist eigentlich auf andere Faktoren zurückzuführen – nicht auf den Wohnort von
Lehrern.
 Z.B. kann das Gehalt von der Höhe der Ausgaben für Ausbildung im konkreten Staat
abhängen.
 Um das zu testen, entwickeln wir folgendes Modell:

yi   0   2 D2i  3 D3i   4 xi  ui

mit
xi = durchschnittliche staatliche Ausgaben pro Schüler ($)

Dr. Paul Marx

Folie 169

ANCOVA: Interpretation
Koeffizienten(a)

Koeffizienten

Modell
1

B
(Konstante)

Standardfe
hler

13269,114

,318

Nothern region

-1673,514

South region

-1144,157

Beta

Spending on publich
school per pupil

r2 = 0,723
T

1395,056

3,289

Standardisiert
e
Koeffizienten

Signifikanz

9,512

,000

,830

10,354

,000

801,170

-,199

-2,089

,042

861,118

-,130

-1,329

,190

a Abhängige Variable: Teacher's salary

yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi
 Bei Erhöhung der staatlichen Ausgaben um $1 ceteris paribus steigt das Gehalt der Lehrer
um $3,29

 Im Vergleich zu dem Modell ohne Kovariaten ist der Unterschied zwischen Norden und
Westen nun signifikant geworden, im Gegensatz zum Unterschied zwischen Süden und
Westen.

Dr. Paul Marx

Folie 170

ANCOVA: Interpretation
yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi
y

 Alle drei geraden sind parallel
(Warum?)

3,29

13,269

1

12,125

1

11,595

Nicht
uterscheidbar

1

3,29

 Zwei Regressionsgeraden
(für Westen und Süden)
sind statistisch nicht von einander
unterscheidbar und stellen –
statistisch gesehen –
dieselbe Gerade dar

Dr. Paul Marx

3,29

x

Folie 171

Interaktionseffekte mit Dummy Variablen: Prolog

Beispiel:
Durchschnittlicher Stundenlohn in Relation zu Ausbildung, Geschlecht und Hautfarbe

yi   0   2 D2i   3 D3i  xi  ui
mit
yi
xi
D2
D3

: Stundenlohn, $
: Ausbildung (Jahre, inkl. Schule)
: Geschlecht, 1= weiblich, 0 = männlich
: Hautfarbe, 1 = nicht weiß , 0 = weiß

Dr. Paul Marx

Folie 172

Interaktionseffekte mit Dummy Variablen
yi   0   2 D2i   3 D3i  xi  ui
 Annahmen dieses Models:
–

Der Differenzierte Effekt von D2 ist konstant über die beiden Kategorien der Hautfarbe
Wenn der Durchschnittslohn von Männern höher als der von Frauen ist, dann hängt dieser Unterschied nicht
von der Hautfarbe ab.

–

Der Differenzierte Effekt von D3 ist konstant über die beiden Kategorien des Geschlechts
Wenn nicht weiße weniger verdienen, dann gilt das sowohl für Männer als auch für Frauen.

 In manchen Fällen sind solche Annahmen untauglich
–

–
–

Es ist möglich, dass der Lohnunterschied zwischen Mann und Frau in verschiedenen
Hautfarbenkategorien unterschiedlich ist. Z.B. der Unterschied im Stundenlohn unter Schwarzen
kann größer sein, als unter Weißen.
M.a.W. es kann eine Interaktion zwischen den qualitativen Variablen D2 und D3 geben.
Der Effekt solcher Interaktionen ist nicht einfach additiv, sondern eher multiplikativ:

yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui

Dr. Paul Marx

Folie 173

Interaktionseffekt
–
–
–

Bezeichnet Wechselwirkungen zwischen zwei oder mehreren Merkmalen
ein gemeinsamer Effekt zweier Variablen auf die untersuchte abhängige Variable.
Ein Interaktionseffekt bezieht sich darauf, dass die Wirkung einer Variablen mit den Ausprägungen
der anderen Variablen variiert.
Der Tendenz nach führt ceteris paribus in den meisten (modernen) Gesellschaften die Geburt eines Kindes zur
Verringerung des Umfangs der Erwerbstätigkeit von Frauen, während bei den Männern keine oder sogar eine
gegenläufige Wirkung (Steigerung des Umfangs der Erwerbstätigkeit) festzustellen ist.
Kunden, die sich schon einmal beschwert haben, äußern häufig eine vergleichsweise große Unzufriedenheit, als
Kunden, die sich nicht beschwert haben. Es liegt also ein Interaktionseffekt zwischen dem Vorliegen einer
Beschwerde und der Kundenzufriedenheit vor.

Dr. Paul Marx

Folie 174

Interaktionseffekte mit Dummy Variablen
yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui
 Durchschnittlicher Stundenlohn von farbigen Frauen
E(yi | D2i=1, D3i=1) = (0 + 2 + 3 + 4)+ xi
mit

2 : differenzierter Effekt von „Frausein“
3 : differenzierter Effekt von Nicht-Weiß-Sein
4 : differenzierter Effekt von Farbige-Frau-Sein
Letzterer zeigt, dass der durchschnittliche Stundenlohn von nicht-weißen Frauen sich (um
4) von den durchschnittlichen Stundenlöhnen von Frauen oder Nicht-Weißen
unterscheidet.
–

Z.B. wenn alle drei differenzierte Effekte negativ sind, dann verdienen schwarze Arbeiterinnen
wesentlich weniger, als generell Frauen oder generell Nicht-Weiße im Vergleich zu Basis-Kategorie
(weiße Männer).

Dr. Paul Marx

Folie 175

Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel

Ohne Interaktionseffekt:

yi  0,2610  2,3606 D2i  1,7327 D3i  0,8028 xi
Signifikanz

(0,0561)

(0,0233)

(0,034)

(0,0417)

 Ceteris paribus
–
–

Durchschnittlicher Stundenlohn von Frauen ist um $2,36 kleiner
Durchschnittlicher Stundenlohn von nicht weißen ist um $1,73 kleiner
Männer

Frauen

--

-2,36

-1,73

-4,09

Weiß
Nicht weiß

Dr. Paul Marx

Folie 176

Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel

Mit Interaktionseffekt:

yi  0,2610  2,3606D2i  1,7327 D3i  2,1289D2i D3i  0,8028xi
Sig.

(0,0561)

(0,0233)

(0,034)

(0,0876)

(0,0417)

 Bei gleicher Ausbildung:
(2 + 3 + 4) = – 2,3606 – 1,7327 + 2,1289 = –1,964
–

Durchschnittlicher Stundenlohn von nicht weißen Arbeiterinnen ist kleiner um $1,96 als der
Stundenlohn von weißen Männern.
Männer

Frauen

--

-2,36

-1,73

-1,96

Weiß
Nicht weiß

Dr. Paul Marx

Folie 177

Stückweise Regression (piecewise linear regression)

 Trendänderung, Strukturbrüche

Provision

–

Z.B. bei Änderung der wirtschaftlichen Verhältnisse und besonderen Ereignissen in der
Zeitreihenanalyse
Z.B. Strukturänderung in (Mitarbeiter-) Belohnung
Benzinpreis

–

X* Einführung der
Benzinsteuer

Zeit

Dr. Paul Marx

X* Absatzziel

Verkaufsmenge

Folie 178

 Steigungskoeffizient der Regressionsgerade
ändert sich im Punkt X*

Provision

Stückweise Regression

 Regressionsmodell:

1+2

yi   0  1 xi   2 ( xi  X ) Di  ui
*

1

1

mit
yi : Provision, €
xi : vom Verkäufer generierte Verkaufsmenge
X* : Schwellenwert, Absatzziel

1

X* Absatzziel

Verkaufsmenge

1, wenn xi  X *
D
*
0, wenn xi  X

Dr. Paul Marx

Folie 179

yi   0  1 xi   2 ( xi  X * ) Di  ui

Provision

Stückweise Regression

1+2

 Provision unter dem Absatzziel
E(yi | Di=0, xi, X*) = 0+ 1 xi

1

1

 Provision über dem Absatzziel
E(yi | Di=1, xi, X*) = 0 – 2X* + (1 + 2) xi

Dr. Paul Marx

1

X*

Absatzziel

Verkaufsmenge

Folie 180

Stückweise Regression: Beispiel

Hypothetischer Datensatz Kosten/Output

 Annahme: Steigung der Kostenfunktion kann
sich ab dem Output-Niveau von 5.500 Einheiten
verändern

Total cost, $

Output, units

256
414
634
778
1.003
1.839
2.081
2.423
2.734
2.914

1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
9.000
10.000

 Modell:

yi   0  1 xi   2 ( xi  X * ) Di  ui

Dr. Paul Marx

Folie 181

Stückweise Regression: Beispiel
Koeffizienten(a)

Koeffizienten

Modell
1

Standardfe
hler

B
(Konstante)

-145,717

,046

,095

xi-x* D

Beta

,083

r2 = 0,974
T

176,734

,279

Output, units

Standardisiert
e
Koeffizienten

Signifikanz

-,824

,437

,842

6,067

,001

,159

1,145

,290

a Abhängige Variable: Total cost, $

yi  145,717  0,279 xi  0,095( xi  X * ) Di  ui
 Grenzkosten unter dem Schwellenwert: 1 = 0,279
 Grenzkosten über dem Schwellenwert: (1 + 2) = 0,279 + 0,095 = 0,374

Dr. Paul Marx

Folie 182

Regressionanalyse

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Paul Marx

Mehr von Paul Marx (20)

Regressionanalyse