SlideShare ist ein Scribd-Unternehmen logo
1 von 234
Basic Econometrics:

Regressionsanalyse

Dr. Paul Marx
www.eQuestionnaire.de

Dr. Paul Marx

Folie 1
Grundlegende Literatur zur Veranstaltung



Backhaus, Klaus, Bernd Erichson, Wulff Plinke und Rolf Weiber: Multivariate
Analysemethoden: Eine anwendungsorientierte Einführung, ab 9. Auflage
Berlin: Springer



Gujarati, Damodar N. (2003): Basic Econometrics, International Edition, 4.
Auflage, New-York: McGraw-Hill Education



Auer, Ludwig (2007): Oekonometrie, 4. Aufl., Springer



www.wikipedia.de, en.wikipedia.org, www.google.de 

Dr. Paul Marx

Folie 2
Inhalte der Veranstaltung
1.

Einführung in das Fach Ökonometrie

2.

Einfache Regressionsanalyse

3.

Multiple Regressionsanalyse

4.

Regression durch den Ursprung

5.

Annahmen des Linearen Regressionsmodells

6.

Relaxation von Annahmen des klassischen Regressionsmodells

7.

…

Dr. Paul Marx

Folie 3
Abschnitt 1

EINFÜHRUNG

Dr. Paul Marx

Folie 4
Begriff der Ökonometrie

 Ökonometrie

= oikonomia (gr. Wirtschaft) + metron (gr. Messung)
= Messen wirtschaftlicher Phänomene

 Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, welches die
ökonomische Theorie sowie mathematische Methoden und statistische Daten
zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und
ökonomische Phänomene quantitativ zu analysieren.
 (bzw. ökonomische Zusammenhänge zu quantifizieren)

Dr. Paul Marx

Folie 5
Entstehen der Ökonometrie
 XVII Jh: Erste Versuche der quantitativen Forschung in der ökonomischen
Theorie (politische Arithmetik). Nutzung von ökonomischen Daten zur
Berechnung vom „Nationalen Einkommen“ und Suche nach ökonomischen
Gesetzmäßigkeiten (analog zu physischen, astronomischen und anderen
naturwissenschaftlichen Gesetzten
William Petty, Charles d’Avenant, Henry King
W. Petty (1623-1687)

 Erfindung der Korrelation: Untersuchung der Beziehungen zwischen der
Heiratsrate und dem Wohlstand (unter Verwendung mehrerer
Wohlstandsindikatoren); Entwicklung verschiedener Hilfsmaßnahmen für
unterschiedliche Armutsniveaus; Erforschung von Zeitreihen für
ökonomische Variablen
Francis Galton, Karl Pearson, Francis Ysidro Edgeworth, H. Hooker
K. Pearson (1857-1936)

 1830er: Insuffizienz der neoklassischen Theorie für die Lösung von
Problemen der sinkenden Geschäftsaktivitäten und Massenarbeitslosigkeit. Eine ök. Theorie kann nur dann überzeugend sein, wenn
sie die ök. Phänomene erklärt. Praktische Anwendung solcher Theorien
erfordert Quantifizierung von grundlegenden ökonomischen Größen.

F. Edgeworth (1845-1926)

Dr. Paul Marx

Folie 7
Entstehen der Ökonometrie

H.L. Moore (1869-1958)

N. D. Kondratiev (1892-1938)

 1911: Erste ökonometrische Arbeit. H. Moore „Laws of Wages: An essay
in statistical economics“ mit der Analyse vom Arbeitsmarkt, statistischer
Überprüfung von Clark‘s Produktivitätstheorie und Entwicklung der
Grundlagen für die Strategien zur Vereinigung vom Proletariat. Er zeigt
Möglichkeiten zur Ausarbeitung der sozialen Politik mit Hilfe
mathematischer Berechnungen Grundlagen basierend auf faktischen
Daten. R. Benini wendet zum ersten Mal die multiple Regressionsanalyse
an für Schätzung der Nachfragefunktion.
 Erforschung von ökonomischen Zyklen: 7-11 jährige Investitionszyklen, 35 j. Liquiditätszyklen, 15-20 j. Zyklen in der Bauwirtschaft, 45-60 j.
Konjunkturzyklen („Kondratiev waves“)
 Theorie der ökonomischen Barometer insb. auf dem Fonds- und
Geldmärkten. Analyse von Trends, Saisonalität, Kursschwankungen usw.
Anwendung der Astronomischen, Meteorologischen und Physischen
Methoden (z.B. Harmonische Analyse) bei ökonomischer Modellierung.

W. C. Mitchell (1874-1948)

Dr. Paul Marx

Folie 8
Historische Entwicklung der Ökonometrie

I. Fischer (1867-1947)

R. A. K. Frisch (1895-1973)

Jan Tinbergen (1903 - 1994)

 1930: Gründung von „The Econometric Society, an International Society
for the Advancement of Economic Theory in its Relation with Statistics
and Mathematics“unter Vorsitz von I. Fischer.
 1933: Gründung von „Journal of Econometrics“ durch R. Frisch.
 1941: Erstes Lehrbuch in Ökonometrie von Jan Tinbergen (später
Nobelpreisträger für Entwicklung und Anwendung von dynamischen
Modellen zur Analyse von ökonomischen Prozessen, zusammen mit
Frisch)
 1970er: Ökonometrie = empirische Beurteilung und Unterstützung von
Modellen der ökonomischen Theorie. „Statistische Daten beschützen die
Theorie vom Dogmatismus“.
- ARIMA-Modell von Box-Jenkins (Zeitreihenanalyse)
- Nobelpreis für Klein‘s Schwankungsmodelle der Ökonomie und
ökonomischer Politik
 1980: Gründung des Projekts „LINK“ mit dem Ziel, statistische Modelle
aller Länder zu einem System zusammenzuführen, um internationale
ökonomische Zusammenhänge und Welthandel besser verstehen und
prognostizieren zu können.

Dr. Paul Marx

Folie 9
Ökonometrie heute
 Verständnis, dass ohne ökonometrische
Methoden keine moderne Makro- und
Mikroökonomische Analyse möglich ist.

 Ökonometrie wird als eigenständige Disziplin
in führenden Universitäten der Welt
unterrichtet.

Ökonometrische Zeitschriften









Journal of Econometrics (Schweiz)
Econometric Reviews (USA)
Econometrica (USA)
Sankhya. Indian Journal of Statistics
Ser.D. Quantitative Economics (Indien)
Publications Econometriques (Frankreich)
Quantile (Russland)
Applied Econometrics (Russland)

Dr. Paul Marx

Nobelpreise für Entwicklungen im
Fach Ökonometrische
 1980 Lawrence Klein Entwicklung
ökonometrischer Modelle und deren
Anwendung zur Analyse von
Wirtschaftsentwicklungen und von
wirtschaftspolitischen Maßnahmen
 1989 Trygve Haavelmo:
wahrscheinlichkeitstheoretische Fundierung der
Ökonometrie und die Analyse simultaner
ökonomischer Strukturen
 2000 James Heckman und Daniel
McFadden: mikroökonometrische Forschungen
im Bereich der Selektion und der Analyse
diskreter Entscheidungen.
 2003 Robert Engle und Clive
Granger: Ergebnisse im Bereich
der Zeitreihenanalyse.

Folie 10
Ökonometrie als eine eigenständige Disziplin
 Ökonomische Theorie:
–
–

hauptsächlich Postulate und Hypothesen qualitativer Natur
ÖM liefert empirischen Inhalt für Theorien

 Mathematische Ökonomie:
–
–

Ausdrück ökonomischer Theorie in mathematischer Form, ohne Bezug auf Messbarkeit oder
Überprüfung der Theorie.
ÖM überprüft die Formeln

 Ökonomische Statistik:
–
–

Akkumuliert, analysiert und präsentiert die Daten aus der Wirtschaft (z.B. BIP, ALO, usw.)
ÖM überprüft mit Hilfe dieser Daten ökonomische Theorien

 Mathematische Statistik:
–
–

Arbeitet Instrumente und Methoden z.B. für den Vertrieb aus. Die Daten werden den Resultaten
von kontrollierten Experimenten entnommen
ÖM wendet diese Methoden auf nicht kontrollierte – also reale – Daten an.

Dr. Paul Marx

Folie 11
Methoden der Ökonometrie

 Regressionsanalyse
– Feststellung von kausalen Zusammenhängen und Analyse von Beziehungen zwischen
einer abhängigen und einer oder mehreren unabhängigen Variablen (Spezialfall eines
Strukturgleichungsmodells)

 Zeitreihenanalyse
– Mathematisch-statistische Analyse von Zeitreihen und Vorhersage (Trends) ihrer
zukünftigen Entwicklung, Erkennung von Veränderungen in Zeitreihen (serielle bzw.
saisonale Komponenten)

 Paneldatenanalyse
– Wie entwickeln sich die Merkmale im Zeitablauf unter Berücksichtigung von
Unterschiedlichkeiten der Individuen?
– Kohorten-, Perioden- , und Alterseffekte

Dr. Paul Marx

Folie 12
Einige Beispiele aus der Wirtschaft und wissenschaftlicher Praxis

PRAKTISCHE RELEVANZ DER
REGRESSIONSANALYSE
Dr. Paul Marx

Folie 14
Relevanz der Regressionsanalyse für die Praxis

 Ursachenanalyse
–
–

Gibt es einen Zusammenhang zwischen [ökonomischen] Größen (a.k.a. Variablen)?
Wie Stark ist der Einfluss einzelner unabhängigen Variablen auf die anhängige Variable?

 (Wirkungs-) Prognosen
–
–
–

Wie verändert sich die abhängige Variable bei einer Änderung in der unabhängigen Variable?
Wie verändert sich die anhängige Variable im Zeitablauf und damit c.p. in der Zukunft?
Schätzung des Wertes der abhängigen Variable bei gegebenen Input-Daten.

Dr. Paul Marx

Folie 15
Beispiele von Anwendungsfeldern für
Regressionsanalyse












Banken – Feststellung von Kreditwürdigkeit von Kunden
Versicherung – Berechnung der Höhe von Versicherungsprämie
Rentenversicherung – Bestimmung des Rentenversicherungsanteils am Bruttolohn
Transport, Beförderung – Berechnung von günstigsten Routen
Logistik, Lagerwirtschaft – Planung vom Datum und Lieferumfang so, dass die Lagerhallen
optimal besetzt und Mietkosten möglichst gering sind.
Retailing – verkaufszahlenoptimale Aufstellung der Produkte im Regal
Werbung – Auswahl der Werbekanäle mit maximaler Werbewirkung und minimalen
Werbekosten
Medizin – Vergleich der Effektivität unterschieldicher Medikamente, Auffinden von
Nebenwirkungen (Biometrie, Biostatistik)
Filmindustrie – Bestimmung der Erfolgsfaktoren von Spielfilme, Bestimmung des optimalen
Zeitfensters zwischen Kinostart und DVD-Verkauf, Bestimmung vom Schadensumfang durch
Piraterie
Usw.

Dr. Paul Marx

Folie 16
Wovon hängt Verkaufsmenge eines Produktes ab?

Produktpreis

0,034

Werbeausgaben

0,794

0,325
Intensität der
Betreuung durch
Merchandiser

Verkaufsmenge
am PoS
(Lebensmittel)

Loyalität der
Verkäufer

Dr. Paul Marx

Folie 17
Wovon hängt Verkaufsmenge eines Produktes ab?

Produktpreis
0,034
Werbeausgaben
0,313
0,395
Loyalität der
Verkäufer

0,457

Verkaufsmenge
am PoS
(Lebensmittel)

0,196

0,605

Intensität der
Betreuung durch
Merchandiser

Dr. Paul Marx

Folie 18
Erfolgsfaktoren deutschsprachiger Filme in den US-Kinos
Thematik

Genre

(II Weltkrieg, DDR, Liebe,
True Story,
Homosexualität, Familie,
Jüdisch, Musik, Andere)

(Komödie, Drama, Doku,
Thriller, Action)

Produktionsfirma

0,354
Verleiher
Hauptdarsteller
0,194
Drehort

USEinspielergebnis

Kritiken
(Anzahl, Bewertung)

0,350

Previews

Startort

0,347

0,227
0,118

Start-Weekend
Box-Office

Altersfreigabe

Laufzeit in
Deutschland

Dr. Paul Marx

Pre-Release-Awards

Festivals

Folie 20
Abschnitt 2

EINFACHE LINEARE REGRESSION

Dr. Paul Marx

Folie 21
Methodologie der Ökonometrie und die

GRUNDZÜGE DER
REGRESSIONSANALYSE
Dr. Paul Marx

Folie 22
Ziel der Regressionsanalyse

 Regressionsanalyse ist ein statistisches Analyseverfahren.
Ziel der Regressionsanalyse ist es, Beziehungen zwischen einer abhängigen und einer oder
mehreren unabhängigen Variablen festzustellen und zu quantifizieren
Grundlage: empirische Daten (z.B. aus Befragungen oder Beobachtungen)

Dr. Paul Marx

Folie 23
Methodologie von Ökonometrie

1. Formulierung einer Theorie oder Hypothese
2.
3.
4.
5.
6.
7.
8.

Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 24
Formulierung von Hypothesen

 Zunächst keine methodenanalytische Fragestellungen
 Vorabüberlegungen des Forschers
–
–
–

Ausschließlich fachliche Gesichtspunkte evtl. Erfahrungen
Abgrenzung des Untersuchungszieles und -gegenstands
Formulierung von logischen Zusammenhängen

Z.B. Absatzmenge eines Monopolisten steht in einer inversen Relation zum Preis

 Wahl des Untersuchungsansatzes, der vermutete Ursache-Wirkungs-Beziehungen möglichst
vollständig enthält.

Dr. Paul Marx

Folie 25
Methodologie von Ökonometrie

1.

Formulierung einer Theorie oder Hypothese

2. Spezifizierung eines mathematischen Modells der Theorie
3.
4.
5.
6.
7.
8.

Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 26
Spezifizierung des mathematischen Modells

Preis

p  ax b

p = abhängige Variable
x = unabhängige Variable

a

a

1

Y
P reis

X Menge

b
Menge (x)

Dr. Paul Marx

Folie 27
Spezifizierung des mathematischen Modells

p  ax b
Preis

mit a<0 und b>0

b

a

a

Y
X

1

Menge (x)

exakte (!) Beziehung zwischen Variablen

Dr. Paul Marx

Folie 28
Methodologie von Ökonometrie

1.
2.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie

3. Spezifizierung des statistischen oder ökonometrischen Modells
4.
5.
6.
7.
8.

Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 29
Spezifizierung des ökonometrischen Modells

ˆ
yi   0  1  xi  ui

ui

= Fehlerterm
= zufällige Variable
= stochastische Variable

Preis

mit

In der Realität ist die Beziehung
zwischen (ökonomischen) Größen fast
nie exakt

u

u

Warum?

Menge

Dr. Paul Marx

• Weitere nicht beobachtete Variablen?
• Fehlerbehaftete, ungenaue Messung?
• Theorie stimmt nur ungefähr?
• Einfluss zufälliger Größen?
•…

Folie 30
Spezifizierung des ökonometrischen Modells

Preis

 Fehlerterm = Residualgröße = Residuum = nicht erklärte Abweichung des
Beobachtungswertes vom entsprechenden Schätzwert

ˆ
yi   0  1  xi  ui
u3

ˆ
ui  yi  yi

y3

ˆ
y3
x3

Menge

Dr. Paul Marx

Folie 31
Methodologie von Ökonometrie

1.
2.
3.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells

4. Datenerhebung
5.
6.
7.
8.

Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 32
Datenerhebung
Preis, €

10

–
–
–
–
–
–

15

33

Umsatzstatistiken
Schriftwechsel mit Kunden
Preislisten
Daten statistischer Ämter
Geschäftsberichte
Usw.

24

30

6

39

45

19

23

 Sekundäre Daten
= desk research
= Bereits vorhandene Statistiken

28

18

Beobachtung
Befragung
Experiment
Preis (y)

–
–
–

26

16

 Primäre Daten
= direkte Untersuchung

Absatz, Stk.

8

40
35
30
25
20
15
10
5
0
0

Dr. Paul Marx

5

10

15

20

25

30

35

40
Menge (x)

Folie 33
Methodologie von Ökonometrie

1.
2.
3.
4.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung

5. Schätzung der Parameter des ökonometrischen Modells
6.
7.
8.

Test von Hypothesen
Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 34
Schätzung der Parameter des ökonometrischen Modells

 Gesucht wird die Gerade, die y in Abhängigkeit von x möglichst genau bestimmt
 Diese Gerade ist oft nach Augenmaß gut festlegbar
 Für die rechnerische Bestimmung stellt sich die Frage, nach welchem Kriterium die Gerade
festzulegen ist?

 Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen
Mittelwert lässt sich durch den unterstellten linearen Einfluss der Unabhängigen Variable
erklären und welcher Anteil verbleibt als unerklärte Residuen?

Dr. Paul Marx

Folie 35
Schätzung der Parameter des ökonometrischen Modells
ˆ
yi   0  1  xi  ui

45

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5
0
0

5

10

15

20

25

30

35

40

45

je kleiner u,
desto
genauer ^
y

5
0
0

5

10

15

20

25

30

35

40

0

5

10

15

20

25

30

35

40

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5

5

0

0
0

5

10

15

20

25

30

35

40

Dr. Paul Marx

Folie 36
Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
 Gesucht wird die Gerade, für die die Summe der Abstandsquadrate der tatsächlichen Werte
von den durch die Gerade vorausgesagten Werten am geringsten wird, d.h. geringer als für
jede andere Gerade
 Quadrieren, damit sich die positiven und negativen Abweichungen nicht kompensieren
 Zielfunktion lautet also:
N

N

 u  [ y
i 1

2
i

i 1

i

 (  0  1  xi )]2  min

N

ˆ
( yi  yi ) 2  min

i 1

Dr. Paul Marx

Folie 37
Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
 Lösung:

1 

alternative Formel

N ( xi yi )  ( xi )(  yi )
N ( x )  ( xi )
2
i

2

1

[( x  x )( y  y )]

[( x  x ) ]
i

i

2

i

 0  y  1 x
mit

y  Mittelwert geschätzter Funktionswerte
x  Mittelwert unabhängiger Variable
N  Anzahl von Beobachtungen (= I)

Dr. Paul Marx

Folie 39
Schätzung der Parameter des ökonometrischen Modells:
Methode der kleinsten Quadrate
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

1 

Preis, €
p
10
16
18
23
30
33
39
169
24,143

Absatz, Stk.
x
26
28
19
24
15
6
8
126
18

N ( xi yi )  ( xi )( yi )
N ( xi2 )  ( xi ) 2



x*y
260
448
342
552
450
198
312
2562

x2
676
784
361
576
225
36
64
2722

7  2562  126 169
 1,057
7  2722  126 2

 0  y  1 x  24,143  (1,057) 18  43,174

Dr. Paul Marx

Folie 40
Schätzung der Parameter des ökonometrischen Modells

Preis

ˆ
yi   0  1  xi  ui
 0  43,174
1  1,057

45
40
35
30
25
20
15

y  43,174  1,057  x

10
5
0
0

Dr. Paul Marx

5

10

15

20

25

30

35

40
Menge

Folie 41
Methodologie von Ökonometrie

1.
2.
3.
4.
5.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells

6. Test von Hypothesen
7.
8.

Prognosen / Vorhersagen
Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 42
Test von Hypothesen

A theory or hypothesis that is not verifiable by appeal to empirical evidence may not be
admissible as a part of scientific enquiry (Milton Freedman 1953)
Ausgehend davon, dass ein Model eine Approximation von Realität ist, muss ein
zuverlässiges Kriterium entwickelt werden, um die „Güte“ dieser Approximation zu
überprüfen, bzw. um die Theorie oder Hypothese zu bestätigen (oder zu verwerfen).

Preis, €

Absatz, Stk.

Schätzwert

10
16
18
23
30
33
39

26
28
19
24
15
6
8

32
26
24
19
12
9
3

Dr. Paul Marx

Abweichung
(gemessen – geschätzt)
-6
2
-5
5
3
-3
5

War die Schätzung
gut?

Folie 43
Test von Hypothesen: Standardfehler der Schätzung

 Der Standardfehler der Schätzung gibt an, welcher mittlere Fehler bei Verwendung der
Regressionsfunktion zur Schätzung der abhängigen Variable gemacht wird:
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

N

s

u
i 1

2
i

( N  J  1)

yi
10
16
18
23
30
33
39
169
24,14

ˆ
yi
15,69
13,58
23,09
17,81
27,32
36,83
34,72

ˆ
yi  yi ( yi  yi ) 2
ˆ
-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28

32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37

In unserem Beispiel:

s

131,37

(7  1  1)

26,274  5,125

d.h. der wahre p-Wert liegt im Bereich

Bezogen auf den Mittelwert beträgt der durchschnittliche Fehler:

Dr. Paul Marx

ˆ
yi  5,125

5,125 / 24,14 = 0,21 = 21%

Folie 44
Test von Hypothesen

Gründe für die Abweichungen
 Natürliche Variabilität
 Ungenauigkeiten, Messfehler
Nach der Schätzung kann die Gesamt-Abweichung vom Mittelwert (=Varianz) in zwei Teile zerlegt
werden:
 Vom Modell „erklärte“ Abweichung
 „Nicht erklärte“ Abweichung (Restschwankung)

Dr. Paul Marx

Folie 45
Preis (y)

Test von Hypothesen
45

Gesamtabweichung
(vom Mittelwert)

40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 46
Preis (y)

Test von Hypothesen
45

Erklärte Abweichung
40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 47
Preis (y)

Test von Hypothesen
45

Nicht erklärte Abweichung
(Restschwankung)

40

35

30

_
Y

25

20

15

10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 48
Test von Hypothesen: Bestimmtheitsmaß

=

Gesamtstreuung
N

(y
i 1

i

 y)

2



+

erklärte
Streuung
N

ˆ
(y
i 1

i

 y)

2



nicht erklärte
Streuung
N

(y
i 1

i

ˆ
 yi ) 2

Je höher der Anteil der erklärten Abweichung (bzw. je geringer der Anteil der
Restschwankung) an der Gesamtstreuung um den Mittelwert ist, desto „besser“ lassen sich
die y-Werte mit der Regressionsfunktion schätzen.

Dr. Paul Marx

Folie 49
N

 ( yi  y )

2



i 1

Gesamtstreuung

N

ˆ
 ( yi  y )

2



i 1

=

erklärte
Streuung

N

ˆ
( y i  yi ) 2

i 1

+

nicht erklärte
Streuung

y

ˆ
y

y

Dr. Paul Marx

Folie 50
Test von Hypothesen: Bestimmtheitsmaß

 Bestimmtheitsmaß:
N

r 
2

( yi  y ) 2
 ˆ



i 1
N

( yi  y ) 2


erklärte Streuung
Gesamtstreuung

0  r2  1

i 1

N

r2  1 

ˆ
(y  y )
i 1
N

i

2

i

( yi  y ) 2


 1 

nicht erklärte Streuung
Gesamtstre uung

i 1

Dr. Paul Marx

Folie 51
Test von Hypothesen: Bestimmtheitsmaß
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert
N

r2 

yi
10
16
18
23
30
33
39
169
24,14

ˆ
(y

i

 y)2

(y

i

 y)2

i 1
N

i 1

r2  1 

(y
i 1
N

i

(y
i 1

i

15,69
13,58
23,09
17,81
27,32
36,83
34,72

-5,69
2,42
-5,09
5,19
2,68
-3,83
4,28

32,40
5,87
25,92
26,98
7,19
14,68
18,34
131,37

yi  y

( yi  y ) 2

ˆ
yi  y

ˆ
( yi  y ) 2

-14,14
-8,14
-6,14
-1,14
5,86
8,86
14,86

200,02
66,31
37,73
1,31
34,31
78,45
220,73
638,86

-8,45
-10,56
-1,05
-6,34
3,18
12,69
10,58

71,42
111,62
1,11
40,16
10,09
161,01
111,83
507,23

In unserem Modell sind


N

ˆ
yi  yi ( yi  yi ) 2
ˆ

ˆ
yi

ˆ
 yi ) 2
 y)

2

507,23
 0,794
638,86

 1 

131,37
 1  0,205  0,795
638,86

Dr. Paul Marx

79,5% der Varianz auf die
erklärende Variable MENGE
und
20,5% auf nicht erfasste
Einflusse zurückzuführen

Folie 52
Test von Hypothesen:
Signifikanz des Zusammenhangs (F-Test)
 Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichprobe
 Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit übertragen
werden?
 Es könnte sein, dass in der Realität die Veränderung der Funktionswerte gar nicht auf die
lineare Veränderung der unabhängigen Modellvariablen zurückzuführen ist.
Der Wert von r2 kann sich aufgrund zufälliger Einflusse ergeben haben.
 Die Frage ist nun, wie signifikant die Abhängigkeit des Regressands von Regressoren ist?
M.a.W. wie (un)wahrscheinlich ist es, dass es keinen Zusammenhang zwischen der
unabhängigen und abhängigen Variablen gibt?
 Die Prüfung von Gültigkeit der Regressionsfunktion als Ganzer: F-Test

Dr. Paul Marx

Folie 53
Test von Hypothesen: F-Test

 Ablauf des F-Tests:
1.

Aufstellen der „Nullhypothese“ (H0):
„Es besteht kein Zusammenhang zwischen der abhängigen und den unabhängigen
Variablen!“
–
–

j= 0, für j [ 0; J ]
Regressionsgleichung ist unbrauchbar

Alternativhypothese (H1): „Der Zusammenhang besteht! r2 ist signifikant von null
verschieden!“
2.

Verlässlichkeit des Testergebnisses (Vertrauenswahrscheinlichkeit) wird vorgegeben
–
–
–

üblicherweise 0,95 oder 0,99
D.h. mit einer Wahrscheinlichkeit von 95% bzw. 99% kann man sich darauf verlassen, dass H0 nicht
zu unrecht abgelehnt wird.
M.a.W. wird H0 abgelehnt, so ist mit 95%- bzw. 99%-igen Wahrscheinlichkeit die H1 richtig.

Dr. Paul Marx

Folie 54
Test von Hypothesen: zwei Fehlerarten

 Die Entscheidung eine Hypothese zu verwerfen, kann fehlerhaft sein
 Es wird zwischen 2 Arten von Fehlern unterschieden:

H0 richtig

H0 falsch

verwerfen

Fehler I Art ()

kein Fehler

akzeptieren

kein Fehler

Fehler II Art

 Fehler I Art () = Signifikanzniveau (1- = Vertrauenswahrscheinlichkeit)


Statement: „Einfluss besteht“; in Wirklichkeit: „kein Einfluss“

 Fehler II Art () = Teststärke


Statement: „kein Einfluss“; in Wirklichkeit: „Einfluss besteht“

 Simultane Minimierung beider Fehlerarten ist unmöglich. Falsche Positives sind „wichtiger“,
da mehr Schaden. Daher wird zunächst  minimiert.

Dr. Paul Marx

Folie 55
Test von Hypothesen: F-Test

3.

Berechnung des empirischen F-Wertes aufgrund von Stichprobendaten bzw. - werte

ˆ
 ( y  y)
Femp 

2

J
ˆ
 ( y  y) 2
N  J 1



r2
J
1 r 2
N  J 1



erklärte Streuung / J
nicht erklärte Streuung / ( N  J  1)

mit
N
= Anzahl der Beobachtungswerte (Fälle)
J
= Anzahl von Regressoren
N – J – 1 = Zahl der Freiheitsgrade der Regression

Femp 

0,79 / 1
 18,809
(1  0,79) / (7  1  1)

Dr. Paul Marx

Folie 56
Test von Hypothesen: F-Test

4.

Vergleich des empirischen F-Wertes (Femp) mit einem theoretischen F-Wert (Ftab) anhand
einer Tabelle
Entscheidungskriterium:
Femp  Ftab  Ho verworfen, es gilt H1

Femp  Ftab  Ho nicht verworfen

Dr. Paul Marx

Folie 57
Test von Hypothesen: F-Test
F-Tabelle: 95% Vertrauenswahrscheinlichkeit (Ausschnitt)

hier

Für unser Beispiel:

f1: J = Zahl der erklärenden Variablen
f2: N-J-1 = Anzahl Freiheitsgrade
(N = Zahl der Beobachtungswerte)

J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 > 6,61  Ho verworfen!

Dr. Paul Marx

Folie 58
Test von Hypothesen: F-Test
F-Tabelle: 99% Vertrauenswahrscheinlichkeit (Ausschnitt)

Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 > 16,26  Ho verworfen!

Dr. Paul Marx

Folie 59
Test von Hypothesen: F-Test
F-Tabelle: 99,9% Vertrauenswahrscheinlichkeit (Ausschnitt)

Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; Femp = 18,809

18,809 < 47,04  Ho nicht verworfen!

Dr. Paul Marx

Folie 60
Test von Hypothesen: F-Test

Vertrauenswahrscheinlichkeit
95%
(0,95)

99%
(0,99)

99,9%
(0,999)

H1

H1

H0

0,05

0,01

0,001

Signifikanzniveau
Die geschätzte Funktion

y  43,174  1,057  x
erklärt 79% des Zusammenhangs von y und x
signifikant auf dem Niveau von 0,01.

Dr. Paul Marx

Folie 61
Test von Hypothesen: Gültigkeit von Regressionskoeffizienten
für die Grundgesamtheit (T-Test)
 Die Schätzung der Funktionsparameter basiert auf bekannten Daten
 Wie zuverlässig sind die geschätzten -Werte für Prognosen?

T-Test
 Geprüft wird, ob tatsächlicher -Wert gleich Null ist (Also j=0), d.h.
Ho: „Faktor xj hat in der Grundgesamtheit keinen Einfluss auf y. Der ermittelte Wert von j
gilt nur für die Stichprobe.“
H1: „Der Einfluss vom Faktor xj in der Grundgesamtheit ist signifikant größer Null“

Dr. Paul Marx

Folie 62
Test von Hypothesen: T-Test

 Ähnlich wie beim F-Test wird eine Prüfgröße errechnet und mit dem Tabellenwert verglichen

temp 

ˆ
j j

getestet wird j=0

S j

S  j | j 0  s 

1
N

 ( xi  x )

2



S 0

i 1

temp 

N

( xi  x ) 2

i 1

Wahrer Regressionskoeffizient (unbekannt)

S j 

x2

Regressionskoeffizient des j-ten Regressor

j 

1
 s

N

S j

Errechneter t-Wert

ˆ
j 

temp 

ˆ
j

Standardfehler des Regressionskoeffizienten des j-ten Regressors

Dr. Paul Marx

Folie 63
Test von Hypothesen: T-Test
Nr.
i
1
2
3
4
5
6
7
Summe
Mittelwert

p  43,174  1,057  x
N

s

u
i 1

2
i

( N  J  1)

S  j | j 0  s 

 5,125

1
N

 (x  x)

1
 s

N

2

1
 0,24
454

i

i 1

S 0

 5,125 

x2
N

 (x  x)
i 1

2

1 182
 5,125 

 4,743
7 454

i

Dr. Paul Marx

pi

xi

xi  x

10
16
18
23
30
33
39
169
24,14

26
28
19
24
15
6
8

-8
-2
0
5
12
15
21

( xi  x ) 2
64
100
1
36
9
144
100
454,00

18,00

temp1 

ˆ
1
S 1

temp 0 



ˆ
0
S 0

 1,057
 4,404
0,24



43,174
 9,102
4,743

Folie 64
Test von Hypothesen: T-Test

Vergleich mit dem Tabellenwert:
|temp|  ttab  Ho verworfen
|temp|  ttab  Ho nicht verworfen

Für unser Beispiel:
J = 1; N = 7; N-J-1 = 5; temp = -4,404

=0,95:
=0,99:
=0,999:

4,395 > 2,57  Ho verworfen!
4,395 > 4,03  Ho verworfen!
4,395 < 6,86  Ho nicht verworfen!

Dr. Paul Marx

Folie 65
Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
 Der Einfluss von Variable x1 kann in der Grundgesamtheit mit 99%-iger Wahrscheinlichkeit
(= auf dem Signifikanzniveau von 0,01) vermutet werden.
 Wie weit können die wahren j-Werte von den in der Stichprobe ermittelten Werten
abweichen?

ˆ
yi   0  1  xi

Verlauf von Regressionsgerade bei Variation von 0 und 1

Dr. Paul Marx

Verlauf von Regressionsgerade bei Variation von 1

Folie 66
Test von Hypothesen: t-Test und
Konfidenzintervall des Regressionskoeffizienten
Ho akzeptieren
Häufigkeit

Ho akzeptieren

Ho verwerfen

(kein Einfluss in der
Grundgesamtheit)

(kein Einfluss in der
Grundgesamtheit)

(Einfluss besteht)

ˆ
 
Relation vom
geschätzten  zu
seinem
Standardfehler ist
kleiner als kritischer
t-Wert

ˆ
 

t ( )

t


S

 t ( )  t  S 
t ( )

Bei normal
verteilten Residuen
sind die geschätzten
-Koeffizienten
auch normal verteilt

0

 t ( )

Dr. Paul Marx

ˆ




Folie 67
Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
ˆ
 j  t  S

j

ˆ
  j   j  t  S j

 Der wahre Wert des Regressionskoeffizienten (für das vorgegebene Signifikanzniveau ) liegt
ˆ
im Bereich
 j  t  S
j

 Dieser Bereich nennt sich Konfidenzintervall von j
Für =0,01

1,057  4,03  0,24  1  1,057  4,03  0,24
 2,03  1   0,086

Für =0,05

1,057  2,57  0,24  1  1,057  2,57  0,24

1,67  1   0,44

Dr. Paul Marx

Folie 68
Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
 2,03  1   0,086
24,112   0  62,236

y  43,174  0,086  x

y  43,174  1,057  x
y  43,174  2,03  x
Verlauf von Regressionsgerade bei Variation von 1

Dr. Paul Marx

Folie 69
Test von Hypothesen:
Konfidenzintervall des Regressionskoeffizienten
 2,03  1   0,086
24,112   0  62,236

y  24,112  0,086  x

y  62,236  2,03  x

y  43,174  1,057  x

Verlauf von Regressionsgerade bei Variation von 0 und 1

Dr. Paul Marx

Folie 70
Preis (y)

Test von Hypothesen:
Konfidenzintervall der Regressionsfunktion
45

Konfidenzintervall =
Region der Annahme von H1

40

Konfidenzintervall gibt an, in welchem Bereich der
wahre Regressionskoeffizient mit einer bestimmten
festgelegten Vertrauenswahrscheinlichkeit liegt

35

30

_
Y

25

20

15

=0,01
10

5

=0,05
0

0

5

10

15

20

25

30

35

40

Menge (x)

Vereinfachte Abbildung!
Dr. Paul Marx

Folie 71
Preis (y)

Test von Hypothesen:
Konfidenzintervall der Regressionsfunktion
45

Je weiter x vom Mittelwert,
desto ungenauer ist die
Schätzung von y(x)

40

35

Übertragen auf die Regressionsgerade zeigt
Konfidenzintervall an, in welchem Bereich die
wahren Werte liegen können bzw. wie stark sie von
den geschätzten Werten abweichen können (mit
einer bestimmten festgelegten
Vertrauenswahrscheinlichkeit)

30

25

20

15

=0,01
10

5

0

0

5

10

15

Dr. Paul Marx

20

25

30

35

40

Menge (x)

Folie 72
Konfidenzintervall der Regressionsfunktion
Häufigkeit von y

Preis (y)

Dr. Paul Marx

Folie 73
Ergebnisse der Regressionsanalyse

ˆ
yi 

43,174

S j =

(4,743)

(0,24)

t

=

(9,102)

(-4,404)

 =

(0,001)

(0,01)

 1,057  xi

Dr. Paul Marx

r2 = 0,795
df = 6
F1,6 = 18,809

Folie 74
Ergebnisse der Regressionsanalyse: SPSS
Modellzusammenfassung
a Einflußvariablen : (Konstante), Absatzmenge

Modell
1

R
R-Quadrat
,891(a)
,794

Standardf
Korrigiertes ehler des
R-Quadrat Schätzers
,753
5,12578

ANOVA(b)
a Einflußvariablen : (Konstante), Absatzmenge
b Abhängige Variable: Preis
Modell

1

Regression
Residuen
Gesamt

Quadrats
umme
507,489
131,368
638,857

df

Mittel der
Quadrate
1
507,489
5
26,274
6

F
Signifikanz
19,316
,007(a)

Koeffizienten(a)
a Abhängige Variable: Preis

Modell
1

(Konstante)
Absatzmenge

Nicht standardisierte
Koeffizienten
Standardfehl
er
B
43,174
4,744
-1,057
,241

Dr. Paul Marx

Standardisie
rte
Koeffiziente
n
Beta
-,891

T
Signifikanz
9,101
,000
-4,395
,007

Folie 75
Methodologie von Ökonometrie

1.
2.
3.
4.
5.
6.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen

7. Prognosen / Vorhersagen
8.

Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 76
ˆ
y  43,174  1,057  x

Preis (y)

Bestimmung der Absatzmenge

45
40
35

x= 18,18

für y=25  x=17,19

30
25
20

x= 13,6

15

=0,05

10
5
0
0

5

10

15

20

25

30

35

40

Menge (x)

Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt

Dr. Paul Marx

Folie 77
ˆ
y  43,174  1,057  x

Preis (y)

Bestimmung des Preises

45
40
35

für x=25  y=16,74

30

y= 19,98

25
20
15

=0,05

10

y= 13,61

5
0
0

5

10

15

20

25

30

35

40

Menge (x)

Zur Erinnerung:
Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer
bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt

Dr. Paul Marx

Folie 78
Optimale Produktionsmenge und Preis

Gewinnfunktion z.B. G = (y - k) x
mit k = 4
G = yx – 4x = (43,174 – x )x – 4x =
= 43,174 x – x2 – 4 x = 39,174 x – x2
Gmax ist gegeben im Punkt, wo G/x = 0

Preis (y), Gewinn/10

ˆ
y  43,174  1,057  x

45
40

G= 39,174x-x2

35
30
25
20
15
10
5

39,174 – 2x = 0

0
0



5

10

15

20

25

30

35

40
Menge (x)

xopt = 39,174 / 2 = 19,587 = 20
yopt = 43,174 – 20 = 23,17

Dr. Paul Marx

Folie 79
Methodologie von Ökonometrie

1.
2.
3.
4.
5.
6.
7.

Formulierung einer Theorie oder Hypothese
Spezifizierung eines mathematischen Modells der Theorie
Spezifizierung des statistischen oder ökonometrischen Modells
Datenerhebung
Schätzung der Parameter des ökonometrischen Modells
Test von Hypothesen
Prognosen / Vorhersagen

8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken

Dr. Paul Marx

Folie 80
Preis-Absatz-Funktion im Monopol

Aus unserem Beispiel folgt:
xopt = 20
yopt = 23,17
Gopt = 383,4

Reale Nachfrage ist aber höher:
Preis, €

Absatz, Stk.

23

24

G|x=24; p=19,17 = 364,08 < Gopt

Der Monopolist hat keinen Anreiz, mehr zu produzieren. Es entsteht Defizit. Bevölkerung ist
unzufrieden.
Der Staat kann/muss eingreifen:
* Verpflichtung zur Mindestproduktion
* Senkung der Steuer für den Monopolisten
* Subventionierung von Produzenten komplementärer Güter
* Stimulierung des Wettbewerbes
*…

Dr. Paul Marx

Folie 81
LOGISCHER FEHLER!!!

 In der Realität hängt der Preis nicht von der Absatzmenge ab. Vielmehr hängt der Absatz
vom Preis ab.
 Regressionsanalyse bestimmt lediglich die Stärke des Zusammenhangs, jedoch nicht die
Richtung!
Im Zweivariablen-Fall ist es unproblematisch, da die Richtung des Zusammenhanges einfach
umgekehrt werden kann. Wenn mehr Variablen regressiert wären, wäre unsere Schätzung
komplett falsch und irreführend.
 Die logische Begründung beim Spezifizieren des Modells ist wichtiger als Kennzahlen!

 Übungsaufgabe: Spezifizieren Sie das Model richtig und führen Sie entsprechende
Regressionsanalyse durch.

Dr. Paul Marx

Folie 82
Übungsaufgabe
Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei
Werbeausgaben in Höhe von € 85.000 ergeben wird.
Werbeausgaben
(€1000)
40
60
70
110
150
160
190
200

Dr. Paul Marx

Absatz
(€1000)
377
507
555
779
869
818
862
817

Folie 83
Abschnitt 3

MULTIPLE REGRESSIONSANALYSE
Wenn es mehrere unabhängige Variablen gibt

Dr. Paul Marx

Folie 84
Multiple Regressionsanalyse

 Regressionsanalyse:
–

Analyse von Zusammenhängen zwischen Variablen (x,y)

–

Vorhersage der y-Werte aus x-Werten

–

Versuch, die y-Werte auf die x-Werte „zurückzuführen“

 Einfache lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und einer Einflussgröße x
 In den meisten Fällen üben mehrere Faktoren gleichzeitig Einfluss auf die zu erklärenden
Variable aus
–

Aufnahme einer zusätzlichen Variable kann mehr Varianz erklären

 Multiple lineare Regressionsanalyse:
– Betrachtung einer Zielgröße y und mehr als einer Einflussgröße x

Dr. Paul Marx

Folie 85
Multiple Regressionsanalyse: ökonometrisches Modell

 Das Vorgehen bei der multiplen RA unterscheidet sich konzeptionell nicht von dem
Vorgehen bei der einfachen RA
 Das ökonometrische Modell bzw. die Regressionsfunktion wird in der gleichen Form
spezifiziert. Es werden nur mehrere unabhängige Variablen betrachtet.
J

ˆ
yi   0    i xi  ui
i 1

Dr. Paul Marx

Folie 86
J

Multiple Regressionsanalyse: Beispiel

ˆ
yi   0    i xi  ui
i 1

 Welche Faktoren beeinflussen die Prüfungsnote im Fach „Basic Econometrics“?
 Hypothese: Konsum von Bier und Kaffee in der Lernzeit beeinflusst die Note
–

Je mehr Bier und Kaffee, desto bessere Note
•
•

x1 Anzahl von Biergläser in der Lernzeit
x2 Anzahl von Tassen Kaffee in der Lernzeit

Bier = x1
Note
Kaffee = x2

Dr. Paul Marx

ˆ
yi   0  1 x1   2 x2  ui

Folie 87
Schätzen der Regressionsfunktion

 Das Optimierungskriterium ist nach wie vor die Minimierung der Summe der quadrierten
Abweichungen
N

u
n 1

min

2
n

 min

ui2   ( yi  0  1 x1i  2 x2i )2


 zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten
Parametern gebildet
-

Partielle Ableitungen nach Variablen werden gleich 0 gesetzt -> Gleichungssystem entsteht

y   0  1 x1   2 x2

yi x1i  0  x1i 1  x12i  2  x1i x2i


2
yi x2i  0  x2i 1  x1i x2i   2  x2i


Dr. Paul Marx

Folie 88
Schätzen der Regressionsfunktion



Lösung des Gleichungssystems führt zu einzelnen i

1 

2 

2
( yi x1i )(  x2i )  ( yi x2i )(  x1i x2i )
2
( x12i )(  x2i )  ( x1i x2i ) 2

( yi x2i )(  x12i )  ( yi x1i )(  x1i x2i )
2
( x12i )(  x2i )  ( x1i x2i ) 2

 0  y  1 x1   2 x2

Dr. Paul Marx

Folie 89
Schätzen der Regressionsfunktion: Matrixform

u  y  Xβ

y  Xβ  u
 y1   1 x11 x21 ... xk1    0   u1 
 y   1 x x ... x     u 
 2    12 22 k 2   1    2 
 ...  ... ... ... ... ...   ...   ... 
  
   
yi   1 x1i x2i ... xki    i   ui 


u T u  u1 u2

 u1 
u  I
... ui   2    ui2
 ...  i 1
 
 ui 

Dr. Paul Marx

u T u  (y  Xβ )T (y  Xβ )
 yT y 2 β T X T y β T X T Xβ
(X T X) β  X T y
(X T X) 1 (X T X) β  (X T X) 1 X T y
Eβ  (X T X) 1 X T y
β  (X T X) 1 X T y

Folie 90
ˆ
yi   0  1 x1   2 x2  ui
Bier = x1

Bier

Interpretation von Regressionskoeffizienten

Kaffee = x2

1

1
Note

Note

 Betas sind die partiellen Steigungskoeffizienten

1

2

 1= die Änderung im Durchschnittswert von y bei Änderung von x1 um eine Einheit, bei x2=
const
–

Der direkte oder Netto-Effekt einer Einheitsveränderung in x1 unabhängig von allen Effekten von x2
(=was bringt ein zusätzliches Bier für die Note)

 0= konstantes Glied (=nichts trinken)

Dr. Paul Marx

Folie 91
Standardisierte Regressionskoeffizienten
 Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
–
–

Da die Skalen unterschiedlich sind (Bier wird in Gläsern und Kaffe in Tassen gemessen)
Wenn Bier in ml gemessen wird, vergrößert sich der 1-Wert um den Faktor 500

 Um die Betas vergleichbar zu machen, muss man
–

die Skalen beider Variablen einheitlich machen und dann mit den umgerechneten Werten eine
neue RA durchführen,

oder
– Die bereits geschätzten Regressionskoeffizienten standardisieren

ˆ    Sta ndardabweichung von xi
i
i
St andardabweichung von y

Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen eliminiert. Die Betas
werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren
Wichtigkeit verwendet werden.
Dr. Paul Marx

Folie 92
Beispiel
Nicht standardisiert:
Standardisiert:

Note = 0,465 + 0,270 * Kaffee + 0,617 * Bier
Note =
0,518 * Kaffee + 0,781 * Bier

Nicht standardisierte
Koeffizienten

Modell

B

Standardfehler

1 (Konstante)
Kaffee
Bier

,465
,270
,617

,191
,045
,069

Standardisier
te
Koeffizienten

Beta

T

Signifikanz

,518
,781

2,433
5,950
8,975

,072
,004
,001

a. Abhängige Variable: Note

Dr. Paul Marx

Folie 93
Korrigiertes Bestimmtheitsmaß

 Bei gegebener Stichprobe wird mit der Aufnahme zusätzlicher erklärenden Variablen ein
mehr oder weniger großer Erklärungsanteil hinzugefügt. Dieser Anteil kann u.U. nur zufällig
bedingt sein. r2 kann also nur zunehmen – auch wenn irrelevante Regressoren
aufgenommen werden.

ˆ
erklärte Varianz
nicht erklärte Varianz
 ui2
r 
 1
 1
Gesamte Varianz
Gesamte Varianz
 ( yi  y i )2

Nicht steigend mit 
Anzahl von Regressoren

2

Unabhängig von Anzahl
der Regressoren

 r2 steigt mit steigender Varianz von y, ohne dass der Grad der Anpassung sich verbessert hat.
 r2 steigt mit dem Umfang der Stichprobe.
 diese negativen Eigenschaften werden durch das korrigierte Bestimmtheitsmaß über den
Korrekturfaktor ausgeglichen.

Dr. Paul Marx

Folie 94
Korrigiertes Bestimmtheitsmaß
 r2KORR vermindert r2 um eine Korrekturgröße, die desto größer wird, je größer die Zahl der
Regressoren und je kleiner die Zahl der Freiheitsgrade ist.
 Dadurch kann r2KORR auch bei der Aufnahme von Regressoren abnehmen.

2
rKORR

ˆ
 u /( N  J 1)  1  (1  r
 1
 ( y  y ) /( N  1)
2
i

2

i

2
KORR

r

2

i

J  (1  r 2 )
r 
N  J 1
2

mit
N
J
N–J–1

)

( N  1)
( N  J  1)

= Anzahl der Beobachtungswerte (Fälle)
= Anzahl von Regressoren
= Zahl der Freiheitsgrade

 r2KORR kann auch negative Werte annehmen und ist kleiner als r2,
außer falls r2=1, dann r2KORR =1

Dr. Paul Marx

Folie 95
Korrigiertes Bestimmtheitsmaß

Modell

R
1

Korrigiertes RQuadrat

R-Quadrat
,985

,970

,955

Standardfehler
des Schätzers
,297

Einflußvariablen: (Konstante), Bier, Kaffee

Dr. Paul Marx

Folie 96
Korrigiertes Bestimmtheitsmaß

 Mit r2KORR wird es möglich, Schätzungen mit unterschiedlichen erklärenden Variablen oder
unterschiedlicher Varianz der abhängigen Variablen miteinander zu vergleichen.
 Dabei müssen folgende Bedingungen erfüllt sein:
–
–

Abhängige Variable und
Stichprobenumfang sind gleich

 Warnung vor dem r2korr-Maximierung-Spiel!
–
–
–

Ziel der RA ist nicht das Erreichen des maximal möglichen r2korr , sondern die plausible Schätzung
von Regressionskoeffizienten in der Population
Es ist wichtiger herauszufinden, ob die Regressionskoeffizienten statistisch (nicht)signifikant sind,
oder Vorzeichen haben, die nicht zu erwarten sind
logische bzw. theoretische Relevanz von erklärenden Variablen für den erklärten Faktor und ihre
statistische Signifikanz haben Vorrang!

Dr. Paul Marx

Folie 97
Multiple Regressionsanalyse: Anwendungsbeispiel

Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner
Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen
Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren
und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der
Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn
etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über
die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Zahl der
Vertreterbesuche.
Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genannten
Einflussgroßen sich auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang
zwischen z.B. Vertreterbesuchen und Absatzmenge gegeben wäre, dann müssten
überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf
Unterschiede in der Zahl der Besuche zurückführen lassen, z.B.: je höher die Zahl der
Vertreterbesuche, desto höher der Absatz.
Quelle: Backhaus et al.(2006): „Multivariate Analysemethoden“

Dr. Paul Marx

Folie 99
Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.

1
2
3
4
5
6
7
8
9
10

Menge
Kartons pro
Periode

Preis pro
Karton

2585
1819
1647
1496
921
2278
1810
1987
1612
1913

12,5
10
9,95
11,5
12
10
8
9
9,5
12,5

Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche

2000
550
1000
800
0
1500
800
1200
1100
1300

109
107
99
70
81
102
110
92
87
79

Ökonometrisches Modell:
Menge = 0

+ 1*Preis

Dr. Paul Marx

+ 2*Ausgaben

+ 3*Besuche

Folie 100
SPSS-Dateneditor: Auswahl des Analyseverfahrens

Dr. Paul Marx

Folie 101
SPSS: Dialogfenster „Lineare Regression“

Dr. Paul Marx

Folie 102
SPSS-Output für die Regressionsanalyse
Modellzusammenfassung
Modell
1

R
,962(a)

R-Quadrat
,926

Korrigiertes RQuadrat
,888

Standardfehler
des Schätzers
150,12600

a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton

ANOVA(b)
Modell
1

Regression
Residuen
Gesamt

3

Mittel der
Quadrate
560342,900

135226,900

6

22537,817

1816255,600

9

Quadratsumme
1681028,700

df

F
24,862

Signifikanz
,001(a)

a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
b Abhängige Variable: Menge Kartons pro Periode

Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655

11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 103
Regressionskoeffizienten
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

Menge = 0
+ 1*Preis
+ 2*Ausgaben
+ 3*Besuche
Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
 Regressionskoeffizienten geben den marginalen Effekt der Änderung einer unabhängigen
Variable auf die abhängige Variable an.
–

Z.B. 2 = 0,655 bedeutet, dass 65,5 Kartons mehr abgesetzt werden können, wenn
Verkaufsförderung um 100 erhöht wird. Beim Preis 10 ergibt sich Mehrerlös von 655.

Dr. Paul Marx

Folie 104
Standardisierte Regressionskoeffizienten

 Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner
Variable angesehen werden!
 Die Werte der Regressionskoeffizienten lassen sich nur dann vergleichen, wenn die Variablen
in gleichen Einheiten gemessen wurden.
–
–
–

Der nummerische Wert von i ist abhängig von der Skala, in der xi gemessen wurden.
Z.B. Wenn der Preis in Cent (anstatt in Euro) gemessen wird, vergrößert sich 1 um den Faktor 100
Um z.B. den Einfluss der Anzahl von Vertreterbesuchen mit dem Einfluss vom Preis vergleichbar zu
machen, müsste die Skala für Besuche in „Kosten pro Besuch“ umgewandelt werden.

 Standardisierung von Regressionskoeffizienten macht sie vergleichbar.
–

Durch Standardisierung werden die unterschiedlichen Messdimensionen der Variablen eliminiert.
Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß
für deren Wichtigkeit verwendet werden.

Dr. Paul Marx

Folie 105
Einflussstärke und
Standardisierte Regressionskoeffizienten
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

Nicht standardisiert:
Standardisiert:

Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Menge =
0,034*Preis + 0,794*Ausgaben + 0,345*Besuche

Vergleich der relativen Einflussstärken (bzw. Wichtigkeiten)
Nicht standardisiert

Preis
Ausgaben
Besuche

Preis
1
0,065
1,116

Ausgaben
15,155
1
16,923

Standardisiert

Besuche
0,895
0,059
1

Dr. Paul Marx

Preis
Ausgaben
Besuche

Preis
1
23,352
10,147

Ausgaben
0,042
1
0,434

Besuche
0,098
2,301
1

Folie 106
Prüfung der Regressionsfunktion
Modellzusammenfassung
Modell
1

R
,962(a)

R-Quadrat
,926

Korrigiertes RQuadrat
,888

Standardfehler
des Schätzers
150,12600

a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton

ANOVA(b)
Modell
1

Regression
Residuen

Gesamt

3

Mittel der
Quadrate
560342,900

135226,900

6

22537,817

1816255,600

9

Quadratsumme
1681028,700

df

F
24,862

Signifikanz
,001(a)

a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton
b Abhängige Variable: Menge Kartons pro Periode

 Der durch die Regressionsbeziehung postulierte Zusammenhang kann empirisch bestätigt
werden.
–

Die Regressionsfunktion erklärt 92,6% der Varianz in der abhängigen Variable (Menge) signifikant mit
der Vertrauenswahrscheinlichkeit von 99,9% (Signifikanzniveau 0,001)

Dr. Paul Marx

Folie 107
Prüfung der Regressionskoeffizienten

Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

–
–

Empirisch: Der Einfluss von 1 ist nicht signifikant (t-Test konnte H0 nicht ablehnen)
Logisch: 1 > 0, d.h. mit dem steigenden Preis muss der Absatz steigen. Zu erwarten ist aber eine
umgekehrte Wirkung.

Dr. Paul Marx

Folie 108
Prüfung der Regressionskoeffizienten

Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
Koeffizienten(a)
Nicht standardisierte
Koeffizienten
Modell
1

B
(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

-6,866
9,927

Standardfehler
673,205
38,164

,655
11,085

Standardisierte
Koeffizienten
Beta
,034

T
-,010
,260

Signifikanz
,992
,803

,103

,794

6,382

,001

4,428

,345

2,504

,046

a Abhängige Variable: Menge Kartons pro Periode

 Das bedeutet aber nicht, dass es keinen Zusammenhang zwischen dem Preis und der
Absatzmenge gibt!
–
–
–

Möglicherweise ist dieser Einfluss durch andere Einflüsse überlagert, oder
Wird infolge des geringen Stichprobenumfanges nicht deutlich, oder
Die Varianz bzw. Variabilität in den gemessenen Werten des Preises ist nicht genügend, um seinen
Einfluss feststellen zu können

Dr. Paul Marx

Folie 109
Daten der Stichprobe
SPSS Datensatz: Absatz von Margarine
Nr.

1
2
3
4
5
6
7
8
9
10
Mittelwert
Varianz
Standardabweichung

Menge
Kartons pro
Periode
2585
1819
1647
1496
921
2278
1810
1987
1612
1913
1806,80
201806,18
449,23

Preis pro
Karton
12,5
10
9,95
11,5
12
10
8
9
9,5
12,5
10,50
2,39
1,55

Ausgaben für Zahl der
VerkaufsVertreterförderung
besuche
2000
550
1000
800
0
1500
800
1200
1100
1300

109
107
99
70
81
102
110
92
87
79

Menge Kartons pro Periode;
Preis

3000

1025,00
2500
296250,00
544,29
2000

93,60
195,60
13,99

1500
1000
500
0
0

Dr. Paul Marx

2

4

6

8

10

12

14

Folie 110
Prüfung der Regressionskoeffizienten

Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche
 Die Regressionsfunktion bildet also nicht den realen Zusammenhang ab und kann nicht zur
Untersuchung des Einflusses vom Preis auf die Absatzmenge verwendet werden.
 Mögliche Aushilfen (in der Praxis!!!):
1.

Den Wert des Preises auf seinem (Stichproben-)Mittelwert fixieren. Die RF kann dann zur Schätzung
von Absatzmenge aufgrund von Werbeausgaben und Vertreterbesuchen verwendet werden.
•
•

2.

Risiko: die Restlichen Regressionskoeffizienten haben verzerrten Stichproben- und Modell-Fit
Sinnlos: mit Einsatz von PCs ist der Zeitaufwand für Berechnung eines anderen Modells ist unerheblich

Besser: Modell umformulieren und erneute RA durchführen

Dr. Paul Marx

Folie 111
Modellvergleich
Variablen: Preis, Ausgaben, Besuche

Variablen: Ausgaben, Besuche
Modellzusammenfassung

Modell
1

R
,962(a)

R-Quadrat
,926

Korrigiertes RQuadrat
,888

Standardfehler
des Schätzers
150,12600

Modell
1

R
,962(a)

R-Quadrat
,925

Korrigiertes RQuadrat
,903

Standardfehler
des Schätzers
139,77114

Koeffizienten(a)

Modell
1

(Konstante)
Preis pro Karton
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche

Nicht
standardisierte
Koeffizienten
Standard
B
fehler
-6,866
673,205
9,927
38,164

Standar
disierte
Koeffizie
nten
Beta
,034

Nicht standardisierte
Koeffizienten
T
-,010
,260

Signifi
kanz
,992
,803

Modell
1

(Konstante)

,655

,103

,794

6,382

,001

Ausgaben für
Verkaufsförderung

11,085

4,428

,345

2,504

,046

Zahl der
Vertreterbesuche



Standar
dfehler

B

r2 > r2

r2KORR < r2KORR

Dr. Paul Marx

144,482

,091

10,487

3,522

Beta

315,250

,664

Standar
disierte
Koeffizi
enten

T

Signif
ikanz

,458

,661

,805

7,338

,000

,326

2,977

,021



Folie 112
Methoden zur Auswahl von Variablen (SPSS)
–
–

Die Gesamtanzahl möglicher Modelle steigt faktoriell mit der Anzahl der Variablen an.
Im Fall von 3 unabhängigen Variablen sind 7 unterschiedliche Modelle möglich, alle müssten
berechnet werden

 Alternative Vorgehensweisen:

1.

Der Untersucher formuliert ein oder mehrere Modelle, die ihm aufgrund von theoretischen
oder sachlogischen Überlegungen sinnvoll erscheinen und überprüft sie empirisch mit Hilfe
der Regressionsanalyse

2.

Der Untersucher lässt sich vom Computer eine Auswahl von Modellen zeigen und versucht
sie sinnvoll zu interpretieren

Dr. Paul Marx

Folie 113
Schrittweise Regressionsanalyse

 Bei der Schrittweisen RA erfolgt die Berechnung der Regressionskoeffizienten in mehreren
Schritten:
–

Zunächst wird RA mit einer Variable durchgeführt, die mit der abhängiger Variablen höchste
Korrelation aufweist.
•

–

Bei jedem Schritt wird für jede unberücksichtigte Variable ihr partieller Korrelationskoeffizient und ein „Beta
in“-Wert ausgewiesen, die der Regressionskoeffizient nach einer eventuellen Aufnahme im folgenden Schritt
erhalten würde.

Im jeden nächsten Schritt werden aus den verbliebenen Variablen diejenigen aufgenommen (bzw.
aus bereits aufgenommenen diejenigen ausgeschlossen), die das Toleranzkriterium (nicht) erfüllen.
•

Als Toleranzkriterium dient der F-Wert des partiellen Korrelationskoeffizienten bzw. dessen Signifikanzniveau.

•

Eine Variable wird nur dann aufgenommen, wenn ihr F-Wert einen vorgegebenen Wert übersteigt bzw. wenn
ihr Signifikanzniveau kleiner ist als die vorgegebene F-Wahrscheinlichkeit

•

Umgekehrt wird eine Variable bei Unterschreiten des vorgegebenen F-Wertes bzw. bei Überschreiten des
Grenzwerten für Signifikanzniveau ausgeschlossen

Dr. Paul Marx

Folie 114
Schrittweise Regressionsanalyse: SPSS-Dialogs

Dr. Paul Marx

Folie 115
Schrittweise Regressionsanalyse: WARNUNG!

 Es besteht die Gefahr, dass sachlogische Überlegungen in den Hintergrund treten können.
–

Computer trifft seine Auswahl ausschließlich nach statistischen Kriterien und kann nicht erkennen,
ob das Modell auch inhaltlich sinnvoll ist

 Daher:
–

Statistisch signifikante Zusammenhänge sollten nur dann akzeptiert werden, wenn sie
sachlogischen Erwartungen entsprechen.

–

Bei Nichtsignifikanz eines Zusammenhanges sollte man nicht folgern, dass es kein Zusammenhang
besteht, wenn ansonsten das Ergebnis sachlich korrekt ist.

–

Bei widersprüchlichen Ergebnissen oder sachlogisch unbegründeten Einflussfaktoren sollte man
nicht zögern, diese aus dem Regressionsmodell zu entfernen (auch wenn der Erklärungsanteil
dadurch sinkt).

Dr. Paul Marx

Folie 116
SPSS-Output bei schrittweiser RA
Aufgenommene/Entfernte Variablen(a)

Modell
1

Entfernte
Variablen

Aufgenommene Variablen
Ausgaben für
Verkaufsförderung

.

Zahl der Vertreterbesuche

.

2

Methode
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
Schrittweise Auswahl (Kriterien:
Wahrscheinlichkeit von F-Wert für
Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).

a Abhängige Variable: Menge Kartons pro Periode

Modellzusammenfassung

Modell
1

R
,911(a)

R-Quadrat
,829

Korrigiertes RQuadrat
,808

Standardfehler
des Schätzers
196,83086

2

,962(b)

,925

,903

139,77114

a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche

Dr. Paul Marx

Folie 117
SPSS-Output bei schrittweiser RA (Fortsetzung)

ANOVA(c)
Modell
1

Regression
Residuen

Quadratsumme
1506316,513

1

Mittel der
Quadrate
1506316,513
38742,386

df

2

309939,087

8

Gesamt

1816255,600
1679503,802

2

839751,901

136751,798

7

42,985

,000(b)

19535,971

1816255,600

Signifikanz
,000(a)

9

Regression

F
38,880

9

Residuen
Gesamt

a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 118
SPSS-Output bei schrittweiser RA (Fortsetzung)
Koeffizienten(a)

Nicht standardisierte
Koeffizienten
Modell
1

2

B
1036,373

(Konstante)
Ausgaben für
Verkaufsförderung
(Konstante)
Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

Standardfe
hler
138,349

,752

,121

144,482

315,250

,664

,091

10,487

Standardisiert
e
Koeffizienten

3,522

Beta

T
7,491

Signifikanz
,000

6,235

,000

,458

,661

,805

7,338

,000

,326

2,977

,021

,911

a Abhängige Variable: Menge Kartons pro Periode

Ausgeschlossene Variablen(c)

Modell
1

Preis pro Karton
Zahl der Vertreterbesuche

2

Preis pro Karton

Beta In
-,137(a)

,326(a)
,034(b)

Kollinearität
sstatistik

-,920

Signifikanz
,388

Partielle
Korrelation
-,328

Toleranz
,983

2,977
,260

,021
,803

,748
,106

,895
,718

T

a Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung
b Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche
c Abhängige Variable: Menge Kartons pro Periode

Dr. Paul Marx

Folie 119
Abschnitt 4

REGRESSION DURCH DEN
URSPRUNG
Wenn Null Input Null Output ergibt

Dr. Paul Marx

Folie 120
Regression durch den Ursprung
(Regression-through-the-Origin)
• Wenn die Konstante (0)nicht signifikant ist, oder
• wenn a-priori erwartet wird, dass die Regressionsgerade
durch den Punkt (0;0) verlaufen wird,
…

führt die Regressionsanalyse ohne Konstante zu genauerer Schätzung von Steigungs- bzw.
Regressionskoeffizienten.

 Ökonometrisches Modell der Regressionsgerade hat in diesem Fall folgende Form:

ˆ
yi  1  xi  u

J

bzw.

ˆ
yi    j x ji  u
j 1

0 = 0

Dr. Paul Marx

Folie 121
Regression durch den Ursprung : Beispiel

Box-Office (Filmerfolg)

 In der Filmerfolgsforschung drückt man meistens den Filmerfolg über seine Einnahmen aus
und versucht diese Größe durch den Einfluss relevanter Merkmale zu begründen.

–
–
1

–

z.B. wird angenommen, dass der Filmerfolg vom Budget
abhängt.
Bei Budget=Null kann man keinen Film drehen. Daher
kann man keine Einnahmen generieren und somit keinen
Erfolg haben.
Regression durch den Ursprung beschreibt diesen
Sachverhalt am besten:

Budget

Filmerfolg = β1 *Budget + u

ˆ
yi  1  xi  u

Dr. Paul Marx

Folie 123
Regressionskoeffizient bei bivariater Regression durch den Ursprung
ˆ
yi  1  xi  u

mit

 u  min
 ( y   x)   ( y

ˆ
u   ( y  yi )

2

2

1

2

 2 1 xy  1 x 2 )
2

* Index i bei Variablen x und y
ist hier zwecks vereinfachten
Darstellung weggelassen

Differenzieren nach β1 und Setzen gleich 0

 (2 xy  2 x )  0
 2 xy  2   x  0
2

1

2

1

1

Dr. Paul Marx

x y

x
i

i

2
i

Folie 124
Eigenschaften des Modells der
Regression durch den Ursprung
Klassische RA

RA durch den Ursprung
Anzahl von Freiheitsgraden (bei Residuen)

df = (n-j-1)

df = (n-j)

Fehlerterm u
Ist gleich Null

Muss nicht = 0 sein

Bestimmtheitsmaß r2
r2 ist immer positiv, 0 < r2 <1

Dr. Paul Marx

r2 kann negative Werte annehmen

Folie 125
raw r2 bei bivariater Regression durch den Ursprung

 r2 kann nicht zur Beurteilung der Güte der Schätzung verwendet werden, da
1.
2.

Bei RA durch den Ursprung das „klassische“ r2 negative Werte annehmen kann
Klassisches Model (für welches r2 formuliert war) vorsieht, dass das konstante Glied explizit in die
Regressionsgleichung einbezogen wird

 Man kann aber einen sog. raw r2-Wert berechnen:

raw r 2 

( xi yi ) 2

x  y
2
i

2
i

0 < raw r2 <1

 Der Wert von raw r2 kann nicht direkt mit konventionellen r2–Werten verglichen werden!

Dr. Paul Marx

Folie 126
Zur Bedeutung von raw r2

 raw r2 ist ein unbereinigtes Bestimmtheitsmaß

erklärte Streuung
r 

Gesamtstre uung
2

raw r

2

ˆ
y

y

2
i
2
i

ˆ
(y
(y

 ( x )

y

i

i  y)

2

i i
2
i

  xi yi 


x2
2   i
 x
i 
2
raw r  

yi2

2

raw r 
2

 y)2



raw r

2

i2  xi2

 yi2

mit

2

ˆ
y

y

2
i
2
i

1  

xi yi

x

2
i

 x y 
x
y

2

i

i
2
i
2
i

( xi yi ) 2

x  y
2
i

2
i

Dr. Paul Marx

Folie 127
Regression durch den Ursprung: Guter Rat

 Da die Regressionsanalyse durch den Ursprung spezifische Eigenschaften aufweist, sollte
man sehr vorsichtig an die Wahl eines solchen Modells herangehen.
 Wenn man a-priori nicht erwarten kann bzw. durch Theorie und Logik nicht belegt ist, dass
die Regressionsgerade durch den Ursprung verlaufen wird, ist man angehalten, zunächst ein
klassisches Regressionsmodell zu berechnen.
Sonst besteht die Gefahr eines Spezifizierungsfehlers, d.h. der Verletzung von Annahmen der
linearen Regressionsanalyse

Dr. Paul Marx

Folie 128
Regression durch den Ursprung: SPSS-Dialogs

Dr. Paul Marx

Folie 129
Klassische Regression

Regression durch den Ursprung
Modellzusammenfassung

Modell
1

R
,962(a)

R-Quadrat
,925

Korrigiertes RQuadrat
,903

Standardfehler
des Schätzers
139,77114

Modell
1

R
,998(b)

R-Quadrat(a)
,996

Korrigiertes RQuadrat
,995

Standardfehler
des Schätzers
132,69104

a Bei der Regression durch den Ursprung (Modell ohne konstanten
Term) mißt das R-Quadrat den Anteil der Variabilität in der abhängigen
Variable durch den Ursprung, der durch Regression erklärt werden
kann. Dieses Verfahren KANN NICHT mit dem R-Quadrat bei
Modellen verglichen werden, die einen konstanten Term enthalten.
b Einflußvariablen: Zahl der Vertreterbesuche, Ausgaben für
Verkaufsförderung

Koeffizienten(a)

Nicht standardisierte
Koeffizienten
Modell
B
1

(Konstante)
Ausgaben für
Verkaufsförderung
Zahl der
Vertreterbesuche

Standar
dfehler

144,482

,091

10,487

3,522

Beta

315,250

,664

Standar
disierte
Koeffizi
enten

Nicht
standardisierte
Koeffizienten

T

Signif
ikanz

,458

,661

,805

7,338

,000

,326

2,977

,021

Dr. Paul Marx

Modell
B
1 Ausgaben für
Verkaufsförderung
Zahl der Vertreterbesuche

Standa
rdfehler

Standar
disierte
Koeffizi
enten

Beta

T

Signif
ikanz

,662

,086

,409

7,716

,000

12,021

1,042

,612

11,536

,000

a Abhängige Variable: Menge Kartons pro Periode
b Lineare Regression durch den Ursprung

Folie 130
Multiple Regressionsanalyse: Beispieldatensatz
actual advertising expenses in Mio. (based on
Ad $ Summary) [ad_$_sum]

First Weekend Box Office
[first_bo]

No. of Attendents in
Germany [att_germ]

imdb User-Rating
[imdb_rat]
Budget [budget]
Martin and Porter Video
Movie Guide Ranking
[movie_gu]

Length [length]
Total Box-Office
[tot_boxo]

Maltin Movie and Video
Guide Ranking [maltin]

Starpower [starpowe]

Punktwert Academy
Awards [a_awards]

Director power [dir_powe]

Review Metascore 0-10
point-Scale [rev_me10]

Anzahl Startleinwände D
[ger_scre]

Anzahl Startleinwände USA
[us_scree]

Produktinhärente EF

Dr. Paul Marx

Weeks in Theater [weeks]

Produktinduzierte EF

Distributionsinduzierte EF

Folie 131
Abschnitt 5

ANNAHMEN DES LINEAREN
REGRESSIONSMODELLS (LRM)
Voraussetzungen für eine effiziente Schätzung
und Umgang bei ihrer Verletzung

Dr. Paul Marx

Folie 132
Annahmen des linearen Regressionsmodells (LRM)
1.

Variabilität in xi
–

2.

Linearität
–
–

3.
4.

Keine Korrelation zwischen den erklärenden Variablen und der Störgröße

Homoscedastizität
–

9.

Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)

Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–

8.

Modell enthält die relevanten erklärenden Variablen

Stichprobe ist größer, als die Anzahl der Regressoren
–

6.
7.

in Variablen
in Parametern

Metrisches Niveau der Regressoren
Korrekte Spezifizierung vom Modell
–

5.

!
xi müssen variieren: Var(xi) > 0

Störgrößen haben eine konstante Varianz

Keine Autokorrelation
–

Störgrößen sind unkorelliert

10. Keine Multikolinearität
–

Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit

11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx

Folie 133
Annahmen des LRM: Variabilität in xi
x variiert nicht (Var(xi) = 0)

x variiert (Var(xi) > 0)

y

y

x

Dr. Paul Marx

x

Folie 134
Annahmen des LRM: Linearität
 Die KQ-Methode unterstellt, eine additiv-lineare Funktion
J

ˆ
yi   0    j  x ji  ui
j 1

 Geschätzt werden die Koeffizienten einer Gerade bzw. einer mehrdimensionalen Fläche

 Wenn der unterstellte Zusammenhang nicht linear ist, kann KQ-Methode nicht angewendet
werden

Dr. Paul Marx

Folie 135
Annahmen des LRM: Linearität in Parametern
 Typische nicht lineare Verläufe

quadratisch

Cobb-Douglas

exponentiell

reziprok

Niveauänderung

Trendänderung

Dr. Paul Marx

Folie 136
Linearisierung

 Anwendung einfacher Tricks bringt Linearität zurück!

yi   0  1  xi2
1
y i   0  1 
xi

Ersetzen x2 durch x‘ 

yi   0  1  xi

Ersetzen 1/x durch x‘ 

yi   0  1  xi

 Beide Modelle sind nicht linear in x, aber linear in x‘
 Wir können Betas vom modifizierten Modell schätzen. Diese werden auch nach rückgängiger
Variablensubstitution gelten.

 Um Konsistenz der Schätzung zu gewährleisten, müssen die Regressoren vor der Schätzung
entsprechend modifiziert werden! (Linearisierung)

Dr. Paul Marx

Folie 137
Linearisierung von Pontenzfuntkionen

 Quadratische Spezifikation ist im Grunde eine Regression mit zwei Variablen x1 und x2, die
aber nur auf x basiert. Sie ist somit ein Spezialfall der Mehrfachregression:

2 > 0

 minimum

yi   0  1  xi   2  xi2




yi   0  1  x1i   2  x2i

Dr. Paul Marx

2 < 0

 maximum

Folie 138
Linearisierung polynominaler Funktionen

 Dieser „Linearisierungsansatz“ ist auf alle polynomiale Funktionen erweiterbar

yi   0  1  xi   2  xi2   3  xi3





yi   0  1  x1i   2  x2i  3  x3i

 Es können auch weitere Variablen bzw. Regressoren berücksichtigt werden

Dr. Paul Marx

Folie 139
Linearität in Parametern: Log-Log-Modell

yi   0 xi

 Log-Log-Modell

1



ln( yi )  ln( 0 )  ln( xi 1 )
ln( yi )  ln(  0 )  1 ln( xi )

ln( yi )    1 ln( xi )

1 <0

yi    1 xi

Dr. Paul Marx

Folie 140
Das weiß jeder: 
Einfachste Operationen mit (natürlichen) Logarithmen
x
Definition: ln( N )  x  e  N

Folgen: ln( 1)  0, da e 0  1

ln( e)  1, da e1  e
ln( 0)  
Eigenschaften: ln( ab)  ln( a )  ln( b)

a
ln( )  ln( a )  ln( b)
b
ln a b  b ln( a )
1
ln( a )  ln( a )
b
b

Dr. Paul Marx

Folie 141
 Attraktive Eigenschaften von Log-Log-Modellen:
1. Im Zwei-Variablen-Modell: Einfach festzustellen!
2. Streudiagram von ln(y) auf ln(x) -> ungefähr Linie
ln(y)

yi  0 xi

ln(Absatz)

Absatz

y
 1

ln( yi )  ln(  0 )  1 ln( xi )

x

ln(x)

Preis

3.

ln(Preis)

1 = Elastizität von y‘ in Bezug auf x‘
relative Veränderung in y
=

relative Veränderung in x

(z.B. Preiselastizität vom Absatz)

= const

Dr. Paul Marx

Folie 142
Linearität in Parametern: Log-Lin-Modell

 In manchen Fällen kann auch die exponentielle Modellierung die Daten gut erklären

y i  e  0  1  x
yi  e 0 e 1 x
ln( yi )  ln( e 0 )  ln( e 1 x )

1 >0

ln( yi )   0  1  x
 Log-Lineares Regressionsmodell

yi   0  1  x

 Semielastizität = relative Veränderung im Regressand / absolute Veränderung im Regressor

Dr. Paul Marx

Folie 144
Linearität: Inverses Modell a.k.a. Hyperbolisches Modell

 Linear in Parametern
 Nicht linear in Variablen
 Ersetzen 1/x durch x‘ 

yi   0  1  xi
(lineares Regressionsmodell)

1
ˆ
y i   0  1 
x

 Wichtige Eigenschaft:
Bei x  ∞
1(1/x)  0,
y  0

d.h. y hat eine Asymptote

Dr. Paul Marx

Folie 145
Inverses Modell: Asymptote
ˆ
y i   0  1 

y

1 >0
0 >0

y

1
x

1 >0
0 <0

1 <0
0 >0

y

0

0
0

x

0

0

Dr. Paul Marx

x

0

 1

x

0

Folie 146
Inverses Modell: Beispiel
Sterberate von Kindern (CM) und Pro-Kopf-BIP (PGNP) von 64 Ländern in 1980
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

CM
128
204
202
197
96
209
170
240
241
55
75
1219
24
165
94
96
148
98
161
118
269
189
126
12
167
135
107
72
128
27
152
224

PGNP
1870
130
310
570
2050
200
670
300
120
290
1180
900
1730
1150
1160
1270
580
660
420
1080
290
270
560
4240
240
430
3020
1420
420
19830
420
530

Nr.
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64

CM
142
104
287
41
312
77
142
262
215
246
191
182
37
103
67
143
83
223
240
312
12
52
79
61
168
28
121
115
186
47
178
142

Dr. Paul Marx

PGNP
8640
350
230
1620
190
2090
900
230
140
330
1010
300
1730
780
1300
930
690
200
450
280
4430
270
1340
670
410
4370
1310
1470
300
3630
220
560

Man würde erwarten, dass beim
steigenden Pro-Kopf-BIP die
Sterberate sinken würde, weil
Menschen mehr Geld für
Gesundheit haben.
Das ist aber nicht der Fall.
Zunächst sinkt die Sterberate
drastisch. Dann aber wird die
Senkung stark gedämpft.
Bei PGNP  ∞ konvergiert CM
zum Wert von ungefähr 82

Folie 147
Inverses Modell: Beispiel
CM  81,343  27.356,075

1
PGNP
i

0 82

Dr. Paul Marx

Folie 148
Log-Hyperbolisches Modell

 Log-Hyperbolisches a.k.a. logarithmisch-inverses a.k.a. S-Förmiges Modell

ye

 0  1

1
x

oder

ln( y )   0  1

1
x

 Zunächst erhöht sich y mit steigender
Wachstumsrate (konvexer Verlauf,
Steigungskoeffizient > 1).
 Dann sinkt die Wachstumsrate (konkaver
Verlauf, Steigungskoeffizient zwischen 0 und
1).

Solchen Verlauf haben wir in der letzten Stunde am Beispiel von Abhängigkeit vom Absatz von
Werbungsausgaben beobachtet

Dr. Paul Marx

Folie 149
ÜBUNGSAUFGABE
 SPSS Datensatz: Absatz von Rosen (1995-1999)
Y
Jahr

1995
1996

1997

1998

1999

Quartal

III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II

x1

x2

Anzahl von
Durchschnittspreis Durchschnittspreis
verkauften Rosen,
für Dutzend
füt Dutzend
Dutzend
Rosen, $
Nelken, $

11.484
9.348
8.429
10.079
9.240
8.862
6.216
8.253
8.038
7.476
5.911
7.950
6.134
5.868
3.160
5.872

2,26
2,54
3,07
2,91
2,73
2,77
3,59
3,23
2,60
2,89
3,77
3,64
2,82
2,96
4,24
3,69

Dr. Paul Marx

3,49
2,85
4,06
3,64
3,21
3,66
3,76
3,49
3,13
3,20
3,65
3,60
2,94
3,12
3,58
3,53

x3
Durchschnittlich
Trend
verfügbares
wöchentliches
Familieneinkommen,
$
158,11
173,36
165,26
172,92
178,46
198,62
186,28
188,98
180,49
183,33
181,87
185,00
184,00
188,20
175,00
188,00

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Folie 150
HAUSAUFGABE
Für gegebenen Datensatz
 Betrachten Sie folgende Absatzfunktionen:

yt   0  1 x1t   2 x2t   3 x3t  ut
ln( yt )   0  1 ln( x1t )   2 ln( x2t )   3 ln( x3t )  ut
1.
2.
3.

4.
5.

Schätzen Sie die Parameter des linearen Modells und interpretieren Sie die Ergebnisse
Schätzen Sie die Parameter des Log-linearen Modells und interpretieren Sie die Ergebnisse
Parameter 1, 2 und 3 zeigen entsprechend Eigenpreis-, Kreuz-Preis- und
Einkommenselastizität an. Welches Vorzeichen haben sie a-priori? Widersprechen
die Berechnungsergebnisse Ihren Erwartungen?
Welches der beiden Modelle würden Sie auf der Basis Ihrer Analyse wählen? Begründen Sie
Ihre Antwort!
Wie kann man die Eigenpreis-, Kreuz-Preis- und Einkommenselastizität für das
lineare Modell berechnen?

Dr. Paul Marx

Folie 151
Annahmen des linearen Regressionsmodells (LRM)
1.

Variabilität in xi
–

2.

!
xi müssen variieren: Var(xi) > 0

Linearität
–
–

in Variablen
in Parametern

3. Metrisches Niveau der Regressoren
4.

Korrekte Spezifizierung vom Modell
–

5.

Stichprobe ist größer, als die Anzahl der Regressoren
–

6.
7.

Keine Korrelation zwischen den erklärenden Variablen und der Störgröße

Homoscedastizität
–

9.

Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N)

Störgrößen haben den Erwartungswert Null
Keine Kovarianz zwischen xi und ui
–

8.

Modell enthält die relevanten erklärenden Variablen

Störgrößen haben eine konstante Varianz

Keine Autokorrelation
–

Störgrößen sind unkorelliert

10. Keine Multikolinearität
–

Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit

11. Normalverteilung der Störgrößen
Fixierte Werte von xi im wiederholten Sampling
Dr. Paul Marx

Folie 152
Annahmen des LRM: Metrisches Niveau der Regressoren

 Die abhängige Variable in den Regressionsmodellen werden nicht nur von metrisch
skalierten Variablen (wie z.B. Einkommen, Output, Preis, Kosten, Alter, Höhe, Temperatur)
beeinflusst. Oft ist die Analyse der Abhängigkeiten von Variablen qualitativer Natur
interessant (z.B. Geschlecht, Region, Nationalität, Ausbildung, politische Ansichten, usw.).
 Nominale Variablen = Indikatoren = Kategorien = Qualitative Variablen

 Unabhängig von der Ursache, üben solche Faktoren offensichtlich eine Wirkung auf die
abhängige Variable aus und sollten daher in die Regressionsanalyse eingeschlossen werden.

Dr. Paul Marx

Folie 153
Dummy Variablen
 Dummy Variablen sind nominale Variablen mit zwei Ausprägungen, die zeigen, ob ein
Merkmal vorhanden ist, oder nicht.
 Dummy Variablen per se sind ein Instrument zur Klassifizierung von Daten in exklusive
Kategorien, wie „männlich“, oder „weiblich“.
–
–
–

schwarz = 1, weiß = 0
männlich = 1, weiblich = 0
betrunken = 1, nicht betrunken = 0

 Dummy Variablen können genau wie quantitative Variablen in die Regressionsanalyse
eingeschlossen werden.
 Regressionsmodelle, die nur aus Dummy Variablen bestehen, werden als
ANOVA-Modelle (Analysis of Variance) bezeichnet.

Dr. Paul Marx

Folie 154
ANOVA: Beispiel
SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986)
Salary
19.583
20.263
20.325
26.800
29.470
26.610
30.678
27.170
25.853
24.500
24.274
27.170
30.168
26.525
27.360
21.690
21.974
20.816
18.095
20.939
22.644
24.624
27.186
33.990
23.382
20.627

Spending
3346
3114
3554
4642
4669
4888
5710
5536
4168
3547
3159
3621
3782
4247
3982
3568
3155
3059
2967
3285
3914
4517
4349
5020
3594
2821

D2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0

D3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1

Salary
22.795
21.570
22.080
22.250
20.940
21.800
22.934
18.443
19.538
20.460
21.419
25.160
22.482
20.969
27.224
25.892
22.644
24.640
22.341
25.610
26.015
25.788
29.132
41.480
25.845

Spending
3366
2920
2980
3731
2853
2533
2729
2305
2642
3124
2752
3429
3947
2509
5440
4042
3402
2829
2297
2932
3705
4123
3608
8349
3766

D2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

D3
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0

D2 = Staaten in
Nordost in im zentralen
Norden (21 Staaten)
D3 = südliche Staaten
(17 Staaten)

13 westliche Staaten
(nicht kodiert)

Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986

Dr. Paul Marx

Folie 155
ANOVA: Beispiel

 Ziel: Herausfinden, ob sich das durchschnittliche Jahreseinkommen von Schullehrern
zwischen unterschiedlichen Staaten variiert.
 Nach einfacher Betrachtung des Datensatzes können wir feststellen:
–
–
–

Norden und Nordost:
Süden:
Westen:

$ 24.424,14
$ 22.894
$ 26.158,62

 Unterscheiden sich diese Zahlen auch statistisch voneinander?
 Das können wir u.a. mittels ANOVA feststellen:

yi   0   2 D2i  3 D3i  ui

Dr. Paul Marx

Folie 156
ANOVA-Interpretation
yi   0   2 D2i  3 D3i  ui
 Durchschnittseinkommen von Schullehrern im zentralen Norden und Nordosten

E(yi | D2i=1, D3i=0) = 0+ 2
 Durchschnittseinkommen von Schullehrern in südlichen Staaten

E(yi | D2i=0, D3i=1) = 0+ 3
 Durchschnittseinkommen von Schullehrern im Westen

E(yi | D2i=0, D3i=0) = 0
 Steigungskoeffizienten 2 und 3 geben an, wie stark sich das Durchschnittseinkommen im
Norden bzw. Süden von dem „westlichen“ Durchschnittseinkommen unterscheidet.

Dr. Paul Marx

Folie 157
ANOVA-Interpretation
yi   0   2 D2i  3 D3i  ui

yi  26.158,62  1734,47 D2i  3264,62D3i
 Durchschnittseinkommen im Westen
beträgt $26.158

0 = $26.158
$24.424 (0 + 2)

 Einkommen im Norden ist um $1734
kleiner als das im Westen
 Einkommen im Süden ist um $3264
kleiner

$22.894 (0 + 3)

West

Northeast and
North Central

South

 WARNUNG: Dummy Variablen zeigen nur die Unterschiede auf (ob sie existieren). Sie
erlauben keine kausale Schlussfolgerungen – zeigen also keine Gründe für diese
Unterschiede auf!

Dr. Paul Marx

Folie 158
ANOVA-Interpretation

 Unterscheiden sich die errechneten Durchschnittseinkommen von nördlichen und südlichen
Staaten vom westlichen Durchschnittseinkommen statistisch signifikant?

yi  26.158,62  1734,47 D2i  3264,62D3i
Sj =

(1128,523)

(1435,953)

(1499,155)

t

(23,180)

(-1,208)

(-2,178)

(0,000)

(0,233)

(0,034)

=

 =

r2 = 0,0901

 Dafür schauen wir auf das Signifikanzniveau der jeweiligen Steigungskoeffizienten.
  von 2 = 23%  Unterschied zwischen Norden und Westen ist nicht signifikant!

Dr. Paul Marx

Folie 159
7 Richtlinien zur Nutzung von Dummy Variablen

Regel 1
Für alle qualitativen Regressoren muss die Anzahl von Dummy Variablen um eins kleiner
sein, als die Anzahl der Kategorien des Regressoren.
Wenn die qualitative Variable m Kategorien hat, dann muss die Anzahl von ins Modell
einzuführenden Dummy Variablen (m-1) sein.

Sonst wird man im sog. dummy variable trap gefangen.
Der Grund hierfür ist die perfekte Multikolinearität zwischen 0 und der Summe aller Di, die
durch das Einführen vom Dm entsteht.

Dr. Paul Marx

Folie 160
7 Richtlinien zur Nutzung von Dummy Variablen

Regel 2
Die Kategorie, für die keine Dummy Variable eingeführt wird, wird als
–
–
–
–

BasisBenchmarkKontrollVergleichs-

-Kategorie

bezeichnet.
in unserem Beispiel war die Kategorie „westliche Staaten“ die Basis-Kategorie

Regel 3
0 zeigt den Mittelwert der Basis-Kategorie an.
in unserem Beispiel betrug 0 26.159. Dieser Wert repräsentiert das Durchschnittsgehalt von Schullehrer in der
Basis-Kategorie – also in den westlichen Staaten

Dr. Paul Marx

Folie 161
7 Richtlinien zur Nutzung von Dummy Variablen

Regel 4
Die Koeffizienten bei Dummy Variablen werden als differentielle Schnittpunkte (differential
intercept coefficients) bezeichnet.
Da sie sagen, um wie viel sich der Wert vom Schnittpunkt verändert, wenn die Dummy
Variable den Wert 1 einnimmt.
Der Wert von ungefähr -1734 sagt uns, dass das Durchschnittsgehalt von Schullehrer im Norden von USA kleiner
ist als das Durchschnittsgehalt von westlichen Lehrer um $1734

Regel 5
Die Auswahl von Basis-Kategorie bleibt immer dem Forscher überlassen (wenn die
qualitative Variable mehr als eine Kategorie hat). Manchmal wird die Auswahl durch das
betrachtete Problem per se diktiert.
Im betrachteten Beispiel konnten wir auch z.B. die Kategorie „Staaten im Süden von USA“ als Basis-Kategorie
wählen. Das würde nichts an den finalen Schlussfolgerungen verändern. In diesem Fall würde der Schneideterm
ungefähr $24.894 betragen, was dem Durchschnittsgehalt von Schullehrer im Süden von den USA entspricht.

Dr. Paul Marx

Folie 162
7 Richtlinien zur Nutzung von Dummy Variablen

Regel 6
Man kann die dummy variables trap umgehen und für alle Kategorien eine Dummy Variable
erstellen, indem man den Schnittterm aus dem Regressionsmodell ausschließt.
Für unser Beispiel bekommen wir dann folgendes Modell (Regression durch den Ursprung):

yi  1D1i   2 D2i  3 D3i  ui
yi  26.158,62 D1i  24.242,14 D2i  22,894 D3i
Die Interpretation von Regressionsparameter ist in diesem Fall:
1 = Durchschnittsgehalt von Schullehrer in westlichen Staaten
2 = Durchschnittsgehalt von Schullehrer in nördlichen und nordöstlichen Staaten
3 = Durchschnittsgehalt von Schullehrer in südlichen Staaten

M.a.W. das Weglassen des freien Gliedes erlaubt die Einführung von Dummy Variablen
entsprechend der Anzahl von Kategorien und somit die direkte Schätzung der Mittelwerte
der jeweiligen Kategorien.
WARNUNG: Das gilt nur für ANOVA

Dr. Paul Marx

Folie 163
7 Richtlinien zur Nutzung von Dummy Variablen

Regel 7
Welche Methode für die Einführung von Dummy Variablen ist besser?

 In den meisten Fällen werden sich die Forscher für Modelle mit dem Schnittpunkt
entscheiden, weil es ihnen erlaubt, die Frage einfacher zu untersuchen, ob die
Kategorisierung einen Unterschied ausmacht.
 Wenn das der Fall ist, werden die Unterschiede mit den Koeffizienten bei Dummy Variablen
quantifiziert.
 Ob die Kategorisierung relevant bzw. sinnvoll ist, kann mittels t-Tests der Koeffizienten bei
Dummy Variablen gegen 0 geprüft werden. (Oder generell mittels F-Tests am gesamten Set
entsprechender Dummy Variablen)

Dr. Paul Marx

Folie 164
ANOVA mit zwei qualitativen Variablen

Beispiel:
Stundenlohn in Abhängigkeit von Familienstatus und Region

11,8148

S j =

(0,4015)

(0,4642)

(0,4854)

t

=

(21,2528)

(2,3688)

(-3,4462)

 =
mit
yi
D2
D3

+ 1,0997 D2i

– 1,6729 D3i

yi =

(0,0000)

(0,0182)

(0,0006)

r2 = 0,0322
Sind die Unterschiede
statistisch signifikant?

= Stundenlohn, €
= Familienstatus, 1= verheiratet, 0 = sonst
= Region, 1= Süden, 0 = sonst

Dr. Paul Marx

Folie 165
ANOVA mit zwei qualitativen Variablen: Interpretation
yi = 11,8148 + 1,0997 D2i – 1,6729 D3i
 Basis-Kategorie: ledig, Wohnort nicht im Süden
Gruppe

Durchschnittsgehalt,
Berechnung

Durchschnittsgehalt, $

Ledige

0

11,81

Verheiratete

0 + 2

12,91
(11,81 + 1,10 )

Wohnort im Süden

0 + 3

10,14
(11,81 – 1,67 )

Verheiratete im Süden

0 + 2 + 3

11, 24
(11,81 + 1,10 – 1,67)

D2 = Familienstatus,
1= verheiratet, 0 = sonst
D3= Region,
1= Süden, 0 = sonst

Dr. Paul Marx

Folie 166
Regression mit Mischung aus quantitativen und
qualitativen Variablen: ANCOVA-Modelle
 ANOVA-Modelle eignen sich für die Analyse der Unterschiede in den Mittelwerten
unterschiedlicher Gruppen. Diese Modelle bestehen nur aus qualitativen Variablen.
 In den meisten Fällen üben aber nicht nur Gruppenzugehörigkeit, sondern auch ein oder
mehrere quantitative Variablen Einfluss auf die abhängige Variable aus.
 Regressionsmodelle, die sowohl quantitative, als auch qualitative Variablen enthalten
werden ANCOVA-Modelle genannt.
•

ANCOVA = Analysis of Covariance

 ANCOVA erweitert ANOVA um die Methode der statistischen Kontrolle von Effekten
quantitativer Variablen (Kovariate = Kontrollvariablen).

Dr. Paul Marx

Folie 167
ANCOVA: Beispiel
SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986)
Salary
19.583
20.263
20.325
26.800
29.470
26.610
30.678
27.170
25.853
24.500
24.274
27.170
30.168
26.525
27.360
21.690
21.974
20.816
18.095
20.939
22.644
24.624
27.186
33.990
23.382
20.627

Spending
3346
3114
3554
4642
4669
4888
5710
5536
4168
3547
3159
3621
3782
4247
3982
3568
3155
3059
2967
3285
3914
4517
4349
5020
3594
2821

D2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0

D3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1

Salary
22.795
21.570
22.080
22.250
20.940
21.800
22.934
18.443
19.538
20.460
21.419
25.160
22.482
20.969
27.224
25.892
22.644
24.640
22.341
25.610
26.015
25.788
29.132
41.480
25.845

Spending
3366
2920
2980
3731
2853
2533
2729
2305
2642
3124
2752
3429
3947
2509
5440
4042
3402
2829
2297
2932
3705
4123
3608
8349
3766

D2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

D3
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0

D2 = Staaten in
Nordost in im zentralen
Norden (21 Staaten)
D3 = südliche Staaten
(17 Staaten)

13 westliche Staaten
(nicht kodiert)

Was ist hier die BasisKategorie?

Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986

Dr. Paul Marx

Folie 168
ANCOVA: Beispiel

 Hypothese: Das Durchschnittsgehalt von Schullehrern müsste zwischen drei Regionen nicht
variieren, wenn zusätzliche Variablen herangezogen werden, die nicht über diese Regionen
standardisiert werden können. M.a.W. der von uns festgestellte Unterschied zwischen drei
Regionen ist eigentlich auf andere Faktoren zurückzuführen – nicht auf den Wohnort von
Lehrern.
 Z.B. kann das Gehalt von der Höhe der Ausgaben für Ausbildung im konkreten Staat
abhängen.
 Um das zu testen, entwickeln wir folgendes Modell:

yi   0   2 D2i  3 D3i   4 xi  ui

mit
xi = durchschnittliche staatliche Ausgaben pro Schüler ($)

Dr. Paul Marx

Folie 169
ANCOVA: Interpretation
Koeffizienten(a)

Nicht standardisierte
Koeffizienten

Modell
1

B
(Konstante)

Standardfe
hler

13269,114

,318

Nothern region

-1673,514

South region

-1144,157

Beta

Spending on publich
school per pupil

r2 = 0,723
T

1395,056

3,289

Standardisiert
e
Koeffizienten

Signifikanz

9,512

,000

,830

10,354

,000

801,170

-,199

-2,089

,042

861,118

-,130

-1,329

,190

a Abhängige Variable: Teacher's salary

yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi
 Bei Erhöhung der staatlichen Ausgaben um $1 ceteris paribus steigt das Gehalt der Lehrer
um $3,29

 Im Vergleich zu dem Modell ohne Kovariaten ist der Unterschied zwischen Norden und
Westen nun signifikant geworden, im Gegensatz zum Unterschied zwischen Süden und
Westen.

Dr. Paul Marx

Folie 170
ANCOVA: Interpretation
yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi
y

 Alle drei geraden sind parallel
(Warum?)

3,29

13,269

1

12,125

1

11,595

Nicht
uterscheidbar

1

3,29

 Zwei Regressionsgeraden
(für Westen und Süden)
sind statistisch nicht von einander
unterscheidbar und stellen –
statistisch gesehen –
dieselbe Gerade dar

Dr. Paul Marx

3,29

x

Folie 171
Interaktionseffekte mit Dummy Variablen: Prolog

Beispiel:
Durchschnittlicher Stundenlohn in Relation zu Ausbildung, Geschlecht und Hautfarbe

yi   0   2 D2i   3 D3i  xi  ui
mit
yi
xi
D2
D3

: Stundenlohn, $
: Ausbildung (Jahre, inkl. Schule)
: Geschlecht, 1= weiblich, 0 = männlich
: Hautfarbe, 1 = nicht weiß , 0 = weiß

Dr. Paul Marx

Folie 172
Interaktionseffekte mit Dummy Variablen
yi   0   2 D2i   3 D3i  xi  ui
 Annahmen dieses Models:
–

Der Differenzierte Effekt von D2 ist konstant über die beiden Kategorien der Hautfarbe
Wenn der Durchschnittslohn von Männern höher als der von Frauen ist, dann hängt dieser Unterschied nicht
von der Hautfarbe ab.

–

Der Differenzierte Effekt von D3 ist konstant über die beiden Kategorien des Geschlechts
Wenn nicht weiße weniger verdienen, dann gilt das sowohl für Männer als auch für Frauen.

 In manchen Fällen sind solche Annahmen untauglich
–

–
–

Es ist möglich, dass der Lohnunterschied zwischen Mann und Frau in verschiedenen
Hautfarbenkategorien unterschiedlich ist. Z.B. der Unterschied im Stundenlohn unter Schwarzen
kann größer sein, als unter Weißen.
M.a.W. es kann eine Interaktion zwischen den qualitativen Variablen D2 und D3 geben.
Der Effekt solcher Interaktionen ist nicht einfach additiv, sondern eher multiplikativ:

yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui

Dr. Paul Marx

Folie 173
Interaktionseffekt
–
–
–

Bezeichnet Wechselwirkungen zwischen zwei oder mehreren Merkmalen
ein gemeinsamer Effekt zweier Variablen auf die untersuchte abhängige Variable.
Ein Interaktionseffekt bezieht sich darauf, dass die Wirkung einer Variablen mit den Ausprägungen
der anderen Variablen variiert.
Der Tendenz nach führt ceteris paribus in den meisten (modernen) Gesellschaften die Geburt eines Kindes zur
Verringerung des Umfangs der Erwerbstätigkeit von Frauen, während bei den Männern keine oder sogar eine
gegenläufige Wirkung (Steigerung des Umfangs der Erwerbstätigkeit) festzustellen ist.
Kunden, die sich schon einmal beschwert haben, äußern häufig eine vergleichsweise große Unzufriedenheit, als
Kunden, die sich nicht beschwert haben. Es liegt also ein Interaktionseffekt zwischen dem Vorliegen einer
Beschwerde und der Kundenzufriedenheit vor.

Dr. Paul Marx

Folie 174
Interaktionseffekte mit Dummy Variablen
yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui
 Durchschnittlicher Stundenlohn von farbigen Frauen
E(yi | D2i=1, D3i=1) = (0 + 2 + 3 + 4)+ xi
mit

2 : differenzierter Effekt von „Frausein“
3 : differenzierter Effekt von Nicht-Weiß-Sein
4 : differenzierter Effekt von Farbige-Frau-Sein
Letzterer zeigt, dass der durchschnittliche Stundenlohn von nicht-weißen Frauen sich (um
4) von den durchschnittlichen Stundenlöhnen von Frauen oder Nicht-Weißen
unterscheidet.
–

Z.B. wenn alle drei differenzierte Effekte negativ sind, dann verdienen schwarze Arbeiterinnen
wesentlich weniger, als generell Frauen oder generell Nicht-Weiße im Vergleich zu Basis-Kategorie
(weiße Männer).

Dr. Paul Marx

Folie 175
Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel

Ohne Interaktionseffekt:

yi  0,2610  2,3606 D2i  1,7327 D3i  0,8028 xi
Signifikanz

(0,0561)

(0,0233)

(0,034)

(0,0417)

 Ceteris paribus
–
–

Durchschnittlicher Stundenlohn von Frauen ist um $2,36 kleiner
Durchschnittlicher Stundenlohn von nicht weißen ist um $1,73 kleiner
Männer

Frauen

--

-2,36

-1,73

-4,09

Weiß
Nicht weiß

Dr. Paul Marx

Folie 176
Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel

Mit Interaktionseffekt:

yi  0,2610  2,3606D2i  1,7327 D3i  2,1289D2i D3i  0,8028xi
Sig.

(0,0561)

(0,0233)

(0,034)

(0,0876)

(0,0417)

 Bei gleicher Ausbildung:
(2 + 3 + 4) = – 2,3606 – 1,7327 + 2,1289 = –1,964
–

Durchschnittlicher Stundenlohn von nicht weißen Arbeiterinnen ist kleiner um $1,96 als der
Stundenlohn von weißen Männern.
Männer

Frauen

--

-2,36

-1,73

-1,96

Weiß
Nicht weiß

Dr. Paul Marx

Folie 177
Stückweise Regression (piecewise linear regression)

 Trendänderung, Strukturbrüche

Provision

–

Z.B. bei Änderung der wirtschaftlichen Verhältnisse und besonderen Ereignissen in der
Zeitreihenanalyse
Z.B. Strukturänderung in (Mitarbeiter-) Belohnung
Benzinpreis

–

X* Einführung der
Benzinsteuer

Zeit

Dr. Paul Marx

X* Absatzziel

Verkaufsmenge

Folie 178
 Steigungskoeffizient der Regressionsgerade
ändert sich im Punkt X*

Provision

Stückweise Regression

 Regressionsmodell:

1+2

yi   0  1 xi   2 ( xi  X ) Di  ui
*

1

1

mit
yi : Provision, €
xi : vom Verkäufer generierte Verkaufsmenge
X* : Schwellenwert, Absatzziel

1

X* Absatzziel

Verkaufsmenge

1, wenn xi  X *
D
*
0, wenn xi  X

Dr. Paul Marx

Folie 179
yi   0  1 xi   2 ( xi  X * ) Di  ui

Provision

Stückweise Regression

1+2

 Provision unter dem Absatzziel
E(yi | Di=0, xi, X*) = 0+ 1 xi

1

1

 Provision über dem Absatzziel
E(yi | Di=1, xi, X*) = 0 – 2X* + (1 + 2) xi

Dr. Paul Marx

1

X*

Absatzziel

Verkaufsmenge

Folie 180
Stückweise Regression: Beispiel

Hypothetischer Datensatz Kosten/Output

 Annahme: Steigung der Kostenfunktion kann
sich ab dem Output-Niveau von 5.500 Einheiten
verändern

Total cost, $

Output, units

256
414
634
778
1.003
1.839
2.081
2.423
2.734
2.914

1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
9.000
10.000

 Modell:

yi   0  1 xi   2 ( xi  X * ) Di  ui

Dr. Paul Marx

Folie 181
Stückweise Regression: Beispiel
Koeffizienten(a)

Nicht standardisierte
Koeffizienten

Modell
1

Standardfe
hler

B
(Konstante)

-145,717

,046

,095

xi-x* D

Beta

,083

r2 = 0,974
T

176,734

,279

Output, units

Standardisiert
e
Koeffizienten

Signifikanz

-,824

,437

,842

6,067

,001

,159

1,145

,290

a Abhängige Variable: Total cost, $

yi  145,717  0,279 xi  0,095( xi  X * ) Di  ui
 Grenzkosten unter dem Schwellenwert: 1 = 0,279
 Grenzkosten über dem Schwellenwert: (1 + 2) = 0,279 + 0,095 = 0,374

Dr. Paul Marx

Folie 182
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse
Regressionanalyse

Weitere ähnliche Inhalte

Mehr von Paul Marx

HS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfHS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfPaul Marx
 
SEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologieSEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologiePaul Marx
 
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMUPaul Marx
 
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...Paul Marx
 
Einführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalyseEinführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalysePaul Marx
 
Applied pricing on platform markets
Applied pricing on platform marketsApplied pricing on platform markets
Applied pricing on platform marketsPaul Marx
 
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Paul Marx
 
How Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingHow Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingPaul Marx
 
Preispolitik
PreispolitikPreispolitik
PreispolitikPaul Marx
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienproduktePaul Marx
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalyseGrundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalysePaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)  Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de) Paul Marx
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Paul Marx
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Paul Marx
 

Mehr von Paul Marx (20)

HS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfHS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdf
 
SEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologieSEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und Methodologie
 
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
 
Einführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalyseEinführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-Analyse
 
Applied pricing on platform markets
Applied pricing on platform marketsApplied pricing on platform markets
Applied pricing on platform markets
 
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
 
How Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingHow Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language Processing
 
Preispolitik
PreispolitikPreispolitik
Preispolitik
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, Perspectives
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalyseGrundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
 
Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)  Grundlagen der Umfrageforschung (www.questionstar.de)
Grundlagen der Umfrageforschung (www.questionstar.de)
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)
 

Regressionanalyse

  • 1. Basic Econometrics: Regressionsanalyse Dr. Paul Marx www.eQuestionnaire.de Dr. Paul Marx Folie 1
  • 2. Grundlegende Literatur zur Veranstaltung  Backhaus, Klaus, Bernd Erichson, Wulff Plinke und Rolf Weiber: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, ab 9. Auflage Berlin: Springer  Gujarati, Damodar N. (2003): Basic Econometrics, International Edition, 4. Auflage, New-York: McGraw-Hill Education  Auer, Ludwig (2007): Oekonometrie, 4. Aufl., Springer  www.wikipedia.de, en.wikipedia.org, www.google.de  Dr. Paul Marx Folie 2
  • 3. Inhalte der Veranstaltung 1. Einführung in das Fach Ökonometrie 2. Einfache Regressionsanalyse 3. Multiple Regressionsanalyse 4. Regression durch den Ursprung 5. Annahmen des Linearen Regressionsmodells 6. Relaxation von Annahmen des klassischen Regressionsmodells 7. … Dr. Paul Marx Folie 3
  • 5. Begriff der Ökonometrie  Ökonometrie = oikonomia (gr. Wirtschaft) + metron (gr. Messung) = Messen wirtschaftlicher Phänomene  Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, welches die ökonomische Theorie sowie mathematische Methoden und statistische Daten zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und ökonomische Phänomene quantitativ zu analysieren.  (bzw. ökonomische Zusammenhänge zu quantifizieren) Dr. Paul Marx Folie 5
  • 6. Entstehen der Ökonometrie  XVII Jh: Erste Versuche der quantitativen Forschung in der ökonomischen Theorie (politische Arithmetik). Nutzung von ökonomischen Daten zur Berechnung vom „Nationalen Einkommen“ und Suche nach ökonomischen Gesetzmäßigkeiten (analog zu physischen, astronomischen und anderen naturwissenschaftlichen Gesetzten William Petty, Charles d’Avenant, Henry King W. Petty (1623-1687)  Erfindung der Korrelation: Untersuchung der Beziehungen zwischen der Heiratsrate und dem Wohlstand (unter Verwendung mehrerer Wohlstandsindikatoren); Entwicklung verschiedener Hilfsmaßnahmen für unterschiedliche Armutsniveaus; Erforschung von Zeitreihen für ökonomische Variablen Francis Galton, Karl Pearson, Francis Ysidro Edgeworth, H. Hooker K. Pearson (1857-1936)  1830er: Insuffizienz der neoklassischen Theorie für die Lösung von Problemen der sinkenden Geschäftsaktivitäten und Massenarbeitslosigkeit. Eine ök. Theorie kann nur dann überzeugend sein, wenn sie die ök. Phänomene erklärt. Praktische Anwendung solcher Theorien erfordert Quantifizierung von grundlegenden ökonomischen Größen. F. Edgeworth (1845-1926) Dr. Paul Marx Folie 7
  • 7. Entstehen der Ökonometrie H.L. Moore (1869-1958) N. D. Kondratiev (1892-1938)  1911: Erste ökonometrische Arbeit. H. Moore „Laws of Wages: An essay in statistical economics“ mit der Analyse vom Arbeitsmarkt, statistischer Überprüfung von Clark‘s Produktivitätstheorie und Entwicklung der Grundlagen für die Strategien zur Vereinigung vom Proletariat. Er zeigt Möglichkeiten zur Ausarbeitung der sozialen Politik mit Hilfe mathematischer Berechnungen Grundlagen basierend auf faktischen Daten. R. Benini wendet zum ersten Mal die multiple Regressionsanalyse an für Schätzung der Nachfragefunktion.  Erforschung von ökonomischen Zyklen: 7-11 jährige Investitionszyklen, 35 j. Liquiditätszyklen, 15-20 j. Zyklen in der Bauwirtschaft, 45-60 j. Konjunkturzyklen („Kondratiev waves“)  Theorie der ökonomischen Barometer insb. auf dem Fonds- und Geldmärkten. Analyse von Trends, Saisonalität, Kursschwankungen usw. Anwendung der Astronomischen, Meteorologischen und Physischen Methoden (z.B. Harmonische Analyse) bei ökonomischer Modellierung. W. C. Mitchell (1874-1948) Dr. Paul Marx Folie 8
  • 8. Historische Entwicklung der Ökonometrie I. Fischer (1867-1947) R. A. K. Frisch (1895-1973) Jan Tinbergen (1903 - 1994)  1930: Gründung von „The Econometric Society, an International Society for the Advancement of Economic Theory in its Relation with Statistics and Mathematics“unter Vorsitz von I. Fischer.  1933: Gründung von „Journal of Econometrics“ durch R. Frisch.  1941: Erstes Lehrbuch in Ökonometrie von Jan Tinbergen (später Nobelpreisträger für Entwicklung und Anwendung von dynamischen Modellen zur Analyse von ökonomischen Prozessen, zusammen mit Frisch)  1970er: Ökonometrie = empirische Beurteilung und Unterstützung von Modellen der ökonomischen Theorie. „Statistische Daten beschützen die Theorie vom Dogmatismus“. - ARIMA-Modell von Box-Jenkins (Zeitreihenanalyse) - Nobelpreis für Klein‘s Schwankungsmodelle der Ökonomie und ökonomischer Politik  1980: Gründung des Projekts „LINK“ mit dem Ziel, statistische Modelle aller Länder zu einem System zusammenzuführen, um internationale ökonomische Zusammenhänge und Welthandel besser verstehen und prognostizieren zu können. Dr. Paul Marx Folie 9
  • 9. Ökonometrie heute  Verständnis, dass ohne ökonometrische Methoden keine moderne Makro- und Mikroökonomische Analyse möglich ist.  Ökonometrie wird als eigenständige Disziplin in führenden Universitäten der Welt unterrichtet. Ökonometrische Zeitschriften         Journal of Econometrics (Schweiz) Econometric Reviews (USA) Econometrica (USA) Sankhya. Indian Journal of Statistics Ser.D. Quantitative Economics (Indien) Publications Econometriques (Frankreich) Quantile (Russland) Applied Econometrics (Russland) Dr. Paul Marx Nobelpreise für Entwicklungen im Fach Ökonometrische  1980 Lawrence Klein Entwicklung ökonometrischer Modelle und deren Anwendung zur Analyse von Wirtschaftsentwicklungen und von wirtschaftspolitischen Maßnahmen  1989 Trygve Haavelmo: wahrscheinlichkeitstheoretische Fundierung der Ökonometrie und die Analyse simultaner ökonomischer Strukturen  2000 James Heckman und Daniel McFadden: mikroökonometrische Forschungen im Bereich der Selektion und der Analyse diskreter Entscheidungen.  2003 Robert Engle und Clive Granger: Ergebnisse im Bereich der Zeitreihenanalyse. Folie 10
  • 10. Ökonometrie als eine eigenständige Disziplin  Ökonomische Theorie: – – hauptsächlich Postulate und Hypothesen qualitativer Natur ÖM liefert empirischen Inhalt für Theorien  Mathematische Ökonomie: – – Ausdrück ökonomischer Theorie in mathematischer Form, ohne Bezug auf Messbarkeit oder Überprüfung der Theorie. ÖM überprüft die Formeln  Ökonomische Statistik: – – Akkumuliert, analysiert und präsentiert die Daten aus der Wirtschaft (z.B. BIP, ALO, usw.) ÖM überprüft mit Hilfe dieser Daten ökonomische Theorien  Mathematische Statistik: – – Arbeitet Instrumente und Methoden z.B. für den Vertrieb aus. Die Daten werden den Resultaten von kontrollierten Experimenten entnommen ÖM wendet diese Methoden auf nicht kontrollierte – also reale – Daten an. Dr. Paul Marx Folie 11
  • 11. Methoden der Ökonometrie  Regressionsanalyse – Feststellung von kausalen Zusammenhängen und Analyse von Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen (Spezialfall eines Strukturgleichungsmodells)  Zeitreihenanalyse – Mathematisch-statistische Analyse von Zeitreihen und Vorhersage (Trends) ihrer zukünftigen Entwicklung, Erkennung von Veränderungen in Zeitreihen (serielle bzw. saisonale Komponenten)  Paneldatenanalyse – Wie entwickeln sich die Merkmale im Zeitablauf unter Berücksichtigung von Unterschiedlichkeiten der Individuen? – Kohorten-, Perioden- , und Alterseffekte Dr. Paul Marx Folie 12
  • 12. Einige Beispiele aus der Wirtschaft und wissenschaftlicher Praxis PRAKTISCHE RELEVANZ DER REGRESSIONSANALYSE Dr. Paul Marx Folie 14
  • 13. Relevanz der Regressionsanalyse für die Praxis  Ursachenanalyse – – Gibt es einen Zusammenhang zwischen [ökonomischen] Größen (a.k.a. Variablen)? Wie Stark ist der Einfluss einzelner unabhängigen Variablen auf die anhängige Variable?  (Wirkungs-) Prognosen – – – Wie verändert sich die abhängige Variable bei einer Änderung in der unabhängigen Variable? Wie verändert sich die anhängige Variable im Zeitablauf und damit c.p. in der Zukunft? Schätzung des Wertes der abhängigen Variable bei gegebenen Input-Daten. Dr. Paul Marx Folie 15
  • 14. Beispiele von Anwendungsfeldern für Regressionsanalyse           Banken – Feststellung von Kreditwürdigkeit von Kunden Versicherung – Berechnung der Höhe von Versicherungsprämie Rentenversicherung – Bestimmung des Rentenversicherungsanteils am Bruttolohn Transport, Beförderung – Berechnung von günstigsten Routen Logistik, Lagerwirtschaft – Planung vom Datum und Lieferumfang so, dass die Lagerhallen optimal besetzt und Mietkosten möglichst gering sind. Retailing – verkaufszahlenoptimale Aufstellung der Produkte im Regal Werbung – Auswahl der Werbekanäle mit maximaler Werbewirkung und minimalen Werbekosten Medizin – Vergleich der Effektivität unterschieldicher Medikamente, Auffinden von Nebenwirkungen (Biometrie, Biostatistik) Filmindustrie – Bestimmung der Erfolgsfaktoren von Spielfilme, Bestimmung des optimalen Zeitfensters zwischen Kinostart und DVD-Verkauf, Bestimmung vom Schadensumfang durch Piraterie Usw. Dr. Paul Marx Folie 16
  • 15. Wovon hängt Verkaufsmenge eines Produktes ab? Produktpreis 0,034 Werbeausgaben 0,794 0,325 Intensität der Betreuung durch Merchandiser Verkaufsmenge am PoS (Lebensmittel) Loyalität der Verkäufer Dr. Paul Marx Folie 17
  • 16. Wovon hängt Verkaufsmenge eines Produktes ab? Produktpreis 0,034 Werbeausgaben 0,313 0,395 Loyalität der Verkäufer 0,457 Verkaufsmenge am PoS (Lebensmittel) 0,196 0,605 Intensität der Betreuung durch Merchandiser Dr. Paul Marx Folie 18
  • 17. Erfolgsfaktoren deutschsprachiger Filme in den US-Kinos Thematik Genre (II Weltkrieg, DDR, Liebe, True Story, Homosexualität, Familie, Jüdisch, Musik, Andere) (Komödie, Drama, Doku, Thriller, Action) Produktionsfirma 0,354 Verleiher Hauptdarsteller 0,194 Drehort USEinspielergebnis Kritiken (Anzahl, Bewertung) 0,350 Previews Startort 0,347 0,227 0,118 Start-Weekend Box-Office Altersfreigabe Laufzeit in Deutschland Dr. Paul Marx Pre-Release-Awards Festivals Folie 20
  • 18. Abschnitt 2 EINFACHE LINEARE REGRESSION Dr. Paul Marx Folie 21
  • 19. Methodologie der Ökonometrie und die GRUNDZÜGE DER REGRESSIONSANALYSE Dr. Paul Marx Folie 22
  • 20. Ziel der Regressionsanalyse  Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel der Regressionsanalyse ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen und zu quantifizieren Grundlage: empirische Daten (z.B. aus Befragungen oder Beobachtungen) Dr. Paul Marx Folie 23
  • 21. Methodologie von Ökonometrie 1. Formulierung einer Theorie oder Hypothese 2. 3. 4. 5. 6. 7. 8. Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 24
  • 22. Formulierung von Hypothesen  Zunächst keine methodenanalytische Fragestellungen  Vorabüberlegungen des Forschers – – – Ausschließlich fachliche Gesichtspunkte evtl. Erfahrungen Abgrenzung des Untersuchungszieles und -gegenstands Formulierung von logischen Zusammenhängen Z.B. Absatzmenge eines Monopolisten steht in einer inversen Relation zum Preis  Wahl des Untersuchungsansatzes, der vermutete Ursache-Wirkungs-Beziehungen möglichst vollständig enthält. Dr. Paul Marx Folie 25
  • 23. Methodologie von Ökonometrie 1. Formulierung einer Theorie oder Hypothese 2. Spezifizierung eines mathematischen Modells der Theorie 3. 4. 5. 6. 7. 8. Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 26
  • 24. Spezifizierung des mathematischen Modells Preis p  ax b p = abhängige Variable x = unabhängige Variable a a 1 Y P reis  X Menge b Menge (x) Dr. Paul Marx Folie 27
  • 25. Spezifizierung des mathematischen Modells p  ax b Preis mit a<0 und b>0 b a a Y X 1 Menge (x) exakte (!) Beziehung zwischen Variablen Dr. Paul Marx Folie 28
  • 26. Methodologie von Ökonometrie 1. 2. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie 3. Spezifizierung des statistischen oder ökonometrischen Modells 4. 5. 6. 7. 8. Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 29
  • 27. Spezifizierung des ökonometrischen Modells ˆ yi   0  1  xi  ui ui = Fehlerterm = zufällige Variable = stochastische Variable Preis mit In der Realität ist die Beziehung zwischen (ökonomischen) Größen fast nie exakt u u Warum? Menge Dr. Paul Marx • Weitere nicht beobachtete Variablen? • Fehlerbehaftete, ungenaue Messung? • Theorie stimmt nur ungefähr? • Einfluss zufälliger Größen? •… Folie 30
  • 28. Spezifizierung des ökonometrischen Modells Preis  Fehlerterm = Residualgröße = Residuum = nicht erklärte Abweichung des Beobachtungswertes vom entsprechenden Schätzwert ˆ yi   0  1  xi  ui u3 ˆ ui  yi  yi y3 ˆ y3 x3 Menge Dr. Paul Marx Folie 31
  • 29. Methodologie von Ökonometrie 1. 2. 3. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells 4. Datenerhebung 5. 6. 7. 8. Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 32
  • 30. Datenerhebung Preis, € 10 – – – – – – 15 33 Umsatzstatistiken Schriftwechsel mit Kunden Preislisten Daten statistischer Ämter Geschäftsberichte Usw. 24 30 6 39 45 19 23  Sekundäre Daten = desk research = Bereits vorhandene Statistiken 28 18 Beobachtung Befragung Experiment Preis (y) – – – 26 16  Primäre Daten = direkte Untersuchung Absatz, Stk. 8 40 35 30 25 20 15 10 5 0 0 Dr. Paul Marx 5 10 15 20 25 30 35 40 Menge (x) Folie 33
  • 31. Methodologie von Ökonometrie 1. 2. 3. 4. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung 5. Schätzung der Parameter des ökonometrischen Modells 6. 7. 8. Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 34
  • 32. Schätzung der Parameter des ökonometrischen Modells  Gesucht wird die Gerade, die y in Abhängigkeit von x möglichst genau bestimmt  Diese Gerade ist oft nach Augenmaß gut festlegbar  Für die rechnerische Bestimmung stellt sich die Frage, nach welchem Kriterium die Gerade festzulegen ist?  Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen Mittelwert lässt sich durch den unterstellten linearen Einfluss der Unabhängigen Variable erklären und welcher Anteil verbleibt als unerklärte Residuen? Dr. Paul Marx Folie 35
  • 33. Schätzung der Parameter des ökonometrischen Modells ˆ yi   0  1  xi  ui 45 45 40 40 35 35 30 30 25 25 20 20 15 15 10 10 5 0 0 5 10 15 20 25 30 35 40 45 je kleiner u, desto genauer ^ y 5 0 0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40 45 40 40 35 35 30 30 25 25 20 20 15 15 10 10 5 5 0 0 0 5 10 15 20 25 30 35 40 Dr. Paul Marx Folie 36
  • 34. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate  Gesucht wird die Gerade, für die die Summe der Abstandsquadrate der tatsächlichen Werte von den durch die Gerade vorausgesagten Werten am geringsten wird, d.h. geringer als für jede andere Gerade  Quadrieren, damit sich die positiven und negativen Abweichungen nicht kompensieren  Zielfunktion lautet also: N N  u  [ y i 1 2 i i 1 i  (  0  1  xi )]2  min N ˆ ( yi  yi ) 2  min  i 1 Dr. Paul Marx Folie 37
  • 35. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate  Lösung: 1  alternative Formel N ( xi yi )  ( xi )(  yi ) N ( x )  ( xi ) 2 i 2 1 [( x  x )( y  y )]  [( x  x ) ] i i 2 i  0  y  1 x mit y  Mittelwert geschätzter Funktionswerte x  Mittelwert unabhängiger Variable N  Anzahl von Beobachtungen (= I) Dr. Paul Marx Folie 39
  • 36. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate Nr. i 1 2 3 4 5 6 7 Summe Mittelwert 1  Preis, € p 10 16 18 23 30 33 39 169 24,143 Absatz, Stk. x 26 28 19 24 15 6 8 126 18 N ( xi yi )  ( xi )( yi ) N ( xi2 )  ( xi ) 2  x*y 260 448 342 552 450 198 312 2562 x2 676 784 361 576 225 36 64 2722 7  2562  126 169  1,057 7  2722  126 2  0  y  1 x  24,143  (1,057) 18  43,174 Dr. Paul Marx Folie 40
  • 37. Schätzung der Parameter des ökonometrischen Modells Preis ˆ yi   0  1  xi  ui  0  43,174 1  1,057 45 40 35 30 25 20 15 y  43,174  1,057  x 10 5 0 0 Dr. Paul Marx 5 10 15 20 25 30 35 40 Menge Folie 41
  • 38. Methodologie von Ökonometrie 1. 2. 3. 4. 5. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells 6. Test von Hypothesen 7. 8. Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 42
  • 39. Test von Hypothesen A theory or hypothesis that is not verifiable by appeal to empirical evidence may not be admissible as a part of scientific enquiry (Milton Freedman 1953) Ausgehend davon, dass ein Model eine Approximation von Realität ist, muss ein zuverlässiges Kriterium entwickelt werden, um die „Güte“ dieser Approximation zu überprüfen, bzw. um die Theorie oder Hypothese zu bestätigen (oder zu verwerfen). Preis, € Absatz, Stk. Schätzwert 10 16 18 23 30 33 39 26 28 19 24 15 6 8 32 26 24 19 12 9 3 Dr. Paul Marx Abweichung (gemessen – geschätzt) -6 2 -5 5 3 -3 5 War die Schätzung gut? Folie 43
  • 40. Test von Hypothesen: Standardfehler der Schätzung  Der Standardfehler der Schätzung gibt an, welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schätzung der abhängigen Variable gemacht wird: Nr. i 1 2 3 4 5 6 7 Summe Mittelwert N s u i 1 2 i ( N  J  1) yi 10 16 18 23 30 33 39 169 24,14 ˆ yi 15,69 13,58 23,09 17,81 27,32 36,83 34,72 ˆ yi  yi ( yi  yi ) 2 ˆ -5,69 2,42 -5,09 5,19 2,68 -3,83 4,28 32,40 5,87 25,92 26,98 7,19 14,68 18,34 131,37 In unserem Beispiel: s 131,37  (7  1  1) 26,274  5,125 d.h. der wahre p-Wert liegt im Bereich Bezogen auf den Mittelwert beträgt der durchschnittliche Fehler: Dr. Paul Marx ˆ yi  5,125 5,125 / 24,14 = 0,21 = 21% Folie 44
  • 41. Test von Hypothesen Gründe für die Abweichungen  Natürliche Variabilität  Ungenauigkeiten, Messfehler Nach der Schätzung kann die Gesamt-Abweichung vom Mittelwert (=Varianz) in zwei Teile zerlegt werden:  Vom Modell „erklärte“ Abweichung  „Nicht erklärte“ Abweichung (Restschwankung) Dr. Paul Marx Folie 45
  • 42. Preis (y) Test von Hypothesen 45 Gesamtabweichung (vom Mittelwert) 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 46
  • 43. Preis (y) Test von Hypothesen 45 Erklärte Abweichung 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 47
  • 44. Preis (y) Test von Hypothesen 45 Nicht erklärte Abweichung (Restschwankung) 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 48
  • 45. Test von Hypothesen: Bestimmtheitsmaß = Gesamtstreuung N (y i 1 i  y) 2  + erklärte Streuung N ˆ (y i 1 i  y) 2  nicht erklärte Streuung N (y i 1 i ˆ  yi ) 2 Je höher der Anteil der erklärten Abweichung (bzw. je geringer der Anteil der Restschwankung) an der Gesamtstreuung um den Mittelwert ist, desto „besser“ lassen sich die y-Werte mit der Regressionsfunktion schätzen. Dr. Paul Marx Folie 49
  • 46. N  ( yi  y ) 2  i 1 Gesamtstreuung N ˆ  ( yi  y ) 2  i 1 = erklärte Streuung N ˆ ( y i  yi ) 2  i 1 + nicht erklärte Streuung y ˆ y y Dr. Paul Marx Folie 50
  • 47. Test von Hypothesen: Bestimmtheitsmaß  Bestimmtheitsmaß: N r  2 ( yi  y ) 2  ˆ  i 1 N ( yi  y ) 2  erklärte Streuung Gesamtstreuung 0  r2  1 i 1 N r2  1  ˆ (y  y ) i 1 N i 2 i ( yi  y ) 2   1  nicht erklärte Streuung Gesamtstre uung i 1 Dr. Paul Marx Folie 51
  • 48. Test von Hypothesen: Bestimmtheitsmaß Nr. i 1 2 3 4 5 6 7 Summe Mittelwert N r2  yi 10 16 18 23 30 33 39 169 24,14 ˆ (y i  y)2 (y i  y)2 i 1 N i 1 r2  1  (y i 1 N i (y i 1 i 15,69 13,58 23,09 17,81 27,32 36,83 34,72 -5,69 2,42 -5,09 5,19 2,68 -3,83 4,28 32,40 5,87 25,92 26,98 7,19 14,68 18,34 131,37 yi  y ( yi  y ) 2 ˆ yi  y ˆ ( yi  y ) 2 -14,14 -8,14 -6,14 -1,14 5,86 8,86 14,86 200,02 66,31 37,73 1,31 34,31 78,45 220,73 638,86 -8,45 -10,56 -1,05 -6,34 3,18 12,69 10,58 71,42 111,62 1,11 40,16 10,09 161,01 111,83 507,23 In unserem Modell sind  N ˆ yi  yi ( yi  yi ) 2 ˆ ˆ yi ˆ  yi ) 2  y) 2 507,23  0,794 638,86  1  131,37  1  0,205  0,795 638,86 Dr. Paul Marx 79,5% der Varianz auf die erklärende Variable MENGE und 20,5% auf nicht erfasste Einflusse zurückzuführen Folie 52
  • 49. Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)  Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichprobe  Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit übertragen werden?  Es könnte sein, dass in der Realität die Veränderung der Funktionswerte gar nicht auf die lineare Veränderung der unabhängigen Modellvariablen zurückzuführen ist. Der Wert von r2 kann sich aufgrund zufälliger Einflusse ergeben haben.  Die Frage ist nun, wie signifikant die Abhängigkeit des Regressands von Regressoren ist? M.a.W. wie (un)wahrscheinlich ist es, dass es keinen Zusammenhang zwischen der unabhängigen und abhängigen Variablen gibt?  Die Prüfung von Gültigkeit der Regressionsfunktion als Ganzer: F-Test Dr. Paul Marx Folie 53
  • 50. Test von Hypothesen: F-Test  Ablauf des F-Tests: 1. Aufstellen der „Nullhypothese“ (H0): „Es besteht kein Zusammenhang zwischen der abhängigen und den unabhängigen Variablen!“ – – j= 0, für j [ 0; J ] Regressionsgleichung ist unbrauchbar Alternativhypothese (H1): „Der Zusammenhang besteht! r2 ist signifikant von null verschieden!“ 2. Verlässlichkeit des Testergebnisses (Vertrauenswahrscheinlichkeit) wird vorgegeben – – – üblicherweise 0,95 oder 0,99 D.h. mit einer Wahrscheinlichkeit von 95% bzw. 99% kann man sich darauf verlassen, dass H0 nicht zu unrecht abgelehnt wird. M.a.W. wird H0 abgelehnt, so ist mit 95%- bzw. 99%-igen Wahrscheinlichkeit die H1 richtig. Dr. Paul Marx Folie 54
  • 51. Test von Hypothesen: zwei Fehlerarten  Die Entscheidung eine Hypothese zu verwerfen, kann fehlerhaft sein  Es wird zwischen 2 Arten von Fehlern unterschieden: H0 richtig H0 falsch verwerfen Fehler I Art () kein Fehler akzeptieren kein Fehler Fehler II Art  Fehler I Art () = Signifikanzniveau (1- = Vertrauenswahrscheinlichkeit)  Statement: „Einfluss besteht“; in Wirklichkeit: „kein Einfluss“  Fehler II Art () = Teststärke  Statement: „kein Einfluss“; in Wirklichkeit: „Einfluss besteht“  Simultane Minimierung beider Fehlerarten ist unmöglich. Falsche Positives sind „wichtiger“, da mehr Schaden. Daher wird zunächst  minimiert. Dr. Paul Marx Folie 55
  • 52. Test von Hypothesen: F-Test 3. Berechnung des empirischen F-Wertes aufgrund von Stichprobendaten bzw. - werte ˆ  ( y  y) Femp  2 J ˆ  ( y  y) 2 N  J 1  r2 J 1 r 2 N  J 1  erklärte Streuung / J nicht erklärte Streuung / ( N  J  1) mit N = Anzahl der Beobachtungswerte (Fälle) J = Anzahl von Regressoren N – J – 1 = Zahl der Freiheitsgrade der Regression Femp  0,79 / 1  18,809 (1  0,79) / (7  1  1) Dr. Paul Marx Folie 56
  • 53. Test von Hypothesen: F-Test 4. Vergleich des empirischen F-Wertes (Femp) mit einem theoretischen F-Wert (Ftab) anhand einer Tabelle Entscheidungskriterium: Femp  Ftab  Ho verworfen, es gilt H1 Femp  Ftab  Ho nicht verworfen Dr. Paul Marx Folie 57
  • 54. Test von Hypothesen: F-Test F-Tabelle: 95% Vertrauenswahrscheinlichkeit (Ausschnitt) hier Für unser Beispiel: f1: J = Zahl der erklärenden Variablen f2: N-J-1 = Anzahl Freiheitsgrade (N = Zahl der Beobachtungswerte) J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 > 6,61  Ho verworfen! Dr. Paul Marx Folie 58
  • 55. Test von Hypothesen: F-Test F-Tabelle: 99% Vertrauenswahrscheinlichkeit (Ausschnitt) Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 > 16,26  Ho verworfen! Dr. Paul Marx Folie 59
  • 56. Test von Hypothesen: F-Test F-Tabelle: 99,9% Vertrauenswahrscheinlichkeit (Ausschnitt) Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 < 47,04  Ho nicht verworfen! Dr. Paul Marx Folie 60
  • 57. Test von Hypothesen: F-Test Vertrauenswahrscheinlichkeit 95% (0,95) 99% (0,99) 99,9% (0,999) H1 H1 H0 0,05 0,01 0,001 Signifikanzniveau Die geschätzte Funktion y  43,174  1,057  x erklärt 79% des Zusammenhangs von y und x signifikant auf dem Niveau von 0,01. Dr. Paul Marx Folie 61
  • 58. Test von Hypothesen: Gültigkeit von Regressionskoeffizienten für die Grundgesamtheit (T-Test)  Die Schätzung der Funktionsparameter basiert auf bekannten Daten  Wie zuverlässig sind die geschätzten -Werte für Prognosen? T-Test  Geprüft wird, ob tatsächlicher -Wert gleich Null ist (Also j=0), d.h. Ho: „Faktor xj hat in der Grundgesamtheit keinen Einfluss auf y. Der ermittelte Wert von j gilt nur für die Stichprobe.“ H1: „Der Einfluss vom Faktor xj in der Grundgesamtheit ist signifikant größer Null“ Dr. Paul Marx Folie 62
  • 59. Test von Hypothesen: T-Test  Ähnlich wie beim F-Test wird eine Prüfgröße errechnet und mit dem Tabellenwert verglichen temp  ˆ j j getestet wird j=0 S j S  j | j 0  s  1 N  ( xi  x ) 2  S 0 i 1 temp  N ( xi  x ) 2  i 1 Wahrer Regressionskoeffizient (unbekannt) S j  x2 Regressionskoeffizient des j-ten Regressor j  1  s  N S j Errechneter t-Wert ˆ j  temp  ˆ j Standardfehler des Regressionskoeffizienten des j-ten Regressors Dr. Paul Marx Folie 63
  • 60. Test von Hypothesen: T-Test Nr. i 1 2 3 4 5 6 7 Summe Mittelwert p  43,174  1,057  x N s u i 1 2 i ( N  J  1) S  j | j 0  s   5,125 1 N  (x  x) 1  s  N 2 1  0,24 454 i i 1 S 0  5,125  x2 N  (x  x) i 1 2 1 182  5,125    4,743 7 454 i Dr. Paul Marx pi xi xi  x 10 16 18 23 30 33 39 169 24,14 26 28 19 24 15 6 8 -8 -2 0 5 12 15 21 ( xi  x ) 2 64 100 1 36 9 144 100 454,00 18,00 temp1  ˆ 1 S 1 temp 0   ˆ 0 S 0  1,057  4,404 0,24  43,174  9,102 4,743 Folie 64
  • 61. Test von Hypothesen: T-Test Vergleich mit dem Tabellenwert: |temp|  ttab  Ho verworfen |temp|  ttab  Ho nicht verworfen Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; temp = -4,404 =0,95: =0,99: =0,999: 4,395 > 2,57  Ho verworfen! 4,395 > 4,03  Ho verworfen! 4,395 < 6,86  Ho nicht verworfen! Dr. Paul Marx Folie 65
  • 62. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  Der Einfluss von Variable x1 kann in der Grundgesamtheit mit 99%-iger Wahrscheinlichkeit (= auf dem Signifikanzniveau von 0,01) vermutet werden.  Wie weit können die wahren j-Werte von den in der Stichprobe ermittelten Werten abweichen? ˆ yi   0  1  xi Verlauf von Regressionsgerade bei Variation von 0 und 1 Dr. Paul Marx Verlauf von Regressionsgerade bei Variation von 1 Folie 66
  • 63. Test von Hypothesen: t-Test und Konfidenzintervall des Regressionskoeffizienten Ho akzeptieren Häufigkeit Ho akzeptieren Ho verwerfen (kein Einfluss in der Grundgesamtheit) (kein Einfluss in der Grundgesamtheit) (Einfluss besteht) ˆ   Relation vom geschätzten  zu seinem Standardfehler ist kleiner als kritischer t-Wert ˆ   t ( ) t  S  t ( )  t  S  t ( ) Bei normal verteilten Residuen sind die geschätzten -Koeffizienten auch normal verteilt 0  t ( ) Dr. Paul Marx ˆ   Folie 67
  • 64. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten ˆ  j  t  S j ˆ   j   j  t  S j  Der wahre Wert des Regressionskoeffizienten (für das vorgegebene Signifikanzniveau ) liegt ˆ im Bereich  j  t  S j  Dieser Bereich nennt sich Konfidenzintervall von j Für =0,01 1,057  4,03  0,24  1  1,057  4,03  0,24  2,03  1   0,086 Für =0,05 1,057  2,57  0,24  1  1,057  2,57  0,24 1,67  1   0,44 Dr. Paul Marx Folie 68
  • 65. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  2,03  1   0,086 24,112   0  62,236 y  43,174  0,086  x y  43,174  1,057  x y  43,174  2,03  x Verlauf von Regressionsgerade bei Variation von 1 Dr. Paul Marx Folie 69
  • 66. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  2,03  1   0,086 24,112   0  62,236 y  24,112  0,086  x y  62,236  2,03  x y  43,174  1,057  x Verlauf von Regressionsgerade bei Variation von 0 und 1 Dr. Paul Marx Folie 70
  • 67. Preis (y) Test von Hypothesen: Konfidenzintervall der Regressionsfunktion 45 Konfidenzintervall = Region der Annahme von H1 40 Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt 35 30 _ Y 25 20 15 =0,01 10 5 =0,05 0 0 5 10 15 20 25 30 35 40 Menge (x) Vereinfachte Abbildung! Dr. Paul Marx Folie 71
  • 68. Preis (y) Test von Hypothesen: Konfidenzintervall der Regressionsfunktion 45 Je weiter x vom Mittelwert, desto ungenauer ist die Schätzung von y(x) 40 35 Übertragen auf die Regressionsgerade zeigt Konfidenzintervall an, in welchem Bereich die wahren Werte liegen können bzw. wie stark sie von den geschätzten Werten abweichen können (mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit) 30 25 20 15 =0,01 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 72
  • 69. Konfidenzintervall der Regressionsfunktion Häufigkeit von y Preis (y) Dr. Paul Marx Folie 73
  • 70. Ergebnisse der Regressionsanalyse ˆ yi  43,174 S j = (4,743) (0,24) t = (9,102) (-4,404)  = (0,001) (0,01)  1,057  xi Dr. Paul Marx r2 = 0,795 df = 6 F1,6 = 18,809 Folie 74
  • 71. Ergebnisse der Regressionsanalyse: SPSS Modellzusammenfassung a Einflußvariablen : (Konstante), Absatzmenge Modell 1 R R-Quadrat ,891(a) ,794 Standardf Korrigiertes ehler des R-Quadrat Schätzers ,753 5,12578 ANOVA(b) a Einflußvariablen : (Konstante), Absatzmenge b Abhängige Variable: Preis Modell 1 Regression Residuen Gesamt Quadrats umme 507,489 131,368 638,857 df Mittel der Quadrate 1 507,489 5 26,274 6 F Signifikanz 19,316 ,007(a) Koeffizienten(a) a Abhängige Variable: Preis Modell 1 (Konstante) Absatzmenge Nicht standardisierte Koeffizienten Standardfehl er B 43,174 4,744 -1,057 ,241 Dr. Paul Marx Standardisie rte Koeffiziente n Beta -,891 T Signifikanz 9,101 ,000 -4,395 ,007 Folie 75
  • 72. Methodologie von Ökonometrie 1. 2. 3. 4. 5. 6. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen 7. Prognosen / Vorhersagen 8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 76
  • 73. ˆ y  43,174  1,057  x Preis (y) Bestimmung der Absatzmenge 45 40 35 x= 18,18 für y=25  x=17,19 30 25 20 x= 13,6 15 =0,05 10 5 0 0 5 10 15 20 25 30 35 40 Menge (x) Zur Erinnerung: Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Dr. Paul Marx Folie 77
  • 74. ˆ y  43,174  1,057  x Preis (y) Bestimmung des Preises 45 40 35 für x=25  y=16,74 30 y= 19,98 25 20 15 =0,05 10 y= 13,61 5 0 0 5 10 15 20 25 30 35 40 Menge (x) Zur Erinnerung: Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Dr. Paul Marx Folie 78
  • 75. Optimale Produktionsmenge und Preis Gewinnfunktion z.B. G = (y - k) x mit k = 4 G = yx – 4x = (43,174 – x )x – 4x = = 43,174 x – x2 – 4 x = 39,174 x – x2 Gmax ist gegeben im Punkt, wo G/x = 0 Preis (y), Gewinn/10 ˆ y  43,174  1,057  x 45 40 G= 39,174x-x2 35 30 25 20 15 10 5 39,174 – 2x = 0 0 0  5 10 15 20 25 30 35 40 Menge (x) xopt = 39,174 / 2 = 19,587 = 20 yopt = 43,174 – 20 = 23,17 Dr. Paul Marx Folie 79
  • 76. Methodologie von Ökonometrie 1. 2. 3. 4. 5. 6. 7. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen 8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 80
  • 77. Preis-Absatz-Funktion im Monopol Aus unserem Beispiel folgt: xopt = 20 yopt = 23,17 Gopt = 383,4 Reale Nachfrage ist aber höher: Preis, € Absatz, Stk. 23 24 G|x=24; p=19,17 = 364,08 < Gopt Der Monopolist hat keinen Anreiz, mehr zu produzieren. Es entsteht Defizit. Bevölkerung ist unzufrieden. Der Staat kann/muss eingreifen: * Verpflichtung zur Mindestproduktion * Senkung der Steuer für den Monopolisten * Subventionierung von Produzenten komplementärer Güter * Stimulierung des Wettbewerbes *… Dr. Paul Marx Folie 81
  • 78. LOGISCHER FEHLER!!!  In der Realität hängt der Preis nicht von der Absatzmenge ab. Vielmehr hängt der Absatz vom Preis ab.  Regressionsanalyse bestimmt lediglich die Stärke des Zusammenhangs, jedoch nicht die Richtung! Im Zweivariablen-Fall ist es unproblematisch, da die Richtung des Zusammenhanges einfach umgekehrt werden kann. Wenn mehr Variablen regressiert wären, wäre unsere Schätzung komplett falsch und irreführend.  Die logische Begründung beim Spezifizieren des Modells ist wichtiger als Kennzahlen!  Übungsaufgabe: Spezifizieren Sie das Model richtig und führen Sie entsprechende Regressionsanalyse durch. Dr. Paul Marx Folie 82
  • 79. Übungsaufgabe Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei Werbeausgaben in Höhe von € 85.000 ergeben wird. Werbeausgaben (€1000) 40 60 70 110 150 160 190 200 Dr. Paul Marx Absatz (€1000) 377 507 555 779 869 818 862 817 Folie 83
  • 80. Abschnitt 3 MULTIPLE REGRESSIONSANALYSE Wenn es mehrere unabhängige Variablen gibt Dr. Paul Marx Folie 84
  • 81. Multiple Regressionsanalyse  Regressionsanalyse: – Analyse von Zusammenhängen zwischen Variablen (x,y) – Vorhersage der y-Werte aus x-Werten – Versuch, die y-Werte auf die x-Werte „zurückzuführen“  Einfache lineare Regressionsanalyse: – Betrachtung einer Zielgröße y und einer Einflussgröße x  In den meisten Fällen üben mehrere Faktoren gleichzeitig Einfluss auf die zu erklärenden Variable aus – Aufnahme einer zusätzlichen Variable kann mehr Varianz erklären  Multiple lineare Regressionsanalyse: – Betrachtung einer Zielgröße y und mehr als einer Einflussgröße x Dr. Paul Marx Folie 85
  • 82. Multiple Regressionsanalyse: ökonometrisches Modell  Das Vorgehen bei der multiplen RA unterscheidet sich konzeptionell nicht von dem Vorgehen bei der einfachen RA  Das ökonometrische Modell bzw. die Regressionsfunktion wird in der gleichen Form spezifiziert. Es werden nur mehrere unabhängige Variablen betrachtet. J ˆ yi   0    i xi  ui i 1 Dr. Paul Marx Folie 86
  • 83. J Multiple Regressionsanalyse: Beispiel ˆ yi   0    i xi  ui i 1  Welche Faktoren beeinflussen die Prüfungsnote im Fach „Basic Econometrics“?  Hypothese: Konsum von Bier und Kaffee in der Lernzeit beeinflusst die Note – Je mehr Bier und Kaffee, desto bessere Note • • x1 Anzahl von Biergläser in der Lernzeit x2 Anzahl von Tassen Kaffee in der Lernzeit Bier = x1 Note Kaffee = x2 Dr. Paul Marx ˆ yi   0  1 x1   2 x2  ui Folie 87
  • 84. Schätzen der Regressionsfunktion  Das Optimierungskriterium ist nach wie vor die Minimierung der Summe der quadrierten Abweichungen N u n 1 min 2 n  min ui2   ( yi  0  1 x1i  2 x2i )2   zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten Parametern gebildet - Partielle Ableitungen nach Variablen werden gleich 0 gesetzt -> Gleichungssystem entsteht y   0  1 x1   2 x2 yi x1i  0  x1i 1  x12i  2  x1i x2i  2 yi x2i  0  x2i 1  x1i x2i   2  x2i  Dr. Paul Marx Folie 88
  • 85. Schätzen der Regressionsfunktion  Lösung des Gleichungssystems führt zu einzelnen i 1  2  2 ( yi x1i )(  x2i )  ( yi x2i )(  x1i x2i ) 2 ( x12i )(  x2i )  ( x1i x2i ) 2 ( yi x2i )(  x12i )  ( yi x1i )(  x1i x2i ) 2 ( x12i )(  x2i )  ( x1i x2i ) 2  0  y  1 x1   2 x2 Dr. Paul Marx Folie 89
  • 86. Schätzen der Regressionsfunktion: Matrixform u  y  Xβ y  Xβ  u  y1   1 x11 x21 ... xk1    0   u1   y   1 x x ... x     u   2    12 22 k 2   1    2   ...  ... ... ... ... ...   ...   ...         yi   1 x1i x2i ... xki    i   ui   u T u  u1 u2  u1  u  I ... ui   2    ui2  ...  i 1    ui  Dr. Paul Marx u T u  (y  Xβ )T (y  Xβ )  yT y 2 β T X T y β T X T Xβ (X T X) β  X T y (X T X) 1 (X T X) β  (X T X) 1 X T y Eβ  (X T X) 1 X T y β  (X T X) 1 X T y Folie 90
  • 87. ˆ yi   0  1 x1   2 x2  ui Bier = x1 Bier Interpretation von Regressionskoeffizienten Kaffee = x2 1 1 Note Note  Betas sind die partiellen Steigungskoeffizienten 1 2  1= die Änderung im Durchschnittswert von y bei Änderung von x1 um eine Einheit, bei x2= const – Der direkte oder Netto-Effekt einer Einheitsveränderung in x1 unabhängig von allen Effekten von x2 (=was bringt ein zusätzliches Bier für die Note)  0= konstantes Glied (=nichts trinken) Dr. Paul Marx Folie 91
  • 88. Standardisierte Regressionskoeffizienten  Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner Variable angesehen werden! – – Da die Skalen unterschiedlich sind (Bier wird in Gläsern und Kaffe in Tassen gemessen) Wenn Bier in ml gemessen wird, vergrößert sich der 1-Wert um den Faktor 500  Um die Betas vergleichbar zu machen, muss man – die Skalen beider Variablen einheitlich machen und dann mit den umgerechneten Werten eine neue RA durchführen, oder – Die bereits geschätzten Regressionskoeffizienten standardisieren ˆ    Sta ndardabweichung von xi i i St andardabweichung von y Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen eliminiert. Die Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren Wichtigkeit verwendet werden. Dr. Paul Marx Folie 92
  • 89. Beispiel Nicht standardisiert: Standardisiert: Note = 0,465 + 0,270 * Kaffee + 0,617 * Bier Note = 0,518 * Kaffee + 0,781 * Bier Nicht standardisierte Koeffizienten Modell B Standardfehler 1 (Konstante) Kaffee Bier ,465 ,270 ,617 ,191 ,045 ,069 Standardisier te Koeffizienten Beta T Signifikanz ,518 ,781 2,433 5,950 8,975 ,072 ,004 ,001 a. Abhängige Variable: Note Dr. Paul Marx Folie 93
  • 90. Korrigiertes Bestimmtheitsmaß  Bei gegebener Stichprobe wird mit der Aufnahme zusätzlicher erklärenden Variablen ein mehr oder weniger großer Erklärungsanteil hinzugefügt. Dieser Anteil kann u.U. nur zufällig bedingt sein. r2 kann also nur zunehmen – auch wenn irrelevante Regressoren aufgenommen werden. ˆ erklärte Varianz nicht erklärte Varianz  ui2 r   1  1 Gesamte Varianz Gesamte Varianz  ( yi  y i )2 Nicht steigend mit  Anzahl von Regressoren 2 Unabhängig von Anzahl der Regressoren  r2 steigt mit steigender Varianz von y, ohne dass der Grad der Anpassung sich verbessert hat.  r2 steigt mit dem Umfang der Stichprobe.  diese negativen Eigenschaften werden durch das korrigierte Bestimmtheitsmaß über den Korrekturfaktor ausgeglichen. Dr. Paul Marx Folie 94
  • 91. Korrigiertes Bestimmtheitsmaß  r2KORR vermindert r2 um eine Korrekturgröße, die desto größer wird, je größer die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist.  Dadurch kann r2KORR auch bei der Aufnahme von Regressoren abnehmen. 2 rKORR ˆ  u /( N  J 1)  1  (1  r  1  ( y  y ) /( N  1) 2 i 2 i 2 KORR r 2 i J  (1  r 2 ) r  N  J 1 2 mit N J N–J–1 ) ( N  1) ( N  J  1) = Anzahl der Beobachtungswerte (Fälle) = Anzahl von Regressoren = Zahl der Freiheitsgrade  r2KORR kann auch negative Werte annehmen und ist kleiner als r2, außer falls r2=1, dann r2KORR =1 Dr. Paul Marx Folie 95
  • 92. Korrigiertes Bestimmtheitsmaß Modell R 1 Korrigiertes RQuadrat R-Quadrat ,985 ,970 ,955 Standardfehler des Schätzers ,297 Einflußvariablen: (Konstante), Bier, Kaffee Dr. Paul Marx Folie 96
  • 93. Korrigiertes Bestimmtheitsmaß  Mit r2KORR wird es möglich, Schätzungen mit unterschiedlichen erklärenden Variablen oder unterschiedlicher Varianz der abhängigen Variablen miteinander zu vergleichen.  Dabei müssen folgende Bedingungen erfüllt sein: – – Abhängige Variable und Stichprobenumfang sind gleich  Warnung vor dem r2korr-Maximierung-Spiel! – – – Ziel der RA ist nicht das Erreichen des maximal möglichen r2korr , sondern die plausible Schätzung von Regressionskoeffizienten in der Population Es ist wichtiger herauszufinden, ob die Regressionskoeffizienten statistisch (nicht)signifikant sind, oder Vorzeichen haben, die nicht zu erwarten sind logische bzw. theoretische Relevanz von erklärenden Variablen für den erklärten Faktor und ihre statistische Signifikanz haben Vorrang! Dr. Paul Marx Folie 97
  • 94. Multiple Regressionsanalyse: Anwendungsbeispiel Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Zahl der Vertreterbesuche. Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genannten Einflussgroßen sich auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang zwischen z.B. Vertreterbesuchen und Absatzmenge gegeben wäre, dann müssten überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf Unterschiede in der Zahl der Besuche zurückführen lassen, z.B.: je höher die Zahl der Vertreterbesuche, desto höher der Absatz. Quelle: Backhaus et al.(2006): „Multivariate Analysemethoden“ Dr. Paul Marx Folie 99
  • 95. Daten der Stichprobe SPSS Datensatz: Absatz von Margarine Nr. 1 2 3 4 5 6 7 8 9 10 Menge Kartons pro Periode Preis pro Karton 2585 1819 1647 1496 921 2278 1810 1987 1612 1913 12,5 10 9,95 11,5 12 10 8 9 9,5 12,5 Ausgaben für Zahl der VerkaufsVertreterförderung besuche 2000 550 1000 800 0 1500 800 1200 1100 1300 109 107 99 70 81 102 110 92 87 79 Ökonometrisches Modell: Menge = 0 + 1*Preis Dr. Paul Marx + 2*Ausgaben + 3*Besuche Folie 100
  • 96. SPSS-Dateneditor: Auswahl des Analyseverfahrens Dr. Paul Marx Folie 101
  • 97. SPSS: Dialogfenster „Lineare Regression“ Dr. Paul Marx Folie 102
  • 98. SPSS-Output für die Regressionsanalyse Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton ANOVA(b) Modell 1 Regression Residuen Gesamt 3 Mittel der Quadrate 560342,900 135226,900 6 22537,817 1816255,600 9 Quadratsumme 1681028,700 df F 24,862 Signifikanz ,001(a) a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton b Abhängige Variable: Menge Kartons pro Periode Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 103
  • 99. Regressionskoeffizienten Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Menge = 0 + 1*Preis + 2*Ausgaben + 3*Besuche Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche  Regressionskoeffizienten geben den marginalen Effekt der Änderung einer unabhängigen Variable auf die abhängige Variable an. – Z.B. 2 = 0,655 bedeutet, dass 65,5 Kartons mehr abgesetzt werden können, wenn Verkaufsförderung um 100 erhöht wird. Beim Preis 10 ergibt sich Mehrerlös von 655. Dr. Paul Marx Folie 104
  • 100. Standardisierte Regressionskoeffizienten  Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner Variable angesehen werden!  Die Werte der Regressionskoeffizienten lassen sich nur dann vergleichen, wenn die Variablen in gleichen Einheiten gemessen wurden. – – – Der nummerische Wert von i ist abhängig von der Skala, in der xi gemessen wurden. Z.B. Wenn der Preis in Cent (anstatt in Euro) gemessen wird, vergrößert sich 1 um den Faktor 100 Um z.B. den Einfluss der Anzahl von Vertreterbesuchen mit dem Einfluss vom Preis vergleichbar zu machen, müsste die Skala für Besuche in „Kosten pro Besuch“ umgewandelt werden.  Standardisierung von Regressionskoeffizienten macht sie vergleichbar. – Durch Standardisierung werden die unterschiedlichen Messdimensionen der Variablen eliminiert. Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren Wichtigkeit verwendet werden. Dr. Paul Marx Folie 105
  • 101. Einflussstärke und Standardisierte Regressionskoeffizienten Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Nicht standardisiert: Standardisiert: Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Menge = 0,034*Preis + 0,794*Ausgaben + 0,345*Besuche Vergleich der relativen Einflussstärken (bzw. Wichtigkeiten) Nicht standardisiert Preis Ausgaben Besuche Preis 1 0,065 1,116 Ausgaben 15,155 1 16,923 Standardisiert Besuche 0,895 0,059 1 Dr. Paul Marx Preis Ausgaben Besuche Preis 1 23,352 10,147 Ausgaben 0,042 1 0,434 Besuche 0,098 2,301 1 Folie 106
  • 102. Prüfung der Regressionsfunktion Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton ANOVA(b) Modell 1 Regression Residuen Gesamt 3 Mittel der Quadrate 560342,900 135226,900 6 22537,817 1816255,600 9 Quadratsumme 1681028,700 df F 24,862 Signifikanz ,001(a) a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton b Abhängige Variable: Menge Kartons pro Periode  Der durch die Regressionsbeziehung postulierte Zusammenhang kann empirisch bestätigt werden. – Die Regressionsfunktion erklärt 92,6% der Varianz in der abhängigen Variable (Menge) signifikant mit der Vertrauenswahrscheinlichkeit von 99,9% (Signifikanzniveau 0,001) Dr. Paul Marx Folie 107
  • 103. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode – – Empirisch: Der Einfluss von 1 ist nicht signifikant (t-Test konnte H0 nicht ablehnen) Logisch: 1 > 0, d.h. mit dem steigenden Preis muss der Absatz steigen. Zu erwarten ist aber eine umgekehrte Wirkung. Dr. Paul Marx Folie 108
  • 104. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode  Das bedeutet aber nicht, dass es keinen Zusammenhang zwischen dem Preis und der Absatzmenge gibt! – – – Möglicherweise ist dieser Einfluss durch andere Einflüsse überlagert, oder Wird infolge des geringen Stichprobenumfanges nicht deutlich, oder Die Varianz bzw. Variabilität in den gemessenen Werten des Preises ist nicht genügend, um seinen Einfluss feststellen zu können Dr. Paul Marx Folie 109
  • 105. Daten der Stichprobe SPSS Datensatz: Absatz von Margarine Nr. 1 2 3 4 5 6 7 8 9 10 Mittelwert Varianz Standardabweichung Menge Kartons pro Periode 2585 1819 1647 1496 921 2278 1810 1987 1612 1913 1806,80 201806,18 449,23 Preis pro Karton 12,5 10 9,95 11,5 12 10 8 9 9,5 12,5 10,50 2,39 1,55 Ausgaben für Zahl der VerkaufsVertreterförderung besuche 2000 550 1000 800 0 1500 800 1200 1100 1300 109 107 99 70 81 102 110 92 87 79 Menge Kartons pro Periode; Preis 3000 1025,00 2500 296250,00 544,29 2000 93,60 195,60 13,99 1500 1000 500 0 0 Dr. Paul Marx 2 4 6 8 10 12 14 Folie 110
  • 106. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche  Die Regressionsfunktion bildet also nicht den realen Zusammenhang ab und kann nicht zur Untersuchung des Einflusses vom Preis auf die Absatzmenge verwendet werden.  Mögliche Aushilfen (in der Praxis!!!): 1. Den Wert des Preises auf seinem (Stichproben-)Mittelwert fixieren. Die RF kann dann zur Schätzung von Absatzmenge aufgrund von Werbeausgaben und Vertreterbesuchen verwendet werden. • • 2. Risiko: die Restlichen Regressionskoeffizienten haben verzerrten Stichproben- und Modell-Fit Sinnlos: mit Einsatz von PCs ist der Zeitaufwand für Berechnung eines anderen Modells ist unerheblich Besser: Modell umformulieren und erneute RA durchführen Dr. Paul Marx Folie 111
  • 107. Modellvergleich Variablen: Preis, Ausgaben, Besuche Variablen: Ausgaben, Besuche Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 Modell 1 R ,962(a) R-Quadrat ,925 Korrigiertes RQuadrat ,903 Standardfehler des Schätzers 139,77114 Koeffizienten(a) Modell 1 (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Nicht standardisierte Koeffizienten Standard B fehler -6,866 673,205 9,927 38,164 Standar disierte Koeffizie nten Beta ,034 Nicht standardisierte Koeffizienten T -,010 ,260 Signifi kanz ,992 ,803 Modell 1 (Konstante) ,655 ,103 ,794 6,382 ,001 Ausgaben für Verkaufsförderung 11,085 4,428 ,345 2,504 ,046 Zahl der Vertreterbesuche  Standar dfehler B r2 > r2 r2KORR < r2KORR Dr. Paul Marx 144,482 ,091 10,487 3,522 Beta 315,250 ,664 Standar disierte Koeffizi enten T Signif ikanz ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021  Folie 112
  • 108. Methoden zur Auswahl von Variablen (SPSS) – – Die Gesamtanzahl möglicher Modelle steigt faktoriell mit der Anzahl der Variablen an. Im Fall von 3 unabhängigen Variablen sind 7 unterschiedliche Modelle möglich, alle müssten berechnet werden  Alternative Vorgehensweisen: 1. Der Untersucher formuliert ein oder mehrere Modelle, die ihm aufgrund von theoretischen oder sachlogischen Überlegungen sinnvoll erscheinen und überprüft sie empirisch mit Hilfe der Regressionsanalyse 2. Der Untersucher lässt sich vom Computer eine Auswahl von Modellen zeigen und versucht sie sinnvoll zu interpretieren Dr. Paul Marx Folie 113
  • 109. Schrittweise Regressionsanalyse  Bei der Schrittweisen RA erfolgt die Berechnung der Regressionskoeffizienten in mehreren Schritten: – Zunächst wird RA mit einer Variable durchgeführt, die mit der abhängiger Variablen höchste Korrelation aufweist. • – Bei jedem Schritt wird für jede unberücksichtigte Variable ihr partieller Korrelationskoeffizient und ein „Beta in“-Wert ausgewiesen, die der Regressionskoeffizient nach einer eventuellen Aufnahme im folgenden Schritt erhalten würde. Im jeden nächsten Schritt werden aus den verbliebenen Variablen diejenigen aufgenommen (bzw. aus bereits aufgenommenen diejenigen ausgeschlossen), die das Toleranzkriterium (nicht) erfüllen. • Als Toleranzkriterium dient der F-Wert des partiellen Korrelationskoeffizienten bzw. dessen Signifikanzniveau. • Eine Variable wird nur dann aufgenommen, wenn ihr F-Wert einen vorgegebenen Wert übersteigt bzw. wenn ihr Signifikanzniveau kleiner ist als die vorgegebene F-Wahrscheinlichkeit • Umgekehrt wird eine Variable bei Unterschreiten des vorgegebenen F-Wertes bzw. bei Überschreiten des Grenzwerten für Signifikanzniveau ausgeschlossen Dr. Paul Marx Folie 114
  • 111. Schrittweise Regressionsanalyse: WARNUNG!  Es besteht die Gefahr, dass sachlogische Überlegungen in den Hintergrund treten können. – Computer trifft seine Auswahl ausschließlich nach statistischen Kriterien und kann nicht erkennen, ob das Modell auch inhaltlich sinnvoll ist  Daher: – Statistisch signifikante Zusammenhänge sollten nur dann akzeptiert werden, wenn sie sachlogischen Erwartungen entsprechen. – Bei Nichtsignifikanz eines Zusammenhanges sollte man nicht folgern, dass es kein Zusammenhang besteht, wenn ansonsten das Ergebnis sachlich korrekt ist. – Bei widersprüchlichen Ergebnissen oder sachlogisch unbegründeten Einflussfaktoren sollte man nicht zögern, diese aus dem Regressionsmodell zu entfernen (auch wenn der Erklärungsanteil dadurch sinkt). Dr. Paul Marx Folie 116
  • 112. SPSS-Output bei schrittweiser RA Aufgenommene/Entfernte Variablen(a) Modell 1 Entfernte Variablen Aufgenommene Variablen Ausgaben für Verkaufsförderung . Zahl der Vertreterbesuche . 2 Methode Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). a Abhängige Variable: Menge Kartons pro Periode Modellzusammenfassung Modell 1 R ,911(a) R-Quadrat ,829 Korrigiertes RQuadrat ,808 Standardfehler des Schätzers 196,83086 2 ,962(b) ,925 ,903 139,77114 a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche Dr. Paul Marx Folie 117
  • 113. SPSS-Output bei schrittweiser RA (Fortsetzung) ANOVA(c) Modell 1 Regression Residuen Quadratsumme 1506316,513 1 Mittel der Quadrate 1506316,513 38742,386 df 2 309939,087 8 Gesamt 1816255,600 1679503,802 2 839751,901 136751,798 7 42,985 ,000(b) 19535,971 1816255,600 Signifikanz ,000(a) 9 Regression F 38,880 9 Residuen Gesamt a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche c Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 118
  • 114. SPSS-Output bei schrittweiser RA (Fortsetzung) Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 2 B 1036,373 (Konstante) Ausgaben für Verkaufsförderung (Konstante) Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standardfe hler 138,349 ,752 ,121 144,482 315,250 ,664 ,091 10,487 Standardisiert e Koeffizienten 3,522 Beta T 7,491 Signifikanz ,000 6,235 ,000 ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021 ,911 a Abhängige Variable: Menge Kartons pro Periode Ausgeschlossene Variablen(c) Modell 1 Preis pro Karton Zahl der Vertreterbesuche 2 Preis pro Karton Beta In -,137(a) ,326(a) ,034(b) Kollinearität sstatistik -,920 Signifikanz ,388 Partielle Korrelation -,328 Toleranz ,983 2,977 ,260 ,021 ,803 ,748 ,106 ,895 ,718 T a Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche c Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 119
  • 115. Abschnitt 4 REGRESSION DURCH DEN URSPRUNG Wenn Null Input Null Output ergibt Dr. Paul Marx Folie 120
  • 116. Regression durch den Ursprung (Regression-through-the-Origin) • Wenn die Konstante (0)nicht signifikant ist, oder • wenn a-priori erwartet wird, dass die Regressionsgerade durch den Punkt (0;0) verlaufen wird, … führt die Regressionsanalyse ohne Konstante zu genauerer Schätzung von Steigungs- bzw. Regressionskoeffizienten.  Ökonometrisches Modell der Regressionsgerade hat in diesem Fall folgende Form: ˆ yi  1  xi  u J bzw. ˆ yi    j x ji  u j 1 0 = 0 Dr. Paul Marx Folie 121
  • 117. Regression durch den Ursprung : Beispiel Box-Office (Filmerfolg)  In der Filmerfolgsforschung drückt man meistens den Filmerfolg über seine Einnahmen aus und versucht diese Größe durch den Einfluss relevanter Merkmale zu begründen. – – 1 – z.B. wird angenommen, dass der Filmerfolg vom Budget abhängt. Bei Budget=Null kann man keinen Film drehen. Daher kann man keine Einnahmen generieren und somit keinen Erfolg haben. Regression durch den Ursprung beschreibt diesen Sachverhalt am besten: Budget Filmerfolg = β1 *Budget + u ˆ yi  1  xi  u Dr. Paul Marx Folie 123
  • 118. Regressionskoeffizient bei bivariater Regression durch den Ursprung ˆ yi  1  xi  u mit  u  min  ( y   x)   ( y ˆ u   ( y  yi ) 2 2 1 2  2 1 xy  1 x 2 ) 2 * Index i bei Variablen x und y ist hier zwecks vereinfachten Darstellung weggelassen Differenzieren nach β1 und Setzen gleich 0  (2 xy  2 x )  0  2 xy  2   x  0 2 1 2 1 1 Dr. Paul Marx x y  x i i 2 i Folie 124
  • 119. Eigenschaften des Modells der Regression durch den Ursprung Klassische RA RA durch den Ursprung Anzahl von Freiheitsgraden (bei Residuen) df = (n-j-1) df = (n-j) Fehlerterm u Ist gleich Null Muss nicht = 0 sein Bestimmtheitsmaß r2 r2 ist immer positiv, 0 < r2 <1 Dr. Paul Marx r2 kann negative Werte annehmen Folie 125
  • 120. raw r2 bei bivariater Regression durch den Ursprung  r2 kann nicht zur Beurteilung der Güte der Schätzung verwendet werden, da 1. 2. Bei RA durch den Ursprung das „klassische“ r2 negative Werte annehmen kann Klassisches Model (für welches r2 formuliert war) vorsieht, dass das konstante Glied explizit in die Regressionsgleichung einbezogen wird  Man kann aber einen sog. raw r2-Wert berechnen: raw r 2  ( xi yi ) 2 x  y 2 i 2 i 0 < raw r2 <1  Der Wert von raw r2 kann nicht direkt mit konventionellen r2–Werten verglichen werden! Dr. Paul Marx Folie 126
  • 121. Zur Bedeutung von raw r2  raw r2 ist ein unbereinigtes Bestimmtheitsmaß erklärte Streuung r   Gesamtstre uung 2 raw r 2 ˆ y  y 2 i 2 i ˆ (y (y  ( x )  y i i  y) 2 i i 2 i   xi yi    x2 2   i  x i  2 raw r    yi2  2 raw r  2  y)2  raw r 2 i2  xi2  yi2 mit 2 ˆ y  y 2 i 2 i 1   xi yi x 2 i  x y  x y 2 i i 2 i 2 i ( xi yi ) 2 x  y 2 i 2 i Dr. Paul Marx Folie 127
  • 122. Regression durch den Ursprung: Guter Rat  Da die Regressionsanalyse durch den Ursprung spezifische Eigenschaften aufweist, sollte man sehr vorsichtig an die Wahl eines solchen Modells herangehen.  Wenn man a-priori nicht erwarten kann bzw. durch Theorie und Logik nicht belegt ist, dass die Regressionsgerade durch den Ursprung verlaufen wird, ist man angehalten, zunächst ein klassisches Regressionsmodell zu berechnen. Sonst besteht die Gefahr eines Spezifizierungsfehlers, d.h. der Verletzung von Annahmen der linearen Regressionsanalyse Dr. Paul Marx Folie 128
  • 123. Regression durch den Ursprung: SPSS-Dialogs Dr. Paul Marx Folie 129
  • 124. Klassische Regression Regression durch den Ursprung Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,925 Korrigiertes RQuadrat ,903 Standardfehler des Schätzers 139,77114 Modell 1 R ,998(b) R-Quadrat(a) ,996 Korrigiertes RQuadrat ,995 Standardfehler des Schätzers 132,69104 a Bei der Regression durch den Ursprung (Modell ohne konstanten Term) mißt das R-Quadrat den Anteil der Variabilität in der abhängigen Variable durch den Ursprung, der durch Regression erklärt werden kann. Dieses Verfahren KANN NICHT mit dem R-Quadrat bei Modellen verglichen werden, die einen konstanten Term enthalten. b Einflußvariablen: Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung Koeffizienten(a) Nicht standardisierte Koeffizienten Modell B 1 (Konstante) Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standar dfehler 144,482 ,091 10,487 3,522 Beta 315,250 ,664 Standar disierte Koeffizi enten Nicht standardisierte Koeffizienten T Signif ikanz ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021 Dr. Paul Marx Modell B 1 Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standa rdfehler Standar disierte Koeffizi enten Beta T Signif ikanz ,662 ,086 ,409 7,716 ,000 12,021 1,042 ,612 11,536 ,000 a Abhängige Variable: Menge Kartons pro Periode b Lineare Regression durch den Ursprung Folie 130
  • 125. Multiple Regressionsanalyse: Beispieldatensatz actual advertising expenses in Mio. (based on Ad $ Summary) [ad_$_sum] First Weekend Box Office [first_bo] No. of Attendents in Germany [att_germ] imdb User-Rating [imdb_rat] Budget [budget] Martin and Porter Video Movie Guide Ranking [movie_gu] Length [length] Total Box-Office [tot_boxo] Maltin Movie and Video Guide Ranking [maltin] Starpower [starpowe] Punktwert Academy Awards [a_awards] Director power [dir_powe] Review Metascore 0-10 point-Scale [rev_me10] Anzahl Startleinwände D [ger_scre] Anzahl Startleinwände USA [us_scree] Produktinhärente EF Dr. Paul Marx Weeks in Theater [weeks] Produktinduzierte EF Distributionsinduzierte EF Folie 131
  • 126. Abschnitt 5 ANNAHMEN DES LINEAREN REGRESSIONSMODELLS (LRM) Voraussetzungen für eine effiziente Schätzung und Umgang bei ihrer Verletzung Dr. Paul Marx Folie 132
  • 127. Annahmen des linearen Regressionsmodells (LRM) 1. Variabilität in xi – 2. Linearität – – 3. 4. Keine Korrelation zwischen den erklärenden Variablen und der Störgröße Homoscedastizität – 9. Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N) Störgrößen haben den Erwartungswert Null Keine Kovarianz zwischen xi und ui – 8. Modell enthält die relevanten erklärenden Variablen Stichprobe ist größer, als die Anzahl der Regressoren – 6. 7. in Variablen in Parametern Metrisches Niveau der Regressoren Korrekte Spezifizierung vom Modell – 5. ! xi müssen variieren: Var(xi) > 0 Störgrößen haben eine konstante Varianz Keine Autokorrelation – Störgrößen sind unkorelliert 10. Keine Multikolinearität – Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit 11. Normalverteilung der Störgrößen Fixierte Werte von xi im wiederholten Sampling Dr. Paul Marx Folie 133
  • 128. Annahmen des LRM: Variabilität in xi x variiert nicht (Var(xi) = 0) x variiert (Var(xi) > 0) y y x Dr. Paul Marx x Folie 134
  • 129. Annahmen des LRM: Linearität  Die KQ-Methode unterstellt, eine additiv-lineare Funktion J ˆ yi   0    j  x ji  ui j 1  Geschätzt werden die Koeffizienten einer Gerade bzw. einer mehrdimensionalen Fläche  Wenn der unterstellte Zusammenhang nicht linear ist, kann KQ-Methode nicht angewendet werden Dr. Paul Marx Folie 135
  • 130. Annahmen des LRM: Linearität in Parametern  Typische nicht lineare Verläufe quadratisch Cobb-Douglas exponentiell reziprok Niveauänderung Trendänderung Dr. Paul Marx Folie 136
  • 131. Linearisierung  Anwendung einfacher Tricks bringt Linearität zurück! yi   0  1  xi2 1 y i   0  1  xi Ersetzen x2 durch x‘  yi   0  1  xi Ersetzen 1/x durch x‘  yi   0  1  xi  Beide Modelle sind nicht linear in x, aber linear in x‘  Wir können Betas vom modifizierten Modell schätzen. Diese werden auch nach rückgängiger Variablensubstitution gelten.  Um Konsistenz der Schätzung zu gewährleisten, müssen die Regressoren vor der Schätzung entsprechend modifiziert werden! (Linearisierung) Dr. Paul Marx Folie 137
  • 132. Linearisierung von Pontenzfuntkionen  Quadratische Spezifikation ist im Grunde eine Regression mit zwei Variablen x1 und x2, die aber nur auf x basiert. Sie ist somit ein Spezialfall der Mehrfachregression: 2 > 0  minimum yi   0  1  xi   2  xi2    yi   0  1  x1i   2  x2i Dr. Paul Marx 2 < 0  maximum Folie 138
  • 133. Linearisierung polynominaler Funktionen  Dieser „Linearisierungsansatz“ ist auf alle polynomiale Funktionen erweiterbar yi   0  1  xi   2  xi2   3  xi3     yi   0  1  x1i   2  x2i  3  x3i  Es können auch weitere Variablen bzw. Regressoren berücksichtigt werden Dr. Paul Marx Folie 139
  • 134. Linearität in Parametern: Log-Log-Modell yi   0 xi  Log-Log-Modell 1  ln( yi )  ln( 0 )  ln( xi 1 ) ln( yi )  ln(  0 )  1 ln( xi ) ln( yi )    1 ln( xi ) 1 <0 yi    1 xi Dr. Paul Marx Folie 140
  • 135. Das weiß jeder:  Einfachste Operationen mit (natürlichen) Logarithmen x Definition: ln( N )  x  e  N Folgen: ln( 1)  0, da e 0  1 ln( e)  1, da e1  e ln( 0)   Eigenschaften: ln( ab)  ln( a )  ln( b) a ln( )  ln( a )  ln( b) b ln a b  b ln( a ) 1 ln( a )  ln( a ) b b Dr. Paul Marx Folie 141
  • 136.  Attraktive Eigenschaften von Log-Log-Modellen: 1. Im Zwei-Variablen-Modell: Einfach festzustellen! 2. Streudiagram von ln(y) auf ln(x) -> ungefähr Linie ln(y) yi  0 xi ln(Absatz) Absatz y  1 ln( yi )  ln(  0 )  1 ln( xi ) x ln(x) Preis 3. ln(Preis) 1 = Elastizität von y‘ in Bezug auf x‘ relative Veränderung in y = relative Veränderung in x (z.B. Preiselastizität vom Absatz) = const Dr. Paul Marx Folie 142
  • 137. Linearität in Parametern: Log-Lin-Modell  In manchen Fällen kann auch die exponentielle Modellierung die Daten gut erklären y i  e  0  1  x yi  e 0 e 1 x ln( yi )  ln( e 0 )  ln( e 1 x ) 1 >0 ln( yi )   0  1  x  Log-Lineares Regressionsmodell yi   0  1  x  Semielastizität = relative Veränderung im Regressand / absolute Veränderung im Regressor Dr. Paul Marx Folie 144
  • 138. Linearität: Inverses Modell a.k.a. Hyperbolisches Modell  Linear in Parametern  Nicht linear in Variablen  Ersetzen 1/x durch x‘  yi   0  1  xi (lineares Regressionsmodell) 1 ˆ y i   0  1  x  Wichtige Eigenschaft: Bei x  ∞ 1(1/x)  0, y  0 d.h. y hat eine Asymptote Dr. Paul Marx Folie 145
  • 139. Inverses Modell: Asymptote ˆ y i   0  1  y 1 >0 0 >0 y 1 x 1 >0 0 <0 1 <0 0 >0 y 0 0 0 x 0 0 Dr. Paul Marx x 0  1 x 0 Folie 146
  • 140. Inverses Modell: Beispiel Sterberate von Kindern (CM) und Pro-Kopf-BIP (PGNP) von 64 Ländern in 1980 Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 CM 128 204 202 197 96 209 170 240 241 55 75 1219 24 165 94 96 148 98 161 118 269 189 126 12 167 135 107 72 128 27 152 224 PGNP 1870 130 310 570 2050 200 670 300 120 290 1180 900 1730 1150 1160 1270 580 660 420 1080 290 270 560 4240 240 430 3020 1420 420 19830 420 530 Nr. 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 CM 142 104 287 41 312 77 142 262 215 246 191 182 37 103 67 143 83 223 240 312 12 52 79 61 168 28 121 115 186 47 178 142 Dr. Paul Marx PGNP 8640 350 230 1620 190 2090 900 230 140 330 1010 300 1730 780 1300 930 690 200 450 280 4430 270 1340 670 410 4370 1310 1470 300 3630 220 560 Man würde erwarten, dass beim steigenden Pro-Kopf-BIP die Sterberate sinken würde, weil Menschen mehr Geld für Gesundheit haben. Das ist aber nicht der Fall. Zunächst sinkt die Sterberate drastisch. Dann aber wird die Senkung stark gedämpft. Bei PGNP  ∞ konvergiert CM zum Wert von ungefähr 82 Folie 147
  • 141. Inverses Modell: Beispiel CM  81,343  27.356,075 1 PGNP i 0 82 Dr. Paul Marx Folie 148
  • 142. Log-Hyperbolisches Modell  Log-Hyperbolisches a.k.a. logarithmisch-inverses a.k.a. S-Förmiges Modell ye  0  1 1 x oder ln( y )   0  1 1 x  Zunächst erhöht sich y mit steigender Wachstumsrate (konvexer Verlauf, Steigungskoeffizient > 1).  Dann sinkt die Wachstumsrate (konkaver Verlauf, Steigungskoeffizient zwischen 0 und 1). Solchen Verlauf haben wir in der letzten Stunde am Beispiel von Abhängigkeit vom Absatz von Werbungsausgaben beobachtet Dr. Paul Marx Folie 149
  • 143. ÜBUNGSAUFGABE  SPSS Datensatz: Absatz von Rosen (1995-1999) Y Jahr 1995 1996 1997 1998 1999 Quartal III IV I II III IV I II III IV I II III IV I II x1 x2 Anzahl von Durchschnittspreis Durchschnittspreis verkauften Rosen, für Dutzend füt Dutzend Dutzend Rosen, $ Nelken, $ 11.484 9.348 8.429 10.079 9.240 8.862 6.216 8.253 8.038 7.476 5.911 7.950 6.134 5.868 3.160 5.872 2,26 2,54 3,07 2,91 2,73 2,77 3,59 3,23 2,60 2,89 3,77 3,64 2,82 2,96 4,24 3,69 Dr. Paul Marx 3,49 2,85 4,06 3,64 3,21 3,66 3,76 3,49 3,13 3,20 3,65 3,60 2,94 3,12 3,58 3,53 x3 Durchschnittlich Trend verfügbares wöchentliches Familieneinkommen, $ 158,11 173,36 165,26 172,92 178,46 198,62 186,28 188,98 180,49 183,33 181,87 185,00 184,00 188,20 175,00 188,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Folie 150
  • 144. HAUSAUFGABE Für gegebenen Datensatz  Betrachten Sie folgende Absatzfunktionen: yt   0  1 x1t   2 x2t   3 x3t  ut ln( yt )   0  1 ln( x1t )   2 ln( x2t )   3 ln( x3t )  ut 1. 2. 3. 4. 5. Schätzen Sie die Parameter des linearen Modells und interpretieren Sie die Ergebnisse Schätzen Sie die Parameter des Log-linearen Modells und interpretieren Sie die Ergebnisse Parameter 1, 2 und 3 zeigen entsprechend Eigenpreis-, Kreuz-Preis- und Einkommenselastizität an. Welches Vorzeichen haben sie a-priori? Widersprechen die Berechnungsergebnisse Ihren Erwartungen? Welches der beiden Modelle würden Sie auf der Basis Ihrer Analyse wählen? Begründen Sie Ihre Antwort! Wie kann man die Eigenpreis-, Kreuz-Preis- und Einkommenselastizität für das lineare Modell berechnen? Dr. Paul Marx Folie 151
  • 145. Annahmen des linearen Regressionsmodells (LRM) 1. Variabilität in xi – 2. ! xi müssen variieren: Var(xi) > 0 Linearität – – in Variablen in Parametern 3. Metrisches Niveau der Regressoren 4. Korrekte Spezifizierung vom Modell – 5. Stichprobe ist größer, als die Anzahl der Regressoren – 6. 7. Keine Korrelation zwischen den erklärenden Variablen und der Störgröße Homoscedastizität – 9. Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N) Störgrößen haben den Erwartungswert Null Keine Kovarianz zwischen xi und ui – 8. Modell enthält die relevanten erklärenden Variablen Störgrößen haben eine konstante Varianz Keine Autokorrelation – Störgrößen sind unkorelliert 10. Keine Multikolinearität – Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit 11. Normalverteilung der Störgrößen Fixierte Werte von xi im wiederholten Sampling Dr. Paul Marx Folie 152
  • 146. Annahmen des LRM: Metrisches Niveau der Regressoren  Die abhängige Variable in den Regressionsmodellen werden nicht nur von metrisch skalierten Variablen (wie z.B. Einkommen, Output, Preis, Kosten, Alter, Höhe, Temperatur) beeinflusst. Oft ist die Analyse der Abhängigkeiten von Variablen qualitativer Natur interessant (z.B. Geschlecht, Region, Nationalität, Ausbildung, politische Ansichten, usw.).  Nominale Variablen = Indikatoren = Kategorien = Qualitative Variablen  Unabhängig von der Ursache, üben solche Faktoren offensichtlich eine Wirkung auf die abhängige Variable aus und sollten daher in die Regressionsanalyse eingeschlossen werden. Dr. Paul Marx Folie 153
  • 147. Dummy Variablen  Dummy Variablen sind nominale Variablen mit zwei Ausprägungen, die zeigen, ob ein Merkmal vorhanden ist, oder nicht.  Dummy Variablen per se sind ein Instrument zur Klassifizierung von Daten in exklusive Kategorien, wie „männlich“, oder „weiblich“. – – – schwarz = 1, weiß = 0 männlich = 1, weiblich = 0 betrunken = 1, nicht betrunken = 0  Dummy Variablen können genau wie quantitative Variablen in die Regressionsanalyse eingeschlossen werden.  Regressionsmodelle, die nur aus Dummy Variablen bestehen, werden als ANOVA-Modelle (Analysis of Variance) bezeichnet. Dr. Paul Marx Folie 154
  • 148. ANOVA: Beispiel SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986) Salary 19.583 20.263 20.325 26.800 29.470 26.610 30.678 27.170 25.853 24.500 24.274 27.170 30.168 26.525 27.360 21.690 21.974 20.816 18.095 20.939 22.644 24.624 27.186 33.990 23.382 20.627 Spending 3346 3114 3554 4642 4669 4888 5710 5536 4168 3547 3159 3621 3782 4247 3982 3568 3155 3059 2967 3285 3914 4517 4349 5020 3594 2821 D2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 D3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 Salary 22.795 21.570 22.080 22.250 20.940 21.800 22.934 18.443 19.538 20.460 21.419 25.160 22.482 20.969 27.224 25.892 22.644 24.640 22.341 25.610 26.015 25.788 29.132 41.480 25.845 Spending 3366 2920 2980 3731 2853 2533 2729 2305 2642 3124 2752 3429 3947 2509 5440 4042 3402 2829 2297 2932 3705 4123 3608 8349 3766 D2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D3 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 D2 = Staaten in Nordost in im zentralen Norden (21 Staaten) D3 = südliche Staaten (17 Staaten) 13 westliche Staaten (nicht kodiert) Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986 Dr. Paul Marx Folie 155
  • 149. ANOVA: Beispiel  Ziel: Herausfinden, ob sich das durchschnittliche Jahreseinkommen von Schullehrern zwischen unterschiedlichen Staaten variiert.  Nach einfacher Betrachtung des Datensatzes können wir feststellen: – – – Norden und Nordost: Süden: Westen: $ 24.424,14 $ 22.894 $ 26.158,62  Unterscheiden sich diese Zahlen auch statistisch voneinander?  Das können wir u.a. mittels ANOVA feststellen: yi   0   2 D2i  3 D3i  ui Dr. Paul Marx Folie 156
  • 150. ANOVA-Interpretation yi   0   2 D2i  3 D3i  ui  Durchschnittseinkommen von Schullehrern im zentralen Norden und Nordosten E(yi | D2i=1, D3i=0) = 0+ 2  Durchschnittseinkommen von Schullehrern in südlichen Staaten E(yi | D2i=0, D3i=1) = 0+ 3  Durchschnittseinkommen von Schullehrern im Westen E(yi | D2i=0, D3i=0) = 0  Steigungskoeffizienten 2 und 3 geben an, wie stark sich das Durchschnittseinkommen im Norden bzw. Süden von dem „westlichen“ Durchschnittseinkommen unterscheidet. Dr. Paul Marx Folie 157
  • 151. ANOVA-Interpretation yi   0   2 D2i  3 D3i  ui yi  26.158,62  1734,47 D2i  3264,62D3i  Durchschnittseinkommen im Westen beträgt $26.158 0 = $26.158 $24.424 (0 + 2)  Einkommen im Norden ist um $1734 kleiner als das im Westen  Einkommen im Süden ist um $3264 kleiner $22.894 (0 + 3) West Northeast and North Central South  WARNUNG: Dummy Variablen zeigen nur die Unterschiede auf (ob sie existieren). Sie erlauben keine kausale Schlussfolgerungen – zeigen also keine Gründe für diese Unterschiede auf! Dr. Paul Marx Folie 158
  • 152. ANOVA-Interpretation  Unterscheiden sich die errechneten Durchschnittseinkommen von nördlichen und südlichen Staaten vom westlichen Durchschnittseinkommen statistisch signifikant? yi  26.158,62  1734,47 D2i  3264,62D3i Sj = (1128,523) (1435,953) (1499,155) t (23,180) (-1,208) (-2,178) (0,000) (0,233) (0,034) =  = r2 = 0,0901  Dafür schauen wir auf das Signifikanzniveau der jeweiligen Steigungskoeffizienten.   von 2 = 23%  Unterschied zwischen Norden und Westen ist nicht signifikant! Dr. Paul Marx Folie 159
  • 153. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 1 Für alle qualitativen Regressoren muss die Anzahl von Dummy Variablen um eins kleiner sein, als die Anzahl der Kategorien des Regressoren. Wenn die qualitative Variable m Kategorien hat, dann muss die Anzahl von ins Modell einzuführenden Dummy Variablen (m-1) sein. Sonst wird man im sog. dummy variable trap gefangen. Der Grund hierfür ist die perfekte Multikolinearität zwischen 0 und der Summe aller Di, die durch das Einführen vom Dm entsteht. Dr. Paul Marx Folie 160
  • 154. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 2 Die Kategorie, für die keine Dummy Variable eingeführt wird, wird als – – – – BasisBenchmarkKontrollVergleichs- -Kategorie bezeichnet. in unserem Beispiel war die Kategorie „westliche Staaten“ die Basis-Kategorie Regel 3 0 zeigt den Mittelwert der Basis-Kategorie an. in unserem Beispiel betrug 0 26.159. Dieser Wert repräsentiert das Durchschnittsgehalt von Schullehrer in der Basis-Kategorie – also in den westlichen Staaten Dr. Paul Marx Folie 161
  • 155. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 4 Die Koeffizienten bei Dummy Variablen werden als differentielle Schnittpunkte (differential intercept coefficients) bezeichnet. Da sie sagen, um wie viel sich der Wert vom Schnittpunkt verändert, wenn die Dummy Variable den Wert 1 einnimmt. Der Wert von ungefähr -1734 sagt uns, dass das Durchschnittsgehalt von Schullehrer im Norden von USA kleiner ist als das Durchschnittsgehalt von westlichen Lehrer um $1734 Regel 5 Die Auswahl von Basis-Kategorie bleibt immer dem Forscher überlassen (wenn die qualitative Variable mehr als eine Kategorie hat). Manchmal wird die Auswahl durch das betrachtete Problem per se diktiert. Im betrachteten Beispiel konnten wir auch z.B. die Kategorie „Staaten im Süden von USA“ als Basis-Kategorie wählen. Das würde nichts an den finalen Schlussfolgerungen verändern. In diesem Fall würde der Schneideterm ungefähr $24.894 betragen, was dem Durchschnittsgehalt von Schullehrer im Süden von den USA entspricht. Dr. Paul Marx Folie 162
  • 156. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 6 Man kann die dummy variables trap umgehen und für alle Kategorien eine Dummy Variable erstellen, indem man den Schnittterm aus dem Regressionsmodell ausschließt. Für unser Beispiel bekommen wir dann folgendes Modell (Regression durch den Ursprung): yi  1D1i   2 D2i  3 D3i  ui yi  26.158,62 D1i  24.242,14 D2i  22,894 D3i Die Interpretation von Regressionsparameter ist in diesem Fall: 1 = Durchschnittsgehalt von Schullehrer in westlichen Staaten 2 = Durchschnittsgehalt von Schullehrer in nördlichen und nordöstlichen Staaten 3 = Durchschnittsgehalt von Schullehrer in südlichen Staaten M.a.W. das Weglassen des freien Gliedes erlaubt die Einführung von Dummy Variablen entsprechend der Anzahl von Kategorien und somit die direkte Schätzung der Mittelwerte der jeweiligen Kategorien. WARNUNG: Das gilt nur für ANOVA Dr. Paul Marx Folie 163
  • 157. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 7 Welche Methode für die Einführung von Dummy Variablen ist besser?  In den meisten Fällen werden sich die Forscher für Modelle mit dem Schnittpunkt entscheiden, weil es ihnen erlaubt, die Frage einfacher zu untersuchen, ob die Kategorisierung einen Unterschied ausmacht.  Wenn das der Fall ist, werden die Unterschiede mit den Koeffizienten bei Dummy Variablen quantifiziert.  Ob die Kategorisierung relevant bzw. sinnvoll ist, kann mittels t-Tests der Koeffizienten bei Dummy Variablen gegen 0 geprüft werden. (Oder generell mittels F-Tests am gesamten Set entsprechender Dummy Variablen) Dr. Paul Marx Folie 164
  • 158. ANOVA mit zwei qualitativen Variablen Beispiel: Stundenlohn in Abhängigkeit von Familienstatus und Region 11,8148 S j = (0,4015) (0,4642) (0,4854) t = (21,2528) (2,3688) (-3,4462)  = mit yi D2 D3 + 1,0997 D2i – 1,6729 D3i yi = (0,0000) (0,0182) (0,0006) r2 = 0,0322 Sind die Unterschiede statistisch signifikant? = Stundenlohn, € = Familienstatus, 1= verheiratet, 0 = sonst = Region, 1= Süden, 0 = sonst Dr. Paul Marx Folie 165
  • 159. ANOVA mit zwei qualitativen Variablen: Interpretation yi = 11,8148 + 1,0997 D2i – 1,6729 D3i  Basis-Kategorie: ledig, Wohnort nicht im Süden Gruppe Durchschnittsgehalt, Berechnung Durchschnittsgehalt, $ Ledige 0 11,81 Verheiratete 0 + 2 12,91 (11,81 + 1,10 ) Wohnort im Süden 0 + 3 10,14 (11,81 – 1,67 ) Verheiratete im Süden 0 + 2 + 3 11, 24 (11,81 + 1,10 – 1,67) D2 = Familienstatus, 1= verheiratet, 0 = sonst D3= Region, 1= Süden, 0 = sonst Dr. Paul Marx Folie 166
  • 160. Regression mit Mischung aus quantitativen und qualitativen Variablen: ANCOVA-Modelle  ANOVA-Modelle eignen sich für die Analyse der Unterschiede in den Mittelwerten unterschiedlicher Gruppen. Diese Modelle bestehen nur aus qualitativen Variablen.  In den meisten Fällen üben aber nicht nur Gruppenzugehörigkeit, sondern auch ein oder mehrere quantitative Variablen Einfluss auf die abhängige Variable aus.  Regressionsmodelle, die sowohl quantitative, als auch qualitative Variablen enthalten werden ANCOVA-Modelle genannt. • ANCOVA = Analysis of Covariance  ANCOVA erweitert ANOVA um die Methode der statistischen Kontrolle von Effekten quantitativer Variablen (Kovariate = Kontrollvariablen). Dr. Paul Marx Folie 167
  • 161. ANCOVA: Beispiel SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986) Salary 19.583 20.263 20.325 26.800 29.470 26.610 30.678 27.170 25.853 24.500 24.274 27.170 30.168 26.525 27.360 21.690 21.974 20.816 18.095 20.939 22.644 24.624 27.186 33.990 23.382 20.627 Spending 3346 3114 3554 4642 4669 4888 5710 5536 4168 3547 3159 3621 3782 4247 3982 3568 3155 3059 2967 3285 3914 4517 4349 5020 3594 2821 D2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 D3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 Salary 22.795 21.570 22.080 22.250 20.940 21.800 22.934 18.443 19.538 20.460 21.419 25.160 22.482 20.969 27.224 25.892 22.644 24.640 22.341 25.610 26.015 25.788 29.132 41.480 25.845 Spending 3366 2920 2980 3731 2853 2533 2729 2305 2642 3124 2752 3429 3947 2509 5440 4042 3402 2829 2297 2932 3705 4123 3608 8349 3766 D2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D3 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 D2 = Staaten in Nordost in im zentralen Norden (21 Staaten) D3 = südliche Staaten (17 Staaten) 13 westliche Staaten (nicht kodiert) Was ist hier die BasisKategorie? Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986 Dr. Paul Marx Folie 168
  • 162. ANCOVA: Beispiel  Hypothese: Das Durchschnittsgehalt von Schullehrern müsste zwischen drei Regionen nicht variieren, wenn zusätzliche Variablen herangezogen werden, die nicht über diese Regionen standardisiert werden können. M.a.W. der von uns festgestellte Unterschied zwischen drei Regionen ist eigentlich auf andere Faktoren zurückzuführen – nicht auf den Wohnort von Lehrern.  Z.B. kann das Gehalt von der Höhe der Ausgaben für Ausbildung im konkreten Staat abhängen.  Um das zu testen, entwickeln wir folgendes Modell: yi   0   2 D2i  3 D3i   4 xi  ui mit xi = durchschnittliche staatliche Ausgaben pro Schüler ($) Dr. Paul Marx Folie 169
  • 163. ANCOVA: Interpretation Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Standardfe hler 13269,114 ,318 Nothern region -1673,514 South region -1144,157 Beta Spending on publich school per pupil r2 = 0,723 T 1395,056 3,289 Standardisiert e Koeffizienten Signifikanz 9,512 ,000 ,830 10,354 ,000 801,170 -,199 -2,089 ,042 861,118 -,130 -1,329 ,190 a Abhängige Variable: Teacher's salary yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi  Bei Erhöhung der staatlichen Ausgaben um $1 ceteris paribus steigt das Gehalt der Lehrer um $3,29  Im Vergleich zu dem Modell ohne Kovariaten ist der Unterschied zwischen Norden und Westen nun signifikant geworden, im Gegensatz zum Unterschied zwischen Süden und Westen. Dr. Paul Marx Folie 170
  • 164. ANCOVA: Interpretation yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi y  Alle drei geraden sind parallel (Warum?) 3,29 13,269 1 12,125 1 11,595 Nicht uterscheidbar 1 3,29  Zwei Regressionsgeraden (für Westen und Süden) sind statistisch nicht von einander unterscheidbar und stellen – statistisch gesehen – dieselbe Gerade dar Dr. Paul Marx 3,29 x Folie 171
  • 165. Interaktionseffekte mit Dummy Variablen: Prolog Beispiel: Durchschnittlicher Stundenlohn in Relation zu Ausbildung, Geschlecht und Hautfarbe yi   0   2 D2i   3 D3i  xi  ui mit yi xi D2 D3 : Stundenlohn, $ : Ausbildung (Jahre, inkl. Schule) : Geschlecht, 1= weiblich, 0 = männlich : Hautfarbe, 1 = nicht weiß , 0 = weiß Dr. Paul Marx Folie 172
  • 166. Interaktionseffekte mit Dummy Variablen yi   0   2 D2i   3 D3i  xi  ui  Annahmen dieses Models: – Der Differenzierte Effekt von D2 ist konstant über die beiden Kategorien der Hautfarbe Wenn der Durchschnittslohn von Männern höher als der von Frauen ist, dann hängt dieser Unterschied nicht von der Hautfarbe ab. – Der Differenzierte Effekt von D3 ist konstant über die beiden Kategorien des Geschlechts Wenn nicht weiße weniger verdienen, dann gilt das sowohl für Männer als auch für Frauen.  In manchen Fällen sind solche Annahmen untauglich – – – Es ist möglich, dass der Lohnunterschied zwischen Mann und Frau in verschiedenen Hautfarbenkategorien unterschiedlich ist. Z.B. der Unterschied im Stundenlohn unter Schwarzen kann größer sein, als unter Weißen. M.a.W. es kann eine Interaktion zwischen den qualitativen Variablen D2 und D3 geben. Der Effekt solcher Interaktionen ist nicht einfach additiv, sondern eher multiplikativ: yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui Dr. Paul Marx Folie 173
  • 167. Interaktionseffekt – – – Bezeichnet Wechselwirkungen zwischen zwei oder mehreren Merkmalen ein gemeinsamer Effekt zweier Variablen auf die untersuchte abhängige Variable. Ein Interaktionseffekt bezieht sich darauf, dass die Wirkung einer Variablen mit den Ausprägungen der anderen Variablen variiert. Der Tendenz nach führt ceteris paribus in den meisten (modernen) Gesellschaften die Geburt eines Kindes zur Verringerung des Umfangs der Erwerbstätigkeit von Frauen, während bei den Männern keine oder sogar eine gegenläufige Wirkung (Steigerung des Umfangs der Erwerbstätigkeit) festzustellen ist. Kunden, die sich schon einmal beschwert haben, äußern häufig eine vergleichsweise große Unzufriedenheit, als Kunden, die sich nicht beschwert haben. Es liegt also ein Interaktionseffekt zwischen dem Vorliegen einer Beschwerde und der Kundenzufriedenheit vor. Dr. Paul Marx Folie 174
  • 168. Interaktionseffekte mit Dummy Variablen yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui  Durchschnittlicher Stundenlohn von farbigen Frauen E(yi | D2i=1, D3i=1) = (0 + 2 + 3 + 4)+ xi mit 2 : differenzierter Effekt von „Frausein“ 3 : differenzierter Effekt von Nicht-Weiß-Sein 4 : differenzierter Effekt von Farbige-Frau-Sein Letzterer zeigt, dass der durchschnittliche Stundenlohn von nicht-weißen Frauen sich (um 4) von den durchschnittlichen Stundenlöhnen von Frauen oder Nicht-Weißen unterscheidet. – Z.B. wenn alle drei differenzierte Effekte negativ sind, dann verdienen schwarze Arbeiterinnen wesentlich weniger, als generell Frauen oder generell Nicht-Weiße im Vergleich zu Basis-Kategorie (weiße Männer). Dr. Paul Marx Folie 175
  • 169. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel Ohne Interaktionseffekt: yi  0,2610  2,3606 D2i  1,7327 D3i  0,8028 xi Signifikanz (0,0561) (0,0233) (0,034) (0,0417)  Ceteris paribus – – Durchschnittlicher Stundenlohn von Frauen ist um $2,36 kleiner Durchschnittlicher Stundenlohn von nicht weißen ist um $1,73 kleiner Männer Frauen -- -2,36 -1,73 -4,09 Weiß Nicht weiß Dr. Paul Marx Folie 176
  • 170. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel Mit Interaktionseffekt: yi  0,2610  2,3606D2i  1,7327 D3i  2,1289D2i D3i  0,8028xi Sig. (0,0561) (0,0233) (0,034) (0,0876) (0,0417)  Bei gleicher Ausbildung: (2 + 3 + 4) = – 2,3606 – 1,7327 + 2,1289 = –1,964 – Durchschnittlicher Stundenlohn von nicht weißen Arbeiterinnen ist kleiner um $1,96 als der Stundenlohn von weißen Männern. Männer Frauen -- -2,36 -1,73 -1,96 Weiß Nicht weiß Dr. Paul Marx Folie 177
  • 171. Stückweise Regression (piecewise linear regression)  Trendänderung, Strukturbrüche Provision – Z.B. bei Änderung der wirtschaftlichen Verhältnisse und besonderen Ereignissen in der Zeitreihenanalyse Z.B. Strukturänderung in (Mitarbeiter-) Belohnung Benzinpreis – X* Einführung der Benzinsteuer Zeit Dr. Paul Marx X* Absatzziel Verkaufsmenge Folie 178
  • 172.  Steigungskoeffizient der Regressionsgerade ändert sich im Punkt X* Provision Stückweise Regression  Regressionsmodell: 1+2 yi   0  1 xi   2 ( xi  X ) Di  ui * 1 1 mit yi : Provision, € xi : vom Verkäufer generierte Verkaufsmenge X* : Schwellenwert, Absatzziel 1 X* Absatzziel Verkaufsmenge 1, wenn xi  X * D * 0, wenn xi  X Dr. Paul Marx Folie 179
  • 173. yi   0  1 xi   2 ( xi  X * ) Di  ui Provision Stückweise Regression 1+2  Provision unter dem Absatzziel E(yi | Di=0, xi, X*) = 0+ 1 xi 1 1  Provision über dem Absatzziel E(yi | Di=1, xi, X*) = 0 – 2X* + (1 + 2) xi Dr. Paul Marx 1 X* Absatzziel Verkaufsmenge Folie 180
  • 174. Stückweise Regression: Beispiel Hypothetischer Datensatz Kosten/Output  Annahme: Steigung der Kostenfunktion kann sich ab dem Output-Niveau von 5.500 Einheiten verändern Total cost, $ Output, units 256 414 634 778 1.003 1.839 2.081 2.423 2.734 2.914 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000  Modell: yi   0  1 xi   2 ( xi  X * ) Di  ui Dr. Paul Marx Folie 181
  • 175. Stückweise Regression: Beispiel Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 Standardfe hler B (Konstante) -145,717 ,046 ,095 xi-x* D Beta ,083 r2 = 0,974 T 176,734 ,279 Output, units Standardisiert e Koeffizienten Signifikanz -,824 ,437 ,842 6,067 ,001 ,159 1,145 ,290 a Abhängige Variable: Total cost, $ yi  145,717  0,279 xi  0,095( xi  X * ) Di  ui  Grenzkosten unter dem Schwellenwert: 1 = 0,279  Grenzkosten über dem Schwellenwert: (1 + 2) = 0,279 + 0,095 = 0,374 Dr. Paul Marx Folie 182