Regressionanalyse

2.978 Aufrufe

Veröffentlicht am

Regressionsanalyse - Basic Econometrics (Folien).
Der Kurs vermittelt Verständnis, Wissen und Fähigkeiten im Umgang mit Regressionanalyse - der wohl am meisten eingesetzten und deshalb wichtigsten Technik der Datenanalyse.
Der Kurs eignet sich sehr gut sowohl für Masterstudierenden wirtschaftswissenschaftlicher Fächer, als auch für Doktoranden.

Veröffentlicht in: Bildung
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.978
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
22
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Regressionanalyse

  1. 1. Basic Econometrics: Regressionsanalyse Dr. Paul Marx www.eQuestionnaire.de Dr. Paul Marx Folie 1
  2. 2. Grundlegende Literatur zur Veranstaltung  Backhaus, Klaus, Bernd Erichson, Wulff Plinke und Rolf Weiber: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, ab 9. Auflage Berlin: Springer  Gujarati, Damodar N. (2003): Basic Econometrics, International Edition, 4. Auflage, New-York: McGraw-Hill Education  Auer, Ludwig (2007): Oekonometrie, 4. Aufl., Springer  www.wikipedia.de, en.wikipedia.org, www.google.de  Dr. Paul Marx Folie 2
  3. 3. Inhalte der Veranstaltung 1. Einführung in das Fach Ökonometrie 2. Einfache Regressionsanalyse 3. Multiple Regressionsanalyse 4. Regression durch den Ursprung 5. Annahmen des Linearen Regressionsmodells 6. Relaxation von Annahmen des klassischen Regressionsmodells 7. … Dr. Paul Marx Folie 3
  4. 4. Abschnitt 1 EINFÜHRUNG Dr. Paul Marx Folie 4
  5. 5. Begriff der Ökonometrie  Ökonometrie = oikonomia (gr. Wirtschaft) + metron (gr. Messung) = Messen wirtschaftlicher Phänomene  Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, welches die ökonomische Theorie sowie mathematische Methoden und statistische Daten zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und ökonomische Phänomene quantitativ zu analysieren.  (bzw. ökonomische Zusammenhänge zu quantifizieren) Dr. Paul Marx Folie 5
  6. 6. Entstehen der Ökonometrie  XVII Jh: Erste Versuche der quantitativen Forschung in der ökonomischen Theorie (politische Arithmetik). Nutzung von ökonomischen Daten zur Berechnung vom „Nationalen Einkommen“ und Suche nach ökonomischen Gesetzmäßigkeiten (analog zu physischen, astronomischen und anderen naturwissenschaftlichen Gesetzten William Petty, Charles d’Avenant, Henry King W. Petty (1623-1687)  Erfindung der Korrelation: Untersuchung der Beziehungen zwischen der Heiratsrate und dem Wohlstand (unter Verwendung mehrerer Wohlstandsindikatoren); Entwicklung verschiedener Hilfsmaßnahmen für unterschiedliche Armutsniveaus; Erforschung von Zeitreihen für ökonomische Variablen Francis Galton, Karl Pearson, Francis Ysidro Edgeworth, H. Hooker K. Pearson (1857-1936)  1830er: Insuffizienz der neoklassischen Theorie für die Lösung von Problemen der sinkenden Geschäftsaktivitäten und Massenarbeitslosigkeit. Eine ök. Theorie kann nur dann überzeugend sein, wenn sie die ök. Phänomene erklärt. Praktische Anwendung solcher Theorien erfordert Quantifizierung von grundlegenden ökonomischen Größen. F. Edgeworth (1845-1926) Dr. Paul Marx Folie 7
  7. 7. Entstehen der Ökonometrie H.L. Moore (1869-1958) N. D. Kondratiev (1892-1938)  1911: Erste ökonometrische Arbeit. H. Moore „Laws of Wages: An essay in statistical economics“ mit der Analyse vom Arbeitsmarkt, statistischer Überprüfung von Clark‘s Produktivitätstheorie und Entwicklung der Grundlagen für die Strategien zur Vereinigung vom Proletariat. Er zeigt Möglichkeiten zur Ausarbeitung der sozialen Politik mit Hilfe mathematischer Berechnungen Grundlagen basierend auf faktischen Daten. R. Benini wendet zum ersten Mal die multiple Regressionsanalyse an für Schätzung der Nachfragefunktion.  Erforschung von ökonomischen Zyklen: 7-11 jährige Investitionszyklen, 35 j. Liquiditätszyklen, 15-20 j. Zyklen in der Bauwirtschaft, 45-60 j. Konjunkturzyklen („Kondratiev waves“)  Theorie der ökonomischen Barometer insb. auf dem Fonds- und Geldmärkten. Analyse von Trends, Saisonalität, Kursschwankungen usw. Anwendung der Astronomischen, Meteorologischen und Physischen Methoden (z.B. Harmonische Analyse) bei ökonomischer Modellierung. W. C. Mitchell (1874-1948) Dr. Paul Marx Folie 8
  8. 8. Historische Entwicklung der Ökonometrie I. Fischer (1867-1947) R. A. K. Frisch (1895-1973) Jan Tinbergen (1903 - 1994)  1930: Gründung von „The Econometric Society, an International Society for the Advancement of Economic Theory in its Relation with Statistics and Mathematics“unter Vorsitz von I. Fischer.  1933: Gründung von „Journal of Econometrics“ durch R. Frisch.  1941: Erstes Lehrbuch in Ökonometrie von Jan Tinbergen (später Nobelpreisträger für Entwicklung und Anwendung von dynamischen Modellen zur Analyse von ökonomischen Prozessen, zusammen mit Frisch)  1970er: Ökonometrie = empirische Beurteilung und Unterstützung von Modellen der ökonomischen Theorie. „Statistische Daten beschützen die Theorie vom Dogmatismus“. - ARIMA-Modell von Box-Jenkins (Zeitreihenanalyse) - Nobelpreis für Klein‘s Schwankungsmodelle der Ökonomie und ökonomischer Politik  1980: Gründung des Projekts „LINK“ mit dem Ziel, statistische Modelle aller Länder zu einem System zusammenzuführen, um internationale ökonomische Zusammenhänge und Welthandel besser verstehen und prognostizieren zu können. Dr. Paul Marx Folie 9
  9. 9. Ökonometrie heute  Verständnis, dass ohne ökonometrische Methoden keine moderne Makro- und Mikroökonomische Analyse möglich ist.  Ökonometrie wird als eigenständige Disziplin in führenden Universitäten der Welt unterrichtet. Ökonometrische Zeitschriften         Journal of Econometrics (Schweiz) Econometric Reviews (USA) Econometrica (USA) Sankhya. Indian Journal of Statistics Ser.D. Quantitative Economics (Indien) Publications Econometriques (Frankreich) Quantile (Russland) Applied Econometrics (Russland) Dr. Paul Marx Nobelpreise für Entwicklungen im Fach Ökonometrische  1980 Lawrence Klein Entwicklung ökonometrischer Modelle und deren Anwendung zur Analyse von Wirtschaftsentwicklungen und von wirtschaftspolitischen Maßnahmen  1989 Trygve Haavelmo: wahrscheinlichkeitstheoretische Fundierung der Ökonometrie und die Analyse simultaner ökonomischer Strukturen  2000 James Heckman und Daniel McFadden: mikroökonometrische Forschungen im Bereich der Selektion und der Analyse diskreter Entscheidungen.  2003 Robert Engle und Clive Granger: Ergebnisse im Bereich der Zeitreihenanalyse. Folie 10
  10. 10. Ökonometrie als eine eigenständige Disziplin  Ökonomische Theorie: – – hauptsächlich Postulate und Hypothesen qualitativer Natur ÖM liefert empirischen Inhalt für Theorien  Mathematische Ökonomie: – – Ausdrück ökonomischer Theorie in mathematischer Form, ohne Bezug auf Messbarkeit oder Überprüfung der Theorie. ÖM überprüft die Formeln  Ökonomische Statistik: – – Akkumuliert, analysiert und präsentiert die Daten aus der Wirtschaft (z.B. BIP, ALO, usw.) ÖM überprüft mit Hilfe dieser Daten ökonomische Theorien  Mathematische Statistik: – – Arbeitet Instrumente und Methoden z.B. für den Vertrieb aus. Die Daten werden den Resultaten von kontrollierten Experimenten entnommen ÖM wendet diese Methoden auf nicht kontrollierte – also reale – Daten an. Dr. Paul Marx Folie 11
  11. 11. Methoden der Ökonometrie  Regressionsanalyse – Feststellung von kausalen Zusammenhängen und Analyse von Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen (Spezialfall eines Strukturgleichungsmodells)  Zeitreihenanalyse – Mathematisch-statistische Analyse von Zeitreihen und Vorhersage (Trends) ihrer zukünftigen Entwicklung, Erkennung von Veränderungen in Zeitreihen (serielle bzw. saisonale Komponenten)  Paneldatenanalyse – Wie entwickeln sich die Merkmale im Zeitablauf unter Berücksichtigung von Unterschiedlichkeiten der Individuen? – Kohorten-, Perioden- , und Alterseffekte Dr. Paul Marx Folie 12
  12. 12. Einige Beispiele aus der Wirtschaft und wissenschaftlicher Praxis PRAKTISCHE RELEVANZ DER REGRESSIONSANALYSE Dr. Paul Marx Folie 14
  13. 13. Relevanz der Regressionsanalyse für die Praxis  Ursachenanalyse – – Gibt es einen Zusammenhang zwischen [ökonomischen] Größen (a.k.a. Variablen)? Wie Stark ist der Einfluss einzelner unabhängigen Variablen auf die anhängige Variable?  (Wirkungs-) Prognosen – – – Wie verändert sich die abhängige Variable bei einer Änderung in der unabhängigen Variable? Wie verändert sich die anhängige Variable im Zeitablauf und damit c.p. in der Zukunft? Schätzung des Wertes der abhängigen Variable bei gegebenen Input-Daten. Dr. Paul Marx Folie 15
  14. 14. Beispiele von Anwendungsfeldern für Regressionsanalyse           Banken – Feststellung von Kreditwürdigkeit von Kunden Versicherung – Berechnung der Höhe von Versicherungsprämie Rentenversicherung – Bestimmung des Rentenversicherungsanteils am Bruttolohn Transport, Beförderung – Berechnung von günstigsten Routen Logistik, Lagerwirtschaft – Planung vom Datum und Lieferumfang so, dass die Lagerhallen optimal besetzt und Mietkosten möglichst gering sind. Retailing – verkaufszahlenoptimale Aufstellung der Produkte im Regal Werbung – Auswahl der Werbekanäle mit maximaler Werbewirkung und minimalen Werbekosten Medizin – Vergleich der Effektivität unterschieldicher Medikamente, Auffinden von Nebenwirkungen (Biometrie, Biostatistik) Filmindustrie – Bestimmung der Erfolgsfaktoren von Spielfilme, Bestimmung des optimalen Zeitfensters zwischen Kinostart und DVD-Verkauf, Bestimmung vom Schadensumfang durch Piraterie Usw. Dr. Paul Marx Folie 16
  15. 15. Wovon hängt Verkaufsmenge eines Produktes ab? Produktpreis 0,034 Werbeausgaben 0,794 0,325 Intensität der Betreuung durch Merchandiser Verkaufsmenge am PoS (Lebensmittel) Loyalität der Verkäufer Dr. Paul Marx Folie 17
  16. 16. Wovon hängt Verkaufsmenge eines Produktes ab? Produktpreis 0,034 Werbeausgaben 0,313 0,395 Loyalität der Verkäufer 0,457 Verkaufsmenge am PoS (Lebensmittel) 0,196 0,605 Intensität der Betreuung durch Merchandiser Dr. Paul Marx Folie 18
  17. 17. Erfolgsfaktoren deutschsprachiger Filme in den US-Kinos Thematik Genre (II Weltkrieg, DDR, Liebe, True Story, Homosexualität, Familie, Jüdisch, Musik, Andere) (Komödie, Drama, Doku, Thriller, Action) Produktionsfirma 0,354 Verleiher Hauptdarsteller 0,194 Drehort USEinspielergebnis Kritiken (Anzahl, Bewertung) 0,350 Previews Startort 0,347 0,227 0,118 Start-Weekend Box-Office Altersfreigabe Laufzeit in Deutschland Dr. Paul Marx Pre-Release-Awards Festivals Folie 20
  18. 18. Abschnitt 2 EINFACHE LINEARE REGRESSION Dr. Paul Marx Folie 21
  19. 19. Methodologie der Ökonometrie und die GRUNDZÜGE DER REGRESSIONSANALYSE Dr. Paul Marx Folie 22
  20. 20. Ziel der Regressionsanalyse  Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel der Regressionsanalyse ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen und zu quantifizieren Grundlage: empirische Daten (z.B. aus Befragungen oder Beobachtungen) Dr. Paul Marx Folie 23
  21. 21. Methodologie von Ökonometrie 1. Formulierung einer Theorie oder Hypothese 2. 3. 4. 5. 6. 7. 8. Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 24
  22. 22. Formulierung von Hypothesen  Zunächst keine methodenanalytische Fragestellungen  Vorabüberlegungen des Forschers – – – Ausschließlich fachliche Gesichtspunkte evtl. Erfahrungen Abgrenzung des Untersuchungszieles und -gegenstands Formulierung von logischen Zusammenhängen Z.B. Absatzmenge eines Monopolisten steht in einer inversen Relation zum Preis  Wahl des Untersuchungsansatzes, der vermutete Ursache-Wirkungs-Beziehungen möglichst vollständig enthält. Dr. Paul Marx Folie 25
  23. 23. Methodologie von Ökonometrie 1. Formulierung einer Theorie oder Hypothese 2. Spezifizierung eines mathematischen Modells der Theorie 3. 4. 5. 6. 7. 8. Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 26
  24. 24. Spezifizierung des mathematischen Modells Preis p  ax b p = abhängige Variable x = unabhängige Variable a a 1 Y P reis  X Menge b Menge (x) Dr. Paul Marx Folie 27
  25. 25. Spezifizierung des mathematischen Modells p  ax b Preis mit a<0 und b>0 b a a Y X 1 Menge (x) exakte (!) Beziehung zwischen Variablen Dr. Paul Marx Folie 28
  26. 26. Methodologie von Ökonometrie 1. 2. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie 3. Spezifizierung des statistischen oder ökonometrischen Modells 4. 5. 6. 7. 8. Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 29
  27. 27. Spezifizierung des ökonometrischen Modells ˆ yi   0  1  xi  ui ui = Fehlerterm = zufällige Variable = stochastische Variable Preis mit In der Realität ist die Beziehung zwischen (ökonomischen) Größen fast nie exakt u u Warum? Menge Dr. Paul Marx • Weitere nicht beobachtete Variablen? • Fehlerbehaftete, ungenaue Messung? • Theorie stimmt nur ungefähr? • Einfluss zufälliger Größen? •… Folie 30
  28. 28. Spezifizierung des ökonometrischen Modells Preis  Fehlerterm = Residualgröße = Residuum = nicht erklärte Abweichung des Beobachtungswertes vom entsprechenden Schätzwert ˆ yi   0  1  xi  ui u3 ˆ ui  yi  yi y3 ˆ y3 x3 Menge Dr. Paul Marx Folie 31
  29. 29. Methodologie von Ökonometrie 1. 2. 3. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells 4. Datenerhebung 5. 6. 7. 8. Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 32
  30. 30. Datenerhebung Preis, € 10 – – – – – – 15 33 Umsatzstatistiken Schriftwechsel mit Kunden Preislisten Daten statistischer Ämter Geschäftsberichte Usw. 24 30 6 39 45 19 23  Sekundäre Daten = desk research = Bereits vorhandene Statistiken 28 18 Beobachtung Befragung Experiment Preis (y) – – – 26 16  Primäre Daten = direkte Untersuchung Absatz, Stk. 8 40 35 30 25 20 15 10 5 0 0 Dr. Paul Marx 5 10 15 20 25 30 35 40 Menge (x) Folie 33
  31. 31. Methodologie von Ökonometrie 1. 2. 3. 4. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung 5. Schätzung der Parameter des ökonometrischen Modells 6. 7. 8. Test von Hypothesen Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 34
  32. 32. Schätzung der Parameter des ökonometrischen Modells  Gesucht wird die Gerade, die y in Abhängigkeit von x möglichst genau bestimmt  Diese Gerade ist oft nach Augenmaß gut festlegbar  Für die rechnerische Bestimmung stellt sich die Frage, nach welchem Kriterium die Gerade festzulegen ist?  Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen Mittelwert lässt sich durch den unterstellten linearen Einfluss der Unabhängigen Variable erklären und welcher Anteil verbleibt als unerklärte Residuen? Dr. Paul Marx Folie 35
  33. 33. Schätzung der Parameter des ökonometrischen Modells ˆ yi   0  1  xi  ui 45 45 40 40 35 35 30 30 25 25 20 20 15 15 10 10 5 0 0 5 10 15 20 25 30 35 40 45 je kleiner u, desto genauer ^ y 5 0 0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40 45 40 40 35 35 30 30 25 25 20 20 15 15 10 10 5 5 0 0 0 5 10 15 20 25 30 35 40 Dr. Paul Marx Folie 36
  34. 34. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate  Gesucht wird die Gerade, für die die Summe der Abstandsquadrate der tatsächlichen Werte von den durch die Gerade vorausgesagten Werten am geringsten wird, d.h. geringer als für jede andere Gerade  Quadrieren, damit sich die positiven und negativen Abweichungen nicht kompensieren  Zielfunktion lautet also: N N  u  [ y i 1 2 i i 1 i  (  0  1  xi )]2  min N ˆ ( yi  yi ) 2  min  i 1 Dr. Paul Marx Folie 37
  35. 35. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate  Lösung: 1  alternative Formel N ( xi yi )  ( xi )(  yi ) N ( x )  ( xi ) 2 i 2 1 [( x  x )( y  y )]  [( x  x ) ] i i 2 i  0  y  1 x mit y  Mittelwert geschätzter Funktionswerte x  Mittelwert unabhängiger Variable N  Anzahl von Beobachtungen (= I) Dr. Paul Marx Folie 39
  36. 36. Schätzung der Parameter des ökonometrischen Modells: Methode der kleinsten Quadrate Nr. i 1 2 3 4 5 6 7 Summe Mittelwert 1  Preis, € p 10 16 18 23 30 33 39 169 24,143 Absatz, Stk. x 26 28 19 24 15 6 8 126 18 N ( xi yi )  ( xi )( yi ) N ( xi2 )  ( xi ) 2  x*y 260 448 342 552 450 198 312 2562 x2 676 784 361 576 225 36 64 2722 7  2562  126 169  1,057 7  2722  126 2  0  y  1 x  24,143  (1,057) 18  43,174 Dr. Paul Marx Folie 40
  37. 37. Schätzung der Parameter des ökonometrischen Modells Preis ˆ yi   0  1  xi  ui  0  43,174 1  1,057 45 40 35 30 25 20 15 y  43,174  1,057  x 10 5 0 0 Dr. Paul Marx 5 10 15 20 25 30 35 40 Menge Folie 41
  38. 38. Methodologie von Ökonometrie 1. 2. 3. 4. 5. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells 6. Test von Hypothesen 7. 8. Prognosen / Vorhersagen Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 42
  39. 39. Test von Hypothesen A theory or hypothesis that is not verifiable by appeal to empirical evidence may not be admissible as a part of scientific enquiry (Milton Freedman 1953) Ausgehend davon, dass ein Model eine Approximation von Realität ist, muss ein zuverlässiges Kriterium entwickelt werden, um die „Güte“ dieser Approximation zu überprüfen, bzw. um die Theorie oder Hypothese zu bestätigen (oder zu verwerfen). Preis, € Absatz, Stk. Schätzwert 10 16 18 23 30 33 39 26 28 19 24 15 6 8 32 26 24 19 12 9 3 Dr. Paul Marx Abweichung (gemessen – geschätzt) -6 2 -5 5 3 -3 5 War die Schätzung gut? Folie 43
  40. 40. Test von Hypothesen: Standardfehler der Schätzung  Der Standardfehler der Schätzung gibt an, welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schätzung der abhängigen Variable gemacht wird: Nr. i 1 2 3 4 5 6 7 Summe Mittelwert N s u i 1 2 i ( N  J  1) yi 10 16 18 23 30 33 39 169 24,14 ˆ yi 15,69 13,58 23,09 17,81 27,32 36,83 34,72 ˆ yi  yi ( yi  yi ) 2 ˆ -5,69 2,42 -5,09 5,19 2,68 -3,83 4,28 32,40 5,87 25,92 26,98 7,19 14,68 18,34 131,37 In unserem Beispiel: s 131,37  (7  1  1) 26,274  5,125 d.h. der wahre p-Wert liegt im Bereich Bezogen auf den Mittelwert beträgt der durchschnittliche Fehler: Dr. Paul Marx ˆ yi  5,125 5,125 / 24,14 = 0,21 = 21% Folie 44
  41. 41. Test von Hypothesen Gründe für die Abweichungen  Natürliche Variabilität  Ungenauigkeiten, Messfehler Nach der Schätzung kann die Gesamt-Abweichung vom Mittelwert (=Varianz) in zwei Teile zerlegt werden:  Vom Modell „erklärte“ Abweichung  „Nicht erklärte“ Abweichung (Restschwankung) Dr. Paul Marx Folie 45
  42. 42. Preis (y) Test von Hypothesen 45 Gesamtabweichung (vom Mittelwert) 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 46
  43. 43. Preis (y) Test von Hypothesen 45 Erklärte Abweichung 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 47
  44. 44. Preis (y) Test von Hypothesen 45 Nicht erklärte Abweichung (Restschwankung) 40 35 30 _ Y 25 20 15 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 48
  45. 45. Test von Hypothesen: Bestimmtheitsmaß = Gesamtstreuung N (y i 1 i  y) 2  + erklärte Streuung N ˆ (y i 1 i  y) 2  nicht erklärte Streuung N (y i 1 i ˆ  yi ) 2 Je höher der Anteil der erklärten Abweichung (bzw. je geringer der Anteil der Restschwankung) an der Gesamtstreuung um den Mittelwert ist, desto „besser“ lassen sich die y-Werte mit der Regressionsfunktion schätzen. Dr. Paul Marx Folie 49
  46. 46. N  ( yi  y ) 2  i 1 Gesamtstreuung N ˆ  ( yi  y ) 2  i 1 = erklärte Streuung N ˆ ( y i  yi ) 2  i 1 + nicht erklärte Streuung y ˆ y y Dr. Paul Marx Folie 50
  47. 47. Test von Hypothesen: Bestimmtheitsmaß  Bestimmtheitsmaß: N r  2 ( yi  y ) 2  ˆ  i 1 N ( yi  y ) 2  erklärte Streuung Gesamtstreuung 0  r2  1 i 1 N r2  1  ˆ (y  y ) i 1 N i 2 i ( yi  y ) 2   1  nicht erklärte Streuung Gesamtstre uung i 1 Dr. Paul Marx Folie 51
  48. 48. Test von Hypothesen: Bestimmtheitsmaß Nr. i 1 2 3 4 5 6 7 Summe Mittelwert N r2  yi 10 16 18 23 30 33 39 169 24,14 ˆ (y i  y)2 (y i  y)2 i 1 N i 1 r2  1  (y i 1 N i (y i 1 i 15,69 13,58 23,09 17,81 27,32 36,83 34,72 -5,69 2,42 -5,09 5,19 2,68 -3,83 4,28 32,40 5,87 25,92 26,98 7,19 14,68 18,34 131,37 yi  y ( yi  y ) 2 ˆ yi  y ˆ ( yi  y ) 2 -14,14 -8,14 -6,14 -1,14 5,86 8,86 14,86 200,02 66,31 37,73 1,31 34,31 78,45 220,73 638,86 -8,45 -10,56 -1,05 -6,34 3,18 12,69 10,58 71,42 111,62 1,11 40,16 10,09 161,01 111,83 507,23 In unserem Modell sind  N ˆ yi  yi ( yi  yi ) 2 ˆ ˆ yi ˆ  yi ) 2  y) 2 507,23  0,794 638,86  1  131,37  1  0,205  0,795 638,86 Dr. Paul Marx 79,5% der Varianz auf die erklärende Variable MENGE und 20,5% auf nicht erfasste Einflusse zurückzuführen Folie 52
  49. 49. Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)  Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichprobe  Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit übertragen werden?  Es könnte sein, dass in der Realität die Veränderung der Funktionswerte gar nicht auf die lineare Veränderung der unabhängigen Modellvariablen zurückzuführen ist. Der Wert von r2 kann sich aufgrund zufälliger Einflusse ergeben haben.  Die Frage ist nun, wie signifikant die Abhängigkeit des Regressands von Regressoren ist? M.a.W. wie (un)wahrscheinlich ist es, dass es keinen Zusammenhang zwischen der unabhängigen und abhängigen Variablen gibt?  Die Prüfung von Gültigkeit der Regressionsfunktion als Ganzer: F-Test Dr. Paul Marx Folie 53
  50. 50. Test von Hypothesen: F-Test  Ablauf des F-Tests: 1. Aufstellen der „Nullhypothese“ (H0): „Es besteht kein Zusammenhang zwischen der abhängigen und den unabhängigen Variablen!“ – – j= 0, für j [ 0; J ] Regressionsgleichung ist unbrauchbar Alternativhypothese (H1): „Der Zusammenhang besteht! r2 ist signifikant von null verschieden!“ 2. Verlässlichkeit des Testergebnisses (Vertrauenswahrscheinlichkeit) wird vorgegeben – – – üblicherweise 0,95 oder 0,99 D.h. mit einer Wahrscheinlichkeit von 95% bzw. 99% kann man sich darauf verlassen, dass H0 nicht zu unrecht abgelehnt wird. M.a.W. wird H0 abgelehnt, so ist mit 95%- bzw. 99%-igen Wahrscheinlichkeit die H1 richtig. Dr. Paul Marx Folie 54
  51. 51. Test von Hypothesen: zwei Fehlerarten  Die Entscheidung eine Hypothese zu verwerfen, kann fehlerhaft sein  Es wird zwischen 2 Arten von Fehlern unterschieden: H0 richtig H0 falsch verwerfen Fehler I Art () kein Fehler akzeptieren kein Fehler Fehler II Art  Fehler I Art () = Signifikanzniveau (1- = Vertrauenswahrscheinlichkeit)  Statement: „Einfluss besteht“; in Wirklichkeit: „kein Einfluss“  Fehler II Art () = Teststärke  Statement: „kein Einfluss“; in Wirklichkeit: „Einfluss besteht“  Simultane Minimierung beider Fehlerarten ist unmöglich. Falsche Positives sind „wichtiger“, da mehr Schaden. Daher wird zunächst  minimiert. Dr. Paul Marx Folie 55
  52. 52. Test von Hypothesen: F-Test 3. Berechnung des empirischen F-Wertes aufgrund von Stichprobendaten bzw. - werte ˆ  ( y  y) Femp  2 J ˆ  ( y  y) 2 N  J 1  r2 J 1 r 2 N  J 1  erklärte Streuung / J nicht erklärte Streuung / ( N  J  1) mit N = Anzahl der Beobachtungswerte (Fälle) J = Anzahl von Regressoren N – J – 1 = Zahl der Freiheitsgrade der Regression Femp  0,79 / 1  18,809 (1  0,79) / (7  1  1) Dr. Paul Marx Folie 56
  53. 53. Test von Hypothesen: F-Test 4. Vergleich des empirischen F-Wertes (Femp) mit einem theoretischen F-Wert (Ftab) anhand einer Tabelle Entscheidungskriterium: Femp  Ftab  Ho verworfen, es gilt H1 Femp  Ftab  Ho nicht verworfen Dr. Paul Marx Folie 57
  54. 54. Test von Hypothesen: F-Test F-Tabelle: 95% Vertrauenswahrscheinlichkeit (Ausschnitt) hier Für unser Beispiel: f1: J = Zahl der erklärenden Variablen f2: N-J-1 = Anzahl Freiheitsgrade (N = Zahl der Beobachtungswerte) J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 > 6,61  Ho verworfen! Dr. Paul Marx Folie 58
  55. 55. Test von Hypothesen: F-Test F-Tabelle: 99% Vertrauenswahrscheinlichkeit (Ausschnitt) Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 > 16,26  Ho verworfen! Dr. Paul Marx Folie 59
  56. 56. Test von Hypothesen: F-Test F-Tabelle: 99,9% Vertrauenswahrscheinlichkeit (Ausschnitt) Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; Femp = 18,809 18,809 < 47,04  Ho nicht verworfen! Dr. Paul Marx Folie 60
  57. 57. Test von Hypothesen: F-Test Vertrauenswahrscheinlichkeit 95% (0,95) 99% (0,99) 99,9% (0,999) H1 H1 H0 0,05 0,01 0,001 Signifikanzniveau Die geschätzte Funktion y  43,174  1,057  x erklärt 79% des Zusammenhangs von y und x signifikant auf dem Niveau von 0,01. Dr. Paul Marx Folie 61
  58. 58. Test von Hypothesen: Gültigkeit von Regressionskoeffizienten für die Grundgesamtheit (T-Test)  Die Schätzung der Funktionsparameter basiert auf bekannten Daten  Wie zuverlässig sind die geschätzten -Werte für Prognosen? T-Test  Geprüft wird, ob tatsächlicher -Wert gleich Null ist (Also j=0), d.h. Ho: „Faktor xj hat in der Grundgesamtheit keinen Einfluss auf y. Der ermittelte Wert von j gilt nur für die Stichprobe.“ H1: „Der Einfluss vom Faktor xj in der Grundgesamtheit ist signifikant größer Null“ Dr. Paul Marx Folie 62
  59. 59. Test von Hypothesen: T-Test  Ähnlich wie beim F-Test wird eine Prüfgröße errechnet und mit dem Tabellenwert verglichen temp  ˆ j j getestet wird j=0 S j S  j | j 0  s  1 N  ( xi  x ) 2  S 0 i 1 temp  N ( xi  x ) 2  i 1 Wahrer Regressionskoeffizient (unbekannt) S j  x2 Regressionskoeffizient des j-ten Regressor j  1  s  N S j Errechneter t-Wert ˆ j  temp  ˆ j Standardfehler des Regressionskoeffizienten des j-ten Regressors Dr. Paul Marx Folie 63
  60. 60. Test von Hypothesen: T-Test Nr. i 1 2 3 4 5 6 7 Summe Mittelwert p  43,174  1,057  x N s u i 1 2 i ( N  J  1) S  j | j 0  s   5,125 1 N  (x  x) 1  s  N 2 1  0,24 454 i i 1 S 0  5,125  x2 N  (x  x) i 1 2 1 182  5,125    4,743 7 454 i Dr. Paul Marx pi xi xi  x 10 16 18 23 30 33 39 169 24,14 26 28 19 24 15 6 8 -8 -2 0 5 12 15 21 ( xi  x ) 2 64 100 1 36 9 144 100 454,00 18,00 temp1  ˆ 1 S 1 temp 0   ˆ 0 S 0  1,057  4,404 0,24  43,174  9,102 4,743 Folie 64
  61. 61. Test von Hypothesen: T-Test Vergleich mit dem Tabellenwert: |temp|  ttab  Ho verworfen |temp|  ttab  Ho nicht verworfen Für unser Beispiel: J = 1; N = 7; N-J-1 = 5; temp = -4,404 =0,95: =0,99: =0,999: 4,395 > 2,57  Ho verworfen! 4,395 > 4,03  Ho verworfen! 4,395 < 6,86  Ho nicht verworfen! Dr. Paul Marx Folie 65
  62. 62. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  Der Einfluss von Variable x1 kann in der Grundgesamtheit mit 99%-iger Wahrscheinlichkeit (= auf dem Signifikanzniveau von 0,01) vermutet werden.  Wie weit können die wahren j-Werte von den in der Stichprobe ermittelten Werten abweichen? ˆ yi   0  1  xi Verlauf von Regressionsgerade bei Variation von 0 und 1 Dr. Paul Marx Verlauf von Regressionsgerade bei Variation von 1 Folie 66
  63. 63. Test von Hypothesen: t-Test und Konfidenzintervall des Regressionskoeffizienten Ho akzeptieren Häufigkeit Ho akzeptieren Ho verwerfen (kein Einfluss in der Grundgesamtheit) (kein Einfluss in der Grundgesamtheit) (Einfluss besteht) ˆ   Relation vom geschätzten  zu seinem Standardfehler ist kleiner als kritischer t-Wert ˆ   t ( ) t  S  t ( )  t  S  t ( ) Bei normal verteilten Residuen sind die geschätzten -Koeffizienten auch normal verteilt 0  t ( ) Dr. Paul Marx ˆ   Folie 67
  64. 64. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten ˆ  j  t  S j ˆ   j   j  t  S j  Der wahre Wert des Regressionskoeffizienten (für das vorgegebene Signifikanzniveau ) liegt ˆ im Bereich  j  t  S j  Dieser Bereich nennt sich Konfidenzintervall von j Für =0,01 1,057  4,03  0,24  1  1,057  4,03  0,24  2,03  1   0,086 Für =0,05 1,057  2,57  0,24  1  1,057  2,57  0,24 1,67  1   0,44 Dr. Paul Marx Folie 68
  65. 65. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  2,03  1   0,086 24,112   0  62,236 y  43,174  0,086  x y  43,174  1,057  x y  43,174  2,03  x Verlauf von Regressionsgerade bei Variation von 1 Dr. Paul Marx Folie 69
  66. 66. Test von Hypothesen: Konfidenzintervall des Regressionskoeffizienten  2,03  1   0,086 24,112   0  62,236 y  24,112  0,086  x y  62,236  2,03  x y  43,174  1,057  x Verlauf von Regressionsgerade bei Variation von 0 und 1 Dr. Paul Marx Folie 70
  67. 67. Preis (y) Test von Hypothesen: Konfidenzintervall der Regressionsfunktion 45 Konfidenzintervall = Region der Annahme von H1 40 Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt 35 30 _ Y 25 20 15 =0,01 10 5 =0,05 0 0 5 10 15 20 25 30 35 40 Menge (x) Vereinfachte Abbildung! Dr. Paul Marx Folie 71
  68. 68. Preis (y) Test von Hypothesen: Konfidenzintervall der Regressionsfunktion 45 Je weiter x vom Mittelwert, desto ungenauer ist die Schätzung von y(x) 40 35 Übertragen auf die Regressionsgerade zeigt Konfidenzintervall an, in welchem Bereich die wahren Werte liegen können bzw. wie stark sie von den geschätzten Werten abweichen können (mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit) 30 25 20 15 =0,01 10 5 0 0 5 10 15 Dr. Paul Marx 20 25 30 35 40 Menge (x) Folie 72
  69. 69. Konfidenzintervall der Regressionsfunktion Häufigkeit von y Preis (y) Dr. Paul Marx Folie 73
  70. 70. Ergebnisse der Regressionsanalyse ˆ yi  43,174 S j = (4,743) (0,24) t = (9,102) (-4,404)  = (0,001) (0,01)  1,057  xi Dr. Paul Marx r2 = 0,795 df = 6 F1,6 = 18,809 Folie 74
  71. 71. Ergebnisse der Regressionsanalyse: SPSS Modellzusammenfassung a Einflußvariablen : (Konstante), Absatzmenge Modell 1 R R-Quadrat ,891(a) ,794 Standardf Korrigiertes ehler des R-Quadrat Schätzers ,753 5,12578 ANOVA(b) a Einflußvariablen : (Konstante), Absatzmenge b Abhängige Variable: Preis Modell 1 Regression Residuen Gesamt Quadrats umme 507,489 131,368 638,857 df Mittel der Quadrate 1 507,489 5 26,274 6 F Signifikanz 19,316 ,007(a) Koeffizienten(a) a Abhängige Variable: Preis Modell 1 (Konstante) Absatzmenge Nicht standardisierte Koeffizienten Standardfehl er B 43,174 4,744 -1,057 ,241 Dr. Paul Marx Standardisie rte Koeffiziente n Beta -,891 T Signifikanz 9,101 ,000 -4,395 ,007 Folie 75
  72. 72. Methodologie von Ökonometrie 1. 2. 3. 4. 5. 6. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen 7. Prognosen / Vorhersagen 8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 76
  73. 73. ˆ y  43,174  1,057  x Preis (y) Bestimmung der Absatzmenge 45 40 35 x= 18,18 für y=25  x=17,19 30 25 20 x= 13,6 15 =0,05 10 5 0 0 5 10 15 20 25 30 35 40 Menge (x) Zur Erinnerung: Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Dr. Paul Marx Folie 77
  74. 74. ˆ y  43,174  1,057  x Preis (y) Bestimmung des Preises 45 40 35 für x=25  y=16,74 30 y= 19,98 25 20 15 =0,05 10 y= 13,61 5 0 0 5 10 15 20 25 30 35 40 Menge (x) Zur Erinnerung: Konfidenzintervall gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Dr. Paul Marx Folie 78
  75. 75. Optimale Produktionsmenge und Preis Gewinnfunktion z.B. G = (y - k) x mit k = 4 G = yx – 4x = (43,174 – x )x – 4x = = 43,174 x – x2 – 4 x = 39,174 x – x2 Gmax ist gegeben im Punkt, wo G/x = 0 Preis (y), Gewinn/10 ˆ y  43,174  1,057  x 45 40 G= 39,174x-x2 35 30 25 20 15 10 5 39,174 – 2x = 0 0 0  5 10 15 20 25 30 35 40 Menge (x) xopt = 39,174 / 2 = 19,587 = 20 yopt = 43,174 – 20 = 23,17 Dr. Paul Marx Folie 79
  76. 76. Methodologie von Ökonometrie 1. 2. 3. 4. 5. 6. 7. Formulierung einer Theorie oder Hypothese Spezifizierung eines mathematischen Modells der Theorie Spezifizierung des statistischen oder ökonometrischen Modells Datenerhebung Schätzung der Parameter des ökonometrischen Modells Test von Hypothesen Prognosen / Vorhersagen 8. Nutzung vom Modell zu Kontroll- oder Politischen Zwecken Dr. Paul Marx Folie 80
  77. 77. Preis-Absatz-Funktion im Monopol Aus unserem Beispiel folgt: xopt = 20 yopt = 23,17 Gopt = 383,4 Reale Nachfrage ist aber höher: Preis, € Absatz, Stk. 23 24 G|x=24; p=19,17 = 364,08 < Gopt Der Monopolist hat keinen Anreiz, mehr zu produzieren. Es entsteht Defizit. Bevölkerung ist unzufrieden. Der Staat kann/muss eingreifen: * Verpflichtung zur Mindestproduktion * Senkung der Steuer für den Monopolisten * Subventionierung von Produzenten komplementärer Güter * Stimulierung des Wettbewerbes *… Dr. Paul Marx Folie 81
  78. 78. LOGISCHER FEHLER!!!  In der Realität hängt der Preis nicht von der Absatzmenge ab. Vielmehr hängt der Absatz vom Preis ab.  Regressionsanalyse bestimmt lediglich die Stärke des Zusammenhangs, jedoch nicht die Richtung! Im Zweivariablen-Fall ist es unproblematisch, da die Richtung des Zusammenhanges einfach umgekehrt werden kann. Wenn mehr Variablen regressiert wären, wäre unsere Schätzung komplett falsch und irreführend.  Die logische Begründung beim Spezifizieren des Modells ist wichtiger als Kennzahlen!  Übungsaufgabe: Spezifizieren Sie das Model richtig und führen Sie entsprechende Regressionsanalyse durch. Dr. Paul Marx Folie 82
  79. 79. Übungsaufgabe Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei Werbeausgaben in Höhe von € 85.000 ergeben wird. Werbeausgaben (€1000) 40 60 70 110 150 160 190 200 Dr. Paul Marx Absatz (€1000) 377 507 555 779 869 818 862 817 Folie 83
  80. 80. Abschnitt 3 MULTIPLE REGRESSIONSANALYSE Wenn es mehrere unabhängige Variablen gibt Dr. Paul Marx Folie 84
  81. 81. Multiple Regressionsanalyse  Regressionsanalyse: – Analyse von Zusammenhängen zwischen Variablen (x,y) – Vorhersage der y-Werte aus x-Werten – Versuch, die y-Werte auf die x-Werte „zurückzuführen“  Einfache lineare Regressionsanalyse: – Betrachtung einer Zielgröße y und einer Einflussgröße x  In den meisten Fällen üben mehrere Faktoren gleichzeitig Einfluss auf die zu erklärenden Variable aus – Aufnahme einer zusätzlichen Variable kann mehr Varianz erklären  Multiple lineare Regressionsanalyse: – Betrachtung einer Zielgröße y und mehr als einer Einflussgröße x Dr. Paul Marx Folie 85
  82. 82. Multiple Regressionsanalyse: ökonometrisches Modell  Das Vorgehen bei der multiplen RA unterscheidet sich konzeptionell nicht von dem Vorgehen bei der einfachen RA  Das ökonometrische Modell bzw. die Regressionsfunktion wird in der gleichen Form spezifiziert. Es werden nur mehrere unabhängige Variablen betrachtet. J ˆ yi   0    i xi  ui i 1 Dr. Paul Marx Folie 86
  83. 83. J Multiple Regressionsanalyse: Beispiel ˆ yi   0    i xi  ui i 1  Welche Faktoren beeinflussen die Prüfungsnote im Fach „Basic Econometrics“?  Hypothese: Konsum von Bier und Kaffee in der Lernzeit beeinflusst die Note – Je mehr Bier und Kaffee, desto bessere Note • • x1 Anzahl von Biergläser in der Lernzeit x2 Anzahl von Tassen Kaffee in der Lernzeit Bier = x1 Note Kaffee = x2 Dr. Paul Marx ˆ yi   0  1 x1   2 x2  ui Folie 87
  84. 84. Schätzen der Regressionsfunktion  Das Optimierungskriterium ist nach wie vor die Minimierung der Summe der quadrierten Abweichungen N u n 1 min 2 n  min ui2   ( yi  0  1 x1i  2 x2i )2   zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten Parametern gebildet - Partielle Ableitungen nach Variablen werden gleich 0 gesetzt -> Gleichungssystem entsteht y   0  1 x1   2 x2 yi x1i  0  x1i 1  x12i  2  x1i x2i  2 yi x2i  0  x2i 1  x1i x2i   2  x2i  Dr. Paul Marx Folie 88
  85. 85. Schätzen der Regressionsfunktion  Lösung des Gleichungssystems führt zu einzelnen i 1  2  2 ( yi x1i )(  x2i )  ( yi x2i )(  x1i x2i ) 2 ( x12i )(  x2i )  ( x1i x2i ) 2 ( yi x2i )(  x12i )  ( yi x1i )(  x1i x2i ) 2 ( x12i )(  x2i )  ( x1i x2i ) 2  0  y  1 x1   2 x2 Dr. Paul Marx Folie 89
  86. 86. Schätzen der Regressionsfunktion: Matrixform u  y  Xβ y  Xβ  u  y1   1 x11 x21 ... xk1    0   u1   y   1 x x ... x     u   2    12 22 k 2   1    2   ...  ... ... ... ... ...   ...   ...         yi   1 x1i x2i ... xki    i   ui   u T u  u1 u2  u1  u  I ... ui   2    ui2  ...  i 1    ui  Dr. Paul Marx u T u  (y  Xβ )T (y  Xβ )  yT y 2 β T X T y β T X T Xβ (X T X) β  X T y (X T X) 1 (X T X) β  (X T X) 1 X T y Eβ  (X T X) 1 X T y β  (X T X) 1 X T y Folie 90
  87. 87. ˆ yi   0  1 x1   2 x2  ui Bier = x1 Bier Interpretation von Regressionskoeffizienten Kaffee = x2 1 1 Note Note  Betas sind die partiellen Steigungskoeffizienten 1 2  1= die Änderung im Durchschnittswert von y bei Änderung von x1 um eine Einheit, bei x2= const – Der direkte oder Netto-Effekt einer Einheitsveränderung in x1 unabhängig von allen Effekten von x2 (=was bringt ein zusätzliches Bier für die Note)  0= konstantes Glied (=nichts trinken) Dr. Paul Marx Folie 91
  88. 88. Standardisierte Regressionskoeffizienten  Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner Variable angesehen werden! – – Da die Skalen unterschiedlich sind (Bier wird in Gläsern und Kaffe in Tassen gemessen) Wenn Bier in ml gemessen wird, vergrößert sich der 1-Wert um den Faktor 500  Um die Betas vergleichbar zu machen, muss man – die Skalen beider Variablen einheitlich machen und dann mit den umgerechneten Werten eine neue RA durchführen, oder – Die bereits geschätzten Regressionskoeffizienten standardisieren ˆ    Sta ndardabweichung von xi i i St andardabweichung von y Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen eliminiert. Die Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren Wichtigkeit verwendet werden. Dr. Paul Marx Folie 92
  89. 89. Beispiel Nicht standardisiert: Standardisiert: Note = 0,465 + 0,270 * Kaffee + 0,617 * Bier Note = 0,518 * Kaffee + 0,781 * Bier Nicht standardisierte Koeffizienten Modell B Standardfehler 1 (Konstante) Kaffee Bier ,465 ,270 ,617 ,191 ,045 ,069 Standardisier te Koeffizienten Beta T Signifikanz ,518 ,781 2,433 5,950 8,975 ,072 ,004 ,001 a. Abhängige Variable: Note Dr. Paul Marx Folie 93
  90. 90. Korrigiertes Bestimmtheitsmaß  Bei gegebener Stichprobe wird mit der Aufnahme zusätzlicher erklärenden Variablen ein mehr oder weniger großer Erklärungsanteil hinzugefügt. Dieser Anteil kann u.U. nur zufällig bedingt sein. r2 kann also nur zunehmen – auch wenn irrelevante Regressoren aufgenommen werden. ˆ erklärte Varianz nicht erklärte Varianz  ui2 r   1  1 Gesamte Varianz Gesamte Varianz  ( yi  y i )2 Nicht steigend mit  Anzahl von Regressoren 2 Unabhängig von Anzahl der Regressoren  r2 steigt mit steigender Varianz von y, ohne dass der Grad der Anpassung sich verbessert hat.  r2 steigt mit dem Umfang der Stichprobe.  diese negativen Eigenschaften werden durch das korrigierte Bestimmtheitsmaß über den Korrekturfaktor ausgeglichen. Dr. Paul Marx Folie 94
  91. 91. Korrigiertes Bestimmtheitsmaß  r2KORR vermindert r2 um eine Korrekturgröße, die desto größer wird, je größer die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist.  Dadurch kann r2KORR auch bei der Aufnahme von Regressoren abnehmen. 2 rKORR ˆ  u /( N  J 1)  1  (1  r  1  ( y  y ) /( N  1) 2 i 2 i 2 KORR r 2 i J  (1  r 2 ) r  N  J 1 2 mit N J N–J–1 ) ( N  1) ( N  J  1) = Anzahl der Beobachtungswerte (Fälle) = Anzahl von Regressoren = Zahl der Freiheitsgrade  r2KORR kann auch negative Werte annehmen und ist kleiner als r2, außer falls r2=1, dann r2KORR =1 Dr. Paul Marx Folie 95
  92. 92. Korrigiertes Bestimmtheitsmaß Modell R 1 Korrigiertes RQuadrat R-Quadrat ,985 ,970 ,955 Standardfehler des Schätzers ,297 Einflußvariablen: (Konstante), Bier, Kaffee Dr. Paul Marx Folie 96
  93. 93. Korrigiertes Bestimmtheitsmaß  Mit r2KORR wird es möglich, Schätzungen mit unterschiedlichen erklärenden Variablen oder unterschiedlicher Varianz der abhängigen Variablen miteinander zu vergleichen.  Dabei müssen folgende Bedingungen erfüllt sein: – – Abhängige Variable und Stichprobenumfang sind gleich  Warnung vor dem r2korr-Maximierung-Spiel! – – – Ziel der RA ist nicht das Erreichen des maximal möglichen r2korr , sondern die plausible Schätzung von Regressionskoeffizienten in der Population Es ist wichtiger herauszufinden, ob die Regressionskoeffizienten statistisch (nicht)signifikant sind, oder Vorzeichen haben, die nicht zu erwarten sind logische bzw. theoretische Relevanz von erklärenden Variablen für den erklärten Faktor und ihre statistische Signifikanz haben Vorrang! Dr. Paul Marx Folie 97
  94. 94. Multiple Regressionsanalyse: Anwendungsbeispiel Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Zahl der Vertreterbesuche. Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genannten Einflussgroßen sich auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang zwischen z.B. Vertreterbesuchen und Absatzmenge gegeben wäre, dann müssten überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf Unterschiede in der Zahl der Besuche zurückführen lassen, z.B.: je höher die Zahl der Vertreterbesuche, desto höher der Absatz. Quelle: Backhaus et al.(2006): „Multivariate Analysemethoden“ Dr. Paul Marx Folie 99
  95. 95. Daten der Stichprobe SPSS Datensatz: Absatz von Margarine Nr. 1 2 3 4 5 6 7 8 9 10 Menge Kartons pro Periode Preis pro Karton 2585 1819 1647 1496 921 2278 1810 1987 1612 1913 12,5 10 9,95 11,5 12 10 8 9 9,5 12,5 Ausgaben für Zahl der VerkaufsVertreterförderung besuche 2000 550 1000 800 0 1500 800 1200 1100 1300 109 107 99 70 81 102 110 92 87 79 Ökonometrisches Modell: Menge = 0 + 1*Preis Dr. Paul Marx + 2*Ausgaben + 3*Besuche Folie 100
  96. 96. SPSS-Dateneditor: Auswahl des Analyseverfahrens Dr. Paul Marx Folie 101
  97. 97. SPSS: Dialogfenster „Lineare Regression“ Dr. Paul Marx Folie 102
  98. 98. SPSS-Output für die Regressionsanalyse Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton ANOVA(b) Modell 1 Regression Residuen Gesamt 3 Mittel der Quadrate 560342,900 135226,900 6 22537,817 1816255,600 9 Quadratsumme 1681028,700 df F 24,862 Signifikanz ,001(a) a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton b Abhängige Variable: Menge Kartons pro Periode Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 103
  99. 99. Regressionskoeffizienten Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Menge = 0 + 1*Preis + 2*Ausgaben + 3*Besuche Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche  Regressionskoeffizienten geben den marginalen Effekt der Änderung einer unabhängigen Variable auf die abhängige Variable an. – Z.B. 2 = 0,655 bedeutet, dass 65,5 Kartons mehr abgesetzt werden können, wenn Verkaufsförderung um 100 erhöht wird. Beim Preis 10 ergibt sich Mehrerlös von 655. Dr. Paul Marx Folie 104
  100. 100. Standardisierte Regressionskoeffizienten  Die Größe eines Regressionskoeffizienten darf nicht als Maß für die Wichtigkeit seiner Variable angesehen werden!  Die Werte der Regressionskoeffizienten lassen sich nur dann vergleichen, wenn die Variablen in gleichen Einheiten gemessen wurden. – – – Der nummerische Wert von i ist abhängig von der Skala, in der xi gemessen wurden. Z.B. Wenn der Preis in Cent (anstatt in Euro) gemessen wird, vergrößert sich 1 um den Faktor 100 Um z.B. den Einfluss der Anzahl von Vertreterbesuchen mit dem Einfluss vom Preis vergleichbar zu machen, müsste die Skala für Besuche in „Kosten pro Besuch“ umgewandelt werden.  Standardisierung von Regressionskoeffizienten macht sie vergleichbar. – Durch Standardisierung werden die unterschiedlichen Messdimensionen der Variablen eliminiert. Betas werden somit unabhängig von linearen Transformationen der Variablen und können als Maß für deren Wichtigkeit verwendet werden. Dr. Paul Marx Folie 105
  101. 101. Einflussstärke und Standardisierte Regressionskoeffizienten Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode Nicht standardisiert: Standardisiert: Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Menge = 0,034*Preis + 0,794*Ausgaben + 0,345*Besuche Vergleich der relativen Einflussstärken (bzw. Wichtigkeiten) Nicht standardisiert Preis Ausgaben Besuche Preis 1 0,065 1,116 Ausgaben 15,155 1 16,923 Standardisiert Besuche 0,895 0,059 1 Dr. Paul Marx Preis Ausgaben Besuche Preis 1 23,352 10,147 Ausgaben 0,042 1 0,434 Besuche 0,098 2,301 1 Folie 106
  102. 102. Prüfung der Regressionsfunktion Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton ANOVA(b) Modell 1 Regression Residuen Gesamt 3 Mittel der Quadrate 560342,900 135226,900 6 22537,817 1816255,600 9 Quadratsumme 1681028,700 df F 24,862 Signifikanz ,001(a) a Einflußvariablen : (Konstante), Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung, Preis pro Karton b Abhängige Variable: Menge Kartons pro Periode  Der durch die Regressionsbeziehung postulierte Zusammenhang kann empirisch bestätigt werden. – Die Regressionsfunktion erklärt 92,6% der Varianz in der abhängigen Variable (Menge) signifikant mit der Vertrauenswahrscheinlichkeit von 99,9% (Signifikanzniveau 0,001) Dr. Paul Marx Folie 107
  103. 103. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode – – Empirisch: Der Einfluss von 1 ist nicht signifikant (t-Test konnte H0 nicht ablehnen) Logisch: 1 > 0, d.h. mit dem steigenden Preis muss der Absatz steigen. Zu erwarten ist aber eine umgekehrte Wirkung. Dr. Paul Marx Folie 108
  104. 104. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche -6,866 9,927 Standardfehler 673,205 38,164 ,655 11,085 Standardisierte Koeffizienten Beta ,034 T -,010 ,260 Signifikanz ,992 ,803 ,103 ,794 6,382 ,001 4,428 ,345 2,504 ,046 a Abhängige Variable: Menge Kartons pro Periode  Das bedeutet aber nicht, dass es keinen Zusammenhang zwischen dem Preis und der Absatzmenge gibt! – – – Möglicherweise ist dieser Einfluss durch andere Einflüsse überlagert, oder Wird infolge des geringen Stichprobenumfanges nicht deutlich, oder Die Varianz bzw. Variabilität in den gemessenen Werten des Preises ist nicht genügend, um seinen Einfluss feststellen zu können Dr. Paul Marx Folie 109
  105. 105. Daten der Stichprobe SPSS Datensatz: Absatz von Margarine Nr. 1 2 3 4 5 6 7 8 9 10 Mittelwert Varianz Standardabweichung Menge Kartons pro Periode 2585 1819 1647 1496 921 2278 1810 1987 1612 1913 1806,80 201806,18 449,23 Preis pro Karton 12,5 10 9,95 11,5 12 10 8 9 9,5 12,5 10,50 2,39 1,55 Ausgaben für Zahl der VerkaufsVertreterförderung besuche 2000 550 1000 800 0 1500 800 1200 1100 1300 109 107 99 70 81 102 110 92 87 79 Menge Kartons pro Periode; Preis 3000 1025,00 2500 296250,00 544,29 2000 93,60 195,60 13,99 1500 1000 500 0 0 Dr. Paul Marx 2 4 6 8 10 12 14 Folie 110
  106. 106. Prüfung der Regressionskoeffizienten Menge = -6,866 + 9,927*Preis + 0,655*Ausgaben + 11,085*Besuche  Die Regressionsfunktion bildet also nicht den realen Zusammenhang ab und kann nicht zur Untersuchung des Einflusses vom Preis auf die Absatzmenge verwendet werden.  Mögliche Aushilfen (in der Praxis!!!): 1. Den Wert des Preises auf seinem (Stichproben-)Mittelwert fixieren. Die RF kann dann zur Schätzung von Absatzmenge aufgrund von Werbeausgaben und Vertreterbesuchen verwendet werden. • • 2. Risiko: die Restlichen Regressionskoeffizienten haben verzerrten Stichproben- und Modell-Fit Sinnlos: mit Einsatz von PCs ist der Zeitaufwand für Berechnung eines anderen Modells ist unerheblich Besser: Modell umformulieren und erneute RA durchführen Dr. Paul Marx Folie 111
  107. 107. Modellvergleich Variablen: Preis, Ausgaben, Besuche Variablen: Ausgaben, Besuche Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,926 Korrigiertes RQuadrat ,888 Standardfehler des Schätzers 150,12600 Modell 1 R ,962(a) R-Quadrat ,925 Korrigiertes RQuadrat ,903 Standardfehler des Schätzers 139,77114 Koeffizienten(a) Modell 1 (Konstante) Preis pro Karton Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Nicht standardisierte Koeffizienten Standard B fehler -6,866 673,205 9,927 38,164 Standar disierte Koeffizie nten Beta ,034 Nicht standardisierte Koeffizienten T -,010 ,260 Signifi kanz ,992 ,803 Modell 1 (Konstante) ,655 ,103 ,794 6,382 ,001 Ausgaben für Verkaufsförderung 11,085 4,428 ,345 2,504 ,046 Zahl der Vertreterbesuche  Standar dfehler B r2 > r2 r2KORR < r2KORR Dr. Paul Marx 144,482 ,091 10,487 3,522 Beta 315,250 ,664 Standar disierte Koeffizi enten T Signif ikanz ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021  Folie 112
  108. 108. Methoden zur Auswahl von Variablen (SPSS) – – Die Gesamtanzahl möglicher Modelle steigt faktoriell mit der Anzahl der Variablen an. Im Fall von 3 unabhängigen Variablen sind 7 unterschiedliche Modelle möglich, alle müssten berechnet werden  Alternative Vorgehensweisen: 1. Der Untersucher formuliert ein oder mehrere Modelle, die ihm aufgrund von theoretischen oder sachlogischen Überlegungen sinnvoll erscheinen und überprüft sie empirisch mit Hilfe der Regressionsanalyse 2. Der Untersucher lässt sich vom Computer eine Auswahl von Modellen zeigen und versucht sie sinnvoll zu interpretieren Dr. Paul Marx Folie 113
  109. 109. Schrittweise Regressionsanalyse  Bei der Schrittweisen RA erfolgt die Berechnung der Regressionskoeffizienten in mehreren Schritten: – Zunächst wird RA mit einer Variable durchgeführt, die mit der abhängiger Variablen höchste Korrelation aufweist. • – Bei jedem Schritt wird für jede unberücksichtigte Variable ihr partieller Korrelationskoeffizient und ein „Beta in“-Wert ausgewiesen, die der Regressionskoeffizient nach einer eventuellen Aufnahme im folgenden Schritt erhalten würde. Im jeden nächsten Schritt werden aus den verbliebenen Variablen diejenigen aufgenommen (bzw. aus bereits aufgenommenen diejenigen ausgeschlossen), die das Toleranzkriterium (nicht) erfüllen. • Als Toleranzkriterium dient der F-Wert des partiellen Korrelationskoeffizienten bzw. dessen Signifikanzniveau. • Eine Variable wird nur dann aufgenommen, wenn ihr F-Wert einen vorgegebenen Wert übersteigt bzw. wenn ihr Signifikanzniveau kleiner ist als die vorgegebene F-Wahrscheinlichkeit • Umgekehrt wird eine Variable bei Unterschreiten des vorgegebenen F-Wertes bzw. bei Überschreiten des Grenzwerten für Signifikanzniveau ausgeschlossen Dr. Paul Marx Folie 114
  110. 110. Schrittweise Regressionsanalyse: SPSS-Dialogs Dr. Paul Marx Folie 115
  111. 111. Schrittweise Regressionsanalyse: WARNUNG!  Es besteht die Gefahr, dass sachlogische Überlegungen in den Hintergrund treten können. – Computer trifft seine Auswahl ausschließlich nach statistischen Kriterien und kann nicht erkennen, ob das Modell auch inhaltlich sinnvoll ist  Daher: – Statistisch signifikante Zusammenhänge sollten nur dann akzeptiert werden, wenn sie sachlogischen Erwartungen entsprechen. – Bei Nichtsignifikanz eines Zusammenhanges sollte man nicht folgern, dass es kein Zusammenhang besteht, wenn ansonsten das Ergebnis sachlich korrekt ist. – Bei widersprüchlichen Ergebnissen oder sachlogisch unbegründeten Einflussfaktoren sollte man nicht zögern, diese aus dem Regressionsmodell zu entfernen (auch wenn der Erklärungsanteil dadurch sinkt). Dr. Paul Marx Folie 116
  112. 112. SPSS-Output bei schrittweiser RA Aufgenommene/Entfernte Variablen(a) Modell 1 Entfernte Variablen Aufgenommene Variablen Ausgaben für Verkaufsförderung . Zahl der Vertreterbesuche . 2 Methode Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). a Abhängige Variable: Menge Kartons pro Periode Modellzusammenfassung Modell 1 R ,911(a) R-Quadrat ,829 Korrigiertes RQuadrat ,808 Standardfehler des Schätzers 196,83086 2 ,962(b) ,925 ,903 139,77114 a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche Dr. Paul Marx Folie 117
  113. 113. SPSS-Output bei schrittweiser RA (Fortsetzung) ANOVA(c) Modell 1 Regression Residuen Quadratsumme 1506316,513 1 Mittel der Quadrate 1506316,513 38742,386 df 2 309939,087 8 Gesamt 1816255,600 1679503,802 2 839751,901 136751,798 7 42,985 ,000(b) 19535,971 1816255,600 Signifikanz ,000(a) 9 Regression F 38,880 9 Residuen Gesamt a Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen : (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche c Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 118
  114. 114. SPSS-Output bei schrittweiser RA (Fortsetzung) Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 2 B 1036,373 (Konstante) Ausgaben für Verkaufsförderung (Konstante) Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standardfe hler 138,349 ,752 ,121 144,482 315,250 ,664 ,091 10,487 Standardisiert e Koeffizienten 3,522 Beta T 7,491 Signifikanz ,000 6,235 ,000 ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021 ,911 a Abhängige Variable: Menge Kartons pro Periode Ausgeschlossene Variablen(c) Modell 1 Preis pro Karton Zahl der Vertreterbesuche 2 Preis pro Karton Beta In -,137(a) ,326(a) ,034(b) Kollinearität sstatistik -,920 Signifikanz ,388 Partielle Korrelation -,328 Toleranz ,983 2,977 ,260 ,021 ,803 ,748 ,106 ,895 ,718 T a Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung b Einflußvariablen im Modell: (Konstante), Ausgaben für Verkaufsförderung, Zahl der Vertreterbesuche c Abhängige Variable: Menge Kartons pro Periode Dr. Paul Marx Folie 119
  115. 115. Abschnitt 4 REGRESSION DURCH DEN URSPRUNG Wenn Null Input Null Output ergibt Dr. Paul Marx Folie 120
  116. 116. Regression durch den Ursprung (Regression-through-the-Origin) • Wenn die Konstante (0)nicht signifikant ist, oder • wenn a-priori erwartet wird, dass die Regressionsgerade durch den Punkt (0;0) verlaufen wird, … führt die Regressionsanalyse ohne Konstante zu genauerer Schätzung von Steigungs- bzw. Regressionskoeffizienten.  Ökonometrisches Modell der Regressionsgerade hat in diesem Fall folgende Form: ˆ yi  1  xi  u J bzw. ˆ yi    j x ji  u j 1 0 = 0 Dr. Paul Marx Folie 121
  117. 117. Regression durch den Ursprung : Beispiel Box-Office (Filmerfolg)  In der Filmerfolgsforschung drückt man meistens den Filmerfolg über seine Einnahmen aus und versucht diese Größe durch den Einfluss relevanter Merkmale zu begründen. – – 1 – z.B. wird angenommen, dass der Filmerfolg vom Budget abhängt. Bei Budget=Null kann man keinen Film drehen. Daher kann man keine Einnahmen generieren und somit keinen Erfolg haben. Regression durch den Ursprung beschreibt diesen Sachverhalt am besten: Budget Filmerfolg = β1 *Budget + u ˆ yi  1  xi  u Dr. Paul Marx Folie 123
  118. 118. Regressionskoeffizient bei bivariater Regression durch den Ursprung ˆ yi  1  xi  u mit  u  min  ( y   x)   ( y ˆ u   ( y  yi ) 2 2 1 2  2 1 xy  1 x 2 ) 2 * Index i bei Variablen x und y ist hier zwecks vereinfachten Darstellung weggelassen Differenzieren nach β1 und Setzen gleich 0  (2 xy  2 x )  0  2 xy  2   x  0 2 1 2 1 1 Dr. Paul Marx x y  x i i 2 i Folie 124
  119. 119. Eigenschaften des Modells der Regression durch den Ursprung Klassische RA RA durch den Ursprung Anzahl von Freiheitsgraden (bei Residuen) df = (n-j-1) df = (n-j) Fehlerterm u Ist gleich Null Muss nicht = 0 sein Bestimmtheitsmaß r2 r2 ist immer positiv, 0 < r2 <1 Dr. Paul Marx r2 kann negative Werte annehmen Folie 125
  120. 120. raw r2 bei bivariater Regression durch den Ursprung  r2 kann nicht zur Beurteilung der Güte der Schätzung verwendet werden, da 1. 2. Bei RA durch den Ursprung das „klassische“ r2 negative Werte annehmen kann Klassisches Model (für welches r2 formuliert war) vorsieht, dass das konstante Glied explizit in die Regressionsgleichung einbezogen wird  Man kann aber einen sog. raw r2-Wert berechnen: raw r 2  ( xi yi ) 2 x  y 2 i 2 i 0 < raw r2 <1  Der Wert von raw r2 kann nicht direkt mit konventionellen r2–Werten verglichen werden! Dr. Paul Marx Folie 126
  121. 121. Zur Bedeutung von raw r2  raw r2 ist ein unbereinigtes Bestimmtheitsmaß erklärte Streuung r   Gesamtstre uung 2 raw r 2 ˆ y  y 2 i 2 i ˆ (y (y  ( x )  y i i  y) 2 i i 2 i   xi yi    x2 2   i  x i  2 raw r    yi2  2 raw r  2  y)2  raw r 2 i2  xi2  yi2 mit 2 ˆ y  y 2 i 2 i 1   xi yi x 2 i  x y  x y 2 i i 2 i 2 i ( xi yi ) 2 x  y 2 i 2 i Dr. Paul Marx Folie 127
  122. 122. Regression durch den Ursprung: Guter Rat  Da die Regressionsanalyse durch den Ursprung spezifische Eigenschaften aufweist, sollte man sehr vorsichtig an die Wahl eines solchen Modells herangehen.  Wenn man a-priori nicht erwarten kann bzw. durch Theorie und Logik nicht belegt ist, dass die Regressionsgerade durch den Ursprung verlaufen wird, ist man angehalten, zunächst ein klassisches Regressionsmodell zu berechnen. Sonst besteht die Gefahr eines Spezifizierungsfehlers, d.h. der Verletzung von Annahmen der linearen Regressionsanalyse Dr. Paul Marx Folie 128
  123. 123. Regression durch den Ursprung: SPSS-Dialogs Dr. Paul Marx Folie 129
  124. 124. Klassische Regression Regression durch den Ursprung Modellzusammenfassung Modell 1 R ,962(a) R-Quadrat ,925 Korrigiertes RQuadrat ,903 Standardfehler des Schätzers 139,77114 Modell 1 R ,998(b) R-Quadrat(a) ,996 Korrigiertes RQuadrat ,995 Standardfehler des Schätzers 132,69104 a Bei der Regression durch den Ursprung (Modell ohne konstanten Term) mißt das R-Quadrat den Anteil der Variabilität in der abhängigen Variable durch den Ursprung, der durch Regression erklärt werden kann. Dieses Verfahren KANN NICHT mit dem R-Quadrat bei Modellen verglichen werden, die einen konstanten Term enthalten. b Einflußvariablen: Zahl der Vertreterbesuche, Ausgaben für Verkaufsförderung Koeffizienten(a) Nicht standardisierte Koeffizienten Modell B 1 (Konstante) Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standar dfehler 144,482 ,091 10,487 3,522 Beta 315,250 ,664 Standar disierte Koeffizi enten Nicht standardisierte Koeffizienten T Signif ikanz ,458 ,661 ,805 7,338 ,000 ,326 2,977 ,021 Dr. Paul Marx Modell B 1 Ausgaben für Verkaufsförderung Zahl der Vertreterbesuche Standa rdfehler Standar disierte Koeffizi enten Beta T Signif ikanz ,662 ,086 ,409 7,716 ,000 12,021 1,042 ,612 11,536 ,000 a Abhängige Variable: Menge Kartons pro Periode b Lineare Regression durch den Ursprung Folie 130
  125. 125. Multiple Regressionsanalyse: Beispieldatensatz actual advertising expenses in Mio. (based on Ad $ Summary) [ad_$_sum] First Weekend Box Office [first_bo] No. of Attendents in Germany [att_germ] imdb User-Rating [imdb_rat] Budget [budget] Martin and Porter Video Movie Guide Ranking [movie_gu] Length [length] Total Box-Office [tot_boxo] Maltin Movie and Video Guide Ranking [maltin] Starpower [starpowe] Punktwert Academy Awards [a_awards] Director power [dir_powe] Review Metascore 0-10 point-Scale [rev_me10] Anzahl Startleinwände D [ger_scre] Anzahl Startleinwände USA [us_scree] Produktinhärente EF Dr. Paul Marx Weeks in Theater [weeks] Produktinduzierte EF Distributionsinduzierte EF Folie 131
  126. 126. Abschnitt 5 ANNAHMEN DES LINEAREN REGRESSIONSMODELLS (LRM) Voraussetzungen für eine effiziente Schätzung und Umgang bei ihrer Verletzung Dr. Paul Marx Folie 132
  127. 127. Annahmen des linearen Regressionsmodells (LRM) 1. Variabilität in xi – 2. Linearität – – 3. 4. Keine Korrelation zwischen den erklärenden Variablen und der Störgröße Homoscedastizität – 9. Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N) Störgrößen haben den Erwartungswert Null Keine Kovarianz zwischen xi und ui – 8. Modell enthält die relevanten erklärenden Variablen Stichprobe ist größer, als die Anzahl der Regressoren – 6. 7. in Variablen in Parametern Metrisches Niveau der Regressoren Korrekte Spezifizierung vom Modell – 5. ! xi müssen variieren: Var(xi) > 0 Störgrößen haben eine konstante Varianz Keine Autokorrelation – Störgrößen sind unkorelliert 10. Keine Multikolinearität – Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit 11. Normalverteilung der Störgrößen Fixierte Werte von xi im wiederholten Sampling Dr. Paul Marx Folie 133
  128. 128. Annahmen des LRM: Variabilität in xi x variiert nicht (Var(xi) = 0) x variiert (Var(xi) > 0) y y x Dr. Paul Marx x Folie 134
  129. 129. Annahmen des LRM: Linearität  Die KQ-Methode unterstellt, eine additiv-lineare Funktion J ˆ yi   0    j  x ji  ui j 1  Geschätzt werden die Koeffizienten einer Gerade bzw. einer mehrdimensionalen Fläche  Wenn der unterstellte Zusammenhang nicht linear ist, kann KQ-Methode nicht angewendet werden Dr. Paul Marx Folie 135
  130. 130. Annahmen des LRM: Linearität in Parametern  Typische nicht lineare Verläufe quadratisch Cobb-Douglas exponentiell reziprok Niveauänderung Trendänderung Dr. Paul Marx Folie 136
  131. 131. Linearisierung  Anwendung einfacher Tricks bringt Linearität zurück! yi   0  1  xi2 1 y i   0  1  xi Ersetzen x2 durch x‘  yi   0  1  xi Ersetzen 1/x durch x‘  yi   0  1  xi  Beide Modelle sind nicht linear in x, aber linear in x‘  Wir können Betas vom modifizierten Modell schätzen. Diese werden auch nach rückgängiger Variablensubstitution gelten.  Um Konsistenz der Schätzung zu gewährleisten, müssen die Regressoren vor der Schätzung entsprechend modifiziert werden! (Linearisierung) Dr. Paul Marx Folie 137
  132. 132. Linearisierung von Pontenzfuntkionen  Quadratische Spezifikation ist im Grunde eine Regression mit zwei Variablen x1 und x2, die aber nur auf x basiert. Sie ist somit ein Spezialfall der Mehrfachregression: 2 > 0  minimum yi   0  1  xi   2  xi2    yi   0  1  x1i   2  x2i Dr. Paul Marx 2 < 0  maximum Folie 138
  133. 133. Linearisierung polynominaler Funktionen  Dieser „Linearisierungsansatz“ ist auf alle polynomiale Funktionen erweiterbar yi   0  1  xi   2  xi2   3  xi3     yi   0  1  x1i   2  x2i  3  x3i  Es können auch weitere Variablen bzw. Regressoren berücksichtigt werden Dr. Paul Marx Folie 139
  134. 134. Linearität in Parametern: Log-Log-Modell yi   0 xi  Log-Log-Modell 1  ln( yi )  ln( 0 )  ln( xi 1 ) ln( yi )  ln(  0 )  1 ln( xi ) ln( yi )    1 ln( xi ) 1 <0 yi    1 xi Dr. Paul Marx Folie 140
  135. 135. Das weiß jeder:  Einfachste Operationen mit (natürlichen) Logarithmen x Definition: ln( N )  x  e  N Folgen: ln( 1)  0, da e 0  1 ln( e)  1, da e1  e ln( 0)   Eigenschaften: ln( ab)  ln( a )  ln( b) a ln( )  ln( a )  ln( b) b ln a b  b ln( a ) 1 ln( a )  ln( a ) b b Dr. Paul Marx Folie 141
  136. 136.  Attraktive Eigenschaften von Log-Log-Modellen: 1. Im Zwei-Variablen-Modell: Einfach festzustellen! 2. Streudiagram von ln(y) auf ln(x) -> ungefähr Linie ln(y) yi  0 xi ln(Absatz) Absatz y  1 ln( yi )  ln(  0 )  1 ln( xi ) x ln(x) Preis 3. ln(Preis) 1 = Elastizität von y‘ in Bezug auf x‘ relative Veränderung in y = relative Veränderung in x (z.B. Preiselastizität vom Absatz) = const Dr. Paul Marx Folie 142
  137. 137. Linearität in Parametern: Log-Lin-Modell  In manchen Fällen kann auch die exponentielle Modellierung die Daten gut erklären y i  e  0  1  x yi  e 0 e 1 x ln( yi )  ln( e 0 )  ln( e 1 x ) 1 >0 ln( yi )   0  1  x  Log-Lineares Regressionsmodell yi   0  1  x  Semielastizität = relative Veränderung im Regressand / absolute Veränderung im Regressor Dr. Paul Marx Folie 144
  138. 138. Linearität: Inverses Modell a.k.a. Hyperbolisches Modell  Linear in Parametern  Nicht linear in Variablen  Ersetzen 1/x durch x‘  yi   0  1  xi (lineares Regressionsmodell) 1 ˆ y i   0  1  x  Wichtige Eigenschaft: Bei x  ∞ 1(1/x)  0, y  0 d.h. y hat eine Asymptote Dr. Paul Marx Folie 145
  139. 139. Inverses Modell: Asymptote ˆ y i   0  1  y 1 >0 0 >0 y 1 x 1 >0 0 <0 1 <0 0 >0 y 0 0 0 x 0 0 Dr. Paul Marx x 0  1 x 0 Folie 146
  140. 140. Inverses Modell: Beispiel Sterberate von Kindern (CM) und Pro-Kopf-BIP (PGNP) von 64 Ländern in 1980 Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 CM 128 204 202 197 96 209 170 240 241 55 75 1219 24 165 94 96 148 98 161 118 269 189 126 12 167 135 107 72 128 27 152 224 PGNP 1870 130 310 570 2050 200 670 300 120 290 1180 900 1730 1150 1160 1270 580 660 420 1080 290 270 560 4240 240 430 3020 1420 420 19830 420 530 Nr. 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 CM 142 104 287 41 312 77 142 262 215 246 191 182 37 103 67 143 83 223 240 312 12 52 79 61 168 28 121 115 186 47 178 142 Dr. Paul Marx PGNP 8640 350 230 1620 190 2090 900 230 140 330 1010 300 1730 780 1300 930 690 200 450 280 4430 270 1340 670 410 4370 1310 1470 300 3630 220 560 Man würde erwarten, dass beim steigenden Pro-Kopf-BIP die Sterberate sinken würde, weil Menschen mehr Geld für Gesundheit haben. Das ist aber nicht der Fall. Zunächst sinkt die Sterberate drastisch. Dann aber wird die Senkung stark gedämpft. Bei PGNP  ∞ konvergiert CM zum Wert von ungefähr 82 Folie 147
  141. 141. Inverses Modell: Beispiel CM  81,343  27.356,075 1 PGNP i 0 82 Dr. Paul Marx Folie 148
  142. 142. Log-Hyperbolisches Modell  Log-Hyperbolisches a.k.a. logarithmisch-inverses a.k.a. S-Förmiges Modell ye  0  1 1 x oder ln( y )   0  1 1 x  Zunächst erhöht sich y mit steigender Wachstumsrate (konvexer Verlauf, Steigungskoeffizient > 1).  Dann sinkt die Wachstumsrate (konkaver Verlauf, Steigungskoeffizient zwischen 0 und 1). Solchen Verlauf haben wir in der letzten Stunde am Beispiel von Abhängigkeit vom Absatz von Werbungsausgaben beobachtet Dr. Paul Marx Folie 149
  143. 143. ÜBUNGSAUFGABE  SPSS Datensatz: Absatz von Rosen (1995-1999) Y Jahr 1995 1996 1997 1998 1999 Quartal III IV I II III IV I II III IV I II III IV I II x1 x2 Anzahl von Durchschnittspreis Durchschnittspreis verkauften Rosen, für Dutzend füt Dutzend Dutzend Rosen, $ Nelken, $ 11.484 9.348 8.429 10.079 9.240 8.862 6.216 8.253 8.038 7.476 5.911 7.950 6.134 5.868 3.160 5.872 2,26 2,54 3,07 2,91 2,73 2,77 3,59 3,23 2,60 2,89 3,77 3,64 2,82 2,96 4,24 3,69 Dr. Paul Marx 3,49 2,85 4,06 3,64 3,21 3,66 3,76 3,49 3,13 3,20 3,65 3,60 2,94 3,12 3,58 3,53 x3 Durchschnittlich Trend verfügbares wöchentliches Familieneinkommen, $ 158,11 173,36 165,26 172,92 178,46 198,62 186,28 188,98 180,49 183,33 181,87 185,00 184,00 188,20 175,00 188,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Folie 150
  144. 144. HAUSAUFGABE Für gegebenen Datensatz  Betrachten Sie folgende Absatzfunktionen: yt   0  1 x1t   2 x2t   3 x3t  ut ln( yt )   0  1 ln( x1t )   2 ln( x2t )   3 ln( x3t )  ut 1. 2. 3. 4. 5. Schätzen Sie die Parameter des linearen Modells und interpretieren Sie die Ergebnisse Schätzen Sie die Parameter des Log-linearen Modells und interpretieren Sie die Ergebnisse Parameter 1, 2 und 3 zeigen entsprechend Eigenpreis-, Kreuz-Preis- und Einkommenselastizität an. Welches Vorzeichen haben sie a-priori? Widersprechen die Berechnungsergebnisse Ihren Erwartungen? Welches der beiden Modelle würden Sie auf der Basis Ihrer Analyse wählen? Begründen Sie Ihre Antwort! Wie kann man die Eigenpreis-, Kreuz-Preis- und Einkommenselastizität für das lineare Modell berechnen? Dr. Paul Marx Folie 151
  145. 145. Annahmen des linearen Regressionsmodells (LRM) 1. Variabilität in xi – 2. ! xi müssen variieren: Var(xi) > 0 Linearität – – in Variablen in Parametern 3. Metrisches Niveau der Regressoren 4. Korrekte Spezifizierung vom Modell – 5. Stichprobe ist größer, als die Anzahl der Regressoren – 6. 7. Keine Korrelation zwischen den erklärenden Variablen und der Störgröße Homoscedastizität – 9. Zahl der zu schätzender Parameter (J+1) ist kleiner, als die Zahl der vorliegenden Beobachtungen (N) Störgrößen haben den Erwartungswert Null Keine Kovarianz zwischen xi und ui – 8. Modell enthält die relevanten erklärenden Variablen Störgrößen haben eine konstante Varianz Keine Autokorrelation – Störgrößen sind unkorelliert 10. Keine Multikolinearität – Zwischen den erklärenden Variablen besteht keine lineare Abhängigkeit 11. Normalverteilung der Störgrößen Fixierte Werte von xi im wiederholten Sampling Dr. Paul Marx Folie 152
  146. 146. Annahmen des LRM: Metrisches Niveau der Regressoren  Die abhängige Variable in den Regressionsmodellen werden nicht nur von metrisch skalierten Variablen (wie z.B. Einkommen, Output, Preis, Kosten, Alter, Höhe, Temperatur) beeinflusst. Oft ist die Analyse der Abhängigkeiten von Variablen qualitativer Natur interessant (z.B. Geschlecht, Region, Nationalität, Ausbildung, politische Ansichten, usw.).  Nominale Variablen = Indikatoren = Kategorien = Qualitative Variablen  Unabhängig von der Ursache, üben solche Faktoren offensichtlich eine Wirkung auf die abhängige Variable aus und sollten daher in die Regressionsanalyse eingeschlossen werden. Dr. Paul Marx Folie 153
  147. 147. Dummy Variablen  Dummy Variablen sind nominale Variablen mit zwei Ausprägungen, die zeigen, ob ein Merkmal vorhanden ist, oder nicht.  Dummy Variablen per se sind ein Instrument zur Klassifizierung von Daten in exklusive Kategorien, wie „männlich“, oder „weiblich“. – – – schwarz = 1, weiß = 0 männlich = 1, weiblich = 0 betrunken = 1, nicht betrunken = 0  Dummy Variablen können genau wie quantitative Variablen in die Regressionsanalyse eingeschlossen werden.  Regressionsmodelle, die nur aus Dummy Variablen bestehen, werden als ANOVA-Modelle (Analysis of Variance) bezeichnet. Dr. Paul Marx Folie 154
  148. 148. ANOVA: Beispiel SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986) Salary 19.583 20.263 20.325 26.800 29.470 26.610 30.678 27.170 25.853 24.500 24.274 27.170 30.168 26.525 27.360 21.690 21.974 20.816 18.095 20.939 22.644 24.624 27.186 33.990 23.382 20.627 Spending 3346 3114 3554 4642 4669 4888 5710 5536 4168 3547 3159 3621 3782 4247 3982 3568 3155 3059 2967 3285 3914 4517 4349 5020 3594 2821 D2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 D3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 Salary 22.795 21.570 22.080 22.250 20.940 21.800 22.934 18.443 19.538 20.460 21.419 25.160 22.482 20.969 27.224 25.892 22.644 24.640 22.341 25.610 26.015 25.788 29.132 41.480 25.845 Spending 3366 2920 2980 3731 2853 2533 2729 2305 2642 3124 2752 3429 3947 2509 5440 4042 3402 2829 2297 2932 3705 4123 3608 8349 3766 D2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D3 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 D2 = Staaten in Nordost in im zentralen Norden (21 Staaten) D3 = südliche Staaten (17 Staaten) 13 westliche Staaten (nicht kodiert) Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986 Dr. Paul Marx Folie 155
  149. 149. ANOVA: Beispiel  Ziel: Herausfinden, ob sich das durchschnittliche Jahreseinkommen von Schullehrern zwischen unterschiedlichen Staaten variiert.  Nach einfacher Betrachtung des Datensatzes können wir feststellen: – – – Norden und Nordost: Süden: Westen: $ 24.424,14 $ 22.894 $ 26.158,62  Unterscheiden sich diese Zahlen auch statistisch voneinander?  Das können wir u.a. mittels ANOVA feststellen: yi   0   2 D2i  3 D3i  ui Dr. Paul Marx Folie 156
  150. 150. ANOVA-Interpretation yi   0   2 D2i  3 D3i  ui  Durchschnittseinkommen von Schullehrern im zentralen Norden und Nordosten E(yi | D2i=1, D3i=0) = 0+ 2  Durchschnittseinkommen von Schullehrern in südlichen Staaten E(yi | D2i=0, D3i=1) = 0+ 3  Durchschnittseinkommen von Schullehrern im Westen E(yi | D2i=0, D3i=0) = 0  Steigungskoeffizienten 2 und 3 geben an, wie stark sich das Durchschnittseinkommen im Norden bzw. Süden von dem „westlichen“ Durchschnittseinkommen unterscheidet. Dr. Paul Marx Folie 157
  151. 151. ANOVA-Interpretation yi   0   2 D2i  3 D3i  ui yi  26.158,62  1734,47 D2i  3264,62D3i  Durchschnittseinkommen im Westen beträgt $26.158 0 = $26.158 $24.424 (0 + 2)  Einkommen im Norden ist um $1734 kleiner als das im Westen  Einkommen im Süden ist um $3264 kleiner $22.894 (0 + 3) West Northeast and North Central South  WARNUNG: Dummy Variablen zeigen nur die Unterschiede auf (ob sie existieren). Sie erlauben keine kausale Schlussfolgerungen – zeigen also keine Gründe für diese Unterschiede auf! Dr. Paul Marx Folie 158
  152. 152. ANOVA-Interpretation  Unterscheiden sich die errechneten Durchschnittseinkommen von nördlichen und südlichen Staaten vom westlichen Durchschnittseinkommen statistisch signifikant? yi  26.158,62  1734,47 D2i  3264,62D3i Sj = (1128,523) (1435,953) (1499,155) t (23,180) (-1,208) (-2,178) (0,000) (0,233) (0,034) =  = r2 = 0,0901  Dafür schauen wir auf das Signifikanzniveau der jeweiligen Steigungskoeffizienten.   von 2 = 23%  Unterschied zwischen Norden und Westen ist nicht signifikant! Dr. Paul Marx Folie 159
  153. 153. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 1 Für alle qualitativen Regressoren muss die Anzahl von Dummy Variablen um eins kleiner sein, als die Anzahl der Kategorien des Regressoren. Wenn die qualitative Variable m Kategorien hat, dann muss die Anzahl von ins Modell einzuführenden Dummy Variablen (m-1) sein. Sonst wird man im sog. dummy variable trap gefangen. Der Grund hierfür ist die perfekte Multikolinearität zwischen 0 und der Summe aller Di, die durch das Einführen vom Dm entsteht. Dr. Paul Marx Folie 160
  154. 154. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 2 Die Kategorie, für die keine Dummy Variable eingeführt wird, wird als – – – – BasisBenchmarkKontrollVergleichs- -Kategorie bezeichnet. in unserem Beispiel war die Kategorie „westliche Staaten“ die Basis-Kategorie Regel 3 0 zeigt den Mittelwert der Basis-Kategorie an. in unserem Beispiel betrug 0 26.159. Dieser Wert repräsentiert das Durchschnittsgehalt von Schullehrer in der Basis-Kategorie – also in den westlichen Staaten Dr. Paul Marx Folie 161
  155. 155. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 4 Die Koeffizienten bei Dummy Variablen werden als differentielle Schnittpunkte (differential intercept coefficients) bezeichnet. Da sie sagen, um wie viel sich der Wert vom Schnittpunkt verändert, wenn die Dummy Variable den Wert 1 einnimmt. Der Wert von ungefähr -1734 sagt uns, dass das Durchschnittsgehalt von Schullehrer im Norden von USA kleiner ist als das Durchschnittsgehalt von westlichen Lehrer um $1734 Regel 5 Die Auswahl von Basis-Kategorie bleibt immer dem Forscher überlassen (wenn die qualitative Variable mehr als eine Kategorie hat). Manchmal wird die Auswahl durch das betrachtete Problem per se diktiert. Im betrachteten Beispiel konnten wir auch z.B. die Kategorie „Staaten im Süden von USA“ als Basis-Kategorie wählen. Das würde nichts an den finalen Schlussfolgerungen verändern. In diesem Fall würde der Schneideterm ungefähr $24.894 betragen, was dem Durchschnittsgehalt von Schullehrer im Süden von den USA entspricht. Dr. Paul Marx Folie 162
  156. 156. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 6 Man kann die dummy variables trap umgehen und für alle Kategorien eine Dummy Variable erstellen, indem man den Schnittterm aus dem Regressionsmodell ausschließt. Für unser Beispiel bekommen wir dann folgendes Modell (Regression durch den Ursprung): yi  1D1i   2 D2i  3 D3i  ui yi  26.158,62 D1i  24.242,14 D2i  22,894 D3i Die Interpretation von Regressionsparameter ist in diesem Fall: 1 = Durchschnittsgehalt von Schullehrer in westlichen Staaten 2 = Durchschnittsgehalt von Schullehrer in nördlichen und nordöstlichen Staaten 3 = Durchschnittsgehalt von Schullehrer in südlichen Staaten M.a.W. das Weglassen des freien Gliedes erlaubt die Einführung von Dummy Variablen entsprechend der Anzahl von Kategorien und somit die direkte Schätzung der Mittelwerte der jeweiligen Kategorien. WARNUNG: Das gilt nur für ANOVA Dr. Paul Marx Folie 163
  157. 157. 7 Richtlinien zur Nutzung von Dummy Variablen Regel 7 Welche Methode für die Einführung von Dummy Variablen ist besser?  In den meisten Fällen werden sich die Forscher für Modelle mit dem Schnittpunkt entscheiden, weil es ihnen erlaubt, die Frage einfacher zu untersuchen, ob die Kategorisierung einen Unterschied ausmacht.  Wenn das der Fall ist, werden die Unterschiede mit den Koeffizienten bei Dummy Variablen quantifiziert.  Ob die Kategorisierung relevant bzw. sinnvoll ist, kann mittels t-Tests der Koeffizienten bei Dummy Variablen gegen 0 geprüft werden. (Oder generell mittels F-Tests am gesamten Set entsprechender Dummy Variablen) Dr. Paul Marx Folie 164
  158. 158. ANOVA mit zwei qualitativen Variablen Beispiel: Stundenlohn in Abhängigkeit von Familienstatus und Region 11,8148 S j = (0,4015) (0,4642) (0,4854) t = (21,2528) (2,3688) (-3,4462)  = mit yi D2 D3 + 1,0997 D2i – 1,6729 D3i yi = (0,0000) (0,0182) (0,0006) r2 = 0,0322 Sind die Unterschiede statistisch signifikant? = Stundenlohn, € = Familienstatus, 1= verheiratet, 0 = sonst = Region, 1= Süden, 0 = sonst Dr. Paul Marx Folie 165
  159. 159. ANOVA mit zwei qualitativen Variablen: Interpretation yi = 11,8148 + 1,0997 D2i – 1,6729 D3i  Basis-Kategorie: ledig, Wohnort nicht im Süden Gruppe Durchschnittsgehalt, Berechnung Durchschnittsgehalt, $ Ledige 0 11,81 Verheiratete 0 + 2 12,91 (11,81 + 1,10 ) Wohnort im Süden 0 + 3 10,14 (11,81 – 1,67 ) Verheiratete im Süden 0 + 2 + 3 11, 24 (11,81 + 1,10 – 1,67) D2 = Familienstatus, 1= verheiratet, 0 = sonst D3= Region, 1= Süden, 0 = sonst Dr. Paul Marx Folie 166
  160. 160. Regression mit Mischung aus quantitativen und qualitativen Variablen: ANCOVA-Modelle  ANOVA-Modelle eignen sich für die Analyse der Unterschiede in den Mittelwerten unterschiedlicher Gruppen. Diese Modelle bestehen nur aus qualitativen Variablen.  In den meisten Fällen üben aber nicht nur Gruppenzugehörigkeit, sondern auch ein oder mehrere quantitative Variablen Einfluss auf die abhängige Variable aus.  Regressionsmodelle, die sowohl quantitative, als auch qualitative Variablen enthalten werden ANCOVA-Modelle genannt. • ANCOVA = Analysis of Covariance  ANCOVA erweitert ANOVA um die Methode der statistischen Kontrolle von Effekten quantitativer Variablen (Kovariate = Kontrollvariablen). Dr. Paul Marx Folie 167
  161. 161. ANCOVA: Beispiel SPSS Datensatz: Durchschnittseinkommen von Schullehrer in unterschiedlichen Staaten (USA, 1986) Salary 19.583 20.263 20.325 26.800 29.470 26.610 30.678 27.170 25.853 24.500 24.274 27.170 30.168 26.525 27.360 21.690 21.974 20.816 18.095 20.939 22.644 24.624 27.186 33.990 23.382 20.627 Spending 3346 3114 3554 4642 4669 4888 5710 5536 4168 3547 3159 3621 3782 4247 3982 3568 3155 3059 2967 3285 3914 4517 4349 5020 3594 2821 D2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 D3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 Salary 22.795 21.570 22.080 22.250 20.940 21.800 22.934 18.443 19.538 20.460 21.419 25.160 22.482 20.969 27.224 25.892 22.644 24.640 22.341 25.610 26.015 25.788 29.132 41.480 25.845 Spending 3366 2920 2980 3731 2853 2533 2729 2305 2642 3124 2752 3429 3947 2509 5440 4042 3402 2829 2297 2932 3705 4123 3608 8349 3766 D2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D3 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 D2 = Staaten in Nordost in im zentralen Norden (21 Staaten) D3 = südliche Staaten (17 Staaten) 13 westliche Staaten (nicht kodiert) Was ist hier die BasisKategorie? Quelle: National Educational Association, in Albuquerque Tribune, Nov. 7, 1986 Dr. Paul Marx Folie 168
  162. 162. ANCOVA: Beispiel  Hypothese: Das Durchschnittsgehalt von Schullehrern müsste zwischen drei Regionen nicht variieren, wenn zusätzliche Variablen herangezogen werden, die nicht über diese Regionen standardisiert werden können. M.a.W. der von uns festgestellte Unterschied zwischen drei Regionen ist eigentlich auf andere Faktoren zurückzuführen – nicht auf den Wohnort von Lehrern.  Z.B. kann das Gehalt von der Höhe der Ausgaben für Ausbildung im konkreten Staat abhängen.  Um das zu testen, entwickeln wir folgendes Modell: yi   0   2 D2i  3 D3i   4 xi  ui mit xi = durchschnittliche staatliche Ausgaben pro Schüler ($) Dr. Paul Marx Folie 169
  163. 163. ANCOVA: Interpretation Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Standardfe hler 13269,114 ,318 Nothern region -1673,514 South region -1144,157 Beta Spending on publich school per pupil r2 = 0,723 T 1395,056 3,289 Standardisiert e Koeffizienten Signifikanz 9,512 ,000 ,830 10,354 ,000 801,170 -,199 -2,089 ,042 861,118 -,130 -1,329 ,190 a Abhängige Variable: Teacher's salary yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi  Bei Erhöhung der staatlichen Ausgaben um $1 ceteris paribus steigt das Gehalt der Lehrer um $3,29  Im Vergleich zu dem Modell ohne Kovariaten ist der Unterschied zwischen Norden und Westen nun signifikant geworden, im Gegensatz zum Unterschied zwischen Süden und Westen. Dr. Paul Marx Folie 170
  164. 164. ANCOVA: Interpretation yi  13.269,11  1673,514D2i  1144,157 D3i  3,289 xi y  Alle drei geraden sind parallel (Warum?) 3,29 13,269 1 12,125 1 11,595 Nicht uterscheidbar 1 3,29  Zwei Regressionsgeraden (für Westen und Süden) sind statistisch nicht von einander unterscheidbar und stellen – statistisch gesehen – dieselbe Gerade dar Dr. Paul Marx 3,29 x Folie 171
  165. 165. Interaktionseffekte mit Dummy Variablen: Prolog Beispiel: Durchschnittlicher Stundenlohn in Relation zu Ausbildung, Geschlecht und Hautfarbe yi   0   2 D2i   3 D3i  xi  ui mit yi xi D2 D3 : Stundenlohn, $ : Ausbildung (Jahre, inkl. Schule) : Geschlecht, 1= weiblich, 0 = männlich : Hautfarbe, 1 = nicht weiß , 0 = weiß Dr. Paul Marx Folie 172
  166. 166. Interaktionseffekte mit Dummy Variablen yi   0   2 D2i   3 D3i  xi  ui  Annahmen dieses Models: – Der Differenzierte Effekt von D2 ist konstant über die beiden Kategorien der Hautfarbe Wenn der Durchschnittslohn von Männern höher als der von Frauen ist, dann hängt dieser Unterschied nicht von der Hautfarbe ab. – Der Differenzierte Effekt von D3 ist konstant über die beiden Kategorien des Geschlechts Wenn nicht weiße weniger verdienen, dann gilt das sowohl für Männer als auch für Frauen.  In manchen Fällen sind solche Annahmen untauglich – – – Es ist möglich, dass der Lohnunterschied zwischen Mann und Frau in verschiedenen Hautfarbenkategorien unterschiedlich ist. Z.B. der Unterschied im Stundenlohn unter Schwarzen kann größer sein, als unter Weißen. M.a.W. es kann eine Interaktion zwischen den qualitativen Variablen D2 und D3 geben. Der Effekt solcher Interaktionen ist nicht einfach additiv, sondern eher multiplikativ: yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui Dr. Paul Marx Folie 173
  167. 167. Interaktionseffekt – – – Bezeichnet Wechselwirkungen zwischen zwei oder mehreren Merkmalen ein gemeinsamer Effekt zweier Variablen auf die untersuchte abhängige Variable. Ein Interaktionseffekt bezieht sich darauf, dass die Wirkung einer Variablen mit den Ausprägungen der anderen Variablen variiert. Der Tendenz nach führt ceteris paribus in den meisten (modernen) Gesellschaften die Geburt eines Kindes zur Verringerung des Umfangs der Erwerbstätigkeit von Frauen, während bei den Männern keine oder sogar eine gegenläufige Wirkung (Steigerung des Umfangs der Erwerbstätigkeit) festzustellen ist. Kunden, die sich schon einmal beschwert haben, äußern häufig eine vergleichsweise große Unzufriedenheit, als Kunden, die sich nicht beschwert haben. Es liegt also ein Interaktionseffekt zwischen dem Vorliegen einer Beschwerde und der Kundenzufriedenheit vor. Dr. Paul Marx Folie 174
  168. 168. Interaktionseffekte mit Dummy Variablen yi   0   2 D2i   3 D3i   4 D2i D3i  xi  ui  Durchschnittlicher Stundenlohn von farbigen Frauen E(yi | D2i=1, D3i=1) = (0 + 2 + 3 + 4)+ xi mit 2 : differenzierter Effekt von „Frausein“ 3 : differenzierter Effekt von Nicht-Weiß-Sein 4 : differenzierter Effekt von Farbige-Frau-Sein Letzterer zeigt, dass der durchschnittliche Stundenlohn von nicht-weißen Frauen sich (um 4) von den durchschnittlichen Stundenlöhnen von Frauen oder Nicht-Weißen unterscheidet. – Z.B. wenn alle drei differenzierte Effekte negativ sind, dann verdienen schwarze Arbeiterinnen wesentlich weniger, als generell Frauen oder generell Nicht-Weiße im Vergleich zu Basis-Kategorie (weiße Männer). Dr. Paul Marx Folie 175
  169. 169. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel Ohne Interaktionseffekt: yi  0,2610  2,3606 D2i  1,7327 D3i  0,8028 xi Signifikanz (0,0561) (0,0233) (0,034) (0,0417)  Ceteris paribus – – Durchschnittlicher Stundenlohn von Frauen ist um $2,36 kleiner Durchschnittlicher Stundenlohn von nicht weißen ist um $1,73 kleiner Männer Frauen -- -2,36 -1,73 -4,09 Weiß Nicht weiß Dr. Paul Marx Folie 176
  170. 170. Interaktionseffekte mit Dummy Variablen: Zahlenbeispiel Mit Interaktionseffekt: yi  0,2610  2,3606D2i  1,7327 D3i  2,1289D2i D3i  0,8028xi Sig. (0,0561) (0,0233) (0,034) (0,0876) (0,0417)  Bei gleicher Ausbildung: (2 + 3 + 4) = – 2,3606 – 1,7327 + 2,1289 = –1,964 – Durchschnittlicher Stundenlohn von nicht weißen Arbeiterinnen ist kleiner um $1,96 als der Stundenlohn von weißen Männern. Männer Frauen -- -2,36 -1,73 -1,96 Weiß Nicht weiß Dr. Paul Marx Folie 177
  171. 171. Stückweise Regression (piecewise linear regression)  Trendänderung, Strukturbrüche Provision – Z.B. bei Änderung der wirtschaftlichen Verhältnisse und besonderen Ereignissen in der Zeitreihenanalyse Z.B. Strukturänderung in (Mitarbeiter-) Belohnung Benzinpreis – X* Einführung der Benzinsteuer Zeit Dr. Paul Marx X* Absatzziel Verkaufsmenge Folie 178
  172. 172.  Steigungskoeffizient der Regressionsgerade ändert sich im Punkt X* Provision Stückweise Regression  Regressionsmodell: 1+2 yi   0  1 xi   2 ( xi  X ) Di  ui * 1 1 mit yi : Provision, € xi : vom Verkäufer generierte Verkaufsmenge X* : Schwellenwert, Absatzziel 1 X* Absatzziel Verkaufsmenge 1, wenn xi  X * D * 0, wenn xi  X Dr. Paul Marx Folie 179
  173. 173. yi   0  1 xi   2 ( xi  X * ) Di  ui Provision Stückweise Regression 1+2  Provision unter dem Absatzziel E(yi | Di=0, xi, X*) = 0+ 1 xi 1 1  Provision über dem Absatzziel E(yi | Di=1, xi, X*) = 0 – 2X* + (1 + 2) xi Dr. Paul Marx 1 X* Absatzziel Verkaufsmenge Folie 180
  174. 174. Stückweise Regression: Beispiel Hypothetischer Datensatz Kosten/Output  Annahme: Steigung der Kostenfunktion kann sich ab dem Output-Niveau von 5.500 Einheiten verändern Total cost, $ Output, units 256 414 634 778 1.003 1.839 2.081 2.423 2.734 2.914 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000  Modell: yi   0  1 xi   2 ( xi  X * ) Di  ui Dr. Paul Marx Folie 181
  175. 175. Stückweise Regression: Beispiel Koeffizienten(a) Nicht standardisierte Koeffizienten Modell 1 Standardfe hler B (Konstante) -145,717 ,046 ,095 xi-x* D Beta ,083 r2 = 0,974 T 176,734 ,279 Output, units Standardisiert e Koeffizienten Signifikanz -,824 ,437 ,842 6,067 ,001 ,159 1,145 ,290 a Abhängige Variable: Total cost, $ yi  145,717  0,279 xi  0,095( xi  X * ) Di  ui  Grenzkosten unter dem Schwellenwert: 1 = 0,279  Grenzkosten über dem Schwellenwert: (1 + 2) = 0,279 + 0,095 = 0,374 Dr. Paul Marx Folie 182

×