Quantitative Evaluierungsmethoden ohne Formeln erklärt

337 Aufrufe

Veröffentlicht am

Quantitative Methoden der Wirkungsmessung ohne Formeln erklärt. Wann passt welche Methode?

Veröffentlicht in: Wirtschaft & Finanzen
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
337
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
5
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Quantitative Evaluierungsmethoden ohne Formeln erklärt

  1. 1. Quantitative Wirkungsmessung (ohne Formeln) Linda Kleemann
  2. 2. 2 Einordnung • Evaluierung und Monitoring – Monitoring: Auskunft, ob ein Programm wie geplant abläuft oder es zu Störungen kommt – Prozessevaluation: Evaluation des Programmablaufs – Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich mit alternativen Mittelverwendungen – Wirkungsbeobachtung: Gewünschte Effekte? Dem Programm zuzuschreiben? • Dieser Vortrag: quantitative Methoden der Wirkungsbeobachtung oder Wirkungsmessung
  3. 3. Quantitative Methoden der Wirkungsbeobachtung • Versuch der Messung eines kausalen Effekts, des Beitrags der Maßnahme zur Veränderung eines Wirkungsindikators Fokus auf interner Validität mit besonderer Berücksichtigung von: • Selektionsverzerrung (Fragen alleine reicht nicht) – Zwei Ursachen von Selektion können analytisch unterschieden werden: “observables” (Alter, Bildung etc.) und “unobservables” (Motivation, bestimmte schwer beobachtbare Fähigkeiten wie Unternehmergeist) • Weiteren Faktoren, die den Wirkungsindikator beeinflussen könnten • Berücksichtigung von Wirkungsheterogenität Zum Teil Berücksichtigung von Wirkungsmechanismen (Fragen nach dem warum oft eher qualitativ) 3
  4. 4. • Interne Validität (identification strategy) – Messe ich richtig? Also wird die Veränderung der abhängigen Variablen tatsächlich vom Stimulus und nicht durch das Auftreten von Störvariablen oder Verzerrungen verursacht – Trade off zwischen maximaler Situationskontrolle und Realitätsnähe • Externe Validität – Übertragbarkeit auf die Wirklichkeit oder andere Regionen/Kontexte 4
  5. 5. 5 Das Evaluationsproblem • Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn von Unternehmen) zwischen einer Situation MIT und OHNE Implementierung eines Projekts/Programms • Messung der Wirkung: Evaluationsproblem – Messbar: Indikator VOR and NACH Maßnahme – Nicht/schwer messbar: Indikator OHNE Maßnahme • Lösung: Konstruktion eines COUNTERFACTUALS bzw. Identifikation einer relevanten Kontrollgruppe mittels geeigneter Methoden • Evaluationsproblem als Problem fehlender Daten: Wir beobachten nie denselben Teilnehmer auch als Nicht- Teilnehmer
  6. 6. 6 Konstruktion eines Counterfactuals • Folgende Probleme sind zu lösen – Selektionsverzerrung: Selektion in ein Programm in der Regel nicht zufällig – Confounding Factors: andere Dinge passieren gleichzeitig, und zwar nicht unbedingt im gleichen Ausmaß in der Kontrollgruppe – Spillovers: Nicht-Teilnehmer werden durch das Programm beeinflusst • Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer oft nicht ausreichend, auch nicht Vorher-Nachher • Zwei Vorgehensweisen – Soziale Experimente: Zufällige Auswahl der Teilnehmer und Bildung einer Kontrollgruppe – Quasi-experimentelle Methoden: Statistische Verfahren zur Identifikation einer Kontrollgruppe
  7. 7. 7 Evaluationsproblem grafisch: wir beobachten einen Indikator… Y1 (observed) Y0 t=0 Intervention
  8. 8. 8 …der nach der Intervention höher ist Y1 (observedl) Y0 t=0 t=1 time Intervention
  9. 9. 9 Um die Wirkung des Programms zu messen müssten wir wissen was passiert wäre wenn das Programm nicht existiert hätte Y1 (observedl) Impact = Y1- Y1 * Y1 * (counterfactual) Y0 t=0 t=1 time Intervention
  10. 10. Probleme bei der Konstruktion des Counterfactuals Y1 Y1 * Y0 t=0 t=1 time Selection bias Confounding factors
  11. 11. Häufig benutzte Lösungsmethoden • Randomized controlled trials (RCTs) • Double difference/difference in difference • Matching Methoden • Diskontinuitätsdesigns • (endogeneous) Switching Regressions, Verwendung von Instrumentvariablen (IVs) (kombinierbar) 11
  12. 12. 12 Soziale Experimente / RCTs • Programm/Projekt wird zufällig Teilen einer Population (idR Stichprobe) zugeordnet • Zufällige Auswahl schließt Selektionsverzerrung aus: Teilnehmer und Nicht-Teilnehmer unterscheiden sich nicht, weder in beobachtbaren noch unbeobachtbaren Eigenschaften • Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern ausschließlich auf Programm zurückzuführen
  13. 13. 13 Beispiel: Kapitalerträge von Mikrounternehmern in Entwicklungsländern • De Mel, McKenzie, Woodruff: Experiment mit Mikrounternehmern in Sri Lanka (z.B. QJE, 2008) • Ziele – Messung der Kapitalerträge in Kleinstunternehmen – Gründe für hohe (?) Kapitalerträge – Gründe für Unterschiede zwischen Unternehmern – Potential für Mikrokredit/-finanzprogramme • Schönes Beispiel für Anwendbarkeit von Experimenten im Kontext von Privatwirtschaftsentwicklung
  14. 14. 14 Das Experiment • Randomisiertes Experiment: Ein zufällig ausgewählter Teil der befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in Sri Lanka erhält einen Transfer/Preis von USD 100 oder USD 200 – USD 100 Investitionsgüter oder cash – USD 200 cash • Fünf vierteljährliche Umfragerunden, Preise nach der ersten und dritten (Lotterie) • Investitionsgüter gewählt durch Unternehmer, gekauft durch RAs • 408 Unternehmen, ca. 50% erhalten treatment
  15. 15. 15 Einige Resultate • 58 % des cash Transfers investiert • Investitionen in Erweiterung des bestehenden Geschäft, keine neuen riskanten Geschäfte • Geschätzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jährlich) – Höher für fähigere Unternehmer – Niedriger für reiche Haushalte (weniger kreditmarktbeschränkt) – Risikoaversion fast ohne Einfluss • Unvollständige Kreditmärkte wichtiger als fehlende Versicherungsmärkte
  16. 16. Probleme bei RCTs • Greift ggf. in die Implementierung ein • Ethische Fragen • „Hawthorne-Effekt“: Verhaltensänderung aufgrund von Teilnahme an einem Experiment • (Verhinderung von) Spillovers • Kritik von Deaton: u.a. Methodik (vieles unter anderem die Berechnung von Standardfehlern unterliegt Annahmen, daher kein „Gold Standard“, aber auch externe Validität, Verzerrung versus Präzision – Zum weiterhören: http://www.nyudri.org/events/annual-conference-2012-debates-in- development/deaton-v-banerjee/ und lesen: https://medium.com/@timothyogden/experimental-conversations-angus-deaton- b2f768dffd57 16
  17. 17. 17 Quasi-experimentelle Methoden: Überblick • Matching: Konstruktion einer Kontrollgruppe von Nicht- Teilnehmern mit möglichst ähnlichen Charakteristika • Double difference: erste Differenz Vorher-Nachher, zweite Differenz Teilnehmer vs. Nicht-Teilnehmer • Diskontinuitätsdesigns: Nutzung von „threshold effects“ (Schwellenwerteffekte), Vergleich von ansonsten sehr ähnlichen Teilnehmern knapp über vs. knapp unter Schwellenwert • Instrumentvariable: Zunächst Erklärung der Programmteilnahme, dann der Wirkung • Methoden kombinierbar
  18. 18. 18 Matching • Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika ein möglichst ähnlicher Nicht-Teilnehmer zugeordnet: Kontrollgruppe • Weit verbreitetes Matching-Verfahren: „Propensity Score Matching“: Vergleich von Teilnehmern und Nicht-Teilnehmern mit gleicher Wahrscheinlichkeit am Programm teilzunehmen • Es wird angenommen, dass die Teilnahme gegeben beobachtbarer Faktoren unabhängig vom Ergebnis (der Wirkung) ist • Wirkung: Differenz in den durchschnittlichen Zielgrößen zwischen Teilnehmern und Kontrollgruppe • starke Ähnlichkeit mit experimentellen Methoden • Möglich wenn nur ex-post Daten existieren
  19. 19. 19 Matching: Probleme • Strikte Annahme: – Beseitigt nur den Teil der Selektionsverzerrung, der sich auf beobachtbare Unterscheidungsmerkmale zurückführen lässt, also keine “unobservable heterogeneity” • Treatment effect on the treated ist dann identifiziert (nicht- parametrisch) • Hohe Qualität der Daten erforderlich – Survey-Design für Teilnehmer und Nichtteilnehmer ähnlich (am besten identisch) – beiden Gruppen sollten ähnlichen ökonomischen Rahmenbedingungen ausgesetzt sein • In Empirie teils große Unterschiede in Ergebnissen auf der Basis von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim Versuch der Replikation von RCTs)
  20. 20. 20 Double Difference • Grundidee: Vergleich der Zielgrößen von Teilnehmern und Nicht-Teilnehmern vor und nach der Implementierung – Für Teilnehmer- und Nicht-Teilnehmergruppe wird der Unterschied in der Zielgröße vor und nach Einführung des Projekts berechnet (first difference) – Vergleich der Differenzen (second difference): Wirkung • Vorteil: Teil der Selektionsverzerrung durch unbeobachtbare, aber über die Zeit konstant bleibende Unterscheidungsmerkmale (z.B. Intelligenz) wird beseitigt • Kann mit Matching kombiniert werden, um Selektionsverzerrung noch weiter zu reduzieren
  21. 21. Diff-in-diff: Verzerrung muss additiv und zeitinvariant sein
  22. 22. Diff-in-diff versagt, wenn die Kontrollgruppe sich anders entwickelt  DD überschätzt die Wirkung
  23. 23. Oder …  DD unterschätzt die Wirkung (typische Situation für Entwicklungsprojekte?)
  24. 24. Mögliche Lösung • Kombination von PSM & DiD: – ~ Korrektur der Verzerrung vor und hinterher Y1 Impact? Y1 * Y0 t=0 t=1 time
  25. 25. 25 Double Difference: Probleme • Vor Beginn des Programms müssen Daten für die potentiellen Teilnehmer und Nicht-Teilnehmer erhoben werden: Oft keine genauen Informationen darüber, wer die Begünstigten sein werden • Annahme einer zeitinvarianten Selektionsverzerrung ist häufig nicht erfüllt: – Programme für benachteiligte/arme Gruppen spiegeln idR ungünstige Ausgangsbedingungen wider, die sich wiederum negativ auf die Entwicklung der Zielgröße für Teilnehmer im Vergleich zur Kontrollgruppe auswirken – Selektionsverzerrung nimmt dann im Zeitablauf zu und verzerrt den Schätzer für die Wirkung
  26. 26. 26 Zentral für Methodik: die passenden Daten • Auf jeden Fall: – Identifikation der (Nicht-) Teilnehmer – Intensität oder Modalität der Teilnahme – Sozioökonomische Charakteristika – Wirkungsvariablen (direkte oder indirekte Wirkung) • Vorsicht bei Operationalisierung der Wirkungsvariablen (Einkommen, Konsum) • Vorhandene Daten? „piggy-backing“? • Kosten sehr unterschiedlich • Methoden und Daten gehen Hand in Hand
  27. 27. 27 Methoden und Datenanforderungen Methode Datenanforderungen minimal optimal Experimente Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern Vorher-Nachher Daten mit Teilnehmern und Nicht-Teilnehmern, Erhebung weiterer Kontrollvariablen Matching Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern mit großer Stichprobe Wie links, aber für zwei Zeitpunkte (Vorher-Nachher) Double Difference Vorher-Nachher-Daten mit Teilnehmer und Nicht- Teilnehmer Wie links, aber für Teilnehmer und vergleichbare Nicht-Teilnehmer Instrument- variablen Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern, Instrument Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)
  28. 28. 28 Conclusions • Verzerrung einer Wirkungsbeobachtung kann zu vollkommen falschen Schlüssen hinsichtlich der Wirkungen eines Projektes führen! Anwendung rigoroser wissenschaftlicher Methoden daher sinnvoll • Trotz quantitativem Fokus: Grundsätzliche Probleme der Identifizierung eines Gegenszenarios und der relevanten Vergleichsgruppe sind bei qualitativen Verfahren die gleichen • Fokus bisher: Interne Validität • Um aus Wirkungsbeobachtungen zu lernen: Externe Validität wichtiger – Können diese Resultate generalisiert werden? • Faktoren, die beachtet werden müssen, bevor man die Ergebnisse einer Wirkungsbeobachtung verallgemeinert – Kontextbedingungen – Spillovers und allgemeine Gleichgewichtseffekte – Bei Auswertung von Studien: Publikationsbias

×