Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Quantitative Wirkungsmessung
(ohne Formeln)
Linda Kleemann
2
Einordnung
• Evaluierung und Monitoring
– Monitoring: Auskunft, ob ein Programm wie geplant abläuft
oder es zu Störungen...
Quantitative Methoden der
Wirkungsbeobachtung
• Versuch der Messung eines kausalen Effekts, des Beitrags der
Maßnahme zur ...
• Interne Validität (identification strategy)
– Messe ich richtig? Also wird die Veränderung der abhängigen
Variablen tats...
5
Das Evaluationsproblem
• Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn
von Unternehmen) zwischen einer Sit...
6
Konstruktion eines Counterfactuals
• Folgende Probleme sind zu lösen
– Selektionsverzerrung: Selektion in ein Programm i...
7
Evaluationsproblem grafisch: wir beobachten
einen Indikator…
Y1
(observed)
Y0
t=0
Intervention
8
…der nach der Intervention höher ist
Y1
(observedl)
Y0
t=0 t=1 time
Intervention
9
Um die Wirkung des Programms zu messen
müssten wir wissen was passiert wäre wenn das
Programm nicht existiert hätte
Y1
(...
Probleme bei der Konstruktion des
Counterfactuals
Y1
Y1
*
Y0
t=0 t=1 time
Selection bias
Confounding factors
Häufig benutzte Lösungsmethoden
• Randomized controlled trials (RCTs)
• Double difference/difference in difference
• Match...
12
Soziale Experimente / RCTs
• Programm/Projekt wird zufällig Teilen einer Population (idR
Stichprobe) zugeordnet
• Zufäl...
13
Beispiel: Kapitalerträge von Mikrounternehmern
in Entwicklungsländern
• De Mel, McKenzie, Woodruff: Experiment mit
Mikr...
14
Das Experiment
• Randomisiertes Experiment: Ein zufällig ausgewählter Teil der
befragten Umfrage Mikrounternehmen (Kapi...
15
Einige Resultate
• 58 % des cash Transfers investiert
• Investitionen in Erweiterung des bestehenden Geschäft, keine
ne...
Probleme bei RCTs
• Greift ggf. in die Implementierung ein
• Ethische Fragen
• „Hawthorne-Effekt“: Verhaltensänderung aufg...
17
Quasi-experimentelle Methoden: Überblick
• Matching: Konstruktion einer Kontrollgruppe von Nicht-
Teilnehmern mit mögli...
18
Matching
• Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika
ein möglichst ähnlicher Nicht-Teilnehmer zugeo...
19
Matching: Probleme
• Strikte Annahme:
– Beseitigt nur den Teil der Selektionsverzerrung, der sich auf
beobachtbare Unte...
20
Double Difference
• Grundidee: Vergleich der Zielgrößen von Teilnehmern und
Nicht-Teilnehmern vor und nach der Implemen...
Diff-in-diff: Verzerrung muss additiv und
zeitinvariant sein
Diff-in-diff versagt, wenn die Kontrollgruppe sich
anders entwickelt
 DD überschätzt die Wirkung
Oder …
 DD unterschätzt die Wirkung
(typische Situation für Entwicklungsprojekte?)
Mögliche Lösung
• Kombination von PSM & DiD:
– ~ Korrektur der Verzerrung vor und hinterher
Y1
Impact?
Y1
*
Y0
t=0 t=1 time
25
Double Difference: Probleme
• Vor Beginn des Programms müssen Daten für die potentiellen
Teilnehmer und Nicht-Teilnehme...
26
Zentral für Methodik: die passenden Daten
• Auf jeden Fall:
– Identifikation der (Nicht-) Teilnehmer
– Intensität oder ...
27
Methoden und Datenanforderungen
Methode Datenanforderungen
minimal optimal
Experimente Querschnittsdaten mit
Teilnehmer...
28
Conclusions
• Verzerrung einer Wirkungsbeobachtung kann zu vollkommen
falschen Schlüssen hinsichtlich der Wirkungen ein...
Nächste SlideShare
Wird geladen in …5
×

Quantitative Evaluierungsmethoden ohne Formeln erklärt

492 Aufrufe

Veröffentlicht am

Quantitative Methoden der Wirkungsmessung ohne Formeln erklärt. Wann passt welche Methode?

Veröffentlicht in: Wirtschaft & Finanzen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Quantitative Evaluierungsmethoden ohne Formeln erklärt

  1. 1. Quantitative Wirkungsmessung (ohne Formeln) Linda Kleemann
  2. 2. 2 Einordnung • Evaluierung und Monitoring – Monitoring: Auskunft, ob ein Programm wie geplant abläuft oder es zu Störungen kommt – Prozessevaluation: Evaluation des Programmablaufs – Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich mit alternativen Mittelverwendungen – Wirkungsbeobachtung: Gewünschte Effekte? Dem Programm zuzuschreiben? • Dieser Vortrag: quantitative Methoden der Wirkungsbeobachtung oder Wirkungsmessung
  3. 3. Quantitative Methoden der Wirkungsbeobachtung • Versuch der Messung eines kausalen Effekts, des Beitrags der Maßnahme zur Veränderung eines Wirkungsindikators Fokus auf interner Validität mit besonderer Berücksichtigung von: • Selektionsverzerrung (Fragen alleine reicht nicht) – Zwei Ursachen von Selektion können analytisch unterschieden werden: “observables” (Alter, Bildung etc.) und “unobservables” (Motivation, bestimmte schwer beobachtbare Fähigkeiten wie Unternehmergeist) • Weiteren Faktoren, die den Wirkungsindikator beeinflussen könnten • Berücksichtigung von Wirkungsheterogenität Zum Teil Berücksichtigung von Wirkungsmechanismen (Fragen nach dem warum oft eher qualitativ) 3
  4. 4. • Interne Validität (identification strategy) – Messe ich richtig? Also wird die Veränderung der abhängigen Variablen tatsächlich vom Stimulus und nicht durch das Auftreten von Störvariablen oder Verzerrungen verursacht – Trade off zwischen maximaler Situationskontrolle und Realitätsnähe • Externe Validität – Übertragbarkeit auf die Wirklichkeit oder andere Regionen/Kontexte 4
  5. 5. 5 Das Evaluationsproblem • Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn von Unternehmen) zwischen einer Situation MIT und OHNE Implementierung eines Projekts/Programms • Messung der Wirkung: Evaluationsproblem – Messbar: Indikator VOR and NACH Maßnahme – Nicht/schwer messbar: Indikator OHNE Maßnahme • Lösung: Konstruktion eines COUNTERFACTUALS bzw. Identifikation einer relevanten Kontrollgruppe mittels geeigneter Methoden • Evaluationsproblem als Problem fehlender Daten: Wir beobachten nie denselben Teilnehmer auch als Nicht- Teilnehmer
  6. 6. 6 Konstruktion eines Counterfactuals • Folgende Probleme sind zu lösen – Selektionsverzerrung: Selektion in ein Programm in der Regel nicht zufällig – Confounding Factors: andere Dinge passieren gleichzeitig, und zwar nicht unbedingt im gleichen Ausmaß in der Kontrollgruppe – Spillovers: Nicht-Teilnehmer werden durch das Programm beeinflusst • Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer oft nicht ausreichend, auch nicht Vorher-Nachher • Zwei Vorgehensweisen – Soziale Experimente: Zufällige Auswahl der Teilnehmer und Bildung einer Kontrollgruppe – Quasi-experimentelle Methoden: Statistische Verfahren zur Identifikation einer Kontrollgruppe
  7. 7. 7 Evaluationsproblem grafisch: wir beobachten einen Indikator… Y1 (observed) Y0 t=0 Intervention
  8. 8. 8 …der nach der Intervention höher ist Y1 (observedl) Y0 t=0 t=1 time Intervention
  9. 9. 9 Um die Wirkung des Programms zu messen müssten wir wissen was passiert wäre wenn das Programm nicht existiert hätte Y1 (observedl) Impact = Y1- Y1 * Y1 * (counterfactual) Y0 t=0 t=1 time Intervention
  10. 10. Probleme bei der Konstruktion des Counterfactuals Y1 Y1 * Y0 t=0 t=1 time Selection bias Confounding factors
  11. 11. Häufig benutzte Lösungsmethoden • Randomized controlled trials (RCTs) • Double difference/difference in difference • Matching Methoden • Diskontinuitätsdesigns • (endogeneous) Switching Regressions, Verwendung von Instrumentvariablen (IVs) (kombinierbar) 11
  12. 12. 12 Soziale Experimente / RCTs • Programm/Projekt wird zufällig Teilen einer Population (idR Stichprobe) zugeordnet • Zufällige Auswahl schließt Selektionsverzerrung aus: Teilnehmer und Nicht-Teilnehmer unterscheiden sich nicht, weder in beobachtbaren noch unbeobachtbaren Eigenschaften • Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern ausschließlich auf Programm zurückzuführen
  13. 13. 13 Beispiel: Kapitalerträge von Mikrounternehmern in Entwicklungsländern • De Mel, McKenzie, Woodruff: Experiment mit Mikrounternehmern in Sri Lanka (z.B. QJE, 2008) • Ziele – Messung der Kapitalerträge in Kleinstunternehmen – Gründe für hohe (?) Kapitalerträge – Gründe für Unterschiede zwischen Unternehmern – Potential für Mikrokredit/-finanzprogramme • Schönes Beispiel für Anwendbarkeit von Experimenten im Kontext von Privatwirtschaftsentwicklung
  14. 14. 14 Das Experiment • Randomisiertes Experiment: Ein zufällig ausgewählter Teil der befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in Sri Lanka erhält einen Transfer/Preis von USD 100 oder USD 200 – USD 100 Investitionsgüter oder cash – USD 200 cash • Fünf vierteljährliche Umfragerunden, Preise nach der ersten und dritten (Lotterie) • Investitionsgüter gewählt durch Unternehmer, gekauft durch RAs • 408 Unternehmen, ca. 50% erhalten treatment
  15. 15. 15 Einige Resultate • 58 % des cash Transfers investiert • Investitionen in Erweiterung des bestehenden Geschäft, keine neuen riskanten Geschäfte • Geschätzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jährlich) – Höher für fähigere Unternehmer – Niedriger für reiche Haushalte (weniger kreditmarktbeschränkt) – Risikoaversion fast ohne Einfluss • Unvollständige Kreditmärkte wichtiger als fehlende Versicherungsmärkte
  16. 16. Probleme bei RCTs • Greift ggf. in die Implementierung ein • Ethische Fragen • „Hawthorne-Effekt“: Verhaltensänderung aufgrund von Teilnahme an einem Experiment • (Verhinderung von) Spillovers • Kritik von Deaton: u.a. Methodik (vieles unter anderem die Berechnung von Standardfehlern unterliegt Annahmen, daher kein „Gold Standard“, aber auch externe Validität, Verzerrung versus Präzision – Zum weiterhören: http://www.nyudri.org/events/annual-conference-2012-debates-in- development/deaton-v-banerjee/ und lesen: https://medium.com/@timothyogden/experimental-conversations-angus-deaton- b2f768dffd57 16
  17. 17. 17 Quasi-experimentelle Methoden: Überblick • Matching: Konstruktion einer Kontrollgruppe von Nicht- Teilnehmern mit möglichst ähnlichen Charakteristika • Double difference: erste Differenz Vorher-Nachher, zweite Differenz Teilnehmer vs. Nicht-Teilnehmer • Diskontinuitätsdesigns: Nutzung von „threshold effects“ (Schwellenwerteffekte), Vergleich von ansonsten sehr ähnlichen Teilnehmern knapp über vs. knapp unter Schwellenwert • Instrumentvariable: Zunächst Erklärung der Programmteilnahme, dann der Wirkung • Methoden kombinierbar
  18. 18. 18 Matching • Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika ein möglichst ähnlicher Nicht-Teilnehmer zugeordnet: Kontrollgruppe • Weit verbreitetes Matching-Verfahren: „Propensity Score Matching“: Vergleich von Teilnehmern und Nicht-Teilnehmern mit gleicher Wahrscheinlichkeit am Programm teilzunehmen • Es wird angenommen, dass die Teilnahme gegeben beobachtbarer Faktoren unabhängig vom Ergebnis (der Wirkung) ist • Wirkung: Differenz in den durchschnittlichen Zielgrößen zwischen Teilnehmern und Kontrollgruppe • starke Ähnlichkeit mit experimentellen Methoden • Möglich wenn nur ex-post Daten existieren
  19. 19. 19 Matching: Probleme • Strikte Annahme: – Beseitigt nur den Teil der Selektionsverzerrung, der sich auf beobachtbare Unterscheidungsmerkmale zurückführen lässt, also keine “unobservable heterogeneity” • Treatment effect on the treated ist dann identifiziert (nicht- parametrisch) • Hohe Qualität der Daten erforderlich – Survey-Design für Teilnehmer und Nichtteilnehmer ähnlich (am besten identisch) – beiden Gruppen sollten ähnlichen ökonomischen Rahmenbedingungen ausgesetzt sein • In Empirie teils große Unterschiede in Ergebnissen auf der Basis von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim Versuch der Replikation von RCTs)
  20. 20. 20 Double Difference • Grundidee: Vergleich der Zielgrößen von Teilnehmern und Nicht-Teilnehmern vor und nach der Implementierung – Für Teilnehmer- und Nicht-Teilnehmergruppe wird der Unterschied in der Zielgröße vor und nach Einführung des Projekts berechnet (first difference) – Vergleich der Differenzen (second difference): Wirkung • Vorteil: Teil der Selektionsverzerrung durch unbeobachtbare, aber über die Zeit konstant bleibende Unterscheidungsmerkmale (z.B. Intelligenz) wird beseitigt • Kann mit Matching kombiniert werden, um Selektionsverzerrung noch weiter zu reduzieren
  21. 21. Diff-in-diff: Verzerrung muss additiv und zeitinvariant sein
  22. 22. Diff-in-diff versagt, wenn die Kontrollgruppe sich anders entwickelt  DD überschätzt die Wirkung
  23. 23. Oder …  DD unterschätzt die Wirkung (typische Situation für Entwicklungsprojekte?)
  24. 24. Mögliche Lösung • Kombination von PSM & DiD: – ~ Korrektur der Verzerrung vor und hinterher Y1 Impact? Y1 * Y0 t=0 t=1 time
  25. 25. 25 Double Difference: Probleme • Vor Beginn des Programms müssen Daten für die potentiellen Teilnehmer und Nicht-Teilnehmer erhoben werden: Oft keine genauen Informationen darüber, wer die Begünstigten sein werden • Annahme einer zeitinvarianten Selektionsverzerrung ist häufig nicht erfüllt: – Programme für benachteiligte/arme Gruppen spiegeln idR ungünstige Ausgangsbedingungen wider, die sich wiederum negativ auf die Entwicklung der Zielgröße für Teilnehmer im Vergleich zur Kontrollgruppe auswirken – Selektionsverzerrung nimmt dann im Zeitablauf zu und verzerrt den Schätzer für die Wirkung
  26. 26. 26 Zentral für Methodik: die passenden Daten • Auf jeden Fall: – Identifikation der (Nicht-) Teilnehmer – Intensität oder Modalität der Teilnahme – Sozioökonomische Charakteristika – Wirkungsvariablen (direkte oder indirekte Wirkung) • Vorsicht bei Operationalisierung der Wirkungsvariablen (Einkommen, Konsum) • Vorhandene Daten? „piggy-backing“? • Kosten sehr unterschiedlich • Methoden und Daten gehen Hand in Hand
  27. 27. 27 Methoden und Datenanforderungen Methode Datenanforderungen minimal optimal Experimente Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern Vorher-Nachher Daten mit Teilnehmern und Nicht-Teilnehmern, Erhebung weiterer Kontrollvariablen Matching Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern mit großer Stichprobe Wie links, aber für zwei Zeitpunkte (Vorher-Nachher) Double Difference Vorher-Nachher-Daten mit Teilnehmer und Nicht- Teilnehmer Wie links, aber für Teilnehmer und vergleichbare Nicht-Teilnehmer Instrument- variablen Querschnittsdaten mit Teilnehmern und Nicht- Teilnehmern, Instrument Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)
  28. 28. 28 Conclusions • Verzerrung einer Wirkungsbeobachtung kann zu vollkommen falschen Schlüssen hinsichtlich der Wirkungen eines Projektes führen! Anwendung rigoroser wissenschaftlicher Methoden daher sinnvoll • Trotz quantitativem Fokus: Grundsätzliche Probleme der Identifizierung eines Gegenszenarios und der relevanten Vergleichsgruppe sind bei qualitativen Verfahren die gleichen • Fokus bisher: Interne Validität • Um aus Wirkungsbeobachtungen zu lernen: Externe Validität wichtiger – Können diese Resultate generalisiert werden? • Faktoren, die beachtet werden müssen, bevor man die Ergebnisse einer Wirkungsbeobachtung verallgemeinert – Kontextbedingungen – Spillovers und allgemeine Gleichgewichtseffekte – Bei Auswertung von Studien: Publikationsbias

×