2. 1. Testdesign
2. Evaluierungsläufe
2.1. Ablauf eines Evaluierungslaufs
2.2. Beispiel eines Evaluierungsablaufs
2.3. Evaluierungsläufe im Überblick
3. Auswahl der Test-Rankings
4. Relevanzbewertungen mit dem RAT
5. Fazit
Übersicht
3. Abb.: bearb. nach Lewandowski, D. (2012). A Framework for Evaluating the Retrieval Effectiveness of Search
Engines. In C. Jouis, I. Biskri, J.-G. Ganascia, & M. Roux (Eds.), Next Generation Search Engines: Advanced
Models for Information Retrieval (pp. 456–479). Hershey, PA: IGI Global. doi:10.4018/978-1-4666-0330-1
1. Testdesign 1/4
Suchanfragen
Suchergebnisse
Was?
Suchergebnisse
Wie?
Juroren
4. • Suchanfragen
– Herkunft: 2.000 Anfragen aus EconBiz log files (Juli 2014)
– Manuelle Klassifizierung der Anfragen ca. 900 thematische Suchanfragen
– Beschreibung von Informationsbedürfnissen durch Wirtschafts-Studierende
– Darstellung:
Suchanfrage: Prinzipal-Agenten-Theorie
Beschreibung: Was sagt diese Theorie aus und wo findet sie Anwendung?
1. Testdesign 2/4
5. • Juroren
– Zahl der Juroren abhängig von Anzahl der Dokumente pro Task
– Fachreferenten der ZBW (Run#1, Run#2)
– Wirtschafts-Studierende (Run#3)
1. Testdesign 3/4
6. • Suchergebnisse
– Was wird bewertet?
• Surrogate als Basis für Relevanzbewertungen
• Keine Volltexte, weiterführenden Informationen
• Testdaten aus EconBiz
– Wie wird bewertet?
• Binäre und Skalenbewertung mittels Schieberegler
• Relevance Assessment Tool (siehe Live Demo)
1. Testdesign 4/4
7. 2. Evaluierungsläufe
2.1 Ablauf eines Evaluierungslaufs
Ranking I
Rankingfaktoren +
Gewichtungen
Ranking II
Ranking III
Such-
anfrage /
Task
Ergebnis-
menge C
Pool mit
Dokumenten für
Relevanz-
bewertungen
Dublettenerkennungund–bereinigungimRAT
Ergebnis-
menge A
Ergebnis-
menge B
Rankingfaktoren +
Gewichtungen
Rankingfaktoren +
Gewichtungen
…
8. 2.2 Beispiel eines Evaluierungslaufs
Ranking I
Rankingfaktoren: 2.1 + 2.3
Gewichtungen: 0,05 + 0,8
Ranking II
Rankingfaktoren: 2.7 + 2.8
Gewichtungen: 0,2 + 0,4
Ranking III
Rankingfaktoren: 3.1 + 3.2
Gewichtungen: 0,5 + 0,06
Such-
anfrage /
Task
Ergebnis-
menge C :
Top 20
Treffer
Pool mit
50 Dokumenten
für Relevanz-
bewertungen
Dublettenerkennungund–bereinigungimRAT:
10Dubletten
Ergebnis-
menge A :
Top 20
Treffer
Ergebnis-
menge B :
Top 20
Treffer
…
9. 2.3. Evaluierungsläufe im Überblick
TEST-
LAUF
ANZAHL
JUROREN
JUROREN-
GRUPPE
ANZAHL DER TASKS JUROREN-
VERGÜTUNG
ANZAHL
RANKINGS
(CUT-OFF)
ANZAHL
BEWERT.
DOKUMENTE
GESAMT PRO
JUROR
BEAR-
BEITET
#1 4 Fachreferenten
der ZBW
120 30 83 keine 10
(20)
16.680
#2 8 Fachreferenten
der ZBW
120 15 109 keine 10
(20)
22.590
#3 45 Studierende
(Wirtschafts-
fächer)
450 min.1
(5 Tasks je
Paket)
363 20€-Amazon-
Gutschein pro
bearbeitetes
Aufgabenpaket
10
(20)
72.490
Σ 57 - 690 - 555 - - 111.760
10. Faktoren für Relevanzranking in Abhängigkeit von der Datenbasis:
1. Popularität
– Klick-/Nutzungshäufigkeit
– Erwerbungsverhalten
– Publisher Authority
– Zitationen
2. Aktualität
– Erscheinungsdatum
3. Standort & Verfügbarkeit
– Verfügbarkeit (Open Access-Dokumente)
4. Dokumenteigenschaften
– Zusätzliche Informationen
3. Auswahl der Test-Rankings 1/3
7 Faktoren
inkl. Subfaktoren
11. Faktoren, die aufgrund fehlender Daten nicht evaluiert werden konnten:
1. Popularität
– Ratings / Empfehlungen
2. Aktualität
– Zugangsdatum
3. Standort & Verfügbarkeit
– Physischer Standort des Nutzers/Werkes
4. Dokumenteigenschaften
– Format
– Sprache
5. Nutzerhintergrund
– Nutzerdaten
– Nutzergruppe
3. Auswahl der Test-Rankings 2/3
12. Evaluierungslauf #1 Evaluierungslauf #2 Evaluierungslauf #3
Ranking 1 Nur textstatistische Verfahren „Text statistics“
Ranking 2 EconBiz-Ranking = Baseline
Ranking 3 7 Faktoren inkl. Subfaktoren 7 Faktoren inkl. Subfaktoren Gelernte Variante
Ranking 4 Nur Popularität Nur Popularität Nur Popularität
Ranking 5 Nur Aktualität Nur Aktualität Nur Aktualität
Ranking 6 Nur Verfügbarkeit Nur Verfügbarkeit Nur Verfügbarkeit
Ranking 7 Nur Dokumenteigenschaften Nur Dokumenteigenschaften Nur Dokumenteigenschaften
Ranking 8 Nutzungshäufigkeit + Ersch.-Datum Nutzungshäufigkeit + Ersch.-Datum Verfügbarkeit + Ersch.-Datum +
Nutzungshäufigkeit + Zitationen
Ranking 9 Nutzungshäufigkeit + Zitationen Nutzungshäufigkeit + Zitationen Verfügbarkeit + Ersch.-Datum +
Nutzungshäufigkeit + Zitationen
Ranking 10 Zitationen + Erscheinungsdatum Zitationen + Erscheinungsdatum Verfügbarkeit + Ersch.-Datum +
Nutzungshäufigkeit + Zitationen
3. Auswahl der Test-Rankings 3/3
13. 4. Relevanzbewertungen mit dem RAT
• Suchanfrage mit
Beschreibung
• Binäre und
Skalenbewertung
• Fortschrittsbalken und
Anzahl der zu
bewertenden
Dokumente (Surrogate)
Live Demo:
www.searchstudies.org/rat
Login: lrdemo
14. • Nachnutzbare Ergebnisse aufgrund des Testdesigns
– Testsystem mit Daten
– 690 reale Suchanfragen mit Informationsbedürfnissen
– 111.760 bewertete Dokumente (binär + Skala)
5. Fazit
15. … und nun die Ergebnisse!
Vielen Dank für Ihre Aufmerksamkeit!
Christiane Behnert, M.A.
Wissenschaftliche Mitarbeiterin
Hochschule für Angewandte Wissenschaften Hamburg
Fakultät Design, Medien und Information
Department Information
Finkenau 35
22081 Hamburg
christiane.behnert@haw-hamburg.de
http://searchstudies.org/christiane-behnert/