Verwendung von Skalenbewertungen in der Evaluierung
von Suchmaschinen
Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de
htt...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Einleitung/Motivation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 0,750,710,710,670,640,620,590,580,550,550,...
Einleitung/Motivation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,...
Einleitung/Motivation
•  Gewinnen wir bei Verwendung von Skalenbewertungen ein
differenzierteres Bild der Suchmaschinen al...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Stand der Forschung
•  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen
–  Teils Verwendung von binären Bew...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Testaufbau und -durchführung
1.  Bilden eines repräsentativen Suchanfragen-Samples
2.  Abfrage zweier Suchmaschinen, jewei...
Testaufbau und -durchführung
•  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des
Portals T-Online.de
–  Viele...
Testaufbau und -durchführung
•  Samplebildung
–  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden
(...
Testaufbau und -durchführung
•  Abfrage der Suchmaschinen
–  Automatische Abfrage der Suchmaschinen Google und Bing
–  Erf...
Testaufbau und -durchführung
•  Bewertung der Treffer
–  Jurorengewinnung über Studentenverteiler und Social Media
–  Bewe...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Ergebnisse: Binäre Bewertungen
Ergebnisse: Skalenbewertungen
Ergebnisse: Top-bewertete Treffer
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Diskussion
•  Kein gravierender Unterschied in der Bewertung der beiden
Suchmaschinen
•  Empfohlen wird trotzdem die Verwe...
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussio...
Fazit
•  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen
•  Keine gravierenden Unterschiede, wenn die Suchmaschinen...
Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewan...
Nächste SlideShare
Wird geladen in …5
×

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

475 Aufrufe

Veröffentlicht am

Veröffentlicht in: Internet
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
475
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
3
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

  1. 1. Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen Dirk Lewandowski dirk.lewandowski@haw-hamburg.de http://www.bui.haw-hamburg.de/lewandowski.html @Dirk_Lew ISI 2013, 22. März 2013
  2. 2. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  3. 3. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  4. 4. Einleitung/Motivation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,750,710,710,670,640,620,590,580,550,550,540,530,520,520,510,500,490,490,480,48 Yahoo 0,730,690,690,680,610,620,610,600,600,600,590,580,570,560,550,540,530,530,530,52 MSN 0,580,500,510,530,520,490,490,480,470,450,440,430,420,400,390,390,380,380,370,37 Ask 0,650,600,590,560,530,530,520,520,500,500,490,480,470,470,460,460,450,450,440,44 Seekport 0,580,530,510,520,510,500,480,450,440,430,440,440,430,420,410,400,390,380,370,37 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 Precision Number of results Google Yahoo MSN Ask Seekport (Lewandowski, 2008)
  5. 5. Einleitung/Motivation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 0,00 0,50 1,00 1,50 2,00 2,50 3,00 DurchschnittlichePrecision Trefferplatz Google Yahoo MSN Ask Seekport
  6. 6. Einleitung/Motivation •  Gewinnen wir bei Verwendung von Skalenbewertungen ein differenzierteres Bild der Suchmaschinen als bei der Verwendung von binären Bewertungen? –  Sind Relevanzskalen metrisch? •  Hoher Aufwand bei Suchmaschinen-Tests –  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand
  7. 7. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  8. 8. Stand der Forschung •  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen –  Teils Verwendung von binären Bewertungen, teils Skalen –  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem relevanten Treffer (Griesbaum 2004) •  Untersuchungen zur Verwendung von Skalenbewertungen –  Keine explizite Berücksichtigung von Web-Suchmaschinen
  9. 9. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  10. 10. Testaufbau und -durchführung 1.  Bilden eines repräsentativen Suchanfragen-Samples 2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer 3.  Bewertung der Treffer (binär/Skala)
  11. 11. Testaufbau und -durchführung •  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des Portals T-Online.de –  Viele Millionen Suchanfragen pro Monat –  Marktanteil in Deutschland: 4% (Webhits, 2012) –  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen Suchmaschinen
  12. 12. Testaufbau und -durchführung •  Samplebildung –  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden (à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität) –  Zufallsauswahl von 360 Suchanfragen je Gruppe –  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert, transaktionsorientiert) –  Verwendung von informationsorientierten Anfragen –  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen weniger als 100)
  13. 13. Testaufbau und -durchführung •  Abfrage der Suchmaschinen –  Automatische Abfrage der Suchmaschinen Google und Bing –  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool (Lewandowski & Sünkler, 2012) •  Aufbereitung der Treffer –  Durchmischung der Treffer (wg. Lerneffekten) –  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)
  14. 14. Testaufbau und -durchführung •  Bewertung der Treffer –  Jurorengewinnung über Studentenverteiler und Social Media –  Bewertung in RAT: Relevanz binär, Skala (0-4) –  Juroren erhalten nur die Suchanfrage, keine künstlich generierten Beschreibungen von Informationsbedürfnissen –  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher Aufgabenbearbeitung
  15. 15. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  16. 16. Ergebnisse: Binäre Bewertungen
  17. 17. Ergebnisse: Skalenbewertungen
  18. 18. Ergebnisse: Top-bewertete Treffer
  19. 19. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  20. 20. Diskussion •  Kein gravierender Unterschied in der Bewertung der beiden Suchmaschinen •  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen anstatt binärer Bewertungen –  Skalenniveau ist zu berücksichtigen •  Grenzen der Untersuchung –  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide Suchmaschinen –  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen) –  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen) –  Keine Berücksichtigung von Universal-Search-Ergebnissen
  21. 21. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  22. 22. Fazit •  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen •  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer binär oder auf einer Fünferskala bewertet werden •  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität der beiden Suchmaschinen
  23. 23. Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html http://www.searchstudies.org

×