SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
Verwendung von Skalenbewertungen in der Evaluierung
von Suchmaschinen
Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de
http://www.bui.haw-hamburg.de/lewandowski.html
@Dirk_Lew
ISI 2013, 22. März 2013
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Einleitung/Motivation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 0,750,710,710,670,640,620,590,580,550,550,540,530,520,520,510,500,490,490,480,48
Yahoo 0,730,690,690,680,610,620,610,600,600,600,590,580,570,560,550,540,530,530,530,52
MSN 0,580,500,510,530,520,490,490,480,470,450,440,430,420,400,390,390,380,380,370,37
Ask 0,650,600,590,560,530,530,520,520,500,500,490,480,470,470,460,460,450,450,440,44
Seekport 0,580,530,510,520,510,500,480,450,440,430,440,440,430,420,410,400,390,380,370,37
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Precision
Number of results
Google
Yahoo
MSN
Ask
Seekport
(Lewandowski, 2008)
Einleitung/Motivation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
0,00
0,50
1,00
1,50
2,00
2,50
3,00
DurchschnittlichePrecision
Trefferplatz
Google
Yahoo
MSN
Ask
Seekport
Einleitung/Motivation
•  Gewinnen wir bei Verwendung von Skalenbewertungen ein
differenzierteres Bild der Suchmaschinen als bei der Verwendung von
binären Bewertungen?
–  Sind Relevanzskalen metrisch?
•  Hoher Aufwand bei Suchmaschinen-Tests
–  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Stand der Forschung
•  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen
–  Teils Verwendung von binären Bewertungen, teils Skalen
–  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem
relevanten Treffer (Griesbaum 2004)
•  Untersuchungen zur Verwendung von Skalenbewertungen
–  Keine explizite Berücksichtigung von Web-Suchmaschinen
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Testaufbau und -durchführung
1.  Bilden eines repräsentativen Suchanfragen-Samples
2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer
3.  Bewertung der Treffer (binär/Skala)
Testaufbau und -durchführung
•  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des
Portals T-Online.de
–  Viele Millionen Suchanfragen pro Monat
–  Marktanteil in Deutschland: 4% (Webhits, 2012)
–  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen
Suchmaschinen
Testaufbau und -durchführung
•  Samplebildung
–  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden
(à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität)
–  Zufallsauswahl von 360 Suchanfragen je Gruppe
–  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert,
transaktionsorientiert)
–  Verwendung von informationsorientierten Anfragen
–  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen
weniger als 100)
Testaufbau und -durchführung
•  Abfrage der Suchmaschinen
–  Automatische Abfrage der Suchmaschinen Google und Bing
–  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool
(Lewandowski & Sünkler, 2012)
•  Aufbereitung der Treffer
–  Durchmischung der Treffer (wg. Lerneffekten)
–  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)
Testaufbau und -durchführung
•  Bewertung der Treffer
–  Jurorengewinnung über Studentenverteiler und Social Media
–  Bewertung in RAT: Relevanz binär, Skala (0-4)
–  Juroren erhalten nur die Suchanfrage, keine künstlich generierten
Beschreibungen von Informationsbedürfnissen
–  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher
Aufgabenbearbeitung
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Ergebnisse: Binäre Bewertungen
Ergebnisse: Skalenbewertungen
Ergebnisse: Top-bewertete Treffer
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Diskussion
•  Kein gravierender Unterschied in der Bewertung der beiden
Suchmaschinen
•  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen
anstatt binärer Bewertungen
–  Skalenniveau ist zu berücksichtigen
•  Grenzen der Untersuchung
–  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide
Suchmaschinen
–  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen)
–  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen)
–  Keine Berücksichtigung von Universal-Search-Ergebnissen
Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit
Fazit
•  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen
•  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer
binär oder auf einer Fünferskala bewertet werden
•  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität
der beiden Suchmaschinen
Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html
http://www.searchstudies.org

Weitere ähnliche Inhalte

Ähnlich wie Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

DMEXCO 2010: Usability als neuer Rankingfaktor?!
DMEXCO 2010: Usability als neuer Rankingfaktor?!DMEXCO 2010: Usability als neuer Rankingfaktor?!
DMEXCO 2010: Usability als neuer Rankingfaktor?!Steven Broschart
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heuteUserZoom Deutschland
 
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...Werbeplanung.at Summit
 
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GA
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GAGA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GA
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GAe-dialog GmbH
 
Usability Methoden
Usability  MethodenUsability  Methoden
Usability MethodenNina Rebele
 
So erstellen Sie einen erfolgreichen Online-Marketing-Mix
So erstellen Sie einen erfolgreichen Online-Marketing-MixSo erstellen Sie einen erfolgreichen Online-Marketing-Mix
So erstellen Sie einen erfolgreichen Online-Marketing-MixAdvance Metrics
 
32. Community-training - empfehlungsbund - light sax
32. Community-training - empfehlungsbund - light sax32. Community-training - empfehlungsbund - light sax
32. Community-training - empfehlungsbund - light saxCommunity MINTsax.de
 
32. Community-Training empfehlungsbund
32. Community-Training empfehlungsbund32. Community-Training empfehlungsbund
32. Community-Training empfehlungsbundofficesax
 
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019luna-park GmbH
 
SEO Audit Workshop SMWHH
SEO Audit Workshop SMWHHSEO Audit Workshop SMWHH
SEO Audit Workshop SMWHHcrowdmedia GmbH
 
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...e-dialog GmbH
 
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...takevalue Consulting GmbH
 
Erfolgreicher Online-Marketing-Mix für Ihr Geschäftsmodell
Erfolgreicher Online-Marketing-Mix für Ihr GeschäftsmodellErfolgreicher Online-Marketing-Mix für Ihr Geschäftsmodell
Erfolgreicher Online-Marketing-Mix für Ihr GeschäftsmodellAdvance Metrics
 
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterContent Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterManuel Stürkat
 
Google Search Trends 2014 - Session auf der Internet World München 2014
Google Search Trends 2014 - Session auf der Internet World München 2014Google Search Trends 2014 - Session auf der Internet World München 2014
Google Search Trends 2014 - Session auf der Internet World München 2014seonative
 

Ähnlich wie Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen (20)

DMEXCO 2010: Usability als neuer Rankingfaktor?!
DMEXCO 2010: Usability als neuer Rankingfaktor?!DMEXCO 2010: Usability als neuer Rankingfaktor?!
DMEXCO 2010: Usability als neuer Rankingfaktor?!
 
Website-Tests optimal planen
Website-Tests optimal planenWebsite-Tests optimal planen
Website-Tests optimal planen
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute
 
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...
PERFORMIX.Wien 2016 – Startschuss für Start-ups – so startet man durch – Alex...
 
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
 
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GA
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GAGA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GA
GA Konferenz-2011 Thomas Sommeregger_Erfolgsoptimierung mit GA
 
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
 
Usability Methoden
Usability  MethodenUsability  Methoden
Usability Methoden
 
33. Community Training
33. Community Training33. Community Training
33. Community Training
 
So erstellen Sie einen erfolgreichen Online-Marketing-Mix
So erstellen Sie einen erfolgreichen Online-Marketing-MixSo erstellen Sie einen erfolgreichen Online-Marketing-Mix
So erstellen Sie einen erfolgreichen Online-Marketing-Mix
 
32. Community-training - empfehlungsbund - light sax
32. Community-training - empfehlungsbund - light sax32. Community-training - empfehlungsbund - light sax
32. Community-training - empfehlungsbund - light sax
 
32. Community-Training empfehlungsbund
32. Community-Training empfehlungsbund32. Community-Training empfehlungsbund
32. Community-Training empfehlungsbund
 
32. Community Training
32. Community Training32. Community Training
32. Community Training
 
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
 
SEO Audit Workshop SMWHH
SEO Audit Workshop SMWHHSEO Audit Workshop SMWHH
SEO Audit Workshop SMWHH
 
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
 
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...
SEO Campixx 2015 | Operatives & strategisches SEO-Controlling - von der Suche...
 
Erfolgreicher Online-Marketing-Mix für Ihr Geschäftsmodell
Erfolgreicher Online-Marketing-Mix für Ihr GeschäftsmodellErfolgreicher Online-Marketing-Mix für Ihr Geschäftsmodell
Erfolgreicher Online-Marketing-Mix für Ihr Geschäftsmodell
 
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterContent Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
 
Google Search Trends 2014 - Session auf der Internet World München 2014
Google Search Trends 2014 - Session auf der Internet World München 2014Google Search Trends 2014 - Session auf der Internet World München 2014
Google Search Trends 2014 - Session auf der Internet World München 2014
 

Mehr von Dirk Lewandowski

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexDirk Lewandowski
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search EnginesDirk Lewandowski
 
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...Dirk Lewandowski
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenDirk Lewandowski
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsDirk Lewandowski
 
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertGoogle Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertDirk Lewandowski
 
Suchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenSuchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenDirk Lewandowski
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Dirk Lewandowski
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Dirk Lewandowski
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Dirk Lewandowski
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenDirk Lewandowski
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web IndexDirk Lewandowski
 
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Dirk Lewandowski
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Dirk Lewandowski
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenDirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Dirk Lewandowski
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheDirk Lewandowski
 

Mehr von Dirk Lewandowski (20)

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web Index
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search Engines
 
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei Suchmaschinen
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topics
 
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertGoogle Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
 
Suchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenSuchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von Suchdiensten
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretieren
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web Index
 
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
 
Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der Suche
 

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

  • 1. Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen Dirk Lewandowski dirk.lewandowski@haw-hamburg.de http://www.bui.haw-hamburg.de/lewandowski.html @Dirk_Lew ISI 2013, 22. März 2013
  • 2. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 3. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 4. Einleitung/Motivation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,750,710,710,670,640,620,590,580,550,550,540,530,520,520,510,500,490,490,480,48 Yahoo 0,730,690,690,680,610,620,610,600,600,600,590,580,570,560,550,540,530,530,530,52 MSN 0,580,500,510,530,520,490,490,480,470,450,440,430,420,400,390,390,380,380,370,37 Ask 0,650,600,590,560,530,530,520,520,500,500,490,480,470,470,460,460,450,450,440,44 Seekport 0,580,530,510,520,510,500,480,450,440,430,440,440,430,420,410,400,390,380,370,37 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 Precision Number of results Google Yahoo MSN Ask Seekport (Lewandowski, 2008)
  • 5. Einleitung/Motivation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 0,00 0,50 1,00 1,50 2,00 2,50 3,00 DurchschnittlichePrecision Trefferplatz Google Yahoo MSN Ask Seekport
  • 6. Einleitung/Motivation •  Gewinnen wir bei Verwendung von Skalenbewertungen ein differenzierteres Bild der Suchmaschinen als bei der Verwendung von binären Bewertungen? –  Sind Relevanzskalen metrisch? •  Hoher Aufwand bei Suchmaschinen-Tests –  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand
  • 7. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 8. Stand der Forschung •  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen –  Teils Verwendung von binären Bewertungen, teils Skalen –  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem relevanten Treffer (Griesbaum 2004) •  Untersuchungen zur Verwendung von Skalenbewertungen –  Keine explizite Berücksichtigung von Web-Suchmaschinen
  • 9. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 10. Testaufbau und -durchführung 1.  Bilden eines repräsentativen Suchanfragen-Samples 2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer 3.  Bewertung der Treffer (binär/Skala)
  • 11. Testaufbau und -durchführung •  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des Portals T-Online.de –  Viele Millionen Suchanfragen pro Monat –  Marktanteil in Deutschland: 4% (Webhits, 2012) –  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen Suchmaschinen
  • 12. Testaufbau und -durchführung •  Samplebildung –  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden (à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität) –  Zufallsauswahl von 360 Suchanfragen je Gruppe –  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert, transaktionsorientiert) –  Verwendung von informationsorientierten Anfragen –  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen weniger als 100)
  • 13. Testaufbau und -durchführung •  Abfrage der Suchmaschinen –  Automatische Abfrage der Suchmaschinen Google und Bing –  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool (Lewandowski & Sünkler, 2012) •  Aufbereitung der Treffer –  Durchmischung der Treffer (wg. Lerneffekten) –  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)
  • 14. Testaufbau und -durchführung •  Bewertung der Treffer –  Jurorengewinnung über Studentenverteiler und Social Media –  Bewertung in RAT: Relevanz binär, Skala (0-4) –  Juroren erhalten nur die Suchanfrage, keine künstlich generierten Beschreibungen von Informationsbedürfnissen –  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher Aufgabenbearbeitung
  • 15. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 19. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 20. Diskussion •  Kein gravierender Unterschied in der Bewertung der beiden Suchmaschinen •  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen anstatt binärer Bewertungen –  Skalenniveau ist zu berücksichtigen •  Grenzen der Untersuchung –  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide Suchmaschinen –  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen) –  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen) –  Keine Berücksichtigung von Universal-Search-Ergebnissen
  • 21. Gliederung 1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung 4.  Ergebnisse 5.  Diskussion 6.  Fazit
  • 22. Fazit •  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen •  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer binär oder auf einer Fünferskala bewertet werden •  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität der beiden Suchmaschinen
  • 23. Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html http://www.searchstudies.org