1. Wie gut sind eigentlich Google und Co.?
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg, Department Information
dirk.lewandowski@haw-hamburg.de
Köthen, 24. Juni 2011
2. Kurzvorstellung
• Prof. Dr. Dirk Lewandowski
• Professor für
Information Research & Information Retrieval
an der Hochschule für Angewandte Wissenschaften
Hamburg (HAW)
• Forschung vor allem zur Qualität von Suchmaschinen,
Nutzerverhalten, Query Understanding
1 |
3. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
2 | Dirk Lewandowski
4. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
3 | Dirk Lewandowski
5. Mission Statement
Wir wollen den Suchprozess sowohl aus system- als auch aus
nutzerzentrierter Perspektive verstehen und aus diesem Verständnis
Empfehlungen für die Verbesserung von Suchsystemen ableiten.
4 | Dirk Lewandowski
6. Aktuelle Projekte im Bereich Suche
• Forschungsprojekte
• Qualität von Web-Suchmaschinen (laufend bis 2011)
• Forschungsprojekt „Wissenschaftssuchmaschinen“ (seit WS 2008/09)
• Query Understanding (seit 2010)
• Search Experience (ab 2011)
5 | Dirk Lewandowski
8. Aktuelle Projekte (mit Studierenden) im Bereich Suche
• Lehrprojekte
– Verbesserung der Musiksuche (WS2010/11; Projektpartner Musicload)
– Lokale Suchmaschinen: Eye-Tracking und Usability (WS 2009/10,
Projektpartner Deutsche Telekom)
– Einbindung von Frage-Antwort-Diensten in die Web-Suche (WS2007/08,
Projektpartner Lycos Europe)
• Abgeschlossene Entwicklungsprojekte (mit MA-Studierenden)
• Suchanfragenklassifikation (in Zusammenarbeit mit T-Online)
• Produktsuche (mit Otto)
• Universal-Search-Konzept für die T-Online-Portalsuche
7 | Dirk Lewandowski
9. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
8 | Dirk Lewandowski
10. Web search: „Always different, always the same“
AltaVista 1996
9 | http://web.archive.org/web/19961023234631/http://altavista.digital.com/
15. Ergebnisselektion
• Ergebnisselektion abhängig von
• Position des Treffers
• Vorkommen des Treffers im „sichtbaren Bereich“
• Darstellung/Hervorhebung des Treffers, Trefferbeschreibung
• Einblendung in Vorschlägen während der Eingabe
14 |
16. x
15 | Dirk Lewandowski (Eyetracking-Studie HAW-Hamburg 2010)
22. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
21 | Dirk Lewandowski
23. Hätten Sie‘s verstanden?
• vatikan • frauentausch
• stockbrot • seelenfarben
• bmw • berliner bank
• fußball • osterei
• drehscheibe • wgt
22 | Dirk Lewandowski
31. Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert)
– Nutzer möchte sich zu einem Thema informieren.
– Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert)
– Ziel ist es, eine bestimmte Seite (wieder) zu finden.
– Typisch: Suche nach Homepage („Daimler Chrysler“).
– Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert)
– Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll.
– Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
30 |
32. Anwendungsfälle: Konkreter vs. problemorientierter
Informationsbedarf
Anwendungsfall Konkret Problemorientiert
Websuche Ebay-Homepage Informationen über die
neue Sherlock-Holmes-
Serie der BBC
Bibliothekskatalog Ist das Buch „Information Welche Bücher gibt es zum
Retrieval“ von Stock in der Thema kollaborative
HAW-Bibliothek Suche?
vorhanden?
Online-Dating Welche Hobbies hat Wer passt zu mir?
Natalia73?
Produktsuche Was kostet der Roomba Welcher Staubsaugroboter
581? ist der beste?
31 |
35. Einsatzmöglichkeiten von Query Understanding
• Anfrageerweiterung
• Generierung von Suchvorschlägen
• Steuerung der organischen Ergebnisse
• Steuerung der Werbung
• Steuerung der Universal Search
34 | Dirk Lewandowski
36. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
35 | Dirk Lewandowski
38. Die Qualität von Suchmaschinen kann nur durch eine
Kombination unterschiedlicher Faktoren gemessen werden.
• Qualität des Index
– Größe des Datenbestands, Abdeckung des Web
– Abdeckung bestimmter Bereiche (Sprachräume, Länder)
– Überschneidungen der Indices
– Aktualität des Datenbestands
• Qualität der Suchresultate
– Retrievaleffektivität
– Zuverlässigkeit der Suchergebnisse
– Zufriedenheit der Nutzer
– Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung
– Aufbau der Trefferseiten
(Lewandowski & Höchstötter 2007; ergänzt)
37 | Dirk Lewandowski
39. Die Qualität von Suchmaschinen kann nur durch eine
Kombination unterschiedlicher Faktoren gemessen werden.
• Qualität des Index
– Größe des Datenbestands, Abdeckung des Web
– Abdeckung bestimmter Bereiche (Sprachräume, Länder)
– Überschneidungen der Indices
– Aktualität des Datenbestands
• Qualität der Suchresultate
– Retrievaleffektivität
– Zuverlässigkeit der Suchergebnisse
– Zufriedenheit der Nutzer
– Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung
– Aufbau der Trefferseiten
(Lewandowski & Höchstötter 2007; ergänzt)
38 | Dirk Lewandowski
40. Entscheidungen beim Design klassischer Retrievaltests
1. Welche Suchmaschine(n)?
2. Wie viele Suchanfragen?
3. Welche Suchanfragen?
4. Wie viele Ergebnisse pro Suchanfrage?
5. Wie viele Juroren?
6. Welche Juroren(gruppen)?
7. Wie viele Juroren je Suchanfrage?
8. Wie sollen Dokumente bewertet werden (Skalen)?
9. Sollen Dokumentbeschreibungen berücksichtigt werden?
10. Mit welchen Kennzahlen soll gemessen werden?
39 |
42. Welches Nutzerverhalten kann in Retrievaltests abgebildet
werden?
• Query-response paradigm
• Annahme: Nutzer gibt Suchanfrage ein, prüft dann das Ergebnis.
• Statisch; „systemorientiert“
„Klassische“ Retrievaltests (Abfrage der „objektiven“ Trefferqualität)
• Interaktives Retrieval
• Annahme:
• Recherche findet in mehreren Schritten statt.
• Bei der Recherche handelt es sich um einen „Dialog“ zwischen Nutzer und
System.
• Dynamisch, „nutzerorientiert“
Nutzerstudien (Abfrage der Zufriedenheit der Nutzer)
41 |
43. Trefferqualität in der Nutzerstudie
„Wo ist denn nun
der Jungferstieg?“
Jungfernstieg
42 | Dirk Lewandowski
44. Tools: RAT & Search Logger
• RAT (Relevance Assessment Tool)
• Werkzeug zum Design und zur Durchführung klassischer Retrievaltests
• Baukastenprinzip beim Testdesign
• Automatische Abfrage der Treffer der bekannten Suchmaschinen
• Search Logger (Entwicklung der Uni Tartu, Estland)
• Werkzeug zum Protokollieren von Browserinteraktionen
• Task-basiert
• Ziel 2011: Zusammenführung der beiden Tools, um interaktives IR in
Suchmaschinen evaluieren zu können.
43 |
45. Agenda
Suchmaschinenforschung an der HAW
Die Websuche hat sich verändert...
Wie kann man die Suchanfragen der Nutzer verstehen?
Wie gut sind die Ergebnisse der Suchmaschinen?
Fazit
44 | Dirk Lewandowski
46. Fazit
• Im Bereich Suche sind noch viele Fragen offen...
• Was die großen Suchmaschinen „gut“ macht, ist vor allem die Antizipation der
Nutzerbedürfnisse.
• Es besteht eine starke Übertragbarkeit der Erkenntnisse aus der Websuche auf
andere Suchsysteme.
• Während Einzelbereiche der Nutzer-/Suchmaschineninteraktion gut verstanden
werden, fehlt ein Gesamtverständnis des Suchprozesses.
• Für viele Fragestellungen sind Kooperationen zwischen Forschung und
Industrie unerlässlich.
45 |
47. Vielen Dank für Ihre
Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelles Buch:
Handbuch Internet-Suchmaschinen 2
E-Mail:
dirk.lewandowski@haw-hamburg.de