Web-Suchmaschinen:Suchverhalten, Informationsqualität, TrendsProf. Dr. Dirk Lewandowskidirk.lewandowski@haw-hamburg.de
Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit1 |
Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit2 |
Bedeutung der Suchmaschinen • Suchmaschinen sind der Zugang zu Informationen im Netz.    – Andere Zugänge (Kataloge, usw.)...
Drei Anfragetypen Anfragetypen nach Broder (2002) • Informational (informationsorientiert)      – Nutzer möchte sich zu ei...
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie au...
Grunddaten zum Nutzerverhalten (2) • Auswertung der Treffer    – 80% der Nutzer betrachten nur die erste Ergebnisseite (= ...
Google groß7 |
                                  Google klein
9 |
Selektionsverhalten (Top11 Treffer)                                       (Granka et al. 2004)10 |
Eye-tracking11 |            (Enquiro Eye Tracking Report II)
Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit12 |
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktor...
Web-Abdeckung Keine Suchmaschine deckt das gesamte Web ab!    – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen...
Country Bias15 |
Überschneidung der Datenbestände • Überschneidung der Indices    – Relativ gering, daher lohnt sich die Suche in mehreren ...
Überschneidung der Trefferlisten (Top10)17 |
Aktualität der Datenbestände • Wichtig wegen    – Auffinden und Erfassen neuer Dokumente.    – Aktualisierung veränderter ...
Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert.19 |
Aktualität der Datenbestände20 |
Aktualität der Datenbestände21 |                                Quelle: Lewandowski et al. 2006
Retrievaleffektivität: Navigationsorientierte Anfragen22 |
Retrievaleffektivität: Informationsorientierte Anfragen Klassische Tests • Welche Suchmaschine liefert die besten Treffer?...
Precision ist das am häufigsten verwendete Retrievalmaß. Klassische Retrievalmaße • Precision    – Anteil der relevanten a...
Precision@10 zwischen 0,43 und 0,60.25 |
Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.26 |
Keine klare Reihung der Suchmaschinen, wenn einzelne Anfragen betrachtet werden.27 |
Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereic...
Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit29 |
„Such-Ansätze“ des Web 2.0 • Social Bookmarking    – Nutzer speichern Lesezeichen online und machen diese öffentlich zugän...
Suchmaschinen, Social Bookmarking, Frage-Antwort-DiensteSuchmaschinenF&A-DienteSocial Bookmarking                         ...
Fazit Web 2.0 Dienste für die Suche • Web 2.0 Dienste bieten bisher keine den Suchmaschinen vergleichbare   Trefferqualitä...
Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit33 |
Fazit • Suchmaschinen prägen das Nutzerverhalten auch für andere   Informationssysteme.     – „Google kann das doch auch!“...
Vielen Dank für IhreAufmerksamkeit.www.bui.haw-hamburg.de/lewandowski.htmlAlle in der Präsentation genanntenArtikel zum Do...
Nächste SlideShare
Wird geladen in …5
×

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

1.018 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.018
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

  1. 1. Web-Suchmaschinen:Suchverhalten, Informationsqualität, TrendsProf. Dr. Dirk Lewandowskidirk.lewandowski@haw-hamburg.de
  2. 2. Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit1 |
  3. 3. Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit2 |
  4. 4. Bedeutung der Suchmaschinen • Suchmaschinen sind der Zugang zu Informationen im Netz. – Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. – Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. – Suchmaschinen bestimmen das Nutzerverhalten (auch für andere Informationssysteme).3 |
  5. 5. Drei Anfragetypen Anfragetypen nach Broder (2002) • Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente. • Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument. • Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.4 |
  6. 6. „Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“ (Machill et al. 2003) • Boolesche Operatoren – Bei weniger als 10% der Anfragen; keine Veränderung im Lauf der Jahre (Spink&Jansen 2004). – Nur etwa die Hälfte der Nutzer weiß, dass es Operatoren gibt (Machill et al. 2003). – 20% der Nutzer geben an, sie öfter zu verwenden (Machill et al. 2003). – Etwa die Hälfte der Anfragen mit Operatoren enthält Fehler (Spink et al. 2000), bei der Verwendung von Plus-/Minuszeichen lag die Fehlerquote bei 2/3. • Profisuche – 59% der Nutzer kennen die Profisuche (Machill et al. 2003). – Nur 14% nutzen sie öfter (Machill et al. 2003).5 |
  7. 7. Grunddaten zum Nutzerverhalten (2) • Auswertung der Treffer – 80% der Nutzer betrachten nur die erste Ergebnisseite (= 10 Treffer) (Spink&Jansen 2004). – Vor allem die Treffer auf den ersten Listenplätzen werden angesehen; möglichst kein Scrollen – Pro Session werden nur etwa fünf Dokumente gesichtet (Spink&Jansen 2004). – Sessions dauern weniger als 15 Minuten. • Kaum Veränderungen im Lauf der Zeit6 |
  8. 8. Google groß7 |
  9. 9.   Google klein
  10. 10. 9 |
  11. 11. Selektionsverhalten (Top11 Treffer) (Granka et al. 2004)10 |
  12. 12. Eye-tracking11 | (Enquiro Eye Tracking Report II)
  13. 13. Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit12 |
  14. 14. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen • Qualität des Index – Größe des Datenbestands, Abdeckung des Web – Abdeckung bestimmter Bereiche (Sprachräume, Länder) – Überschneidungen der Indices – Aktualität des Datenbestands • Qualität der Suchresultate – Retrievaleffektivität – Zufriedenheit der Nutzer – Überschneidungen der (Top-)Ergebnisse • Qualität der Suchfunktionen • Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)13 |
  15. 15. Web-Abdeckung Keine Suchmaschine deckt das gesamte Web ab! – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. – Größe des Web ist unbekannt; die großen Suchmaschinen haben einige Milliarden Dokumente indexiert. – Wenig erforschter Bereich: Invisible Web. Definitionen Invisible/Deep Web – “Text pages, files, or other often high-quality authoritative information available via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001). – “The deep Web - those pages do not exist until they are created dynamically as the result of a specific search“ (Bergman 2001).14 |
  16. 16. Country Bias15 |
  17. 17. Überschneidung der Datenbestände • Überschneidung der Indices – Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen. • Überschneidung der Suchergebnisse – Sehr gering innerhalb der Top10, 20.16 |
  18. 18. Überschneidung der Trefferlisten (Top10)17 |
  19. 19. Aktualität der Datenbestände • Wichtig wegen – Auffinden und Erfassen neuer Dokumente. – Aktualisierung veränderter Dokumente; korrekte Repräsentation der URLs. • Untersuchung 2005-2007 – Beobachtungszeitraum jeweils sechs Wochen. – 40 täglich aktualisierte Seiten (+ 30 unregelmäßig aktualisierte).18 |
  20. 20. Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert.19 |
  21. 21. Aktualität der Datenbestände20 |
  22. 22. Aktualität der Datenbestände21 | Quelle: Lewandowski et al. 2006
  23. 23. Retrievaleffektivität: Navigationsorientierte Anfragen22 |
  24. 24. Retrievaleffektivität: Informationsorientierte Anfragen Klassische Tests • Welche Suchmaschine liefert die besten Treffer? • Test anhand von – einer bestimmten Anzahl von Suchanfragen (50). – einer bestimmten Anzahl von Treffern pro Suchmaschine (20). – Bewertungen durch Juroren (wichtige Frage: wer bewertet?). – Ja/Nein-Entscheidungen über Relevanz, verschiedenen Skalen.23 |
  25. 25. Precision ist das am häufigsten verwendete Retrievalmaß. Klassische Retrievalmaße • Precision – Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der ausgegebenen Treffer. – Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20). • Recall – Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente). – Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden). • Fallout – Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht relevanten Treffer im Datenbestand. • Generality – Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.24 |
  26. 26. Precision@10 zwischen 0,43 und 0,60.25 |
  27. 27. Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.26 |
  28. 28. Keine klare Reihung der Suchmaschinen, wenn einzelne Anfragen betrachtet werden.27 |
  29. 29. Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereiche • Such-Sessions – Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich) werden angesehen. – In der Regel werden maximal fünf Dokumente angesehen. – Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.  Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern angepasst werden? • Zusammensetzung der Trefferlisten – Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.  Wie kann in der Evaluierung auf Facetten eingegangen werden? • Interaktion – Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess anzusehen.  Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?28 |
  30. 30. Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit29 |
  31. 31. „Such-Ansätze“ des Web 2.0 • Social Bookmarking – Nutzer speichern Lesezeichen online und machen diese öffentlich zugänglich. – Lesezeichen werden mit tags verschlagwortet. – Beispiele: Mr. Wong; del.icio.us • Frage-Antwort-Dienste – Nutzer stellen Fragen, Community antwortet. – Fragen und Antworten werden mit tags verschlagwortet. – Beispiele: Yahoo Clever, Lycos IQ30 |
  32. 32. Suchmaschinen, Social Bookmarking, Frage-Antwort-DiensteSuchmaschinenF&A-DienteSocial Bookmarking (Gammer et al. 2008) 31 |
  33. 33. Fazit Web 2.0 Dienste für die Suche • Web 2.0 Dienste bieten bisher keine den Suchmaschinen vergleichbare Trefferqualität. • Bislang kaum Ausnutzung der klassischen IR-Verfahren in diesen Anwendungen. • Mashup der Ergebnisse aus allen Quellen könnte zu Qualitätssteigerung führen.32 |
  34. 34. Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0 Fazit33 |
  35. 35. Fazit • Suchmaschinen prägen das Nutzerverhalten auch für andere Informationssysteme. – „Google kann das doch auch!“ • Qualität der Suchmaschinen ist nur durch eine Kombination verschiedener Faktoren messbar. – Empirische Untersuchungen zeigen deutliche Unterschiede. – Beliebtheit von Google lässt sich nicht allein durch die Qualität erklären. • Web 2.0 Dienste verbessern die Suche bislang nicht. – Potential ist aber durchaus vorhanden.34 |
  36. 36. Vielen Dank für IhreAufmerksamkeit.www.bui.haw-hamburg.de/lewandowski.htmlAlle in der Präsentation genanntenArtikel zum Download.Bücher:Handbuch Internet-Suchmaschinen(erscheint im Oktober)Web-2.0-Dienste als Ergänzung zualgorithmischen SuchmaschinenE-Mail:dirk.lewandowski@haw-hamburg.de

×