Möglichkeiten und Grenzen der Recherche mit Suchmaschinen

Möglichkeiten und Grenzen der Recherche mit
Suchmaschinen
Prof. Dr. Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de

Bedeutung der Suchmaschinen

•  Suchmaschinen sind der Zugang zu Informationen im Netz.
–  Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung.
–  Suchmaschinen bestimmen über die sichtbaren Inhalte des Web.
–  Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
Informationssysteme).

1 |

Warum sind Alternativen notwendig?

•  Qualität der Ergebnisse

•  Vielfalt
–  „Zweite Meinung“

•  Trefferpräsentation

•  Nutzerbindung
–  Verknüpfung von Nutzungsdaten mit Nutzerprofilen

•  Innovation

2 |

Alternativen

•  Andere Universalsuchmaschinen

•  Spezielle Kollektionen

•  Spezialsuchmaschinen

•  Kommerzielle Datenbanken

•  Freie Datenbanken im Invisible Web

Suchmaschinenmarkt (D)

Quelle: Webhits.de

4 |

Web search: „Always different, always the same“

AltaVista 1996

5 | http://web.archive.org/web/19961023234631/http://altavista.digital.com/

Wo stehen Suchmaschinen heute?

•  Große Web-Datenbanken sind vorhanden
•  Google, Yahoo, MSN/Live.com, Ask, Cuil
•  Betrieb dieser Datenbanken technisch möglich.

•  Navigationsanfragen können zuverlässig beantwortet werden.

•  Informationsorientierte Anfragen können meist zufriedenstellend beantwortet
werden.
•  Großer Unterschied zwischen den Anfragen.
•  Keine Suchmaschine kann alle Anfragen am besten beantworten.

•  Integration zusätzlicher Quellen
•  Spezialisierte Web-Datenbanken: News, Blogs, Video, usw.
•  Shortcuts: Wetter, Reise, Patente, usw.
•  Zukunft: Faktenextraktion

•  Einbindung kostenpflichtiger Dokumente
6 |

„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres
Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
(Machill et al. 2003)

•  Suchanfragen
–  Durchschnittliche Länge: 1,7 Wörter
–  Ca. 50% Einwort-Anfragen

•  Ergebnisseiten
–  80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus.
–  Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”).
–  Pro Session werden bis etwa fünf Dokumente angesehen.
–  Sessions dauern i.d.R. weniger als 15 Minuten.

•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.

•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.

Selektionsverhalten (Top11 Treffer)

(Granka et al. 2004)

9 |

Die Qualität von Suchmaschinen kann nur durch eine
Kombination unterschiedlicher Faktoren gemessen werden.
Qualitätsfaktoren für Suchmaschinen

•  Qualität des Index
–  Größe des Datenbestands, Abdeckung des Web
–  Abdeckung bestimmter Bereiche (Sprachräume, Länder)
–  Überschneidungen der Indices
–  Aktualität des Datenbestands

•  Qualität der Suchresultate
–  Retrievaleffektivität
–  Zufriedenheit der Nutzer
–  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)

10 |

Web-Abdeckung

Keine Suchmaschine deckt das gesamte Web ab!
–  Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen.
–  Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
Milliarden Dokumente indexiert.
–  Wenig erforschter Bereich: Invisible Web.

11 |

Taxonomie der digitalen Online-Information

(Stock 2003)

12 |

Top 10 Precision

1,00

0,90

0,80

0,70

0,60 Google
Precision

Yahoo
0,50 Live
Metager
0,40 Cuil

0,30

0,20

0,10

0,00
1 2 3 4 5 6 7 8 9 10
Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49
Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48
Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41
Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16
Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16
Number of results

13 |

Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch
deutlicher.
Vergleich der Precision nach Listenplatz (Top20; Skala)

3,00

2,50
Durchschnittliche Precision

2,00
Google
Yahoo
1,50 MSN
Ask
Seekport
1,00

0,50

0,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
Trefferplatz

14 |

Katholisch? Evangelisch? Ja, was denn nun?

15 |

Neonazis informieren über schwarzen Bürgerrechtler

16 |

Grundlegende Suchfunktionen

•  Boolesche Operatoren
–  Yahoo, MSN, Ask: vollständige Unterstützung.
–  Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,
Klammerung funktioniert nicht.

•  Phrasensuche
–  funktioniert bei allen

•  Abstandsoperatoren
–  nur bei Exalead

Suche über Felder

in der erweiterten Suche oder über Befehle

•  Titel:
–  title:
•  Dateityp:
–  filetype:
•  URL:
–  inurl:
•  bestimmter Server:
–  site:
•  Land (über Top-Level-Domain)
–  site:
•  Verlinkung:
–  link:
•  Sprache

•  Datum

Funktionsfähigkeit der Datumsbeschränkung

19 |
Quelle: Lewandowski 2004

Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)

20 | Lewandowski 2008

Weitere Suchmöglichkeiten

•  Ähnliche Seiten

•  Cache Copies
–  Google, Yahoo, MSN
–  bei Ask teilweise

•  Alte Versionen von Websites
–  Wayback Machine: www.archive.org

Suche jenseits von Google und Co.

22 |

Grenzen der Suchmaschinen

•  Suchmaschinen werden immer „Gemischtwarenläden“ bleiben.
•  Orientierung am Bedarf der Masse, auch wenn durch Personalisierung gemildert.

•  Die Recherche in Suchmaschinen wird auch in Zukunft ungenau und
zeitraubend bleiben.

•  Oft sind nicht relevante Dokumente gefragt, sondern vollständige und
verlässliche Ergebnissets.

•  Auch wenn das Quellenspektrum in den letzten Jahren wesentlich erweitert
wurde, fehlen in den Suchmaschinen wesentliche Quellen.

•  Das Zusammenführen „beider Welten“ ist noch nicht gelungen.
•  Nicht auf der Seite der Suchmaschinen.
•  Nicht auf der Seite der Anbieter von Fachinformationen.
23 |

Vielen Dank für Ihre
Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelle Bücher:
Handbuch Internet-Suchmaschinen

Web-2.0-Dienste als Ergänzung zu
algorithmischen Suchmaschinen

E-Mail:
dirk.lewandowski@haw-hamburg.de

Möglichkeiten und Grenzen der Recherche mit Suchmaschinen

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Dirk Lewandowski

Mehr von Dirk Lewandowski (20)

Möglichkeiten und Grenzen der Recherche mit Suchmaschinen