Vergleichende Betrachtung der Funktionalität
und Leistungsfähigkeit von Internet-
Suchmaschinen
Prof. Dr. Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de




Programm heute




•  14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und
   Leistungsfähigkeit im Vergleich (Vortrag)
     –  Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen
     –  kurze Pause
     –  Überblick Recherchemöglichkeiten

•  16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen
     –  Recherchieren in der Gruppe
     –  Vorstellung der Recherchen im Plenum
     –  Was Sie schon immer über Suchmaschinen wissen wollten...




                                                                                             1
Gliederung



Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten




Gliederung



Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten




                                                      2
Bedeutung der Suchmaschinen




 •  Suchmaschinen sind der Zugang zu Informationen im Netz.
     –  Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung.
     –  Suchmaschinen bestimmen über die sichtbaren Inhalte des Web.
     –  Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
        Informationssysteme).




5 |




 Suchmaschinenmarkt (D)




6 |




                                                                       3
7 |




 Suchmaschinen-Indizes




 Suchmaschinen mit eigenem Index
    –  Google, Yahoo, MSN (Live.com; Kumo?)
    –  Ask
    –  Exalead
    –  Cuil

 Ohne eigenen Index
   –  Alle Portale: T-Online, Web.de, AOL, ...
   –  „Klassiker“: Altavista, All the Web, ...
   –  „Neue Suchmaschinen“: Wikia Search




8 |




                                                 4
Warum sind Alternativen notwendig?




 •  Qualität der Ergebnisse

 •  Vielfalt
      –  „Zweite Meinung“

 •  Trefferpräsentation

 •  Nutzerbindung
     –  Verknüpfung von Nutzungsdaten mit Nutzerprofilen

 •  Innovation



9 |




 Alternativen




 •  Andere Universalsuchmaschinen

 •  Spezielle Kollektionen

 •  Spezialsuchmaschinen

 •  Kommerzielle Datenbanken

 •  Freie Datenbanken im Invisible Web




                                                           5
Gliederung



Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten




„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres
Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
                                                                         (Machill et al. 2003)




•  Suchanfragen
    –  Durchschnittliche Länge: 1,7 Wörter
    –  Ca. 50% Einwort-Anfragen

•  Ergebnisseiten
    –  80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus.
    –  Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”).
    –  Pro Session werden bis etwa fünf Dokumente angesehen.
    –  Sessions dauern i.d.R. weniger als 15 Minuten.

•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.

•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.




                                                                                                 6
Google groß




13 |




14 |




               7
Shortcuts




15 |




 Selektionsverhalten (Top11 Treffer)




                                       (Granka et al. 2004)



16 |




                                                              8
Gliederung



 Welche Suchmaschinen sind wichtig?

 Wie suchen Nutzer im Web?

 Wie kann man die Qualität von Suchmaschinen messen?

 Qualität des Index

 Qualität der Treffer

 Recherchemöglichkeiten




 Die Qualität von Suchmaschinen kann nur durch eine
 Kombination unterschiedlicher Faktoren gemessen werden.
 Qualitätsfaktoren für Suchmaschinen


 •  Qualität des Index
     –  Größe des Datenbestands, Abdeckung des Web
     –  Abdeckung bestimmter Bereiche (Sprachräume, Länder)
     –  Überschneidungen der Indices
     –  Aktualität des Datenbestands

 •  Qualität der Suchresultate
     –  Retrievaleffektivität
     –  Zufriedenheit der Nutzer
     –  Überschneidungen der (Top-)Ergebnisse

 •  Qualität der Suchfunktionen

 •  Nutzerfreundlichkeit + Benutzerführung                    (Lewandowski & Höchstötter 2007)

18 |




                                                                                                 9
Gliederung



 Welche Suchmaschinen sind wichtig?

 Wie suchen Nutzer im Web?

 Wie kann man die Qualität von Suchmaschinen messen?

 Qualität des Index

 Qualität der Treffer

 Recherchemöglichkeiten




 Web-Abdeckung




 Keine Suchmaschine deckt das gesamte Web ab!
    –  Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen.
    –  Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
       Milliarden Dokumente indexiert.
    –  Wenig erforschter Bereich: Invisible Web.

 Definitionen Invisible/Deep Web
    –  “Text pages, files, or other often high-quality authoritative information available
       via the World Wide Web that general-purpose search engines cannot, due to
       technical limitations, or will not, due to deliberate choice, add to their indices of
       Web pages" (Sherman u. Price 2001).
    –  “The deep Web - those pages do not exist until they are created dynamically as
       the result of a specific search“ (Bergman 2001).

20 |




                                                                                               10
Taxonomie der digitalen Online-Information




                                              (Stock 2003)

21 |




 Country Bias




22 |




                                                             11
Überschneidung der Datenbestände




 •  Überschneidung der Indices
     –  Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.

 •  Überschneidung der Suchergebnisse
     –  Sehr gering innerhalb der Top10, 20.




23 |




 Auch aktuelle Seiten werden nicht zuverlässig regelmäßig
 indexiert.




24 |




                                                                                12
Aktualität der Datenbestände




25 |




 Gliederung



 Welche Suchmaschinen sind wichtig?

 Wie suchen Nutzer im Web?

 Wie kann man die Qualität von Suchmaschinen messen?

 Qualität des Index

 Qualität der Treffer

 Recherchemöglichkeiten




                                                       13
Drei Anfragetypen

 Anfragetypen nach Broder (2002)




 •  Informational (informationsorientiert)
       –  Nutzer möchte sich zu einem Thema informieren.
       –  Ziel sind mehrere Dokumente.

 •  Navigational (navigationsorientiert)
       –  Ziel ist es, eine bestimmte Seite (wieder) zu finden.
       –  Typisch: Suche nach Homepage („Daimler Chrysler“).
       –  Ziel ist i.d.R. ein Dokument.

 •  Transactional (transaktionsorientiert)
       –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
          soll.
       –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

27 |




 Retrievaleffektivität: Navigationsorientierte Anfragen




28 |




                                                                                            14
Precision ist das am häufigsten verwendete Retrievalmaß.

 Klassische Retrievalmaße


 •  Precision
     –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der
        ausgegebenen Treffer.
     –  Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20).

 •  Recall
     –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt
        vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente).
     –  Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden).

 •  Fallout
     –  Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht
        relevanten Treffer im Datenbestand.
 •  Generality
     –  Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.
29 |




 Top 10 Precision

                 1,00


                 0,90


                 0,80


                 0,70


                 0,60                                                                                Google
   Precision




                                                                                                     Yahoo
                 0,50                                                                                Live
                                                                                                     Metager
                 0,40                                                                                Cuil


                 0,30


                 0,20


                 0,10


                 0,00
                          1      2      3      4        5        6        7      8      9     10
               Google    0,60   0,58   0,59   0,57     0,55     0,53     0,51   0,52   0,50   0,49
               Yahoo     0,54   0,57   0,53   0,53     0,51     0,52     0,50   0,50   0,49   0,48
               Live      0,48   0,48   0,49   0,45     0,46     0,45     0,43   0,43   0,42   0,41
               Metager   0,30   0,29   0,25   0,23     0,20     0,19     0,18   0,18   0,17   0,16
               Cuil      0,15   0,18   0,17   0,15     0,16     0,16     0,16   0,15   0,15   0,16
                                                     Number of results



30 |




                                                                                                               15
Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch
 deutlicher.
                                                                                     Vergleich der Precision nach Listenplatz (Top20; Skala)

                                                            3,00



                                                            2,50
                 Durchschnittliche Precision




                                                            2,00
                                                                                                                                                                                               Google
                                                                                                                                                                                               Yahoo
                                                            1,50                                                                                                                               MSN
                                                                                                                                                                                               Ask
                                                                                                                                                                                               Seekport
                                                            1,00



                                                            0,50



                                                            0,00
                                                                    1        2   3       4   5       6     7      8   9      10   11     12    13    14    15    16    17   18   19   20
                                                      Google       2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
                                                      Yahoo        2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
                                                      MSN          1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
                                                      Ask          1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
                                                      Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
                                                                                                                          Trefferplatz



31 |




 Veränderungen 2008-2008 (Beispiel)

                                               1,00


                                               0,90


                                               0,80


                                               0,70


                                               0,60
   Precision




                                                                                                                                                                                  Google
                                               0,50
                                                                                                                                                                                  Google2007

                                               0,40


                                               0,30


                                               0,20


                                               0,10


                                               0,00
                                                             1           2           3           4          5          6           7           8           9          10
               Google                                    0,60           0,58     0,59        0,57          0,55       0,53        0,51        0,52        0,50    0,49
               Google2007                                0,75           0,71     0,71        0,67          0,64       0,62        0,59        0,58        0,55    0,55
                                                                                                         Number of results



32 |




                                                                                                                                                                                                          16
Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste


                                 4,5


Suchmaschinen                      4


                                 3,5


                                   3
            Precision




                                 2,5
F&A-Diente
                                   2


                                 1,5

Social Bookmarking
                 1


                                 0,5


                                   0
                                          1       2       3       4       5            6       7       8          9         10
                        google          3,843   3,725   3,647   3,510   3,459        3,271   3,148   3,142      3,068     2,992
                        yahoo           3,039   2,941   2,850   2,897   2,804        2,797   2,753   2,730      2,653     2,608
                        MSN             2,765   2,784   2,889   2,814   2,627        2,542   2,462   2,365      2,292     2,216
                        Mr. Wong        1,765   1,922   1,904   1,956   1,867        1,846   1,792   1,755      1,785     1,680
                        del.icio.us     1,647   1,706   1,837   1,672   1,668        1,723   1,785   1,749      1,733     1,667
                        Yahoo! Clever   2,294   2,212   2,279
                        Lycos IQ        2,725   2,546   2,455
                                                                          Trefferanzahl
                                                                                                             (Gammer et al. 2008)


     33 |




      Offene Frage: Wie können Retrievalmaße dem spezifischen
      Verhalten der Suchmaschinen-Nutzer angepasst werden?
      Problembereiche


      •  Such-Sessions
          –  Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)
             werden angesehen.
          –  In der Regel werden maximal fünf Dokumente angesehen.
          –  Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.
           Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern
             angepasst werden?

      •  Zusammensetzung der Trefferlisten
           –  Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.
            Wie kann in der Evaluierung auf Facetten eingegangen werden?

      •  Interaktion
           –  Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess
              anzusehen.
            Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?
     34 |




                                                                                                                                    17
Gliederung



 Welche Suchmaschinen sind wichtig?

 Wie suchen Nutzer im Web?

 Wie kann man die Qualität von Suchmaschinen messen?

 Qualität des Index

 Qualität der Treffer

 Recherchemöglichkeiten




 Katholisch? Evangelisch? Ja, was denn nun?




36 |




                                                       18
Neonazis informieren über schwarzen Bürgerrechtler




37 |




 Grundlegende Suchfunktionen




 •  Boolesche Operatoren
     –  Yahoo, MSN, Ask: vollständige Unterstützung.
     –  Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,
        Klammerung funktioniert nicht.

 •  Phrasensuche
     –  funktioniert bei allen

 •  Abstandsoperatoren
     –  nur bei Exalead




                                                                               19
Suche über Felder

 in der erweiterten Suche oder über Befehle



 •  Titel:
      –  title:
 •  Dateityp:
      –  filetype:
 •  URL:
      –  inurl:
 •  bestimmter Server:
      –  site:
 •  Land (über Top-Level-Domain)
      –  site:
 •  Verlinkung:
      –  link:
 •  Sprache

 •  Datum




 Funktionsfähigkeit der Datumsbeschränkung




40 |
                                              Quelle: Lewandowski 2004




                                                                         20
Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)




41 |




 Weitere Suchmöglichkeiten




 •  Ähnliche Seiten

 •  Cache Copies
     –  Google, Yahoo, MSN
     –  bei Ask teilweise

 •  Alte Versionen von Websites
      –  Wayback Machine: www.archive.org




                                                                  21
Benutzerführung: Einschränkung der Suchergebnisse



•  Clustering
     –  www.clusty.com (Datenbasis: Metasuche)

•  Visualisierung von Suchergebnissen
     –  www.kartoo.com (Datenbasis: Metasuche)

•  Vorschläge für Suchanfragen
    –  www.yahoo.de
    –  www.ask.de
    –  Google (am Ende der ersten Ergebnisseite)

•  Vorschläge während der Eingabe
    –  Yahoo
    –  Google.com
    –  Cuil (inkl, Website-Vorschlägen)

•  Bewertung von Suchergebnissen
    –  Wikia Search
    –  Google Search Wiki (in Google.com)




Dokumentkollektionen




                                                    22
Suche jenseits von Google und Co.




45 |




   Vielen Dank für Ihre
   Aufmerksamkeit.

   www.bui.haw-hamburg.de/lewandowski.html



   Aktuelle Bücher:
   Handbuch Internet-Suchmaschinen

   Web-2.0-Dienste als Ergänzung zu
   algorithmischen Suchmaschinen


   E-Mail:
   dirk.lewandowski@haw-hamburg.de




                                             23

Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

  • 1.
    Vergleichende Betrachtung derFunktionalität und Leistungsfähigkeit von Internet- Suchmaschinen Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Programm heute •  14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag) –  Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen –  kurze Pause –  Überblick Recherchemöglichkeiten •  16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen –  Recherchieren in der Gruppe –  Vorstellung der Recherchen im Plenum –  Was Sie schon immer über Suchmaschinen wissen wollten... 1
  • 2.
    Gliederung Welche Suchmaschinen sindwichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten 2
  • 3.
    Bedeutung der Suchmaschinen •  Suchmaschinen sind der Zugang zu Informationen im Netz. –  Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. –  Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. –  Suchmaschinen bestimmen das Nutzerverhalten (auch für andere Informationssysteme). 5 | Suchmaschinenmarkt (D) 6 | 3
  • 4.
    7 | Suchmaschinen-Indizes Suchmaschinen mit eigenem Index –  Google, Yahoo, MSN (Live.com; Kumo?) –  Ask –  Exalead –  Cuil Ohne eigenen Index –  Alle Portale: T-Online, Web.de, AOL, ... –  „Klassiker“: Altavista, All the Web, ... –  „Neue Suchmaschinen“: Wikia Search 8 | 4
  • 5.
    Warum sind Alternativennotwendig? •  Qualität der Ergebnisse •  Vielfalt –  „Zweite Meinung“ •  Trefferpräsentation •  Nutzerbindung –  Verknüpfung von Nutzungsdaten mit Nutzerprofilen •  Innovation 9 | Alternativen •  Andere Universalsuchmaschinen •  Spezielle Kollektionen •  Spezialsuchmaschinen •  Kommerzielle Datenbanken •  Freie Datenbanken im Invisible Web 5
  • 6.
    Gliederung Welche Suchmaschinen sindwichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten „Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“ (Machill et al. 2003) •  Suchanfragen –  Durchschnittliche Länge: 1,7 Wörter –  Ca. 50% Einwort-Anfragen •  Ergebnisseiten –  80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. –  Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). –  Pro Session werden bis etwa fünf Dokumente angesehen. –  Sessions dauern i.d.R. weniger als 15 Minuten. •  Nutzer sind meist mit ihren Suchergebnissen zufrieden. •  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google. 6
  • 7.
  • 8.
    Shortcuts 15 | Selektionsverhalten(Top11 Treffer) (Granka et al. 2004) 16 | 8
  • 9.
    Gliederung Welche Suchmaschinensind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007) 18 | 9
  • 10.
    Gliederung Welche Suchmaschinensind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Web-Abdeckung Keine Suchmaschine deckt das gesamte Web ab! –  Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. –  Größe des Web ist unbekannt; die großen Suchmaschinen haben einige Milliarden Dokumente indexiert. –  Wenig erforschter Bereich: Invisible Web. Definitionen Invisible/Deep Web –  “Text pages, files, or other often high-quality authoritative information available via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001). –  “The deep Web - those pages do not exist until they are created dynamically as the result of a specific search“ (Bergman 2001). 20 | 10
  • 11.
    Taxonomie der digitalenOnline-Information (Stock 2003) 21 | Country Bias 22 | 11
  • 12.
    Überschneidung der Datenbestände •  Überschneidung der Indices –  Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen. •  Überschneidung der Suchergebnisse –  Sehr gering innerhalb der Top10, 20. 23 | Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert. 24 | 12
  • 13.
    Aktualität der Datenbestände 25| Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten 13
  • 14.
    Drei Anfragetypen Anfragetypennach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei. 27 | Retrievaleffektivität: Navigationsorientierte Anfragen 28 | 14
  • 15.
    Precision ist dasam häufigsten verwendete Retrievalmaß. Klassische Retrievalmaße •  Precision –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der ausgegebenen Treffer. –  Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20). •  Recall –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente). –  Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden). •  Fallout –  Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht relevanten Treffer im Datenbestand. •  Generality –  Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand. 29 | Top 10 Precision 1,00 0,90 0,80 0,70 0,60 Google Precision Yahoo 0,50 Live Metager 0,40 Cuil 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49 Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48 Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41 Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16 Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16 Number of results 30 | 15
  • 16.
    Skalenbewertung zeigt dieGruppierung der Suchmaschinen noch deutlicher. Vergleich der Precision nach Listenplatz (Top20; Skala) 3,00 2,50 Durchschnittliche Precision 2,00 Google Yahoo 1,50 MSN Ask Seekport 1,00 0,50 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 Trefferplatz 31 | Veränderungen 2008-2008 (Beispiel) 1,00 0,90 0,80 0,70 0,60 Precision Google 0,50 Google2007 0,40 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49 Google2007 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 Number of results 32 | 16
  • 17.
    Suchmaschinen, Social Bookmarking,Frage-Antwort-Dienste 4,5 Suchmaschinen 4 3,5 3 Precision 2,5 F&A-Diente 2 1,5 Social Bookmarking 1 0,5 0 1 2 3 4 5 6 7 8 9 10 google 3,843 3,725 3,647 3,510 3,459 3,271 3,148 3,142 3,068 2,992 yahoo 3,039 2,941 2,850 2,897 2,804 2,797 2,753 2,730 2,653 2,608 MSN 2,765 2,784 2,889 2,814 2,627 2,542 2,462 2,365 2,292 2,216 Mr. Wong 1,765 1,922 1,904 1,956 1,867 1,846 1,792 1,755 1,785 1,680 del.icio.us 1,647 1,706 1,837 1,672 1,668 1,723 1,785 1,749 1,733 1,667 Yahoo! Clever 2,294 2,212 2,279 Lycos IQ 2,725 2,546 2,455 Trefferanzahl (Gammer et al. 2008) 33 | Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereiche •  Such-Sessions –  Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich) werden angesehen. –  In der Regel werden maximal fünf Dokumente angesehen. –  Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.  Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern angepasst werden? •  Zusammensetzung der Trefferlisten –  Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.  Wie kann in der Evaluierung auf Facetten eingegangen werden? •  Interaktion –  Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess anzusehen.  Wie können die Maße an den tatsächlichen Suchprozess angepasst werden? 34 | 17
  • 18.
    Gliederung Welche Suchmaschinensind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Katholisch? Evangelisch? Ja, was denn nun? 36 | 18
  • 19.
    Neonazis informieren überschwarzen Bürgerrechtler 37 | Grundlegende Suchfunktionen •  Boolesche Operatoren –  Yahoo, MSN, Ask: vollständige Unterstützung. –  Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig, Klammerung funktioniert nicht. •  Phrasensuche –  funktioniert bei allen •  Abstandsoperatoren –  nur bei Exalead 19
  • 20.
    Suche über Felder in der erweiterten Suche oder über Befehle •  Titel: –  title: •  Dateityp: –  filetype: •  URL: –  inurl: •  bestimmter Server: –  site: •  Land (über Top-Level-Domain) –  site: •  Verlinkung: –  link: •  Sprache •  Datum Funktionsfähigkeit der Datumsbeschränkung 40 | Quelle: Lewandowski 2004 20
  • 21.
    Funktionstüchtigkeit der Sprachbeschränkung(deutsch-englisch) 41 | Weitere Suchmöglichkeiten •  Ähnliche Seiten •  Cache Copies –  Google, Yahoo, MSN –  bei Ask teilweise •  Alte Versionen von Websites –  Wayback Machine: www.archive.org 21
  • 22.
    Benutzerführung: Einschränkung derSuchergebnisse •  Clustering –  www.clusty.com (Datenbasis: Metasuche) •  Visualisierung von Suchergebnissen –  www.kartoo.com (Datenbasis: Metasuche) •  Vorschläge für Suchanfragen –  www.yahoo.de –  www.ask.de –  Google (am Ende der ersten Ergebnisseite) •  Vorschläge während der Eingabe –  Yahoo –  Google.com –  Cuil (inkl, Website-Vorschlägen) •  Bewertung von Suchergebnissen –  Wikia Search –  Google Search Wiki (in Google.com) Dokumentkollektionen 22
  • 23.
    Suche jenseits vonGoogle und Co. 45 | Vielen Dank für Ihre Aufmerksamkeit. www.bui.haw-hamburg.de/lewandowski.html Aktuelle Bücher: Handbuch Internet-Suchmaschinen Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen E-Mail: dirk.lewandowski@haw-hamburg.de 23