Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Internet-Suchmaschinen
Aktueller Stand und Entwicklungsperspektiven
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg

•  Professor für Information Research &
Information Retrieval an der Hochschule
für Angewandte Wissenschaften Hamburg
•  Forschung vor allem zur Qualität von
Suchmaschinen, Nutzerverhalten, Query
Understanding, gesellschaftliche Aspekte
der Web-Suche

Inhalt
1.  Der Suchmaschinenmarkt: Wo stehen wir heute?
2.  Aktuelle Entwicklungen
–  Semantische Suche
–  Soziale Suche
–  Suchneutralität
3.  Zusammenfassung: Warum ist das wichtig?

Der Suchmaschinenmarkt: Wo stehen wir heute?

XXXX
http://web.archive.org/web/19961023234631/http://altavista.digital.com/

Site-intern und andere Datenbestände

Masse
• In Deutschland in einem
Monat 5,6 Milliarden
Suchanfragen („Kern-Suche“).
• Pro Tag: >180 Millionen
• Pro Stunde: 7,5 Millionen
• Pro Minute: 125.448
• Pro Sekunde: 2.091
11
|

Der Suchmaschinenmarkt: Wo stehen wir heute?
•  Suchmaschinen sind der Zugang zum Wissen im Web
•  (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen
•  Suche bleibt ein weitgehend unterschätzter Bereich

Aktuelle Entwicklungen (1): Semantische Suche

Semantik?
•  „Semantic Web“
–  Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander
verbunden werden und von Maschinen verstanden werden können.
–  Alternative Ansätze: Linked Open Data, ...
•  „Low Level Semantics“
–  Faktenextraktion aus „chaotischen“ Dokumenten
–  Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen)
•  Verstehen der Dokumente vs. Verstehen der Suchanfragen

Semantische Suche: Dokumente verstehen

Semantische Annotation von Dokumenten
•  Semantische Annotationen können in der Suche ausgenutzt werden, um
•  die Ergebnisqualität zu verbessern
•  die Trefferdarstellung („Snippets“) zu verbessern
•  Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität
in der Erstellung.
•  Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames
Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.

17 | Dirk
Lewandowski
•  x

Beispiel Google Knowledge Graph

Semantische Suche: Suchanfragen verstehen

Suchanfragen verstehen
•  bbl
•  vatikan
•  stockbrot
•  motonetix
•  nedcom
•  fußball
•  drehscheibe
•  frauentausch
•  seelenfarben
•  kachelmannwetter
•  osterei
•  wie ich
•  wgt

Beispiel: Navigationsorientierte Suchanfragen anhand von Klicks
bestimmen
(Lewandowski, Drechsler & von Mach, im Druck)

Semantische Suche
•  Verbesserung der Qualität der Suchergebnisse durch
–  Verstehen der Suchanfrage
–  Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage
–  Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage
–  Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch
besser fundierte Entscheidung der Nutzer?
–  Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den
Seiten der Suchmaschine)

Aktuelle Entwicklungen (2): Soziale Suche

Gruppen von Rankingfaktoren
•  Textstatistik
–  „Wie gut passen Anfrage und Dokument zusammen?“
–  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
•  Popularität
–  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“
–  Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell).
•  Aktualität
–  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“
–  Datumsangaben, Linkstruktur, ...
•  Lokalität
–  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“
–  Länderinterfaces

Soziale Suche
•  Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/
Klicks) gemessen
•  Populär bei der Masse
•  Populär in einer bestimmten Nutzergruppe
•  Populär bei einem bestimmten Nutzer (Personalisierung)
•  Das Versprechen des „Social Ranking“:
•  Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger.
•  Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen
Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per
Crawling zugreifen können.

Bing und Facebook
•  Vereinbarung über die Nutzung von Facebook-Daten in Bing
–  Anmeldung in Bing mit dem Facebook-Account
–  Bislang nur in den USA verfügbar
–  Bing-Websuche in Facebook integriert
•  Anreicherung der Suchergebnisse durch Daten aus Facebook
–  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
–  Höheres Ranking von empfohlenen Ergebnissen
–  Möglichkeit, Suchergebnisse in Facebook zu posten
–  Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten

29 | Dirk
Lewandowski
•  x

Google und Google+
•  Aufbau eines eigenen sozialen Netzwerks durch Google
–  Integration in alle Google-Dienste
–  Bislang allerdings nicht besonders erfolgreich
•  Anreicherung der Suchergebnisse
–  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
–  Höheres Ranking von empfohlenen Ergebnissen
•  Weiterer Nutzen von Google+
–  „Klarnamen-Pflicht“
–  Kombination mit anderen Profilen im Web (Twitter, etc.)
–  Verbindung mit Daten zur Autorschaft (rel=author)
à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings

Fazit Soziale Suche
•  Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist
aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking
und die Ergebnispräsentation.
•  Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren.
–  Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist.
–  Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk
handelt.

Aktuelle Entwicklungen (3): Suchneutralität

34 |
•  x
Anzeigen
Nachrichten
Bilder
Videos
Blogbeiträge

Zusammenstellung der Suchergebnisse
•  Das Suchanfragevolumen ist sehr ungleichmäßig verteilt.
•  Treffer auf den vorderen Plätzen werden sehr stark bevorzugt.
•  Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das,
was Nutzer zu sehen bekommen.
1.  Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern
in der Ergebnisdarstellung bevorzugen?
2.  Tun sie das?
•  „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im
Index nach gleichen Kriterien in das Ranking mit einbezieht.

36 | Dirk
Lewandowski
•  x

37 | Dirk
Lewandowski
•  x

38 | Dirk
Lewandowski
•  x

Aus welchen Quellen kommen die top10 organischen Ergebnisse?
Beispiel Google (2008)

Problemfelder
•  Bevorzugung eigener Angebote
–  In den organischen Ergebnissen
–  In den Universal-Search-Ergebnissen
•  Aufnahme in den Index
–  Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig
–  Folgen weitere Dienste (Places, ...)?
à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?

Zusammenfassung: Warum ist das wichtig?

Um wen geht‘s?
1.  Anbieter von Inhalten
2.  Anbieter von Suchsystemen
3.  Rechercheure

Konsequenzen für Anbieter von Inhalten
•  Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu
platzieren.
–  Mehr Konkurrenz
–  Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr
verschiedenartige Inhalte.
–  Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen
•  Die (langsame) Wende von Dokumenten zu Fakten bzw.
Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der
Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.

44 |
Dirk
•  x
(Eyetracking-Studie HAW-Hamburg 2010)

Konsequenzen für Anbieter von Suchsystemen
•  Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere
Systeme übertragen
–  Navigationsorientierte Anfragen beantworten
–  Suchvorschläge während der Eingabe
–  Zusammenstellung der Suchergebnisseiten
–  Möglichkeiten zur Kollaboration (soziale Netzwerke) geben

Konsequenzen für Rechercheure
•  Suchmaschinen sind weniger denn je neutrale Informationsvermittler
–  Eigeninteressen der Suchmaschinen beachten
–  Gezielte Auswahl der passenden Informationsquellen
•  „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen
–  Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google
–  Populäre Websites aus der Suche ausschließen; Bsp. Millionshort

Vielen Dank für Ihre Aufmerksamkeit
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Weitere ähnliche Inhalte

Was ist angesagt?

Ähnlich wie Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Mehr von Dirk Lewandowski

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven