2. Prof. Dr. Dirk Lewandowski
• Professor für Information Research &
Information Retrieval an der Hochschule
für Angewandte Wissenschaften Hamburg
• Forschung vor allem zur Qualität von
Suchmaschinen, Nutzerverhalten, Query
Understanding, gesellschaftliche Aspekte
der Web-Suche
3. Inhalt
1. Der Suchmaschinenmarkt: Wo stehen wir heute?
2. Aktuelle Entwicklungen
– Semantische Suche
– Soziale Suche
– Suchneutralität
3. Zusammenfassung: Warum ist das wichtig?
11. Masse
• In Deutschland in einem
Monat 5,6 Milliarden
Suchanfragen („Kern-Suche“).
• Pro Tag: >180 Millionen
• Pro Stunde: 7,5 Millionen
• Pro Minute: 125.448
• Pro Sekunde: 2.091
11
|
12. Der Suchmaschinenmarkt: Wo stehen wir heute?
• Suchmaschinen sind der Zugang zum Wissen im Web
• (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen
• Suche bleibt ein weitgehend unterschätzter Bereich
14. Semantik?
• „Semantic Web“
– Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander
verbunden werden und von Maschinen verstanden werden können.
– Alternative Ansätze: Linked Open Data, ...
• „Low Level Semantics“
– Faktenextraktion aus „chaotischen“ Dokumenten
– Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen)
• Verstehen der Dokumente vs. Verstehen der Suchanfragen
16. Semantische Annotation von Dokumenten
• Semantische Annotationen können in der Suche ausgenutzt werden, um
• die Ergebnisqualität zu verbessern
• die Trefferdarstellung („Snippets“) zu verbessern
• Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität
in der Erstellung.
• Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames
Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.
24. Semantische Suche
• Verbesserung der Qualität der Suchergebnisse durch
– Verstehen der Suchanfrage
– Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage
– Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage
– Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch
besser fundierte Entscheidung der Nutzer?
– Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den
Seiten der Suchmaschine)
26. Gruppen von Rankingfaktoren
• Textstatistik
– „Wie gut passen Anfrage und Dokument zusammen?“
– Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
• Popularität
– „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“
– Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell).
• Aktualität
– „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“
– Datumsangaben, Linkstruktur, ...
• Lokalität
– „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“
– Länderinterfaces
27. Soziale Suche
• Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/
Klicks) gemessen
• Populär bei der Masse
• Populär in einer bestimmten Nutzergruppe
• Populär bei einem bestimmten Nutzer (Personalisierung)
• Das Versprechen des „Social Ranking“:
• Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger.
• Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen
Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per
Crawling zugreifen können.
28. Bing und Facebook
• Vereinbarung über die Nutzung von Facebook-Daten in Bing
– Anmeldung in Bing mit dem Facebook-Account
– Bislang nur in den USA verfügbar
– Bing-Websuche in Facebook integriert
• Anreicherung der Suchergebnisse durch Daten aus Facebook
– Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
– Höheres Ranking von empfohlenen Ergebnissen
– Möglichkeit, Suchergebnisse in Facebook zu posten
– Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten
30. Google und Google+
• Aufbau eines eigenen sozialen Netzwerks durch Google
– Integration in alle Google-Dienste
– Bislang allerdings nicht besonders erfolgreich
• Anreicherung der Suchergebnisse
– Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
– Höheres Ranking von empfohlenen Ergebnissen
• Weiterer Nutzen von Google+
– „Klarnamen-Pflicht“
– Kombination mit anderen Profilen im Web (Twitter, etc.)
– Verbindung mit Daten zur Autorschaft (rel=author)
à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings
31. Fazit Soziale Suche
• Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist
aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking
und die Ergebnispräsentation.
• Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren.
– Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist.
– Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk
handelt.
35. Zusammenstellung der Suchergebnisse
• Das Suchanfragevolumen ist sehr ungleichmäßig verteilt.
• Treffer auf den vorderen Plätzen werden sehr stark bevorzugt.
• Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das,
was Nutzer zu sehen bekommen.
1. Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern
in der Ergebnisdarstellung bevorzugen?
2. Tun sie das?
• „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im
Index nach gleichen Kriterien in das Ranking mit einbezieht.
39. Aus welchen Quellen kommen die top10 organischen Ergebnisse?
Beispiel Google (2008)
40. Problemfelder
• Bevorzugung eigener Angebote
– In den organischen Ergebnissen
– In den Universal-Search-Ergebnissen
• Aufnahme in den Index
– Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig
– Folgen weitere Dienste (Places, ...)?
à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?
42. Um wen geht‘s?
1. Anbieter von Inhalten
2. Anbieter von Suchsystemen
3. Rechercheure
43. Konsequenzen für Anbieter von Inhalten
• Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu
platzieren.
– Mehr Konkurrenz
– Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr
verschiedenartige Inhalte.
– Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen
• Die (langsame) Wende von Dokumenten zu Fakten bzw.
Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der
Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.
47. Konsequenzen für Anbieter von Suchsystemen
• Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere
Systeme übertragen
– Navigationsorientierte Anfragen beantworten
– Suchvorschläge während der Eingabe
– Zusammenstellung der Suchergebnisseiten
– Möglichkeiten zur Kollaboration (soziale Netzwerke) geben
48. Konsequenzen für Rechercheure
• Suchmaschinen sind weniger denn je neutrale Informationsvermittler
– Eigeninteressen der Suchmaschinen beachten
– Gezielte Auswahl der passenden Informationsquellen
• „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen
– Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google
– Populäre Websites aus der Suche ausschließen; Bsp. Millionshort
49. Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html