Internet-Suchmaschinen
Aktueller Stand und Entwicklungsperspektiven
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg
Prof. Dr. Dirk Lewandowski
•  Professor für Information Research &
Information Retrieval an der Hochschule
für Angewandte Wissenschaften Hamburg
•  Forschung vor allem zur Qualität von
Suchmaschinen, Nutzerverhalten, Query
Understanding, gesellschaftliche Aspekte
der Web-Suche
Inhalt
1.  Der Suchmaschinenmarkt: Wo stehen wir heute?
2.  Aktuelle Entwicklungen
–  Semantische Suche
–  Soziale Suche
–  Suchneutralität
3.  Zusammenfassung: Warum ist das wichtig?
Der Suchmaschinenmarkt: Wo stehen wir heute?
XXXX
http://web.archive.org/web/19961023234631/http://altavista.digital.com/
Suchmaschinen
7 | Dirk
Lewandowski
•  x
E-Commerce
Site-intern und andere Datenbestände
Service
Masse
• In Deutschland in einem
Monat 5,6 Milliarden
Suchanfragen („Kern-Suche“).
• Pro Tag: >180 Millionen
• Pro Stunde: 7,5 Millionen
• Pro Minute: 125.448
• Pro Sekunde: 2.091
11
|
Der Suchmaschinenmarkt: Wo stehen wir heute?
•  Suchmaschinen sind der Zugang zum Wissen im Web
•  (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen
•  Suche bleibt ein weitgehend unterschätzter Bereich
Aktuelle Entwicklungen (1): Semantische Suche
Semantik?
•  „Semantic Web“
–  Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander
verbunden werden und von Maschinen verstanden werden können.
–  Alternative Ansätze: Linked Open Data, ...
•  „Low Level Semantics“
–  Faktenextraktion aus „chaotischen“ Dokumenten
–  Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen)
•  Verstehen der Dokumente vs. Verstehen der Suchanfragen
Semantische Suche: Dokumente verstehen
Semantische Annotation von Dokumenten
•  Semantische Annotationen können in der Suche ausgenutzt werden, um
•  die Ergebnisqualität zu verbessern
•  die Trefferdarstellung („Snippets“) zu verbessern
•  Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität
in der Erstellung.
•  Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames
Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.
17 | Dirk
Lewandowski
•  x
Beispiel Google Knowledge Graph
Semantische Suche: Suchanfragen verstehen
Suchanfragen verstehen
•  bbl
•  vatikan
•  stockbrot
•  motonetix
•  nedcom
•  fußball
•  drehscheibe
•  frauentausch
•  seelenfarben
•  kachelmannwetter
•  osterei
•  wie ich
•  wgt
Suchanfragen im Kontext
Beispiel: Navigationsorientierte Suchanfragen anhand von Klicks
bestimmen
(Lewandowski, Drechsler & von Mach, im Druck)
Semantische Suche
•  Verbesserung der Qualität der Suchergebnisse durch
–  Verstehen der Suchanfrage
–  Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage
–  Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage
–  Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch
besser fundierte Entscheidung der Nutzer?
–  Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den
Seiten der Suchmaschine)
Aktuelle Entwicklungen (2): Soziale Suche
Gruppen von Rankingfaktoren
•  Textstatistik
–  „Wie gut passen Anfrage und Dokument zusammen?“
–  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
•  Popularität
–  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“
–  Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell).
•  Aktualität
–  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“
–  Datumsangaben, Linkstruktur, ...
•  Lokalität
–  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“
–  Länderinterfaces
Soziale Suche
•  Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/
Klicks) gemessen
•  Populär bei der Masse
•  Populär in einer bestimmten Nutzergruppe
•  Populär bei einem bestimmten Nutzer (Personalisierung)
•  Das Versprechen des „Social Ranking“:
•  Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger.
•  Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen
Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per
Crawling zugreifen können.
Bing und Facebook
•  Vereinbarung über die Nutzung von Facebook-Daten in Bing
–  Anmeldung in Bing mit dem Facebook-Account
–  Bislang nur in den USA verfügbar
–  Bing-Websuche in Facebook integriert
•  Anreicherung der Suchergebnisse durch Daten aus Facebook
–  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
–  Höheres Ranking von empfohlenen Ergebnissen
–  Möglichkeit, Suchergebnisse in Facebook zu posten
–  Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten
29 | Dirk
Lewandowski
•  x
Google und Google+
•  Aufbau eines eigenen sozialen Netzwerks durch Google
–  Integration in alle Google-Dienste
–  Bislang allerdings nicht besonders erfolgreich
•  Anreicherung der Suchergebnisse
–  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden
–  Höheres Ranking von empfohlenen Ergebnissen
•  Weiterer Nutzen von Google+
–  „Klarnamen-Pflicht“
–  Kombination mit anderen Profilen im Web (Twitter, etc.)
–  Verbindung mit Daten zur Autorschaft (rel=author)
à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings
Fazit Soziale Suche
•  Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist
aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking
und die Ergebnispräsentation.
•  Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren.
–  Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist.
–  Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk
handelt.
Aktuelle Entwicklungen (3): Suchneutralität
33 |
•  x
34 |
•  x
Anzeigen
Nachrichten
Bilder
Videos
Blogbeiträge
Zusammenstellung der Suchergebnisse
•  Das Suchanfragevolumen ist sehr ungleichmäßig verteilt.
•  Treffer auf den vorderen Plätzen werden sehr stark bevorzugt.
•  Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das,
was Nutzer zu sehen bekommen.
1.  Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern
in der Ergebnisdarstellung bevorzugen?
2.  Tun sie das?
•  „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im
Index nach gleichen Kriterien in das Ranking mit einbezieht.
36 | Dirk
Lewandowski
•  x
37 | Dirk
Lewandowski
•  x
38 | Dirk
Lewandowski
•  x
Aus welchen Quellen kommen die top10 organischen Ergebnisse?
Beispiel Google (2008)
Problemfelder
•  Bevorzugung eigener Angebote
–  In den organischen Ergebnissen
–  In den Universal-Search-Ergebnissen
•  Aufnahme in den Index
–  Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig
–  Folgen weitere Dienste (Places, ...)?
à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?
Zusammenfassung: Warum ist das wichtig?
Um wen geht‘s?
1.  Anbieter von Inhalten
2.  Anbieter von Suchsystemen
3.  Rechercheure
Konsequenzen für Anbieter von Inhalten
•  Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu
platzieren.
–  Mehr Konkurrenz
–  Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr
verschiedenartige Inhalte.
–  Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen
•  Die (langsame) Wende von Dokumenten zu Fakten bzw.
Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der
Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.
44 |
Dirk
•  x
(Eyetracking-Studie HAW-Hamburg 2010)
45 |
Dirk
•  x
46 |
Dirk
•  x
Konsequenzen für Anbieter von Suchsystemen
•  Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere
Systeme übertragen
–  Navigationsorientierte Anfragen beantworten
–  Suchvorschläge während der Eingabe
–  Zusammenstellung der Suchergebnisseiten
–  Möglichkeiten zur Kollaboration (soziale Netzwerke) geben
Konsequenzen für Rechercheure
•  Suchmaschinen sind weniger denn je neutrale Informationsvermittler
–  Eigeninteressen der Suchmaschinen beachten
–  Gezielte Auswahl der passenden Informationsquellen
•  „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen
–  Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google
–  Populäre Websites aus der Suche ausschließen; Bsp. Millionshort
Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

  • 1.
    Internet-Suchmaschinen Aktueller Stand undEntwicklungsperspektiven Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg
  • 2.
    Prof. Dr. DirkLewandowski •  Professor für Information Research & Information Retrieval an der Hochschule für Angewandte Wissenschaften Hamburg •  Forschung vor allem zur Qualität von Suchmaschinen, Nutzerverhalten, Query Understanding, gesellschaftliche Aspekte der Web-Suche
  • 3.
    Inhalt 1.  Der Suchmaschinenmarkt:Wo stehen wir heute? 2.  Aktuelle Entwicklungen –  Semantische Suche –  Soziale Suche –  Suchneutralität 3.  Zusammenfassung: Warum ist das wichtig?
  • 4.
    Der Suchmaschinenmarkt: Wostehen wir heute?
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
    Site-intern und andereDatenbestände
  • 10.
  • 11.
    Masse • In Deutschland ineinem Monat 5,6 Milliarden Suchanfragen („Kern-Suche“). • Pro Tag: >180 Millionen • Pro Stunde: 7,5 Millionen • Pro Minute: 125.448 • Pro Sekunde: 2.091 11 |
  • 12.
    Der Suchmaschinenmarkt: Wostehen wir heute? •  Suchmaschinen sind der Zugang zum Wissen im Web •  (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen •  Suche bleibt ein weitgehend unterschätzter Bereich
  • 13.
    Aktuelle Entwicklungen (1):Semantische Suche
  • 14.
    Semantik? •  „Semantic Web“ – Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander verbunden werden und von Maschinen verstanden werden können. –  Alternative Ansätze: Linked Open Data, ... •  „Low Level Semantics“ –  Faktenextraktion aus „chaotischen“ Dokumenten –  Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen) •  Verstehen der Dokumente vs. Verstehen der Suchanfragen
  • 15.
  • 16.
    Semantische Annotation vonDokumenten •  Semantische Annotationen können in der Suche ausgenutzt werden, um •  die Ergebnisqualität zu verbessern •  die Trefferdarstellung („Snippets“) zu verbessern •  Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität in der Erstellung. •  Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.
  • 17.
  • 18.
  • 20.
  • 21.
    Suchanfragen verstehen •  bbl • vatikan •  stockbrot •  motonetix •  nedcom •  fußball •  drehscheibe •  frauentausch •  seelenfarben •  kachelmannwetter •  osterei •  wie ich •  wgt
  • 22.
  • 23.
    Beispiel: Navigationsorientierte Suchanfragenanhand von Klicks bestimmen (Lewandowski, Drechsler & von Mach, im Druck)
  • 24.
    Semantische Suche •  Verbesserungder Qualität der Suchergebnisse durch –  Verstehen der Suchanfrage –  Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage –  Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage –  Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch besser fundierte Entscheidung der Nutzer? –  Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den Seiten der Suchmaschine)
  • 25.
  • 26.
    Gruppen von Rankingfaktoren • Textstatistik –  „Wie gut passen Anfrage und Dokument zusammen?“ –  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ... •  Popularität –  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses Dokument treffen würde?“ –  Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell). •  Aktualität –  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ –  Datumsangaben, Linkstruktur, ... •  Lokalität –  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ –  Länderinterfaces
  • 27.
    Soziale Suche •  Problemdes bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/ Klicks) gemessen •  Populär bei der Masse •  Populär in einer bestimmten Nutzergruppe •  Populär bei einem bestimmten Nutzer (Personalisierung) •  Das Versprechen des „Social Ranking“: •  Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger. •  Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per Crawling zugreifen können.
  • 28.
    Bing und Facebook • Vereinbarung über die Nutzung von Facebook-Daten in Bing –  Anmeldung in Bing mit dem Facebook-Account –  Bislang nur in den USA verfügbar –  Bing-Websuche in Facebook integriert •  Anreicherung der Suchergebnisse durch Daten aus Facebook –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen –  Möglichkeit, Suchergebnisse in Facebook zu posten –  Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten
  • 29.
  • 30.
    Google und Google+ • Aufbau eines eigenen sozialen Netzwerks durch Google –  Integration in alle Google-Dienste –  Bislang allerdings nicht besonders erfolgreich •  Anreicherung der Suchergebnisse –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen •  Weiterer Nutzen von Google+ –  „Klarnamen-Pflicht“ –  Kombination mit anderen Profilen im Web (Twitter, etc.) –  Verbindung mit Daten zur Autorschaft (rel=author) à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings
  • 31.
    Fazit Soziale Suche • Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking und die Ergebnispräsentation. •  Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren. –  Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist. –  Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk handelt.
  • 32.
  • 33.
  • 34.
  • 35.
    Zusammenstellung der Suchergebnisse • Das Suchanfragevolumen ist sehr ungleichmäßig verteilt. •  Treffer auf den vorderen Plätzen werden sehr stark bevorzugt. •  Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das, was Nutzer zu sehen bekommen. 1.  Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern in der Ergebnisdarstellung bevorzugen? 2.  Tun sie das? •  „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im Index nach gleichen Kriterien in das Ranking mit einbezieht.
  • 36.
  • 37.
  • 38.
  • 39.
    Aus welchen Quellenkommen die top10 organischen Ergebnisse? Beispiel Google (2008)
  • 40.
    Problemfelder •  Bevorzugung eigenerAngebote –  In den organischen Ergebnissen –  In den Universal-Search-Ergebnissen •  Aufnahme in den Index –  Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig –  Folgen weitere Dienste (Places, ...)? à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?
  • 41.
  • 42.
    Um wen geht‘s? 1. Anbieter von Inhalten 2.  Anbieter von Suchsystemen 3.  Rechercheure
  • 43.
    Konsequenzen für Anbietervon Inhalten •  Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu platzieren. –  Mehr Konkurrenz –  Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr verschiedenartige Inhalte. –  Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen •  Die (langsame) Wende von Dokumenten zu Fakten bzw. Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.
  • 44.
  • 45.
  • 46.
  • 47.
    Konsequenzen für Anbietervon Suchsystemen •  Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere Systeme übertragen –  Navigationsorientierte Anfragen beantworten –  Suchvorschläge während der Eingabe –  Zusammenstellung der Suchergebnisseiten –  Möglichkeiten zur Kollaboration (soziale Netzwerke) geben
  • 48.
    Konsequenzen für Rechercheure • Suchmaschinen sind weniger denn je neutrale Informationsvermittler –  Eigeninteressen der Suchmaschinen beachten –  Gezielte Auswahl der passenden Informationsquellen •  „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen –  Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google –  Populäre Websites aus der Suche ausschließen; Bsp. Millionshort
  • 49.
    Vielen Dank fürIhre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html