Zurzeit werden verschiedene Wege diskutiert, um das „Problem Google“ zu lösen. Vordergründig geht es dabei darum, Maßnahmen zu ergreifen, um Googles Monopol auf dem Suchmaschinenmarkt einzudämmen. Weitergehend geht es allerdings darum, wer zu welchen Bedingungen Zugriff auf die im Web verstreut vorliegenden Daten bekommt.
Die bisherigen Vorschläge reichen dabei von einem schlichten Hoffen auf den Markt bis hin zur Forderung nach dem Aufbau einer öffentlich-rechtlichen Suchmaschine. Allerdings würde als Ergebnis stets nur ein weiterer Marktteilnehmer (oder bestenfalls ein paar wenige) entsteht. An diesem Punkt setzt die Idee des “Open Web Index” an: Der Index wird als eine Infrastrukturmaßnahme angesehen, die von allen zu fairen Bedingungen genutzt werden kann. Auf der Basis des Index kann dann eine Vielzahl von Diensten aufgebaut werden, darunter natürlich Suchmaschinen, aber auch jede andere Form von Dienst, der Web-Daten in großem Umfang benötigt.
Der Vortrag setzt sich mit den wirtschaftlichen und technischen Fragen eines solchen offenen Web-Index auseinander und berichtet von den Fortschritten der Initiative Open Web Index.
Alles, was man über SEO abseits von Themen wie App-Indexing, AMP und Co wirklich wissen muss. Onpage & Offpage Optimierung einfach erklärt.
Vortrag des CEO Stephan Czysch von der Berliner Online-Marketing-Agentur Trust Agents. Präsentiert auf der Co-Reach 2017.
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...JustRelate
Die Bedeutung der populären Suchmaschinen im Internet wächst ständig. Wer hier prominent gelistet wird, lenkt viele Besucher auf seine Webpräsenz. Im Gegensatz zu anderen Medien lässt sich diese attraktive Werbung sogar kostenfrei „schalten“. Es verwundert deshalb nicht, dass die oberen Plätze in den Ergebnislisten speziell beim Marktführer Google heiß umkämpft sind.
The Need for and fundamentals of an Open Web IndexDirk Lewandowski
The document proposes the creation of an Open Web Index (OWI) to address the lack of a comprehensive, public index of web content. It argues that current initiatives like Common Crawl are insufficient as they are not kept fully up-to-date, lack search functionality, and do not address spam removal. The OWI would separate the crawling and indexing of web content from proprietary search services built on top of the index. Building such a major public project requires political and financial support as well as technical expertise. The goal is an independent index that serves as a public library of web content.
Search engines like Google have a massive influence on what information users get to see, and on what search results users select. This leads to search engines having a significant impact on what information we as a society acquire.
It has been often lamented that search engines are biased. I, however, argue that we have only scratched the surface because search engine bias is a multifaceted concept and the discussion usually solely focuses on some aspects.
Search engine bias can be classified into four different areas. Firstly, there are biases on the side of the search engine, e.g., in their ranking functions. Secondly, there are biases through external influencing of search engine results, predominantly through “search engine optimization”.
Thirdly, biases occur on the side of the user (e.g., position bias, confirmation bias, visual attraction bias). And fourthly, there are self-interests of search engine providers which influence the search results.
Further to giving an overview of the topic, I will show how search engine providers (and regulators) can take steps towards making search fair. Whereas a bias-free search engine is impossible, a fair search is. Here, I will not only focus on the big web search engines but also on how developers and product owners can make their search systems fair. Or, to put it another way, I will show what can we learn from these “worst practices” in web search when designing our own systems.
Weitere ähnliche Inhalte
Ähnlich wie Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen
Zurzeit werden verschiedene Wege diskutiert, um das „Problem Google“ zu lösen. Vordergründig geht es dabei darum, Maßnahmen zu ergreifen, um Googles Monopol auf dem Suchmaschinenmarkt einzudämmen. Weitergehend geht es allerdings darum, wer zu welchen Bedingungen Zugriff auf die im Web verstreut vorliegenden Daten bekommt.
Die bisherigen Vorschläge reichen dabei von einem schlichten Hoffen auf den Markt bis hin zur Forderung nach dem Aufbau einer öffentlich-rechtlichen Suchmaschine. Allerdings würde als Ergebnis stets nur ein weiterer Marktteilnehmer (oder bestenfalls ein paar wenige) entsteht. An diesem Punkt setzt die Idee des “Open Web Index” an: Der Index wird als eine Infrastrukturmaßnahme angesehen, die von allen zu fairen Bedingungen genutzt werden kann. Auf der Basis des Index kann dann eine Vielzahl von Diensten aufgebaut werden, darunter natürlich Suchmaschinen, aber auch jede andere Form von Dienst, der Web-Daten in großem Umfang benötigt.
Der Vortrag setzt sich mit den wirtschaftlichen und technischen Fragen eines solchen offenen Web-Index auseinander und berichtet von den Fortschritten der Initiative Open Web Index.
Alles, was man über SEO abseits von Themen wie App-Indexing, AMP und Co wirklich wissen muss. Onpage & Offpage Optimierung einfach erklärt.
Vortrag des CEO Stephan Czysch von der Berliner Online-Marketing-Agentur Trust Agents. Präsentiert auf der Co-Reach 2017.
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...JustRelate
Die Bedeutung der populären Suchmaschinen im Internet wächst ständig. Wer hier prominent gelistet wird, lenkt viele Besucher auf seine Webpräsenz. Im Gegensatz zu anderen Medien lässt sich diese attraktive Werbung sogar kostenfrei „schalten“. Es verwundert deshalb nicht, dass die oberen Plätze in den Ergebnislisten speziell beim Marktführer Google heiß umkämpft sind.
The Need for and fundamentals of an Open Web IndexDirk Lewandowski
The document proposes the creation of an Open Web Index (OWI) to address the lack of a comprehensive, public index of web content. It argues that current initiatives like Common Crawl are insufficient as they are not kept fully up-to-date, lack search functionality, and do not address spam removal. The OWI would separate the crawling and indexing of web content from proprietary search services built on top of the index. Building such a major public project requires political and financial support as well as technical expertise. The goal is an independent index that serves as a public library of web content.
Search engines like Google have a massive influence on what information users get to see, and on what search results users select. This leads to search engines having a significant impact on what information we as a society acquire.
It has been often lamented that search engines are biased. I, however, argue that we have only scratched the surface because search engine bias is a multifaceted concept and the discussion usually solely focuses on some aspects.
Search engine bias can be classified into four different areas. Firstly, there are biases on the side of the search engine, e.g., in their ranking functions. Secondly, there are biases through external influencing of search engine results, predominantly through “search engine optimization”.
Thirdly, biases occur on the side of the user (e.g., position bias, confirmation bias, visual attraction bias). And fourthly, there are self-interests of search engine providers which influence the search results.
Further to giving an overview of the topic, I will show how search engine providers (and regulators) can take steps towards making search fair. Whereas a bias-free search engine is impossible, a fair search is. Here, I will not only focus on the big web search engines but also on how developers and product owners can make their search systems fair. Or, to put it another way, I will show what can we learn from these “worst practices” in web search when designing our own systems.
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...Dirk Lewandowski
Die Suche im Internet ist eine einfache Sache: Suchanfrage eingeben, Ergebnis auswählen, lesen, fertig! Doch wie wählen wir eigentlich Ergebnisse aus? Und welche Ergebnisse werden uns überhaupt zur Auswahl angeboten?
In diesem Vortrag werde ich zeigen, wie Nutzer durch bestimmte Formen von Ergebnissen und deren Darstellung beeinflusst werden. Dabei geht es um die Kennzeichnung von Anzeigen, um Googles Eigeninteressen bei der Anzeige seiner eigenen Inhalte (bspw. YouTube) und um die Beeinflussung der Suchergebnisse durch Externe.
Also: Nach diesem Vortrag kann man nicht nur selbst besser suchen, sondern auch besser einschätzen, welchen Einfluss Google darauf hat, welche Informationen wir alle aus dem Web erhalten.
Selbstfahrende Autos, Roboter, Flugtaxis – wenn von künstlicher Intelligenz (KI) die Rede ist, werden oft plastische bis drastische Beispiele gebraucht. Meist werden grundlegende Fragen der künstlichen Intelligenz anhand von Zukunftsszenarien diskutiert. Es lohnt sich jedoch ein Blick auf einen der Bereiche, in denen Verfahren der KI bereits heute deutlich ausgeprägt sind, nämlich die Suchmaschinen im Web.
Suchmaschinen haben sich zu „Next-Generation Search Systems“ (White, 2016) entwickelt. Die von den Suchmaschinen bekannte Technologie wurde erweitert und angepasst, um intelligente Dienste wie Siri, Cortana und Alexa möglich zu machen. Diese zeichnen sich zum einen dadurch aus, dass sie unterschiedliche Eingabeformate (wie Text oder Sprache) verstehen, zum anderen dadurch, dass sie nicht mehr nur Listen von potentiell relevanten Dokumenten, sondern echte Antworten geben.
Der Vortrag zeigt, wie sich Suchmaschinen auf der Basis von Technologien der künstlichen Intelligenz entwickelt haben und was diese Entwicklung für die Informationsrecherche bedeutet. Dass Suchmaschinen einen erheblichen Einfluss darauf haben, welche Informationen gesehen werden, steht außer Zweifel. Sie sind der von den Nutzern bei weitem bevorzugte Weg, um an Informationen (aus dem Web) zu gelangen (Koch & Frees, 2016) und genießen ein hohes Vertrauen (Purcell, Brenner, & Raine, 2012; Stark, Magin, & Jürgens, 2014). Doch ist dieses Vertrauen gerechtfertigt?
Analysing search engine data on socially relevant topicsDirk Lewandowski
This document summarizes a presentation on analyzing search engine data for socially relevant topics. It discusses collecting search results data at scale by automatically querying search engines and scraping results pages. A case study on insurance comparisons is presented where over 20,000 search results were analyzed for 121 queries. The results showed that a small number of domains and providers dominated the top search positions. Limitations and future work are also outlined.
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertDirk Lewandowski
Suchmaschinen haben sich grundlegend geändert: Sie erlauben Eingaben über Text, Sprache und Bilder und geben anstelle der altbekannten Suchergebnislisten zunehmend auch direkte Antworten auf Fragen aus. Um dies zu ermöglichen, analysieren sie neben den Suchanfragen auch persönliche Informationen der Nutzer und ihrer sozialen Netzwerke sowie Massendaten aus vergangenen Suchvorgängen und anderen Interaktionen. Dies verändert die Weise, wie wir suchen und was wir finden.
Doch wie gehen Nutzer mit diesen „Next Generation Search Systems“ in Form von Suchmaschinen, sprachbasierten persönlichen Assistenten und anderen Assistenzsystemen im Alltag um? Und was bedeutet dies auf der einen Seite für das Online-Marketing, auf der anderen Seite für den nach Informationen suchenden Nutzer?
Are Ads on Google search engine results pages labeled clearly enough?Dirk Lewandowski
In an online experiment using a representative sample of the German online population (n=1,000), we compare users’ selection behavior on two versions of the same Google search engine results page (SERP), one showing advertisements and organic results, the other showing organic results only. Selection behavior is analyzed in relation to users’ knowledge on Google’s business model, on SERP design, and on these users’ actual performance in marking advertisements on SERPs correctly. We find that users who were not able to mark ads correctly selected ads significantly more often. This leads to the conclusion that ads need to be labeled more clearly, and that there is a need for more information literacy in search engine users.
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Dirk Lewandowski
Suchmaschinen sind das wichtigste Tor zu den Inhalten des Web – das Web wäre ohne Suchmaschinen gar nicht benutzbar. Doch was wird uns eigentlich auf den Suchergebnisseiten von Google angezeigt? Handelt es sich einfach um neutrale Informationen, die vollautomatisch zusammengestellt werden?
Der Vortrag zeigt, wie die unterschiedlichen Interessen von Suchmaschinenbetreibern, den Inhalteanbietern, den Suchmaschinenoptimierern und uns Nutzern erst im Zusammenspiel die Ergebnisse von Google und Co. generieren. Dabei geht es um die Frage, was diese Einflüsse für uns alles bedeuten, die wir Suchmaschinen zur Informationsrecherche benutzen.
Wie Suchmaschinen die Inhalte des Web interpretierenDirk Lewandowski
Suchmaschinen ermöglichen es Nutzern, leicht an relevante Informationen zu gelangen. Doch wie entstehen eigentlich "relevante" Ergebnisse und welche Rolle spielt das Verhalten der Nutzer für die Bewertung der Dokumente durch die Suchmaschinen? Ausgehend von den Charakteristika des Nutzerverhaltens betrachtet der Vortrag vor allem den Interpretationsspielraum bei der Generierung von Suchergebnissen. Ausgangspunkt ist dabei die These, dass es zu den meisten Suchanfragen weit mehr relevante Dokumente gibt als ein Nutzer bereit ist anzusehen. Daraus ergibt sich eine Unterscheidung nicht mehr zwischen relevanten und nicht relevanten Dokumenten, sondern eine (algorithmische) Entscheidung zwischen unterschiedlichen relevanten Dokumenten. Daraus ergeben sich Implikationen für die Informationssuche, für das Design von Suchmaschinen und für den Zugang zu Informationen.
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Dirk Lewandowski
Vortrag bei der Online Marketing Konferenz (OMK 2015). Ein Blick in die technische Zukunft der Web-Suchmaschinen und deren gesellschaftliche Auswirkungen.
Suchmaschinen sind der meistgenutzte Dienst des Internet; täglich werden viele Milliarden Suchanfragen an Google und Co. gestellt. Doch dieser immensen Nutzung steht ein nur mangelhaftes Wissen über die Suchmaschinen gegenüber. Dabei geht es auf der einen Seite natürlich um ein Verständnis der zugrunde liegenden Technik; Suchmaschinen sind aber weit mehr: Hinter ihnen stehen Unternehmen, die mit der Suche im Web Geld verdienen wollen, Suchmaschinen spielen eine wichtige Rolle für den Informationserwerb in der Gesellschaft, und schließlich spielen Suchmaschinen als Plattform für das Online-Marketing eine bedeutende Rolle bei der Vermittlung zwischen Suchenden und Unternehmen.
Im Vortrag werden die zentralen Akteure auf dem Suchmaschinenmarkt vorgestellt und ausgeführt, warum ein Verständnis von Suchmaschinen aus nur einer Perspektive (sei diese technisch, wirtschaftlich oder gesellschaftlich) nicht ausreicht, sondern wir Suchmaschinen tatsächlich nur verstehen können, wenn wir sie ganzheitlich betrachten.
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Dirk Lewandowski
This document discusses a study that examined how ordinary search engine users assess the difficulty, effort, and outcomes of simple and complex search tasks.
The study involved 60 participants who were given 12 search tasks (6 simple, 6 complex) and asked to complete pre- and post-task questionnaires rating the difficulty, time effort, query effort, and likelihood of finding the right information. Results showed that users were generally able to correctly judge simple tasks (~90% accuracy) but accuracy dropped to ~2/3 for complex tasks. Statistical analysis found users were significantly better at judging the complexity of simple vs. complex tasks. The study aimed to provide insights into how well users can estimate efforts and outcomes for different types of search tasks.
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen
1. Vergleichende Betrachtung der Funktionalität
und Leistungsfähigkeit von Internet-
Suchmaschinen
Prof. Dr. Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de
Programm heute
• 14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und
Leistungsfähigkeit im Vergleich (Vortrag)
– Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen
– kurze Pause
– Überblick Recherchemöglichkeiten
• 16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen
– Recherchieren in der Gruppe
– Vorstellung der Recherchen im Plenum
– Was Sie schon immer über Suchmaschinen wissen wollten...
1
2. Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
2
3. Bedeutung der Suchmaschinen
• Suchmaschinen sind der Zugang zu Informationen im Netz.
– Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung.
– Suchmaschinen bestimmen über die sichtbaren Inhalte des Web.
– Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
Informationssysteme).
5 |
Suchmaschinenmarkt (D)
6 |
3
4. 7 |
Suchmaschinen-Indizes
Suchmaschinen mit eigenem Index
– Google, Yahoo, MSN (Live.com; Kumo?)
– Ask
– Exalead
– Cuil
Ohne eigenen Index
– Alle Portale: T-Online, Web.de, AOL, ...
– „Klassiker“: Altavista, All the Web, ...
– „Neue Suchmaschinen“: Wikia Search
8 |
4
5. Warum sind Alternativen notwendig?
• Qualität der Ergebnisse
• Vielfalt
– „Zweite Meinung“
• Trefferpräsentation
• Nutzerbindung
– Verknüpfung von Nutzungsdaten mit Nutzerprofilen
• Innovation
9 |
Alternativen
• Andere Universalsuchmaschinen
• Spezielle Kollektionen
• Spezialsuchmaschinen
• Kommerzielle Datenbanken
• Freie Datenbanken im Invisible Web
5
6. Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres
Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
(Machill et al. 2003)
• Suchanfragen
– Durchschnittliche Länge: 1,7 Wörter
– Ca. 50% Einwort-Anfragen
• Ergebnisseiten
– 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus.
– Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”).
– Pro Session werden bis etwa fünf Dokumente angesehen.
– Sessions dauern i.d.R. weniger als 15 Minuten.
• Nutzer sind meist mit ihren Suchergebnissen zufrieden.
• Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
6
9. Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Die Qualität von Suchmaschinen kann nur durch eine
Kombination unterschiedlicher Faktoren gemessen werden.
Qualitätsfaktoren für Suchmaschinen
• Qualität des Index
– Größe des Datenbestands, Abdeckung des Web
– Abdeckung bestimmter Bereiche (Sprachräume, Länder)
– Überschneidungen der Indices
– Aktualität des Datenbestands
• Qualität der Suchresultate
– Retrievaleffektivität
– Zufriedenheit der Nutzer
– Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)
18 |
9
10. Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Web-Abdeckung
Keine Suchmaschine deckt das gesamte Web ab!
– Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen.
– Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
Milliarden Dokumente indexiert.
– Wenig erforschter Bereich: Invisible Web.
Definitionen Invisible/Deep Web
– “Text pages, files, or other often high-quality authoritative information available
via the World Wide Web that general-purpose search engines cannot, due to
technical limitations, or will not, due to deliberate choice, add to their indices of
Web pages" (Sherman u. Price 2001).
– “The deep Web - those pages do not exist until they are created dynamically as
the result of a specific search“ (Bergman 2001).
20 |
10
12. Überschneidung der Datenbestände
• Überschneidung der Indices
– Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.
• Überschneidung der Suchergebnisse
– Sehr gering innerhalb der Top10, 20.
23 |
Auch aktuelle Seiten werden nicht zuverlässig regelmäßig
indexiert.
24 |
12
13. Aktualität der Datenbestände
25 |
Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
13
14. Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert)
– Nutzer möchte sich zu einem Thema informieren.
– Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert)
– Ziel ist es, eine bestimmte Seite (wieder) zu finden.
– Typisch: Suche nach Homepage („Daimler Chrysler“).
– Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert)
– Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll.
– Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
27 |
Retrievaleffektivität: Navigationsorientierte Anfragen
28 |
14
15. Precision ist das am häufigsten verwendete Retrievalmaß.
Klassische Retrievalmaße
• Precision
– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der
ausgegebenen Treffer.
– Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20).
• Recall
– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt
vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente).
– Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden).
• Fallout
– Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht
relevanten Treffer im Datenbestand.
• Generality
– Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.
29 |
Top 10 Precision
1,00
0,90
0,80
0,70
0,60 Google
Precision
Yahoo
0,50 Live
Metager
0,40 Cuil
0,30
0,20
0,10
0,00
1 2 3 4 5 6 7 8 9 10
Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49
Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48
Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41
Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16
Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16
Number of results
30 |
15
17. Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste
4,5
Suchmaschinen 4
3,5
3
Precision
2,5
F&A-Diente
2
1,5
Social Bookmarking
1
0,5
0
1 2 3 4 5 6 7 8 9 10
google 3,843 3,725 3,647 3,510 3,459 3,271 3,148 3,142 3,068 2,992
yahoo 3,039 2,941 2,850 2,897 2,804 2,797 2,753 2,730 2,653 2,608
MSN 2,765 2,784 2,889 2,814 2,627 2,542 2,462 2,365 2,292 2,216
Mr. Wong 1,765 1,922 1,904 1,956 1,867 1,846 1,792 1,755 1,785 1,680
del.icio.us 1,647 1,706 1,837 1,672 1,668 1,723 1,785 1,749 1,733 1,667
Yahoo! Clever 2,294 2,212 2,279
Lycos IQ 2,725 2,546 2,455
Trefferanzahl
(Gammer et al. 2008)
33 |
Offene Frage: Wie können Retrievalmaße dem spezifischen
Verhalten der Suchmaschinen-Nutzer angepasst werden?
Problembereiche
• Such-Sessions
– Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)
werden angesehen.
– In der Regel werden maximal fünf Dokumente angesehen.
– Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.
Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern
angepasst werden?
• Zusammensetzung der Trefferlisten
– Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.
Wie kann in der Evaluierung auf Facetten eingegangen werden?
• Interaktion
– Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess
anzusehen.
Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?
34 |
17
18. Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Katholisch? Evangelisch? Ja, was denn nun?
36 |
18
19. Neonazis informieren über schwarzen Bürgerrechtler
37 |
Grundlegende Suchfunktionen
• Boolesche Operatoren
– Yahoo, MSN, Ask: vollständige Unterstützung.
– Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,
Klammerung funktioniert nicht.
• Phrasensuche
– funktioniert bei allen
• Abstandsoperatoren
– nur bei Exalead
19
20. Suche über Felder
in der erweiterten Suche oder über Befehle
• Titel:
– title:
• Dateityp:
– filetype:
• URL:
– inurl:
• bestimmter Server:
– site:
• Land (über Top-Level-Domain)
– site:
• Verlinkung:
– link:
• Sprache
• Datum
Funktionsfähigkeit der Datumsbeschränkung
40 |
Quelle: Lewandowski 2004
20
21. Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)
41 |
Weitere Suchmöglichkeiten
• Ähnliche Seiten
• Cache Copies
– Google, Yahoo, MSN
– bei Ask teilweise
• Alte Versionen von Websites
– Wayback Machine: www.archive.org
21
22. Benutzerführung: Einschränkung der Suchergebnisse
• Clustering
– www.clusty.com (Datenbasis: Metasuche)
• Visualisierung von Suchergebnissen
– www.kartoo.com (Datenbasis: Metasuche)
• Vorschläge für Suchanfragen
– www.yahoo.de
– www.ask.de
– Google (am Ende der ersten Ergebnisseite)
• Vorschläge während der Eingabe
– Yahoo
– Google.com
– Cuil (inkl, Website-Vorschlägen)
• Bewertung von Suchergebnissen
– Wikia Search
– Google Search Wiki (in Google.com)
Dokumentkollektionen
22
23. Suche jenseits von Google und Co.
45 |
Vielen Dank für Ihre
Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelle Bücher:
Handbuch Internet-Suchmaschinen
Web-2.0-Dienste als Ergänzung zu
algorithmischen Suchmaschinen
E-Mail:
dirk.lewandowski@haw-hamburg.de
23