SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Relevance Assessment Tool
Ein Werkzeug zum Design von Retrievaltests sowie zur
weitgehend automatisierten Erfassung, Aufbereitung und
Auswertung der Daten
Dirk Lewandowski
Sebastian Sünkler
Hochschule für Angewandte Wissenschaften Hamburg
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
§  Aufbau von Studien zur Retrievaleffektivität von
Suchmaschinen (Lewandowski 2011)
Rückgriff auf Methoden der klassischen IR-Evaluierung (Cranfield, TREC)
1.  Menge von Suchaufgaben / -anfragen wird gebildet
2.  Suchanfragen werden an Suchmaschinen geschickt
3.  Treffer werden anonymisiert und randomisiert
4.  Treffer werden Juroren zur Bewertung vorgelegt
5.  (Wieder-)Zuordnung der Treffer zu den Suchmaschinen
6.  Auswertung
Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
§  Aufbau von Studien zur Retrievaleffektivität von
Suchmaschinen: Entscheidungen (Lewandowski 2011)
§  Auswahl von Suchmaschinen
§  Auswahl von Suchanfragen
§  Anzahl der Ergebnisse pro Suchanfrage/Suchmaschine
§  Anzahl der Juroren
§  Bewertung der Dokumente
§  Berücksichtigung der Trefferbeschreibungen
Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
§  Aufbau von Studien zur Retrievaleffektivität von
Suchmaschinen: Entscheidungen (Lewandowski 2011)
§  Auswahl von Suchmaschinen 3
§  Auswahl von Suchanfragen 50
§  Anzahl der Ergebnisse pro Suchanfrage/Suchmaschine 10
§  Anzahl der Juroren 1
§  Bewertung der Dokumente
§  Berücksichtigung der Trefferbeschreibungen
1.500
Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
§  Über die Jahre wurden zahlreiche Studien durchgeführt
§  u.a. Griesbaum 2004; Lewandowski 2008; Tawileh, Mandl & Griesbaum 2010
§  Überblick der Methoden, Datenerhebung und Methodenkritik in Lewandowski
2008
§  Zentrale Probleme: Testdesign, Datenerhebung, Skalierung
§  Testdesign meist manuell; dadurch unflexibel und keine
Wiederverwendbarkeit
§  Unterschiedliche Methoden der Datenerhebung; „Behelfs-Software“
§  Erhebung der Suchergebnisse
§  Erhebung der Relevanzurteile
§  Geringer Testumfang, auch wegen komplizierter Datenerhebung
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
Konzeption des Relevance Assessment Tool
§  Idee: Eine Software, die flexibles Testdesign, eine
problemlose Datenerhebung und skalierbare Tests erlaubt.
§  Testdesign im Baukastenprinzip
§  Vereinfachte Datenerhebung
§  Automatische Erfassung der Suchergebnisse, Anonymisierung (auch der
Trefferbeschreibungen) und Randomisierung
§  Relevanzurteile im Web-Interface (mit Zugangscodes)
§  Skalierung durch flexiblen Zugang
Konzeption des Relevance Assessment Tool
§  Testdesign im Baukastenprinzip
§  Prinzipiell lassen sich in RAT alle Fragen zu Suchergebnissen abbilden.
§  Verwendung von Templates
§  Skalen
§  Sprachen
§  Nachnutzung aller in Templates angelegten Skalen, Sprachen, usw.
§  Erhebung der Suchmaschinen-Ergebnisse
§  Erfolgt automatisiert über Suchmaschinen-Scraper
§  Zusätzlicher Upload von Daten von nicht unterstützten Suchmaschinen
möglich (Excel-Tabelle)
Konzeption des Relevance Assessment Tool
§  Erhebung der (Relevanz-)Urteile
§  Zugang zu den einzelnen Projekten über Zugangscodes
§  Verteilte Erhebung („Crowdsourcing“)
§  Zusätzlich Versand von Gutscheincodes bei erfolgreicher
Aufgabenbearbeitung möglich
à  Der Aufwand für die Erstellung und Durchführung der Tests wird
erheblich reduziert, dadurch u.a.
§  weit umfangreichere Tests
§  Suchmaschinentests als Bachlor-/Masterarbeiten
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
Relevance Assessment Tool: Komponenten
§ Verwaltung und Gestaltung von Studien
Administrationsinterface
Suchmaschinenscraper § Automatisierte Erfassung von Suchergebnissen mit
lokaler Speicherung.
§ Modul für die Datenerhebung durch Bewertungen
von Suchergebnissen.
Userinterface
§ Auswertung erhobener Daten mit definierten
Größen in Form von Excel-Tabellen.
Auswertungsmodul
Administrationsinterface
§ Formulare für die Projektgestaltung.
§ Design von wiederverwendbaren
Sprachvorlagen und Bewertungsskalen.
§ Modul zur Gestaltung von Suchaufgaben
mit Angaben zu den zu bewertenden
Suchitems (Treffer und Treffer-
beschreibungen), Suchanfragen und
Aufgabenstellung.
Suchmaschinenscraper
§ Funktionen aus der cURL-Library.
§ Automatisierte Anfragen an
Suchmaschinen basierend auf den
Keywords zu den Suchaufgaben.
§ Suchergebnisseiten werden mit XPath
ausgelesen.
§ Mit Filtern für Suchmaschinen werden
Elemente wie URL, Titel und
Beschreibung erkannt und gespeichert.
(Begrenzt auf organische Treffer)
§ Import von Tabellen mit Ergebnissen.
Vorstellung der Module und technische Umsetzung
§  Kontinuierlich gepflegte
Scraper
§  Google
§  Bing
§  Yahoo
§  In Projekten umgesetzte
Scraper
§  Amazon
§  Otto
§  Musicload
§  Yandex
§  T-Online
§  Suggestions-Scraper
§  T-Online
§  Google
Userinterface
§ Zugang zum Nutzerinterface über
Zugangscodes.
§ Aufbereitung der Ergebnisse in
anonymisierter Form.
§ Informationen zur Suchaufgabe,
Bewertungsskalen, Trefferbeschreibungen
und / oder Trefferseiten
§ Filterung von doppelten URLs,
Möglichkeit zur Bearbeitung mehrerer
Suchaufgaben durch Juroren.
Userinterface (2)
Auswertungsmodul
§ Noch in der Entwicklung.
§ Bisheriger Export der generierten Daten
aus dem Nutzerinterface als Excel-Tabelle
möglich.
§ Anpassung von Skalenwerten in
numerische, berechenbare Werte.
§ Auswahl von Standardmaßen wie Recall
und Precision sowie Definition eigener
Messwerte soll möglich sein.
Ausschnitt aus einer generierten Excel-Tabelle
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
RAT in der Praxis
1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen
2.  Konzeption des Relevance Assessment Tool
3.  Vorstellung der Komponenten und technische Umsetzung
4.  Bisherige Anwendung
5.  Fazit
Agenda
Weiterentwicklung von RAT
•  Verbindung mit dem Search Logger, einem Tool zur Erfassung von
Nutzerinteraktionen in explorativen Suchen.
•  Scrapingfunktionalität auf Universal-Search-Ergebnisse erweitern.
•  Beurteilungen von Suchergebnisseiten (zusätzlich zu isolierten Ergebnissen)
ermöglichen.
•  Fertigstellung eines flexiblen Auswertungsmoduls.
Fazit
1.  Mit dem Relevance Assessment Tool lassen sich Suchmaschinentests
einfach und flexibel durchführen.
2.  Wenn Sie eine Studie mit Hilfe des RAT durchführen möchten,
sprechen Sie uns bitte einfach an.
Vielen Dank für Ihre Aufmerksamkeit
Dirk Lewandowski
dirk.lewandowski@haw-hamburg,de
Sebastian Sünkler
sebastian.suenkler@gmx.de
http://www.bui.haw-hamburg.de/lewandowski.html
RAT-Mini-Demo: http://www.searchstudies.org/rat
Zugangscode: RAT-Test

Weitere ähnliche Inhalte

Ähnlich wie Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung

SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019Evgeni Sereda
 
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...DataValueTalk
 
Automatisierter Software-Test unter Java
Automatisierter Software-Test unter JavaAutomatisierter Software-Test unter Java
Automatisierter Software-Test unter JavaGFU Cyrus AG
 
JavaScript und trotzdem Softwerker
JavaScript und trotzdem SoftwerkerJavaScript und trotzdem Softwerker
JavaScript und trotzdem SoftwerkerDennis Wilson
 
Einführung Vorgehensmodelle und Agile Software Entwicklung
Einführung Vorgehensmodelle und Agile Software EntwicklungEinführung Vorgehensmodelle und Agile Software Entwicklung
Einführung Vorgehensmodelle und Agile Software EntwicklungChristian Baranowski
 
Applikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die CloudApplikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die CloudAarno Aukia
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenDirk Lewandowski
 
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...Aberla
 
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?René Spengler
 
Bi testing media_factory_0.10
Bi testing media_factory_0.10Bi testing media_factory_0.10
Bi testing media_factory_0.10inovex GmbH
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtMaik Schmidt
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenUSECON
 
Alltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for ExcelAlltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for ExcelProjecter GmbH
 
Einführung in die Software-Qualitätssicherung
Einführung in die Software-QualitätssicherungEinführung in die Software-Qualitätssicherung
Einführung in die Software-QualitätssicherungChristian Baranowski
 
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...Dirk Lewandowski
 
DevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfDevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfCarolinaMatthies
 
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterContent Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterManuel Stürkat
 
2005 - NRW Conf: Design, Entwicklung und Tests
2005 - NRW Conf: Design, Entwicklung und Tests2005 - NRW Conf: Design, Entwicklung und Tests
2005 - NRW Conf: Design, Entwicklung und TestsDaniel Fisher
 

Ähnlich wie Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung (20)

SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019
 
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...
’Klare Sicht auf Ihre Kunden - Erfolgsfaktor korrekter Kundendaten!” Klaus Sc...
 
Automatisierter Software-Test unter Java
Automatisierter Software-Test unter JavaAutomatisierter Software-Test unter Java
Automatisierter Software-Test unter Java
 
JavaScript und trotzdem Softwerker
JavaScript und trotzdem SoftwerkerJavaScript und trotzdem Softwerker
JavaScript und trotzdem Softwerker
 
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
Den Einfluss der Suchmaschinenoptimierung messbar machen: Ein halb-automatisi...
 
Einführung Vorgehensmodelle und Agile Software Entwicklung
Einführung Vorgehensmodelle und Agile Software EntwicklungEinführung Vorgehensmodelle und Agile Software Entwicklung
Einführung Vorgehensmodelle und Agile Software Entwicklung
 
Applikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die CloudApplikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die Cloud
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
 
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...
ESEconf2011 - Trost Joachim: "Tool supported technical Code and Design Qualit...
 
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?
ASQF Dresden: Benötigen wir mit SCRUM noch einen Testmanager?
 
Bi testing media_factory_0.10
Bi testing media_factory_0.10Bi testing media_factory_0.10
Bi testing media_factory_0.10
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD Baukasten
 
Alltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for ExcelAlltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for Excel
 
Einführung in die Software-Qualitätssicherung
Einführung in die Software-QualitätssicherungEinführung in die Software-Qualitätssicherung
Einführung in die Software-Qualitätssicherung
 
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
 
DevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfDevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdf
 
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav KemterContent Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
Content Audit | Campixx 2015 | Manuel Stürkat & Gustav Kemter
 
2005 - NRW Conf: Design, Entwicklung und Tests
2005 - NRW Conf: Design, Entwicklung und Tests2005 - NRW Conf: Design, Entwicklung und Tests
2005 - NRW Conf: Design, Entwicklung und Tests
 

Mehr von Hamburg University of Applied Sciences (HAW)

Mehr von Hamburg University of Applied Sciences (HAW) (12)

Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
 
Entwicklungen und Anwendungsbereiche von digitalen Assistenten mit Sprachsuche
Entwicklungen und Anwendungsbereiche von digitalen Assistenten mit SprachsucheEntwicklungen und Anwendungsbereiche von digitalen Assistenten mit Sprachsuche
Entwicklungen und Anwendungsbereiche von digitalen Assistenten mit Sprachsuche
 
Die Relevanz von sprachgesteuerter Suche für den Onlinehandel
Die Relevanz von sprachgesteuerter Suche für den OnlinehandelDie Relevanz von sprachgesteuerter Suche für den Onlinehandel
Die Relevanz von sprachgesteuerter Suche für den Onlinehandel
 
The influence of search engine optimization on Google's results: A multi-dime...
The influence of search engine optimization on Google's results: A multi-dime...The influence of search engine optimization on Google's results: A multi-dime...
The influence of search engine optimization on Google's results: A multi-dime...
 
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
 
Ok Google... The end of search as we know it
Ok Google... The end of search as we know itOk Google... The end of search as we know it
Ok Google... The end of search as we know it
 
THE END OF SEARCH AS WE KNOW IT Sprachsuche und Personal Assistants als neuer...
THE END OF SEARCH AS WE KNOW IT Sprachsuche und Personal Assistants als neuer...THE END OF SEARCH AS WE KNOW IT Sprachsuche und Personal Assistants als neuer...
THE END OF SEARCH AS WE KNOW IT Sprachsuche und Personal Assistants als neuer...
 
WEBSEARCH: THE NEXT GENERATION Entwicklungen in der Websuche durch die Verbre...
WEBSEARCH: THE NEXT GENERATION Entwicklungen in der Websuche durch die Verbre...WEBSEARCH: THE NEXT GENERATION Entwicklungen in der Websuche durch die Verbre...
WEBSEARCH: THE NEXT GENERATION Entwicklungen in der Websuche durch die Verbre...
 
World Usability Day Hamburg 2015: Workshop Voice Search
World Usability Day Hamburg 2015: Workshop Voice SearchWorld Usability Day Hamburg 2015: Workshop Voice Search
World Usability Day Hamburg 2015: Workshop Voice Search
 
Lebensmittelkontrolle 2.0: Das AAPVL Projekt
Lebensmittelkontrolle 2.0: Das AAPVL ProjektLebensmittelkontrolle 2.0: Das AAPVL Projekt
Lebensmittelkontrolle 2.0: Das AAPVL Projekt
 
Die Verbreitung von Sprachsteuerung und Personal Assistants auf Smartphones u...
Die Verbreitung von Sprachsteuerung und Personal Assistants auf Smartphones u...Die Verbreitung von Sprachsteuerung und Personal Assistants auf Smartphones u...
Die Verbreitung von Sprachsteuerung und Personal Assistants auf Smartphones u...
 
Workshop Trends und Entwicklungen in der Websuche und deren Relevanz für Bibl...
Workshop Trends und Entwicklungen in der Websuche und deren Relevanz für Bibl...Workshop Trends und Entwicklungen in der Websuche und deren Relevanz für Bibl...
Workshop Trends und Entwicklungen in der Websuche und deren Relevanz für Bibl...
 

Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung

  • 1. Relevance Assessment Tool Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung der Daten Dirk Lewandowski Sebastian Sünkler Hochschule für Angewandte Wissenschaften Hamburg
  • 2. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 3. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 4. Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen §  Aufbau von Studien zur Retrievaleffektivität von Suchmaschinen (Lewandowski 2011) Rückgriff auf Methoden der klassischen IR-Evaluierung (Cranfield, TREC) 1.  Menge von Suchaufgaben / -anfragen wird gebildet 2.  Suchanfragen werden an Suchmaschinen geschickt 3.  Treffer werden anonymisiert und randomisiert 4.  Treffer werden Juroren zur Bewertung vorgelegt 5.  (Wieder-)Zuordnung der Treffer zu den Suchmaschinen 6.  Auswertung
  • 5. Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen §  Aufbau von Studien zur Retrievaleffektivität von Suchmaschinen: Entscheidungen (Lewandowski 2011) §  Auswahl von Suchmaschinen §  Auswahl von Suchanfragen §  Anzahl der Ergebnisse pro Suchanfrage/Suchmaschine §  Anzahl der Juroren §  Bewertung der Dokumente §  Berücksichtigung der Trefferbeschreibungen
  • 6. Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen §  Aufbau von Studien zur Retrievaleffektivität von Suchmaschinen: Entscheidungen (Lewandowski 2011) §  Auswahl von Suchmaschinen 3 §  Auswahl von Suchanfragen 50 §  Anzahl der Ergebnisse pro Suchanfrage/Suchmaschine 10 §  Anzahl der Juroren 1 §  Bewertung der Dokumente §  Berücksichtigung der Trefferbeschreibungen 1.500
  • 7. Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen §  Über die Jahre wurden zahlreiche Studien durchgeführt §  u.a. Griesbaum 2004; Lewandowski 2008; Tawileh, Mandl & Griesbaum 2010 §  Überblick der Methoden, Datenerhebung und Methodenkritik in Lewandowski 2008 §  Zentrale Probleme: Testdesign, Datenerhebung, Skalierung §  Testdesign meist manuell; dadurch unflexibel und keine Wiederverwendbarkeit §  Unterschiedliche Methoden der Datenerhebung; „Behelfs-Software“ §  Erhebung der Suchergebnisse §  Erhebung der Relevanzurteile §  Geringer Testumfang, auch wegen komplizierter Datenerhebung
  • 8. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 9. Konzeption des Relevance Assessment Tool §  Idee: Eine Software, die flexibles Testdesign, eine problemlose Datenerhebung und skalierbare Tests erlaubt. §  Testdesign im Baukastenprinzip §  Vereinfachte Datenerhebung §  Automatische Erfassung der Suchergebnisse, Anonymisierung (auch der Trefferbeschreibungen) und Randomisierung §  Relevanzurteile im Web-Interface (mit Zugangscodes) §  Skalierung durch flexiblen Zugang
  • 10. Konzeption des Relevance Assessment Tool §  Testdesign im Baukastenprinzip §  Prinzipiell lassen sich in RAT alle Fragen zu Suchergebnissen abbilden. §  Verwendung von Templates §  Skalen §  Sprachen §  Nachnutzung aller in Templates angelegten Skalen, Sprachen, usw. §  Erhebung der Suchmaschinen-Ergebnisse §  Erfolgt automatisiert über Suchmaschinen-Scraper §  Zusätzlicher Upload von Daten von nicht unterstützten Suchmaschinen möglich (Excel-Tabelle)
  • 11. Konzeption des Relevance Assessment Tool §  Erhebung der (Relevanz-)Urteile §  Zugang zu den einzelnen Projekten über Zugangscodes §  Verteilte Erhebung („Crowdsourcing“) §  Zusätzlich Versand von Gutscheincodes bei erfolgreicher Aufgabenbearbeitung möglich à  Der Aufwand für die Erstellung und Durchführung der Tests wird erheblich reduziert, dadurch u.a. §  weit umfangreichere Tests §  Suchmaschinentests als Bachlor-/Masterarbeiten
  • 12. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 13. Relevance Assessment Tool: Komponenten § Verwaltung und Gestaltung von Studien Administrationsinterface Suchmaschinenscraper § Automatisierte Erfassung von Suchergebnissen mit lokaler Speicherung. § Modul für die Datenerhebung durch Bewertungen von Suchergebnissen. Userinterface § Auswertung erhobener Daten mit definierten Größen in Form von Excel-Tabellen. Auswertungsmodul
  • 14. Administrationsinterface § Formulare für die Projektgestaltung. § Design von wiederverwendbaren Sprachvorlagen und Bewertungsskalen. § Modul zur Gestaltung von Suchaufgaben mit Angaben zu den zu bewertenden Suchitems (Treffer und Treffer- beschreibungen), Suchanfragen und Aufgabenstellung.
  • 15. Suchmaschinenscraper § Funktionen aus der cURL-Library. § Automatisierte Anfragen an Suchmaschinen basierend auf den Keywords zu den Suchaufgaben. § Suchergebnisseiten werden mit XPath ausgelesen. § Mit Filtern für Suchmaschinen werden Elemente wie URL, Titel und Beschreibung erkannt und gespeichert. (Begrenzt auf organische Treffer) § Import von Tabellen mit Ergebnissen.
  • 16. Vorstellung der Module und technische Umsetzung §  Kontinuierlich gepflegte Scraper §  Google §  Bing §  Yahoo §  In Projekten umgesetzte Scraper §  Amazon §  Otto §  Musicload §  Yandex §  T-Online §  Suggestions-Scraper §  T-Online §  Google
  • 17. Userinterface § Zugang zum Nutzerinterface über Zugangscodes. § Aufbereitung der Ergebnisse in anonymisierter Form. § Informationen zur Suchaufgabe, Bewertungsskalen, Trefferbeschreibungen und / oder Trefferseiten § Filterung von doppelten URLs, Möglichkeit zur Bearbeitung mehrerer Suchaufgaben durch Juroren.
  • 19. Auswertungsmodul § Noch in der Entwicklung. § Bisheriger Export der generierten Daten aus dem Nutzerinterface als Excel-Tabelle möglich. § Anpassung von Skalenwerten in numerische, berechenbare Werte. § Auswahl von Standardmaßen wie Recall und Precision sowie Definition eigener Messwerte soll möglich sein.
  • 20. Ausschnitt aus einer generierten Excel-Tabelle
  • 21. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 22. RAT in der Praxis
  • 23. 1.  Problemstellung: Studien zur Retrievaleffektivität von Suchmaschinen 2.  Konzeption des Relevance Assessment Tool 3.  Vorstellung der Komponenten und technische Umsetzung 4.  Bisherige Anwendung 5.  Fazit Agenda
  • 24. Weiterentwicklung von RAT •  Verbindung mit dem Search Logger, einem Tool zur Erfassung von Nutzerinteraktionen in explorativen Suchen. •  Scrapingfunktionalität auf Universal-Search-Ergebnisse erweitern. •  Beurteilungen von Suchergebnisseiten (zusätzlich zu isolierten Ergebnissen) ermöglichen. •  Fertigstellung eines flexiblen Auswertungsmoduls.
  • 25. Fazit 1.  Mit dem Relevance Assessment Tool lassen sich Suchmaschinentests einfach und flexibel durchführen. 2.  Wenn Sie eine Studie mit Hilfe des RAT durchführen möchten, sprechen Sie uns bitte einfach an.
  • 26. Vielen Dank für Ihre Aufmerksamkeit Dirk Lewandowski dirk.lewandowski@haw-hamburg,de Sebastian Sünkler sebastian.suenkler@gmx.de http://www.bui.haw-hamburg.de/lewandowski.html RAT-Mini-Demo: http://www.searchstudies.org/rat Zugangscode: RAT-Test