SlideShare ist ein Scribd-Unternehmen logo
HS: Personalisierung
mit großen Daten

Evaluierung von
Empfehlungssystemen
Referent: Benjamin Hartwich

1
HS: Personalisierung
mit großen Daten

Gliederung
1.
2.
3.
4.
5.
6.
7.

Recommender Systeme und Collaborative Filtering
User Tasks und Rating Tasks
Beispiel
Starten einer Evaluation
Gütekriterien
Abseits der Gütekriterien
User Evaluation

2
HS: Personalisierung
mit großen Daten

Recommender Systeme und
Collaborative Filtering Algorithms
3
HS: Personalisierung
mit großen Daten

Was ist ein Recommender Sytem?
“Recommender systems use the opinions of a community of
users to help individuals in that community more effectively
identify content of interest from a potentially overwhelming set
of choices [Resnick and Varian 1997].”

4
HS: Personalisierung
mit großen Daten

Collaborative Filtering Algorithms
“The task in collaborative filtering is to predict the utility of
items to a particular user (the active user) based on a
database of user votes from a sample or population of other
users (the user database).” [Breese 1998]
 Memory Based
 Model Based

5
HS: Personalisierung
mit großen Daten

User und Rating Tasks
6
HS: Personalisierung
mit großen Daten

UT: Annotation in Context

7
HS: Personalisierung
mit großen Daten

UT: Find Good Items

8
HS: Personalisierung
mit großen Daten

UT: Find All Good Items

9
HS: Personalisierung
mit großen Daten

UT: Just Browsing

10
HS: Personalisierung
mit großen Daten

UT: Recommend Sequence

11
HS: Personalisierung
mit großen Daten

UT: Find Credible Recommender

12
HS: Personalisierung
mit großen Daten

Rating Tasks
 Improve Profile
 Express Self
 Help Others
 Influence Others

13
HS: Personalisierung
mit großen Daten

Beispiel

14
HS: Personalisierung
mit großen Daten

Beispiel

15
HS: Personalisierung
mit großen Daten

Start einer Evaluation
16
HS: Personalisierung
mit großen Daten

… => Empfehlungen?
 Algorithmen vs. Datensets
 Plattformumgebung und –zweck
 Ziele einer Evaluation
 Definition der richtigen Empfehlung
 User vs. System

17
HS: Personalisierung
mit großen Daten

Evaluierung mittels…
 … Offline-Daten
 … Befragung / Experiment
 … Online-Daten

18
HS: Personalisierung
mit großen Daten

Experiment / Befragung
 Sammeln qualitativer Daten
 Pre-Test empfehlenswert
 Testpersonen sollten Zielgruppe abbilden
 Analyse innerhalb und zwischen den Testgruppen
 Anzeige der Ergebnisse randomisieren
 Fragebögen / Befragung verwenden
 Hohe Kosten

19
HS: Personalisierung
mit großen Daten

Offline-Daten
 Datenset ist bereits vorhanden (Verhalten der Nutzer früher
und jetzt?)
 Algorithmus vs. Datenset?
 Samples aus Set auswählen (User, Items, Zeit)
 Daten ab Auswahlzeitpunkt verbergen
 Algorithmus ab da rechnen lassen

20
HS: Personalisierung
mit großen Daten

Online-Daten
 Ziel: Beeinflussen des Nutzerverhaltens
 Maßgeblich sind: Intention und Kontext des Nutzers,
Nutzerinterface
 Randomisierte Auswahl an Nutzern, die leicht verändertes
System verwenden
 Online-Datensatz alleine reicht nicht

21
HS: Personalisierung
mit großen Daten

Anforderung an ein Datenset
 Kontext der Empfehlungen: Thema, Nutzerverhalten,
Bedürfnisse, Genauigkeit
 Systemeigenschaften: Wie kommen Ratings zustande und
sind skaliert? Was wird geloggt?
 Eigenschaften des Datensets: Dichte der Gesamtratings,
Nutzerzahl
 Implizite vs. Explizite Daten

22
HS: Personalisierung
mit großen Daten

Daten => Evaluierung

Teilung

Lernen

Berechnung

Vergleich

23
HS: Personalisierung
mit großen Daten

Gütekriterien
24
HS: Personalisierung
mit großen Daten

Güte der Vorhersagen
 Messung, wie nah die vorhergesagten Empfehlungen an den
wirklichen User Ratings sind
 MAE: Standardabweichung zwischen vorhergesagtem und
wahrem Rating
𝑁
𝑖=1 𝑝 𝑖 − 𝑟𝑖
𝑀𝐴𝐸 =
𝑁
 Detailgenauigkeit entscheidend

25
HS: Personalisierung
mit großen Daten

Klassifizierung
Relevant

Nicht-Relevant

26
HS: Personalisierung
mit großen Daten

Klassifizierung
Recommender System

User

Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nicht Relevant Falsch-positiv

Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

27
HS: Personalisierung
mit großen Daten

Precision
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nicht Relevant Falsch-positiv

Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

𝑃=

𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝐴𝑙𝑙𝑒 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒

28
HS: Personalisierung
mit großen Daten

Beispiel Precision
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

3

10

Total

5

15

Relevant

10

3
𝑃=
10

29
HS: Personalisierung
mit großen Daten

Recall
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nicht Relevant Falsch-positiv

Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝑅=
𝑎𝑙𝑙𝑒 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒𝑛 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒

30
HS: Personalisierung
mit großen Daten

Beispiel: Recall
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

3

10

Total

5

15

Relevant

10

𝑅=

3
5

31
HS: Personalisierung
mit großen Daten

F1 Score
Harmonisch:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 = 2 ×
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

Zwischen 0 und 1.
F1 =< 1 => bester Wert

32
HS: Personalisierung
mit großen Daten

Beispiel: F1 Score
𝐹1 = 2 ×

0,3 ×0,6
0,3+0,6

= 0,4

33
HS: Personalisierung
mit großen Daten

Precision und Recall
Präzision

Relevanz
34
HS: Personalisierung
mit großen Daten

Precision Recall Curve

35
HS: Personalisierung
mit großen Daten

ROC-Curve
Messung, wie genau ein
Informationsverarbeitungs
system zwischen
Relevanz und NichtRelevanz unterscheiden
kann

36
HS: Personalisierung
mit großen Daten

ROC-Curve

37
HS: Personalisierung
mit großen Daten

Probleme
 Geschmack in binäres System transformieren?
 Voraussetzung: Wissen, was relevant ist
 Modell zu sehr am IR ausgerichtet
 Ergebnisse von Länge der Liste abhängig

38
HS: Personalisierung
mit großen Daten

Ranking
 Reference Ranking: Ranking mithilfe einer weiteren Referenz
(Normalized Distance-based Performance Measure,
Kendall´s tau)
 Utility-Based Ranking: Nützlichkeit der Liste anhand jedes
Items in Abhängigkeit der Position im Gesamtkontext der
Liste (R-Score, Normalized Cumulative Discounted Gain)
 Online Evaluation: Welche Art des Rankings präferiert der
Nutzer

39
HS: Personalisierung
mit großen Daten

Abseits der Gütekriterien
40
HS: Personalisierung
mit großen Daten

Coverage
 Item Space Coverage:
 Anteil an Empfehlungen, die ein Empfehlungssystem geben kann
 Anteil an Empfehlungen, die jemals gegeben wurden

 User Space Coverage:
 Anteil an Nutzern oder Nutzerinteraktionen, für die das System
Empfehlungen generieren kann

41
HS: Personalisierung
mit großen Daten

Learning Rate
 Overall Learning Rate: Qualität einer Empfehlung als
Funktion über alle Ratings im System
 Per Item Learning Rate: Qualität einer Empfehlung für ein
Item als Funktion über die Anzahl der vorhandenen Ratings
 Per User Learning Rate: Qualität einer Empfehlung für einen
Nutzer als Funktion über die Anzahl der Ratings, die der
Nutzer gemacht hat
Methode zum Vergleich: Graph aus Qualität vs. Anzahl der
Ratings
42
HS: Personalisierung
mit großen Daten

Learning Rate

43
HS: Personalisierung
mit großen Daten

Confidence
 Sicherheit des Systems über Gültigkeit der Vorhersage
 Steigt mit Anzahl der Daten
 Methode: Herausfinden aller möglichen
Empfehlungsergebnisse
 In welchem Rahmen bewegen sich die Ergebnisse?

44
HS: Personalisierung
mit großen Daten

Trust
 Im Gegensatz zu Confidence das Vertrauen der Nutzer in
das Empfehlungssystem
 Wird durch wiederkehrende Nutzer bestätigt
 Experimente / Online-Umfragen

45
HS: Personalisierung
mit großen Daten

Novelty
 Generell: Ausfiltern von Items, die der Nutzer bereits kennt
 Aber nur relevantes Neues
 Implementation über die Gütekriterien => Höhere Credits für
korrekt vorhergesagte unpopuläre Items

46
HS: Personalisierung
mit großen Daten

Serendipity
 Messwert, wie überraschend eine Empfehlung war
 Methode: Distanzmessung zwischen Inhalt der Items
=> Höherer Score für Items, die von einem Set bisher
bewerteter Items entfernt sind

47
HS: Personalisierung
mit großen Daten

Diversity
 Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen
 Methode: Messung der Ähnlichkeit zwischen Items
 Kurven zur Beurteilung zwischen Anstieg der Vielfältigkeit
und Sinken der Gütekriterien

48
HS: Personalisierung
mit großen Daten

Weitere Indikatoren
 Risk
 Robustness
 Scalability
 Adaptivity
 Privacy

49
HS: Personalisierung
mit großen Daten

User Evaluation
Explizit vs. implizit

Labor- vs. Feldstudie

Dimensionen

Ergebnis vs. Prozess

Kurzzeit- vs.
Langzeitstudie
50
HS: Personalisierung
mit großen Daten

Ziele der User Evaluation
 Nutzen des System für den User
 Befriedigung der Bedürfnisse des Users
 User Tasks eruieren
 Besten Algorithmus für Datenset

51
HS: Personalisierung
mit großen Daten

Danke für die Aufmerksamkeit

52
HS: Personalisierung
mit großen Daten

Literaturverzeichnis
 Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of
Predictive Algorithms for Collaborative Filtering.
 Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl,
John T.: Evaluating Collaborative Filtering Recommender Systems.
 McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is
Not Enough: How Accuracy Metrics have hurt Recommender Systems.
 McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan,
Joseph A.; Riedl, John: Confidence Displays and Training in
Recommender Systems.
 Ricci, Francesco: Database and Information Systems.
 Shani, Guy; Gunawardana, Asela: Evaluating Recommendation
Systems.

53

Weitere ähnliche Inhalte

Ähnlich wie Evaluierung von Empfehlungssystemen

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenDirk Lewandowski
 
Daten-getriebene Kommunikaton, daten-getriebener Content
Daten-getriebene Kommunikaton, daten-getriebener ContentDaten-getriebene Kommunikaton, daten-getriebener Content
Daten-getriebene Kommunikaton, daten-getriebener Content
Jörg Hoewner
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systemspgbigi
 
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...Dirk Lewandowski
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Dirk Lewandowski
 
Evaluierungsläufe
EvaluierungsläufeEvaluierungsläufe
Evaluierungsläufe
Christiane Behnert
 
Social-Media-Monitoring für Kulturinstitutionen
Social-Media-Monitoring für KulturinstitutionenSocial-Media-Monitoring für Kulturinstitutionen
Social-Media-Monitoring für Kulturinstitutionen
Christoph Deeg
 
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Axel Bruns
 
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
IDM Südtirol - Alto Adige
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD Baukasten
USECON
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Dirk Lewandowski
 
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
Christiane Behnert
 
Online-Assessment. Fragen und Antworten
Online-Assessment. Fragen und AntwortenOnline-Assessment. Fragen und Antworten
Online-Assessment. Fragen und AntwortenJoachim Diercks
 
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
e-teaching.org
 
Moennichspieringbibtip
MoennichspieringbibtipMoennichspieringbibtip
Moennichspieringbibtip
UBKA
 
Digitale Analyse und Evaluation
Digitale Analyse und EvaluationDigitale Analyse und Evaluation
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
Christiane Behnert
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Dirk Lewandowski
 
Evaluation des Bürgerhaushalts der Stadt Köln
Evaluation des Bürgerhaushalts der Stadt KölnEvaluation des Bürgerhaushalts der Stadt Köln
Evaluation des Bürgerhaushalts der Stadt Köln
Zebralog
 

Ähnlich wie Evaluierung von Empfehlungssystemen (20)

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
 
Daten-getriebene Kommunikaton, daten-getriebener Content
Daten-getriebene Kommunikaton, daten-getriebener ContentDaten-getriebene Kommunikaton, daten-getriebener Content
Daten-getriebene Kommunikaton, daten-getriebener Content
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systems
 
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
 
Evaluierungsläufe
EvaluierungsläufeEvaluierungsläufe
Evaluierungsläufe
 
Social-Media-Monitoring für Kulturinstitutionen
Social-Media-Monitoring für KulturinstitutionenSocial-Media-Monitoring für Kulturinstitutionen
Social-Media-Monitoring für Kulturinstitutionen
 
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
 
Kolloquium
KolloquiumKolloquium
Kolloquium
 
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD Baukasten
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
 
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
Von Aboutness bis Zitationszahlen: Zur Komplexität des informationswissenscha...
 
Online-Assessment. Fragen und Antworten
Online-Assessment. Fragen und AntwortenOnline-Assessment. Fragen und Antworten
Online-Assessment. Fragen und Antworten
 
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
Wissenschaftliches Arbeiten in sozialen Netzwerken (Folien Prof. Dr. Sonja Utz)
 
Moennichspieringbibtip
MoennichspieringbibtipMoennichspieringbibtip
Moennichspieringbibtip
 
Digitale Analyse und Evaluation
Digitale Analyse und EvaluationDigitale Analyse und Evaluation
Digitale Analyse und Evaluation
 
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
Relevanzkriterien: Forschungsstand und erste Ideen des Nutzermodells im Rahme...
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
 
Evaluation des Bürgerhaushalts der Stadt Köln
Evaluation des Bürgerhaushalts der Stadt KölnEvaluation des Bürgerhaushalts der Stadt Köln
Evaluation des Bürgerhaushalts der Stadt Köln
 

Mehr von Florian Stegmaier

Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative Filtering
Florian Stegmaier
 
Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of Datastreams
Florian Stegmaier
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen Datenmengen
Florian Stegmaier
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systems
Florian Stegmaier
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Florian Stegmaier
 
Musikempfehlungssysteme
MusikempfehlungssystemeMusikempfehlungssysteme
Musikempfehlungssysteme
Florian Stegmaier
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in Empfehlungssystemen
Florian Stegmaier
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für Empfehlungssysteme
Florian Stegmaier
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender System
Florian Stegmaier
 
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem FilternFunktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Florian Stegmaier
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte Personalisierungsansätze
Florian Stegmaier
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen Datenmengen
Florian Stegmaier
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBC
Florian Stegmaier
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Florian Stegmaier
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
Florian Stegmaier
 

Mehr von Florian Stegmaier (15)

Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative Filtering
 
Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of Datastreams
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen Datenmengen
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systems
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
 
Musikempfehlungssysteme
MusikempfehlungssystemeMusikempfehlungssysteme
Musikempfehlungssysteme
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in Empfehlungssystemen
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für Empfehlungssysteme
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender System
 
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem FilternFunktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte Personalisierungsansätze
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen Datenmengen
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBC
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
 

Evaluierung von Empfehlungssystemen

  • 1. HS: Personalisierung mit großen Daten Evaluierung von Empfehlungssystemen Referent: Benjamin Hartwich 1
  • 2. HS: Personalisierung mit großen Daten Gliederung 1. 2. 3. 4. 5. 6. 7. Recommender Systeme und Collaborative Filtering User Tasks und Rating Tasks Beispiel Starten einer Evaluation Gütekriterien Abseits der Gütekriterien User Evaluation 2
  • 3. HS: Personalisierung mit großen Daten Recommender Systeme und Collaborative Filtering Algorithms 3
  • 4. HS: Personalisierung mit großen Daten Was ist ein Recommender Sytem? “Recommender systems use the opinions of a community of users to help individuals in that community more effectively identify content of interest from a potentially overwhelming set of choices [Resnick and Varian 1997].” 4
  • 5. HS: Personalisierung mit großen Daten Collaborative Filtering Algorithms “The task in collaborative filtering is to predict the utility of items to a particular user (the active user) based on a database of user votes from a sample or population of other users (the user database).” [Breese 1998]  Memory Based  Model Based 5
  • 6. HS: Personalisierung mit großen Daten User und Rating Tasks 6
  • 7. HS: Personalisierung mit großen Daten UT: Annotation in Context 7
  • 8. HS: Personalisierung mit großen Daten UT: Find Good Items 8
  • 9. HS: Personalisierung mit großen Daten UT: Find All Good Items 9
  • 10. HS: Personalisierung mit großen Daten UT: Just Browsing 10
  • 11. HS: Personalisierung mit großen Daten UT: Recommend Sequence 11
  • 12. HS: Personalisierung mit großen Daten UT: Find Credible Recommender 12
  • 13. HS: Personalisierung mit großen Daten Rating Tasks  Improve Profile  Express Self  Help Others  Influence Others 13
  • 14. HS: Personalisierung mit großen Daten Beispiel 14
  • 15. HS: Personalisierung mit großen Daten Beispiel 15
  • 16. HS: Personalisierung mit großen Daten Start einer Evaluation 16
  • 17. HS: Personalisierung mit großen Daten … => Empfehlungen?  Algorithmen vs. Datensets  Plattformumgebung und –zweck  Ziele einer Evaluation  Definition der richtigen Empfehlung  User vs. System 17
  • 18. HS: Personalisierung mit großen Daten Evaluierung mittels…  … Offline-Daten  … Befragung / Experiment  … Online-Daten 18
  • 19. HS: Personalisierung mit großen Daten Experiment / Befragung  Sammeln qualitativer Daten  Pre-Test empfehlenswert  Testpersonen sollten Zielgruppe abbilden  Analyse innerhalb und zwischen den Testgruppen  Anzeige der Ergebnisse randomisieren  Fragebögen / Befragung verwenden  Hohe Kosten 19
  • 20. HS: Personalisierung mit großen Daten Offline-Daten  Datenset ist bereits vorhanden (Verhalten der Nutzer früher und jetzt?)  Algorithmus vs. Datenset?  Samples aus Set auswählen (User, Items, Zeit)  Daten ab Auswahlzeitpunkt verbergen  Algorithmus ab da rechnen lassen 20
  • 21. HS: Personalisierung mit großen Daten Online-Daten  Ziel: Beeinflussen des Nutzerverhaltens  Maßgeblich sind: Intention und Kontext des Nutzers, Nutzerinterface  Randomisierte Auswahl an Nutzern, die leicht verändertes System verwenden  Online-Datensatz alleine reicht nicht 21
  • 22. HS: Personalisierung mit großen Daten Anforderung an ein Datenset  Kontext der Empfehlungen: Thema, Nutzerverhalten, Bedürfnisse, Genauigkeit  Systemeigenschaften: Wie kommen Ratings zustande und sind skaliert? Was wird geloggt?  Eigenschaften des Datensets: Dichte der Gesamtratings, Nutzerzahl  Implizite vs. Explizite Daten 22
  • 23. HS: Personalisierung mit großen Daten Daten => Evaluierung Teilung Lernen Berechnung Vergleich 23
  • 24. HS: Personalisierung mit großen Daten Gütekriterien 24
  • 25. HS: Personalisierung mit großen Daten Güte der Vorhersagen  Messung, wie nah die vorhergesagten Empfehlungen an den wirklichen User Ratings sind  MAE: Standardabweichung zwischen vorhergesagtem und wahrem Rating 𝑁 𝑖=1 𝑝 𝑖 − 𝑟𝑖 𝑀𝐴𝐸 = 𝑁  Detailgenauigkeit entscheidend 25
  • 26. HS: Personalisierung mit großen Daten Klassifizierung Relevant Nicht-Relevant 26
  • 27. HS: Personalisierung mit großen Daten Klassifizierung Recommender System User Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 27
  • 28. HS: Personalisierung mit großen Daten Precision Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 𝑃= 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 𝐴𝑙𝑙𝑒 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 28
  • 29. HS: Personalisierung mit großen Daten Beispiel Precision Ausgewählt Nicht ausgewählt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 3 𝑃= 10 29
  • 30. HS: Personalisierung mit großen Daten Recall Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 𝑅= 𝑎𝑙𝑙𝑒 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒𝑛 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 30
  • 31. HS: Personalisierung mit großen Daten Beispiel: Recall Ausgewählt Nicht ausgewählt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 𝑅= 3 5 31
  • 32. HS: Personalisierung mit großen Daten F1 Score Harmonisch: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Zwischen 0 und 1. F1 =< 1 => bester Wert 32
  • 33. HS: Personalisierung mit großen Daten Beispiel: F1 Score 𝐹1 = 2 × 0,3 ×0,6 0,3+0,6 = 0,4 33
  • 34. HS: Personalisierung mit großen Daten Precision und Recall Präzision Relevanz 34
  • 35. HS: Personalisierung mit großen Daten Precision Recall Curve 35
  • 36. HS: Personalisierung mit großen Daten ROC-Curve Messung, wie genau ein Informationsverarbeitungs system zwischen Relevanz und NichtRelevanz unterscheiden kann 36
  • 37. HS: Personalisierung mit großen Daten ROC-Curve 37
  • 38. HS: Personalisierung mit großen Daten Probleme  Geschmack in binäres System transformieren?  Voraussetzung: Wissen, was relevant ist  Modell zu sehr am IR ausgerichtet  Ergebnisse von Länge der Liste abhängig 38
  • 39. HS: Personalisierung mit großen Daten Ranking  Reference Ranking: Ranking mithilfe einer weiteren Referenz (Normalized Distance-based Performance Measure, Kendall´s tau)  Utility-Based Ranking: Nützlichkeit der Liste anhand jedes Items in Abhängigkeit der Position im Gesamtkontext der Liste (R-Score, Normalized Cumulative Discounted Gain)  Online Evaluation: Welche Art des Rankings präferiert der Nutzer 39
  • 40. HS: Personalisierung mit großen Daten Abseits der Gütekriterien 40
  • 41. HS: Personalisierung mit großen Daten Coverage  Item Space Coverage:  Anteil an Empfehlungen, die ein Empfehlungssystem geben kann  Anteil an Empfehlungen, die jemals gegeben wurden  User Space Coverage:  Anteil an Nutzern oder Nutzerinteraktionen, für die das System Empfehlungen generieren kann 41
  • 42. HS: Personalisierung mit großen Daten Learning Rate  Overall Learning Rate: Qualität einer Empfehlung als Funktion über alle Ratings im System  Per Item Learning Rate: Qualität einer Empfehlung für ein Item als Funktion über die Anzahl der vorhandenen Ratings  Per User Learning Rate: Qualität einer Empfehlung für einen Nutzer als Funktion über die Anzahl der Ratings, die der Nutzer gemacht hat Methode zum Vergleich: Graph aus Qualität vs. Anzahl der Ratings 42
  • 43. HS: Personalisierung mit großen Daten Learning Rate 43
  • 44. HS: Personalisierung mit großen Daten Confidence  Sicherheit des Systems über Gültigkeit der Vorhersage  Steigt mit Anzahl der Daten  Methode: Herausfinden aller möglichen Empfehlungsergebnisse  In welchem Rahmen bewegen sich die Ergebnisse? 44
  • 45. HS: Personalisierung mit großen Daten Trust  Im Gegensatz zu Confidence das Vertrauen der Nutzer in das Empfehlungssystem  Wird durch wiederkehrende Nutzer bestätigt  Experimente / Online-Umfragen 45
  • 46. HS: Personalisierung mit großen Daten Novelty  Generell: Ausfiltern von Items, die der Nutzer bereits kennt  Aber nur relevantes Neues  Implementation über die Gütekriterien => Höhere Credits für korrekt vorhergesagte unpopuläre Items 46
  • 47. HS: Personalisierung mit großen Daten Serendipity  Messwert, wie überraschend eine Empfehlung war  Methode: Distanzmessung zwischen Inhalt der Items => Höherer Score für Items, die von einem Set bisher bewerteter Items entfernt sind 47
  • 48. HS: Personalisierung mit großen Daten Diversity  Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen  Methode: Messung der Ähnlichkeit zwischen Items  Kurven zur Beurteilung zwischen Anstieg der Vielfältigkeit und Sinken der Gütekriterien 48
  • 49. HS: Personalisierung mit großen Daten Weitere Indikatoren  Risk  Robustness  Scalability  Adaptivity  Privacy 49
  • 50. HS: Personalisierung mit großen Daten User Evaluation Explizit vs. implizit Labor- vs. Feldstudie Dimensionen Ergebnis vs. Prozess Kurzzeit- vs. Langzeitstudie 50
  • 51. HS: Personalisierung mit großen Daten Ziele der User Evaluation  Nutzen des System für den User  Befriedigung der Bedürfnisse des Users  User Tasks eruieren  Besten Algorithmus für Datenset 51
  • 52. HS: Personalisierung mit großen Daten Danke für die Aufmerksamkeit 52
  • 53. HS: Personalisierung mit großen Daten Literaturverzeichnis  Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of Predictive Algorithms for Collaborative Filtering.  Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl, John T.: Evaluating Collaborative Filtering Recommender Systems.  McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is Not Enough: How Accuracy Metrics have hurt Recommender Systems.  McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan, Joseph A.; Riedl, John: Confidence Displays and Training in Recommender Systems.  Ricci, Francesco: Database and Information Systems.  Shani, Guy; Gunawardana, Asela: Evaluating Recommendation Systems. 53