Evaluierung von Empfehlungssystemen

HS: Personalisierung
mit großen Daten

Evaluierung von
Empfehlungssystemen
Referent: Benjamin Hartwich

1

mit großen Daten

Gliederung
1.
2.
3.
4.
5.
6.
7.

Recommender Systeme und Collaborative Filtering
User Tasks und Rating Tasks
Beispiel
Starten einer Evaluation
Gütekriterien
Abseits der Gütekriterien
User Evaluation

2

mit großen Daten

Recommender Systeme und
Collaborative Filtering Algorithms
3

mit großen Daten

Was ist ein Recommender Sytem?
“Recommender systems use the opinions of a community of
users to help individuals in that community more effectively
identify content of interest from a potentially overwhelming set
of choices [Resnick and Varian 1997].”

4

mit großen Daten

Collaborative Filtering Algorithms
“The task in collaborative filtering is to predict the utility of
items to a particular user (the active user) based on a
database of user votes from a sample or population of other
users (the user database).” [Breese 1998]
 Memory Based
 Model Based

5

mit großen Daten

User und Rating Tasks
6

mit großen Daten

UT: Annotation in Context

7

mit großen Daten

UT: Find Good Items

8

mit großen Daten

UT: Find All Good Items

9

mit großen Daten

UT: Just Browsing

10

mit großen Daten

UT: Recommend Sequence

11

mit großen Daten

UT: Find Credible Recommender

12

mit großen Daten

Rating Tasks
 Improve Profile
 Express Self
 Help Others
 Influence Others

13

mit großen Daten

Beispiel

14

mit großen Daten

Beispiel

15

mit großen Daten

Start einer Evaluation
16

mit großen Daten

… => Empfehlungen?
 Algorithmen vs. Datensets
 Plattformumgebung und –zweck
 Ziele einer Evaluation
 Definition der richtigen Empfehlung
 User vs. System

17

mit großen Daten

Evaluierung mittels…
 … Offline-Daten
 … Befragung / Experiment
 … Online-Daten

18

mit großen Daten

Experiment / Befragung
 Sammeln qualitativer Daten
 Pre-Test empfehlenswert
 Testpersonen sollten Zielgruppe abbilden
 Analyse innerhalb und zwischen den Testgruppen
 Anzeige der Ergebnisse randomisieren
 Fragebögen / Befragung verwenden
 Hohe Kosten

19

mit großen Daten

Offline-Daten
 Datenset ist bereits vorhanden (Verhalten der Nutzer früher
und jetzt?)
 Algorithmus vs. Datenset?
 Samples aus Set auswählen (User, Items, Zeit)
 Daten ab Auswahlzeitpunkt verbergen
 Algorithmus ab da rechnen lassen

20

mit großen Daten

Online-Daten
 Ziel: Beeinflussen des Nutzerverhaltens
 Maßgeblich sind: Intention und Kontext des Nutzers,
Nutzerinterface
 Randomisierte Auswahl an Nutzern, die leicht verändertes
System verwenden
 Online-Datensatz alleine reicht nicht

21

mit großen Daten

Anforderung an ein Datenset
 Kontext der Empfehlungen: Thema, Nutzerverhalten,
Bedürfnisse, Genauigkeit
 Systemeigenschaften: Wie kommen Ratings zustande und
sind skaliert? Was wird geloggt?
 Eigenschaften des Datensets: Dichte der Gesamtratings,
Nutzerzahl
 Implizite vs. Explizite Daten

22

mit großen Daten

Daten => Evaluierung

Teilung

Lernen

Berechnung

Vergleich

23

mit großen Daten

Gütekriterien
24

mit großen Daten

Güte der Vorhersagen
 Messung, wie nah die vorhergesagten Empfehlungen an den
wirklichen User Ratings sind
 MAE: Standardabweichung zwischen vorhergesagtem und
wahrem Rating
𝑁
𝑖=1 𝑝 𝑖 − 𝑟𝑖
𝑀𝐴𝐸 =
𝑁
 Detailgenauigkeit entscheidend

25

mit großen Daten

Klassifizierung
Relevant

Nicht-Relevant

26

mit großen Daten

Klassifizierung
Recommender System

User

Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nicht Relevant Falsch-positiv

Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

27

mit großen Daten

Precision
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR


Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

𝑃=

𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝐴𝑙𝑙𝑒 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒

28

mit großen Daten

Beispiel Precision
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

3

10

Total

5

15

Relevant

10

3
𝑃=
10

29

mit großen Daten

Recall
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR


Falsch-negativ

NNR

Total

NNA

N

Relevant

NA

𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝑅=
𝑎𝑙𝑙𝑒 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒𝑛 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒

30

mit großen Daten

Beispiel: Recall
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

3

10

Total

5

15

Relevant

10

𝑅=

3
5

31

mit großen Daten

F1 Score
Harmonisch:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 = 2 ×
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

Zwischen 0 und 1.
F1 =< 1 => bester Wert

32

mit großen Daten

Beispiel: F1 Score
𝐹1 = 2 ×

0,3 ×0,6
0,3+0,6

= 0,4

33

mit großen Daten

Precision und Recall
Präzision

Relevanz
34

mit großen Daten

Precision Recall Curve

35

mit großen Daten

ROC-Curve
Messung, wie genau ein
Informationsverarbeitungs
system zwischen
Relevanz und NichtRelevanz unterscheiden
kann

36

mit großen Daten

ROC-Curve

37

mit großen Daten

Probleme
 Geschmack in binäres System transformieren?
 Voraussetzung: Wissen, was relevant ist
 Modell zu sehr am IR ausgerichtet
 Ergebnisse von Länge der Liste abhängig

38

mit großen Daten

Ranking
 Reference Ranking: Ranking mithilfe einer weiteren Referenz
(Normalized Distance-based Performance Measure,
Kendall´s tau)
 Utility-Based Ranking: Nützlichkeit der Liste anhand jedes
Items in Abhängigkeit der Position im Gesamtkontext der
Liste (R-Score, Normalized Cumulative Discounted Gain)
 Online Evaluation: Welche Art des Rankings präferiert der
Nutzer

39

mit großen Daten

Abseits der Gütekriterien
40

mit großen Daten

Coverage
 Item Space Coverage:
 Anteil an Empfehlungen, die ein Empfehlungssystem geben kann
 Anteil an Empfehlungen, die jemals gegeben wurden

 User Space Coverage:
 Anteil an Nutzern oder Nutzerinteraktionen, für die das System
Empfehlungen generieren kann

41

mit großen Daten

Learning Rate
 Overall Learning Rate: Qualität einer Empfehlung als
Funktion über alle Ratings im System
 Per Item Learning Rate: Qualität einer Empfehlung für ein
Item als Funktion über die Anzahl der vorhandenen Ratings
 Per User Learning Rate: Qualität einer Empfehlung für einen
Nutzer als Funktion über die Anzahl der Ratings, die der
Nutzer gemacht hat
Methode zum Vergleich: Graph aus Qualität vs. Anzahl der
Ratings
42

mit großen Daten

Learning Rate

43

mit großen Daten

Confidence
 Sicherheit des Systems über Gültigkeit der Vorhersage
 Steigt mit Anzahl der Daten
 Methode: Herausfinden aller möglichen
Empfehlungsergebnisse
 In welchem Rahmen bewegen sich die Ergebnisse?

44

mit großen Daten

Trust
 Im Gegensatz zu Confidence das Vertrauen der Nutzer in
das Empfehlungssystem
 Wird durch wiederkehrende Nutzer bestätigt
 Experimente / Online-Umfragen

45

mit großen Daten

Novelty
 Generell: Ausfiltern von Items, die der Nutzer bereits kennt
 Aber nur relevantes Neues
 Implementation über die Gütekriterien => Höhere Credits für
korrekt vorhergesagte unpopuläre Items

46

mit großen Daten

Serendipity
 Messwert, wie überraschend eine Empfehlung war
 Methode: Distanzmessung zwischen Inhalt der Items
=> Höherer Score für Items, die von einem Set bisher
bewerteter Items entfernt sind

47

mit großen Daten

Diversity
 Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen
 Methode: Messung der Ähnlichkeit zwischen Items
 Kurven zur Beurteilung zwischen Anstieg der Vielfältigkeit
und Sinken der Gütekriterien

48

mit großen Daten

Weitere Indikatoren
 Risk
 Robustness
 Scalability
 Adaptivity
 Privacy

49

mit großen Daten

User Evaluation
Explizit vs. implizit

Labor- vs. Feldstudie

Dimensionen

Ergebnis vs. Prozess

Kurzzeit- vs.
Langzeitstudie
50

mit großen Daten

Ziele der User Evaluation
 Nutzen des System für den User
 Befriedigung der Bedürfnisse des Users
 User Tasks eruieren
 Besten Algorithmus für Datenset

51

mit großen Daten

Danke für die Aufmerksamkeit

52

mit großen Daten

Literaturverzeichnis
 Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of
Predictive Algorithms for Collaborative Filtering.
 Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl,
John T.: Evaluating Collaborative Filtering Recommender Systems.
 McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is
Not Enough: How Accuracy Metrics have hurt Recommender Systems.
 McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan,
Joseph A.; Riedl, John: Confidence Displays and Training in
Recommender Systems.
 Ricci, Francesco: Database and Information Systems.
 Shani, Guy; Gunawardana, Asela: Evaluating Recommendation
Systems.

53

Evaluierung von Empfehlungssystemen

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Evaluierung von Empfehlungssystemen

Ähnlich wie Evaluierung von Empfehlungssystemen (20)

Mehr von Florian Stegmaier

Mehr von Florian Stegmaier (15)

Evaluierung von Empfehlungssystemen