2. HS: Personalisierung
mit großen Daten
Gliederung
1.
2.
3.
4.
5.
6.
7.
Recommender Systeme und Collaborative Filtering
User Tasks und Rating Tasks
Beispiel
Starten einer Evaluation
Gütekriterien
Abseits der Gütekriterien
User Evaluation
2
4. HS: Personalisierung
mit großen Daten
Was ist ein Recommender Sytem?
“Recommender systems use the opinions of a community of
users to help individuals in that community more effectively
identify content of interest from a potentially overwhelming set
of choices [Resnick and Varian 1997].”
4
5. HS: Personalisierung
mit großen Daten
Collaborative Filtering Algorithms
“The task in collaborative filtering is to predict the utility of
items to a particular user (the active user) based on a
database of user votes from a sample or population of other
users (the user database).” [Breese 1998]
Memory Based
Model Based
5
17. HS: Personalisierung
mit großen Daten
… => Empfehlungen?
Algorithmen vs. Datensets
Plattformumgebung und –zweck
Ziele einer Evaluation
Definition der richtigen Empfehlung
User vs. System
17
19. HS: Personalisierung
mit großen Daten
Experiment / Befragung
Sammeln qualitativer Daten
Pre-Test empfehlenswert
Testpersonen sollten Zielgruppe abbilden
Analyse innerhalb und zwischen den Testgruppen
Anzeige der Ergebnisse randomisieren
Fragebögen / Befragung verwenden
Hohe Kosten
19
20. HS: Personalisierung
mit großen Daten
Offline-Daten
Datenset ist bereits vorhanden (Verhalten der Nutzer früher
und jetzt?)
Algorithmus vs. Datenset?
Samples aus Set auswählen (User, Items, Zeit)
Daten ab Auswahlzeitpunkt verbergen
Algorithmus ab da rechnen lassen
20
21. HS: Personalisierung
mit großen Daten
Online-Daten
Ziel: Beeinflussen des Nutzerverhaltens
Maßgeblich sind: Intention und Kontext des Nutzers,
Nutzerinterface
Randomisierte Auswahl an Nutzern, die leicht verändertes
System verwenden
Online-Datensatz alleine reicht nicht
21
22. HS: Personalisierung
mit großen Daten
Anforderung an ein Datenset
Kontext der Empfehlungen: Thema, Nutzerverhalten,
Bedürfnisse, Genauigkeit
Systemeigenschaften: Wie kommen Ratings zustande und
sind skaliert? Was wird geloggt?
Eigenschaften des Datensets: Dichte der Gesamtratings,
Nutzerzahl
Implizite vs. Explizite Daten
22
25. HS: Personalisierung
mit großen Daten
Güte der Vorhersagen
Messung, wie nah die vorhergesagten Empfehlungen an den
wirklichen User Ratings sind
MAE: Standardabweichung zwischen vorhergesagtem und
wahrem Rating
𝑁
𝑖=1 𝑝 𝑖 − 𝑟𝑖
𝑀𝐴𝐸 =
𝑁
Detailgenauigkeit entscheidend
25
27. HS: Personalisierung
mit großen Daten
Klassifizierung
Recommender System
User
Ausgewählt
Nicht ausgewählt
Total
Wahr-positiv
Wahr-negativ
NR
Nicht Relevant Falsch-positiv
Falsch-negativ
NNR
Total
NNA
N
Relevant
NA
27
28. HS: Personalisierung
mit großen Daten
Precision
Ausgewählt
Nicht ausgewählt
Total
Wahr-positiv
Wahr-negativ
NR
Nicht Relevant Falsch-positiv
Falsch-negativ
NNR
Total
NNA
N
Relevant
NA
𝑃=
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝐴𝑙𝑙𝑒 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
28
29. HS: Personalisierung
mit großen Daten
Beispiel Precision
Ausgewählt
Nicht ausgewählt
Total
3
2
5
Nicht Relevant 7
3
10
Total
5
15
Relevant
10
3
𝑃=
10
29
30. HS: Personalisierung
mit großen Daten
Recall
Ausgewählt
Nicht ausgewählt
Total
Wahr-positiv
Wahr-negativ
NR
Nicht Relevant Falsch-positiv
Falsch-negativ
NNR
Total
NNA
N
Relevant
NA
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒
𝑅=
𝑎𝑙𝑙𝑒 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒𝑛 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒
30
31. HS: Personalisierung
mit großen Daten
Beispiel: Recall
Ausgewählt
Nicht ausgewählt
Total
3
2
5
Nicht Relevant 7
3
10
Total
5
15
Relevant
10
𝑅=
3
5
31
32. HS: Personalisierung
mit großen Daten
F1 Score
Harmonisch:
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 = 2 ×
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
Zwischen 0 und 1.
F1 =< 1 => bester Wert
32
36. HS: Personalisierung
mit großen Daten
ROC-Curve
Messung, wie genau ein
Informationsverarbeitungs
system zwischen
Relevanz und NichtRelevanz unterscheiden
kann
36
38. HS: Personalisierung
mit großen Daten
Probleme
Geschmack in binäres System transformieren?
Voraussetzung: Wissen, was relevant ist
Modell zu sehr am IR ausgerichtet
Ergebnisse von Länge der Liste abhängig
38
39. HS: Personalisierung
mit großen Daten
Ranking
Reference Ranking: Ranking mithilfe einer weiteren Referenz
(Normalized Distance-based Performance Measure,
Kendall´s tau)
Utility-Based Ranking: Nützlichkeit der Liste anhand jedes
Items in Abhängigkeit der Position im Gesamtkontext der
Liste (R-Score, Normalized Cumulative Discounted Gain)
Online Evaluation: Welche Art des Rankings präferiert der
Nutzer
39
41. HS: Personalisierung
mit großen Daten
Coverage
Item Space Coverage:
Anteil an Empfehlungen, die ein Empfehlungssystem geben kann
Anteil an Empfehlungen, die jemals gegeben wurden
User Space Coverage:
Anteil an Nutzern oder Nutzerinteraktionen, für die das System
Empfehlungen generieren kann
41
42. HS: Personalisierung
mit großen Daten
Learning Rate
Overall Learning Rate: Qualität einer Empfehlung als
Funktion über alle Ratings im System
Per Item Learning Rate: Qualität einer Empfehlung für ein
Item als Funktion über die Anzahl der vorhandenen Ratings
Per User Learning Rate: Qualität einer Empfehlung für einen
Nutzer als Funktion über die Anzahl der Ratings, die der
Nutzer gemacht hat
Methode zum Vergleich: Graph aus Qualität vs. Anzahl der
Ratings
42
44. HS: Personalisierung
mit großen Daten
Confidence
Sicherheit des Systems über Gültigkeit der Vorhersage
Steigt mit Anzahl der Daten
Methode: Herausfinden aller möglichen
Empfehlungsergebnisse
In welchem Rahmen bewegen sich die Ergebnisse?
44
45. HS: Personalisierung
mit großen Daten
Trust
Im Gegensatz zu Confidence das Vertrauen der Nutzer in
das Empfehlungssystem
Wird durch wiederkehrende Nutzer bestätigt
Experimente / Online-Umfragen
45
46. HS: Personalisierung
mit großen Daten
Novelty
Generell: Ausfiltern von Items, die der Nutzer bereits kennt
Aber nur relevantes Neues
Implementation über die Gütekriterien => Höhere Credits für
korrekt vorhergesagte unpopuläre Items
46
47. HS: Personalisierung
mit großen Daten
Serendipity
Messwert, wie überraschend eine Empfehlung war
Methode: Distanzmessung zwischen Inhalt der Items
=> Höherer Score für Items, die von einem Set bisher
bewerteter Items entfernt sind
47
48. HS: Personalisierung
mit großen Daten
Diversity
Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen
Methode: Messung der Ähnlichkeit zwischen Items
Kurven zur Beurteilung zwischen Anstieg der Vielfältigkeit
und Sinken der Gütekriterien
48
50. HS: Personalisierung
mit großen Daten
User Evaluation
Explizit vs. implizit
Labor- vs. Feldstudie
Dimensionen
Ergebnis vs. Prozess
Kurzzeit- vs.
Langzeitstudie
50
51. HS: Personalisierung
mit großen Daten
Ziele der User Evaluation
Nutzen des System für den User
Befriedigung der Bedürfnisse des Users
User Tasks eruieren
Besten Algorithmus für Datenset
51
53. HS: Personalisierung
mit großen Daten
Literaturverzeichnis
Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of
Predictive Algorithms for Collaborative Filtering.
Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl,
John T.: Evaluating Collaborative Filtering Recommender Systems.
McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is
Not Enough: How Accuracy Metrics have hurt Recommender Systems.
McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan,
Joseph A.; Riedl, John: Confidence Displays and Training in
Recommender Systems.
Ricci, Francesco: Database and Information Systems.
Shani, Guy; Gunawardana, Asela: Evaluating Recommendation
Systems.
53