Information Retrieval und Recommender Systems

Information Retrieval
und
Recommender Systems
H R

4
Gliederung
 Komponenten
 allgemeine Definition
 Techniken
 Algorithmen
Recommender Systems
IR & RS in der PG

5
Social Information Retrieval
Extrahierung Speicherung Abruf
Parser/Crawler Storage Retrieval
{Bild
Mähdrescher}
{Bild
Speicher}
{Bild
Lupe}

6
RS: Komponenten
Ziele des RS
 (Zusatz-) Informationen bereitstellen
 Entscheidungshilfen, Referenzen bieten
User model
 Erreichen der Ziele benötigt
personifizierte Informationen
 abhängig von der Domäne
Umgebungsvariablen
 Wohldefiniertheit der Items
 Erstellung und Wartung von Metadaten
 stark Domänenabhängig
 Verkauf von Zusatzprodukten
 Loyalität aufbauen (Konkurrenz Klick
entfernt)
 PG:
 eigene Publikationen, selbst referenziert
 bereits bewertet
 Überfluss an Informationen
 Echtzeit
 Arbeiten mit Stereotypen 8

7
RS: allgemeine Definition
Nutzer C Items S
Gesucht usefulness u: C x S → R
{Bild
GruppeUser}
{Bild
GruppeDateien}

8
RS: inhaltsbasierte Techniken
 schätze u(c, s) durch die Suche nach u(c, ) ab
 wobei Item möglichst ähnlich zu s ist
 gutes c durch Benutzerprofile: ContentBasedProfile(c)
 explizit: z.B. Befragung, Formulare
 implizit: Mitschnitt des Nutzerverhaltens über die Zeit
 gutes s durch Itemprofile: Content(s)
 charakteresierende Attribute extrahieren: z.B. Keywords
 Gewichte für Wichtigkeit: z.B. TF-IDF
si
si

9
RS: Kategorie CB
Name Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche
Bewertungen
↔
ähnlicher
Geschmack
des einzelnen
Nutzers
- Domänenunabhängig
- verbessert sich über
die Zeit
- cold-start-Problem
- new-user-Problem
- nur begrenze Vorschläge
attribute-based gewichte
Item-Attribute
↔
Benutzer-Attribute
- kein cold-start-
Problem
- kein new-user-
Problem
- regiert gut auf
Änderungen
- nur parsebare Inhalte
- lernt nicht über die Zeit
- funktioniert nur mit
Kategorien
- erfordert Wartung/
Kategorisierung
- Güte nicht ableitbar
- redundante Vorschläge

10
RS: kollaborative Techniken
 schätze u(c, s) durch die Suche nach u( , s) ab
 wobei User möglichst ähnlich zu c ist: user peers
 memory/heuristic-based: auf vorangegangenen Bewertungen
 gesucht: unbekannte Wertung:
 C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben
 wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete
Summe, angepasste gewichtete Summe
 model-based
 Modell lernt und macht dann eine Vorhersage: W'keit, dass
Nutzer bestimmtes Rating zu Item abgibt
 Auflösung der W'keiten durch User-Cluster und Bayes-
Netzwerke
ci
ci
rc , s

11
RS: Kategorie CF
Name Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/
item-based
ähnliche
Bewertungen
↔
ähnlicher
Geschmack
der verschiedene
Nutzer
- keine Inhaltsanalyse
nötig
- verbessert sich über
die Zeit
- Zufallsfunde möglich
- cold-start-Problem
- beliebter Geschmack
- Skalierbarkeit
- Seltenheit
- ”Rauschen”
– Skala nicht klar
– Grund für Abstimmung
Stereotypen
oder
Demografien
clustert Nutzer
anhand bekannter
Attribute
- kein cold-start-
Problem
- Zufallsfunde möglich
- Informationsbeschaffung/
Metadaten
- unzureichende
Informationen
- nur beliebter Geschmack
- Wartung

12
RS: hybride Techniken
hybride Techniken
 implementieren CB und CF Technik separat
 kombinieren Ausgabe
 abhängig vom Szenario für ”bessere” entscheiden

13
char. Attribute gewichten: TF-IDF
 Keyword , Dokument
 Anzahl der Vorkommnisse von in Dokument
 s = ”Das rote Auto hält an der roten Ampel” = 2
 Vorkommenshäufigkeit: normalisierte Häufigkeit von in :
ki s j
f i , j ki s j
f rot , s
TFi, j ki s j
TFi, j=
f i , j
maxz f z , j

14
char. Attribute gewichten: TF-IDF
 S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
 Inserve Dokumentenhäufigkeit: misst Relevanz zu
anderen Dokumenten
 Gewicht von Keyword im Dokument wird berechnet:

 Content( ) = ( , …, )
TFi, j=
f i , j
maxz f z , j
si ki
IDF i=log 
S
si

wi , j ki s j
wi , j=TFi , j∗IDFi
s j w1, j
wk , j
Vorkommenshäufigkeit:

15
CB: Bayes-Klassifikator
 model-based Ansatz
 lernt aus statischem Wissen einer Trainingsmenge
 überträgt Wissen auf unbekannte Szenarien
 Beispiel Webseiten-Klassifikator:
 gesucht: W'keit das Webseite zu der Klasse
(relevant/irrelevant) gehört
P( | & … & )
 gegeben: Keywords auf Seite : , …,
 Ann.: Keywords unabhängig
pj Ci
Ci k1, j kn, j
pj k1, j
kn, j
PCi∗∏x Pkx , j .Ci

16
RS: Algorithmen
 Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
 Technisches Richtmaß:
 Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz
 Deckungsgrad (coverage): Anteil der Items für die RS eine
Vorhersage treffen kann
 allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …
 Vorgehen:
 durch Heuristiken oder Modelle die usefulness Funktion u
bestimmen und empirisch untersuchen
 die Funktion abschätzen, um bestimmte Kriterien zu verbessern

17
IR & RS in der PG
 Inhaltsanalysen liefern Keywords
 nicht eindeutig und synonym
 Zitierung ähnlich wie Bewertung
 Matthew Effect, Eigenzitierung
 Referenzen und Autoren ergeben Cluster
 mehrdeutige Autorennamen
 Lesezeichen und Downloads ermöglichen
kontinuierliche Beobachtung
 Implizite und explizite Bewertungen
 Mindestanzahl an Nutzern notwendig

18
Danke für Ihre Aufmerksamkeit!

19
Literatur
 [Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system
techniques to lifelong learning
 [Drachsler2009]
Identifying the Goal, User model and Conditions of Recommender Systems for Formal and
Informal Learning
 [Kargioti2010]
Supporting Emergent Learning through Social Recommendations
 [Adomavicius2005]
Toward the next generation of recommender systems: a survey of the state-of-the-art
and possible extensions
 [Gipp2009a]
Scienstein: A research paper recommender system

Information Retrieval und Recommender Systems

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (18)

Ähnlich wie Information Retrieval und Recommender Systems

Ähnlich wie Information Retrieval und Recommender Systems (14)

Information Retrieval und Recommender Systems