Information Retrieval
und
Recommender Systems
H R
2
Exemplar: amazon
3
Exemplar: youtube
4
Gliederung
Information Retrieval
 Komponenten
 allgemeine Definition
 Techniken
 Algorithmen
Recommender Systems
IR ...
5
Information Retrieval
Information Retrieval
Social Information Retrieval
Extrahierung Speicherung Abruf
Parser/Crawler S...
6
RS: Komponenten
Ziele des RS
 (Zusatz-) Informationen bereitstellen
 Entscheidungshilfen, Referenzen bieten
User model...
7
RS: allgemeine Definition
Nutzer C Items S
Gesucht usefulness u: C x S → R
{Bild
GruppeUser}
{Bild
GruppeDateien}
8
RS: inhaltsbasierte Techniken
 schätze u(c, s) durch die Suche nach u(c, ) ab
 wobei Item möglichst ähnlich zu s ist
...
9
RS: Kategorie CB
Name Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche
Bewertung...
10
RS: kollaborative Techniken
 schätze u(c, s) durch die Suche nach u( , s) ab
 wobei User möglichst ähnlich zu c ist: ...
11
RS: Kategorie CF
Name Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/
item-based
ähnliche
...
12
RS: hybride Techniken
hybride Techniken
 implementieren CB und CF Technik separat
 kombinieren Ausgabe
 abhängig vom...
13
char. Attribute gewichten: TF-IDF
 Keyword , Dokument
 Anzahl der Vorkommnisse von in Dokument
 s = ”Das rote Auto h...
14
char. Attribute gewichten: TF-IDF
 S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
 Inserve Dokumentenhäufigke...
15
CB: Bayes-Klassifikator
 model-based Ansatz
 lernt aus statischem Wissen einer Trainingsmenge
 überträgt Wissen auf ...
16
RS: Algorithmen
 Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
 Technisches Richtmaß:
 Genauigkeit ...
17
IR & RS in der PG
 Inhaltsanalysen liefern Keywords
 nicht eindeutig und synonym
 Zitierung ähnlich wie Bewertung
 ...
18
Danke für Ihre Aufmerksamkeit!
19
Literatur
 [Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system
techn...
Nächste SlideShare
Wird geladen in …5
×

Information Retrieval und Recommender Systems

796 Aufrufe

Veröffentlicht am

Veröffentlicht in: Unterhaltung & Humor, Technologie, Business
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
796
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
40
Aktionen
Geteilt
0
Downloads
10
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Information Retrieval und Recommender Systems

  1. 1. Information Retrieval und Recommender Systems H R
  2. 2. 2 Exemplar: amazon
  3. 3. 3 Exemplar: youtube
  4. 4. 4 Gliederung Information Retrieval  Komponenten  allgemeine Definition  Techniken  Algorithmen Recommender Systems IR & RS in der PG
  5. 5. 5 Information Retrieval Information Retrieval Social Information Retrieval Extrahierung Speicherung Abruf Parser/Crawler Storage Retrieval {Bild Mähdrescher} {Bild Speicher} {Bild Lupe}
  6. 6. 6 RS: Komponenten Ziele des RS  (Zusatz-) Informationen bereitstellen  Entscheidungshilfen, Referenzen bieten User model  Erreichen der Ziele benötigt personifizierte Informationen  abhängig von der Domäne Umgebungsvariablen  Wohldefiniertheit der Items  Erstellung und Wartung von Metadaten  stark Domänenabhängig  Verkauf von Zusatzprodukten  Loyalität aufbauen (Konkurrenz Klick entfernt)  PG:  eigene Publikationen, selbst referenziert  bereits bewertet  Überfluss an Informationen  Echtzeit  Arbeiten mit Stereotypen 8
  7. 7. 7 RS: allgemeine Definition Nutzer C Items S Gesucht usefulness u: C x S → R {Bild GruppeUser} {Bild GruppeDateien}
  8. 8. 8 RS: inhaltsbasierte Techniken  schätze u(c, s) durch die Suche nach u(c, ) ab  wobei Item möglichst ähnlich zu s ist  gutes c durch Benutzerprofile: ContentBasedProfile(c)  explizit: z.B. Befragung, Formulare  implizit: Mitschnitt des Nutzerverhaltens über die Zeit  gutes s durch Itemprofile: Content(s)  charakteresierende Attribute extrahieren: z.B. Keywords  Gewichte für Wichtigkeit: z.B. TF-IDF Gesucht usefulness u: C x S → R si si
  9. 9. 9 RS: Kategorie CB Name Herangehensweise Vorteile Nachteile inhaltsbasierte Techniken (CB) rating-based ähnliche Bewertungen ↔ ähnlicher Geschmack des einzelnen Nutzers - Domänenunabhängig - verbessert sich über die Zeit - cold-start-Problem - new-user-Problem - nur begrenze Vorschläge attribute-based gewichte Item-Attribute ↔ Benutzer-Attribute - kein cold-start- Problem - kein new-user- Problem - regiert gut auf Änderungen - nur parsebare Inhalte - lernt nicht über die Zeit - funktioniert nur mit Kategorien - erfordert Wartung/ Kategorisierung - Güte nicht ableitbar - redundante Vorschläge
  10. 10. 10 RS: kollaborative Techniken  schätze u(c, s) durch die Suche nach u( , s) ab  wobei User möglichst ähnlich zu c ist: user peers  memory/heuristic-based: auf vorangegangenen Bewertungen  gesucht: unbekannte Wertung:  C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben  wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete Summe, angepasste gewichtete Summe  model-based  Modell lernt und macht dann eine Vorhersage: W'keit, dass Nutzer bestimmtes Rating zu Item abgibt  Auflösung der W'keiten durch User-Cluster und Bayes- Netzwerke Gesucht usefulness u: C x S → R ci ci rc , s
  11. 11. 11 RS: Kategorie CF Name Herangehensweise Vorteile Nachteile kollaborative Techniken (CF) user-based/ item-based ähnliche Bewertungen ↔ ähnlicher Geschmack der verschiedene Nutzer - keine Inhaltsanalyse nötig - Domänenunabhängig - verbessert sich über die Zeit - Zufallsfunde möglich - cold-start-Problem - beliebter Geschmack - Skalierbarkeit - Seltenheit - ”Rauschen” – Skala nicht klar – Grund für Abstimmung Stereotypen oder Demografien clustert Nutzer anhand bekannter Attribute - kein cold-start- Problem - Domänenunabhängig - Zufallsfunde möglich - Informationsbeschaffung/ Metadaten - unzureichende Informationen - nur beliebter Geschmack - Wartung
  12. 12. 12 RS: hybride Techniken hybride Techniken  implementieren CB und CF Technik separat  kombinieren Ausgabe  abhängig vom Szenario für ”bessere” entscheiden
  13. 13. 13 char. Attribute gewichten: TF-IDF  Keyword , Dokument  Anzahl der Vorkommnisse von in Dokument  s = ”Das rote Auto hält an der roten Ampel” = 2  Vorkommenshäufigkeit: normalisierte Häufigkeit von in : ki s j f i , j ki s j f rot , s TFi, j ki s j TFi, j= f i , j maxz f z , j
  14. 14. 14 char. Attribute gewichten: TF-IDF  S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword  Inserve Dokumentenhäufigkeit: misst Relevanz zu anderen Dokumenten  Gewicht von Keyword im Dokument wird berechnet:   Content( ) = ( , …, ) TFi, j= f i , j maxz f z , j si ki IDF i=log  S si  wi , j ki s j wi , j=TFi , j∗IDFi s j w1, j wk , j Vorkommenshäufigkeit:
  15. 15. 15 CB: Bayes-Klassifikator  model-based Ansatz  lernt aus statischem Wissen einer Trainingsmenge  überträgt Wissen auf unbekannte Szenarien  Beispiel Webseiten-Klassifikator:  gesucht: W'keit das Webseite zu der Klasse (relevant/irrelevant) gehört P( | & … & )  gegeben: Keywords auf Seite : , …,  Ann.: Keywords unabhängig pj Ci Ci k1, j kn, j pj k1, j kn, j PCi∗∏x Pkx , j .Ci
  16. 16. 16 RS: Algorithmen  Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)  Technisches Richtmaß:  Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz  Deckungsgrad (coverage): Anteil der Items für die RS eine Vorhersage treffen kann  allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …  Vorgehen:  durch Heuristiken oder Modelle die usefulness Funktion u bestimmen und empirisch untersuchen  die Funktion abschätzen, um bestimmte Kriterien zu verbessern
  17. 17. 17 IR & RS in der PG  Inhaltsanalysen liefern Keywords  nicht eindeutig und synonym  Zitierung ähnlich wie Bewertung  Matthew Effect, Eigenzitierung  Referenzen und Autoren ergeben Cluster  mehrdeutige Autorennamen  Lesezeichen und Downloads ermöglichen kontinuierliche Beobachtung  Implizite und explizite Bewertungen  Mindestanzahl an Nutzern notwendig
  18. 18. 18 Danke für Ihre Aufmerksamkeit!
  19. 19. 19 Literatur  [Drachsler2007] Recommendations for learners are different : Applying memory-based recommender system techniques to lifelong learning  [Drachsler2009] Identifying the Goal, User model and Conditions of Recommender Systems for Formal and Informal Learning  [Kargioti2010] Supporting Emergent Learning through Social Recommendations  [Adomavicius2005] Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions  [Gipp2009a] Scienstein: A research paper recommender system

×