Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Information Retrieval
und
Recommender Systems
H R
2
Exemplar: amazon
3
Exemplar: youtube
4
Gliederung
Information Retrieval
 Komponenten
 allgemeine Definition
 Techniken
 Algorithmen
Recommender Systems
IR ...
5
Information Retrieval
Information Retrieval
Social Information Retrieval
Extrahierung Speicherung Abruf
Parser/Crawler S...
6
RS: Komponenten
Ziele des RS
 (Zusatz-) Informationen bereitstellen
 Entscheidungshilfen, Referenzen bieten
User model...
7
RS: allgemeine Definition
Nutzer C Items S
Gesucht usefulness u: C x S → R
{Bild
GruppeUser}
{Bild
GruppeDateien}
8
RS: inhaltsbasierte Techniken
 schätze u(c, s) durch die Suche nach u(c, ) ab
 wobei Item möglichst ähnlich zu s ist
...
9
RS: Kategorie CB
Name Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche
Bewertung...
10
RS: kollaborative Techniken
 schätze u(c, s) durch die Suche nach u( , s) ab
 wobei User möglichst ähnlich zu c ist: ...
11
RS: Kategorie CF
Name Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/
item-based
ähnliche
...
12
RS: hybride Techniken
hybride Techniken
 implementieren CB und CF Technik separat
 kombinieren Ausgabe
 abhängig vom...
13
char. Attribute gewichten: TF-IDF
 Keyword , Dokument
 Anzahl der Vorkommnisse von in Dokument
 s = ”Das rote Auto h...
14
char. Attribute gewichten: TF-IDF
 S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
 Inserve Dokumentenhäufigke...
15
CB: Bayes-Klassifikator
 model-based Ansatz
 lernt aus statischem Wissen einer Trainingsmenge
 überträgt Wissen auf ...
16
RS: Algorithmen
 Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
 Technisches Richtmaß:
 Genauigkeit ...
17
IR & RS in der PG
 Inhaltsanalysen liefern Keywords
 nicht eindeutig und synonym
 Zitierung ähnlich wie Bewertung
 ...
18
Danke für Ihre Aufmerksamkeit!
19
Literatur
 [Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system
techn...
Nächste SlideShare
Wird geladen in …5
×

Information Retrieval und Recommender Systems

885 Aufrufe

Veröffentlicht am

Veröffentlicht in: Unterhaltung & Humor, Technologie, Business
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Information Retrieval und Recommender Systems

  1. 1. Information Retrieval und Recommender Systems H R
  2. 2. 2 Exemplar: amazon
  3. 3. 3 Exemplar: youtube
  4. 4. 4 Gliederung Information Retrieval  Komponenten  allgemeine Definition  Techniken  Algorithmen Recommender Systems IR & RS in der PG
  5. 5. 5 Information Retrieval Information Retrieval Social Information Retrieval Extrahierung Speicherung Abruf Parser/Crawler Storage Retrieval {Bild Mähdrescher} {Bild Speicher} {Bild Lupe}
  6. 6. 6 RS: Komponenten Ziele des RS  (Zusatz-) Informationen bereitstellen  Entscheidungshilfen, Referenzen bieten User model  Erreichen der Ziele benötigt personifizierte Informationen  abhängig von der Domäne Umgebungsvariablen  Wohldefiniertheit der Items  Erstellung und Wartung von Metadaten  stark Domänenabhängig  Verkauf von Zusatzprodukten  Loyalität aufbauen (Konkurrenz Klick entfernt)  PG:  eigene Publikationen, selbst referenziert  bereits bewertet  Überfluss an Informationen  Echtzeit  Arbeiten mit Stereotypen 8
  7. 7. 7 RS: allgemeine Definition Nutzer C Items S Gesucht usefulness u: C x S → R {Bild GruppeUser} {Bild GruppeDateien}
  8. 8. 8 RS: inhaltsbasierte Techniken  schätze u(c, s) durch die Suche nach u(c, ) ab  wobei Item möglichst ähnlich zu s ist  gutes c durch Benutzerprofile: ContentBasedProfile(c)  explizit: z.B. Befragung, Formulare  implizit: Mitschnitt des Nutzerverhaltens über die Zeit  gutes s durch Itemprofile: Content(s)  charakteresierende Attribute extrahieren: z.B. Keywords  Gewichte für Wichtigkeit: z.B. TF-IDF Gesucht usefulness u: C x S → R si si
  9. 9. 9 RS: Kategorie CB Name Herangehensweise Vorteile Nachteile inhaltsbasierte Techniken (CB) rating-based ähnliche Bewertungen ↔ ähnlicher Geschmack des einzelnen Nutzers - Domänenunabhängig - verbessert sich über die Zeit - cold-start-Problem - new-user-Problem - nur begrenze Vorschläge attribute-based gewichte Item-Attribute ↔ Benutzer-Attribute - kein cold-start- Problem - kein new-user- Problem - regiert gut auf Änderungen - nur parsebare Inhalte - lernt nicht über die Zeit - funktioniert nur mit Kategorien - erfordert Wartung/ Kategorisierung - Güte nicht ableitbar - redundante Vorschläge
  10. 10. 10 RS: kollaborative Techniken  schätze u(c, s) durch die Suche nach u( , s) ab  wobei User möglichst ähnlich zu c ist: user peers  memory/heuristic-based: auf vorangegangenen Bewertungen  gesucht: unbekannte Wertung:  C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben  wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete Summe, angepasste gewichtete Summe  model-based  Modell lernt und macht dann eine Vorhersage: W'keit, dass Nutzer bestimmtes Rating zu Item abgibt  Auflösung der W'keiten durch User-Cluster und Bayes- Netzwerke Gesucht usefulness u: C x S → R ci ci rc , s
  11. 11. 11 RS: Kategorie CF Name Herangehensweise Vorteile Nachteile kollaborative Techniken (CF) user-based/ item-based ähnliche Bewertungen ↔ ähnlicher Geschmack der verschiedene Nutzer - keine Inhaltsanalyse nötig - Domänenunabhängig - verbessert sich über die Zeit - Zufallsfunde möglich - cold-start-Problem - beliebter Geschmack - Skalierbarkeit - Seltenheit - ”Rauschen” – Skala nicht klar – Grund für Abstimmung Stereotypen oder Demografien clustert Nutzer anhand bekannter Attribute - kein cold-start- Problem - Domänenunabhängig - Zufallsfunde möglich - Informationsbeschaffung/ Metadaten - unzureichende Informationen - nur beliebter Geschmack - Wartung
  12. 12. 12 RS: hybride Techniken hybride Techniken  implementieren CB und CF Technik separat  kombinieren Ausgabe  abhängig vom Szenario für ”bessere” entscheiden
  13. 13. 13 char. Attribute gewichten: TF-IDF  Keyword , Dokument  Anzahl der Vorkommnisse von in Dokument  s = ”Das rote Auto hält an der roten Ampel” = 2  Vorkommenshäufigkeit: normalisierte Häufigkeit von in : ki s j f i , j ki s j f rot , s TFi, j ki s j TFi, j= f i , j maxz f z , j
  14. 14. 14 char. Attribute gewichten: TF-IDF  S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword  Inserve Dokumentenhäufigkeit: misst Relevanz zu anderen Dokumenten  Gewicht von Keyword im Dokument wird berechnet:   Content( ) = ( , …, ) TFi, j= f i , j maxz f z , j si ki IDF i=log  S si  wi , j ki s j wi , j=TFi , j∗IDFi s j w1, j wk , j Vorkommenshäufigkeit:
  15. 15. 15 CB: Bayes-Klassifikator  model-based Ansatz  lernt aus statischem Wissen einer Trainingsmenge  überträgt Wissen auf unbekannte Szenarien  Beispiel Webseiten-Klassifikator:  gesucht: W'keit das Webseite zu der Klasse (relevant/irrelevant) gehört P( | & … & )  gegeben: Keywords auf Seite : , …,  Ann.: Keywords unabhängig pj Ci Ci k1, j kn, j pj k1, j kn, j PCi∗∏x Pkx , j .Ci
  16. 16. 16 RS: Algorithmen  Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)  Technisches Richtmaß:  Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz  Deckungsgrad (coverage): Anteil der Items für die RS eine Vorhersage treffen kann  allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …  Vorgehen:  durch Heuristiken oder Modelle die usefulness Funktion u bestimmen und empirisch untersuchen  die Funktion abschätzen, um bestimmte Kriterien zu verbessern
  17. 17. 17 IR & RS in der PG  Inhaltsanalysen liefern Keywords  nicht eindeutig und synonym  Zitierung ähnlich wie Bewertung  Matthew Effect, Eigenzitierung  Referenzen und Autoren ergeben Cluster  mehrdeutige Autorennamen  Lesezeichen und Downloads ermöglichen kontinuierliche Beobachtung  Implizite und explizite Bewertungen  Mindestanzahl an Nutzern notwendig
  18. 18. 18 Danke für Ihre Aufmerksamkeit!
  19. 19. 19 Literatur  [Drachsler2007] Recommendations for learners are different : Applying memory-based recommender system techniques to lifelong learning  [Drachsler2009] Identifying the Goal, User model and Conditions of Recommender Systems for Formal and Informal Learning  [Kargioti2010] Supporting Emergent Learning through Social Recommendations  [Adomavicius2005] Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions  [Gipp2009a] Scienstein: A research paper recommender system

×