SlideShare ist ein Scribd-Unternehmen logo
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Funktionsweise und Ans¨tze von inhaltsbasiertem
a
Filtern
Bettina Pflugbeil

Dezember 6, 2013

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Agenda
1
2

3

4

5

Vorgehensweise
Artikelprofil
Strukturierte Daten
Unstrukturierte Daten
Benutzerprofil
Benutzerhistorie
Erstellung eines Benutzerprofils
Klassifizierungsmethoden
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Feedback
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Problemstellung

große F¨lle an Informationen im Web
u
Schwierigkeiten bei der Suche
Personalisierung der Inhalte f¨r die Benutzer
u

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

allgemeine Vorgehensweise

Empfehlung von Artikeln, die der Benutzer in der
Vergangenheit f¨r gut befand.
u

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

allgemeine Vorgehensweise

Analyse von bewerteten Dokumenten
Erstellung eines Artikelprofils
Erstellung eines Benutzerprofils
Vergleichen des Benutzerprofils mit dem zu testenden Objekt

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZER
PROFILE LEARNER

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZER
PROFILE LEARNER
FILTERING COMPONENT

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZER
PROFILE LEARNER
FILTERING COMPONENT

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

CONTENT ANALYZER

Erstellung einer strukturierten Artikelbeschreibung
Techniken vom Information Retrieval
unstrukturierte Information ⇒ Vorverarbeitungsschritt n¨tig
o
diese Repr¨sentation = Input f¨r PROFILE LEARNER und
a
u
FILTERING COMPONENT

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

PROFILE LEARNER
Profil = strukturierte Darstellung der Benutzerinteressen
Sammlung von Daten (Benutzerbewertungen bzw. Feedback)
⇒ Training set f¨r den aktiven Benutzer
u
Verallgemeinerung der Daten ⇒ Erstellung des Benutzerprofils
Umsetzung der Generalisierungsstrategie durch
Maschinenlerntechniken
Speicherung des Benutzerprofils in einem Profilarchiv (f¨r
u
FILTERING COMPONENT)

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

FILTERING COMPONENT

Vorhersage uber Interesse des Benutzers f¨r neuen Artikel
u
¨
neue Artikelrepr¨sentation
a
⇒ Vergleich der Attribute des Benutzerprofils mit den der
jeweiligen Artikelprofile
Vergleich mittels Klassifizierungsalgorithmen
Ergebnis = repr¨sentiert Interesse des Benutzers an diesem
a
Objekt
Top-Artikel“⇒ Speicherung in Empfehlungsliste
”

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Artikelprofil

Profil = Sammlung der wichtigsten Eigenschaften des Artikels
Darstellung als Menge von Attributen
Artikel der gleichen Klasse“haben gleiche Attribute
”
Speicherung in einem relationalen Datenbanksystem

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Beispiel - Eigenschaften
Beispiel: Buchempfehlung
Titel
Genre
Autorenname
Verlag
Erscheinungsjahr
Preis
...

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Beispiel - Tabellendarstellung
Beispiel: Buchempfehlung

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

ABER...

Strictly speaking, the information about the publisher and the
”
author are actually not the content of a book, but rather additional
knowledge about it.“
⇒ Inhaltsbasierte Systeme wurden entwickelt, um textbasierte
Artikel zu filtern und zu empfehlen.

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Beispiel: Teil eines Zeitungsartikels

Artikelbeschreibung meistens textuelle Eigenschaften
(Webseite, Zeitungen, E-Mails...)
keine gut definierten Werte (↔ strukturierte Daten)
keine Liste von Meta-Information“, sondern Liste von
”
relevanten Schl¨sselw¨rtern
u
o
⇒ Einsatz von diversen Verfahren zur Extrahierung
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Vektor-Raum-Modell
Boolean-Vektor
VRM
r¨umliche Darstellung von Textdokumenten
a
Liste aller W¨rter von allen Dokumenten
o
⇒ Darstellung jedes Dokuments als boolean-Vektor
1 = Wort kommt vor
0 = Wort kommt nicht vor
gleiche Darstellung im Benutzerprofil
⇒ Vergleich
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Vektor-Raum-Modell
Boolean-Vektor - Probleme

Annahme: jedes Wort hat dieselbe Relevanz innerhalb des
Dokuments
ABER: H¨ufigeres Vorkommen ⇒ bessere Charakterisierung
a
¨
gr¨ßere Ubereinstimmung bei l¨ngeren Dokumenten
o
a
⇒ Empfehlung l¨ngere Dokumente
a
Verbesserung: Benutzung des TF-IDF-Kodierungsformates

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Vektor-Raum-Modell
TF-IDF-Kodierungsformat

TF-IDF-Kodierungsformat
Darstellung als Vektoren in einem multidimensionalen Raum
= Produkt aus Termfrequenz und inverse Dokumentenh¨ufigkeit
a
ist eine Technik vom information retrieval“
”
Ber¨cksichtigt die L¨nge des Dokuments
u
a
Raumanzahl = Anzahl der Schl¨sselw¨rter (Terme)
u
o

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Vektor-Raum-Modell
TF-IDF-Kodierungsformat

normierte Termfrequenz (TF)
TF (i, j) =

freq(i,j)
maxOthers(i,j)

⇒ Verkn¨pft die Anzahl der Termfrequenz mit der maximalen
u
Frequenz der anderen Schl¨sselw¨rter im Dokument
u
o
ist eine Technik vom information retrieval“
”
Raumanzahl = Anzahl der Schl¨sselw¨rter (Terme)
u
o

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Vektor-Raum-Modell
TF-IDF-Kodierungsformat
inverse Dokumentenfrequenz
N
IDF (i) = log n(j)

Ziel: Reduzierung der Gewichtung der Schl¨sselw¨rter, die sehr
u
o
h¨ufig in allen Dokumenten vorkommen.
a

Idee: zum Unterscheiden der Dokumente sind diese W¨rter
o
nicht sehr hilfreich
⇒ Terme, die nur in ein paar Dokumenten vorkommen,
sollten h¨her gewichtet werden
o
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Verbesserung und Begrenzung
Stoppw¨rter
o
L¨schen von bestimmten Wortarten wie Pr¨positionen,
o
a
Konjunktionen, Artikel usw.
Grund: kommen in so gut wie allen Dokumenten vor, haben
jedoch auf den Inhalt bzw. die Schl¨sselw¨rter keinen Einfluss
u
o
Stemming
Ersetzen der verschiedenen Wortvarianten durch ihren
gemeinsamen Wortstamm
⇒ Verringert die Vektorgr¨ße
o
⇒ Verbesserung des Matching-Prozesses
Probleme: Abk¨rzungen oder gleichlautende W¨rter
u
o
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Strukturierte Daten
Unstrukturierte Daten

Verbesserung und Begrenzung
Redewendung
Verwendung ganzer Redewendungen oder Phrasen als Terme
Grund: h¨here Aussagekraft
o
Anwendung von Lexika oder Ontologien
Problem: keine Erfassung der Semantik (String-Matching)
→ Polysemie: Ein Wort/ mehrere Bedeutungen
→ Synonymie: viele W¨rter/ dieselbe Bedeutung
o
⇒ Schl¨sselidee: Wissensbasen wie Lexika oder Ontologien
u

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Benutzerhistorie
Erstellung eines Benutzerprofils

Benutzerprofil

Benutzerprofil
Stellt die (vergangenen) Interessen des Nutzers dar.
Speicherung der Benutzerpr¨ferenzen
a
Historie der Nutzerinteraktionen mit dem Empfehlungssystem

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Benutzerhistorie
Erstellung eines Benutzerprofils

Benutzerhistorie

angesehene Artikel
gekaufte Artikel
bewertete Artikel
Sucheingaben
⇒ Rekonstruktion k¨rzlich angesehener Artikel
u
⇒ Rekonstruktion gekaufter bzw. gelesener Artikel
⇒ Verwendung als Trainingsdaten (Algorithmen)
⇒ Erstellung des Benutzerprofils

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Benutzerhistorie
Erstellung eines Benutzerprofils

Erstellung eines Benutzerprofils

Verwendung von Maschinenlerntechniken
Umsetzung als bin¨re Textkategorisierung
a
⇒ Klassifizierung jedes Dokuments/Artikels:
c+: positiv ⇒ Benutzer mag es
c-: negativ ⇒ Benutzer mag es nicht

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Benutzerhistorie
Erstellung eines Benutzerprofils

explizites Vorgehen
Benutzer bewertet Artikel/ Attribute/ Schl¨sselw¨rter aktiv selbst
u
o
z. B. durch Check-Box

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Bettina Pflugbeil

Benutzerhistorie
Erstellung eines Benutzerprofils

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Bettina Pflugbeil

Benutzerhistorie
Erstellung eines Benutzerprofils

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Benutzerhistorie
Erstellung eines Benutzerprofils

explizites Vorgehen
Benutzer bewertet Artikel/ Attribute/ Schl¨sselw¨rter aktiv selbst
u
o
z. B. durch Check-Box
implizites Vorgehen
Das System beobachtet das Nutzerverhalten
⇒ versucht es zu bewerten und zu kategorisieren

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Probabilistische Methoden und Naive Bayes

Wahrscheinlichkeitsmethode f¨r induktives Lernen
u
Erzeugung eines Wahrscheinlichkeitsmodells (unbekannter
Umweltzustand“) an Hand von davor beobachteten Daten
”
Bayes theorem
P(c|d) =

P(c)∗P(d|c)
P(d)

f¨r Klassifizierung des Dokuments d, wird Klasse mit h¨chster
u
o
Wahrscheinlichkeit ausgew¨hlt
a

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Probabilistische Methoden und Naive Bayes
beobachtete Daten nicht ausreichend
⇒ Unabh¨ngigkeitsannahme
a
⇒ Berechnung der Wahrscheinlichkeit f¨r jedes Wort
u
gute Ergebnisse bei Textdokumentsklassifizierung trotz
Diskrepanz zur realen Welt (↔ Methode des n¨chsten
a
Nachbarn)
Probleme beim Benutzerprofil:
→ unterschiedliche L¨nge der Dokumente (training set)
a
→ seltene Kategorien
→ mehr positives als negatives Feedback
Verwendung: NewsDude, Daily Learner, LIBRA...
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Entscheidungsbaum
Erstellung eines Entscheidungsbaumes durch rekursive
Aufteilung der Textdokumente (Trainingsdaten) in
Untergruppen
⇒ Untergruppen enthalten nur noch Instanzen der Klasse
Aufteilung durch Test der Merkmale (An- bzw. Abwesenheit)
Verwendung der informativsten Eigenschaften f¨r die Tests
u
nicht ideal f¨r unstrukturierte Daten
u
⇒ besser kleine B¨ume mit wenigen Tests
a
RIPPER: post-pruning-Algorithmus (Optimierung) und
Unterst¨tzung von Attributen mit mehrfachen Werten
u
bereits angewendet bei: Klassifizierung von E-Mails,
Data-Mining-Probleme, Personalisierung von Werbung
Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Entscheidungsbaum

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Methode des n¨chsten Nachbarn
a
Untersuchen, ob Benutzer gleichartige Dokumente in der
Vergangenheit positiv bewertet hat
zwei Informationen n¨tig:
o
→ Historie der Vorlieben (like/ dislike)
→ Algorithmus zur Bestimmung der Gleichartigkeit
Speicherung aller Trainingsdaten
Klassifizierung eines neuen Artikels:
¨
⇒ Berechnet durch Ahnlichkeitsfunktion den n¨chsten bzw.
a
die k n¨chsten Nachbarn
a
¨
⇒ Ubernahme der Daten der n¨chsten Nachbarn
a

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Methode des n¨chsten Nachbarn
a

strukturierte Daten - Euklidische Abstandsmetrik
⇒ d(p, q) = (p1 − q1)2 + (p2 − q2)2
¨
unstrukturierte Daten (VRM) - Kosinus-Ahnlichkeitsmaß
Problem bei Euklidischer Abstandsmetrik:
Gleichbehandlung egal ob kleiner oder großer Wert
⇒ Dokumente werden als gleichartig angesehen, wenn beide
nicht bei dem abgefragtem“Thema ubereinstimmen
¨
”

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Methode des n¨chsten Nachbarn
a

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Benutzer geben explizites Feedback, ob die abgerufenen
Artikel relevant waren. (R¨ckkopplungsmechanismus)
u
⇒ Verfeinerung der Abfrage durch das System
⇒ Verbesserung der Abfrageergebnisse
Grund: Qualit¨t h¨ngt sehr stark von den abgefragten
a a
Schl¨sselw¨rtern ab
u
o
→ durchschnittlich zwei Schl¨sselw¨rter (oft mehrdeutig)
u
o

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Teilen der bewerteten Dokumente in zwei Bereiche:
→ D+: relevante Dokumente
→ D-: unrelevante Dokumente
⇒ Erstellung eines Prototypen (Durchschnitt)
Verfeinerung des aktuellen Abfragevektors
⇒ Vektor bewegt sich in Richtung der relevanten Daten
empirische Daten: gute Methode - am besten die erstn 10 bis
20 W¨rter daf¨r benutzen
o
u
aber bei zu vielen Termen problematisch (oft mehrdeutig)

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren

Lineare Klassifikatoren
Berechnung einer linearen Entscheidungsgrenze
große Anzahl von Algorithmen in dieser Kategorie

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Vorteile

Unabh¨ngig von anderen Nutzern
a
Kein Erster-Beurteiler-Problem
Erweiterung der Empfehlung durch Inhaltsmerkmale
F¨higkeit der guten Empfehlung bei eindeutigen Vorlieben
a
(fast) kein Kalt-Start-Problem

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Nachteile
keine Ber¨cksichtigung subjektiver Attribute
u
¨
→ Asthetik
→ korrekte Hyperlinks
→ Benutzerfreundlichkeit
→ multimediale Elemente
¨
Uberspezialisierung
→ Empfehlung nur uber gleichartige, positiv bewertete Artikel
¨
→ gleiche Zeitungsartikel werden vorgeschlagen
⇒ gewissen Zufall einbauen
Extrahierung von Eigenschaftsmerkmalen muss m¨glich sein
o

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback

Dankesch¨n f¨r die Aufmerksamkeit!
o u
⇒ Sind noch Fragen offen?

Bettina Pflugbeil

Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a

Weitere ähnliche Inhalte

Andere mochten auch

Libertad, libertad de expresion, guerra cultural
Libertad, libertad de expresion, guerra culturalLibertad, libertad de expresion, guerra cultural
Libertad, libertad de expresion, guerra cultural
Fernando Cáceres
 
Obra de la independencia(1)
Obra de la independencia(1)Obra de la independencia(1)
Obra de la independencia(1)
carolina olguin
 
Noelia nationalites
Noelia nationalitesNoelia nationalites
Noelia nationalites
ineserra
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
Elmequia
 
F Tronik Kurzversion
F Tronik KurzversionF Tronik Kurzversion
F Tronik Kurzversion
FTronik
 
Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)
costsolution
 
Das Liebe Alter
Das Liebe AlterDas Liebe Alter
Das Liebe Alter
arbatax
 
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
contactOpinionWay
 
Présentation du projet des traductions des résumés de PEDro par la SFP
Présentation du projet des traductions des résumés de PEDro par la SFPPrésentation du projet des traductions des résumés de PEDro par la SFP
Présentation du projet des traductions des résumés de PEDro par la SFP
PEDro-SFP
 
El libro tibetano de la vida y la muerte (sogyal rimpoche)
El libro tibetano de la vida y la muerte (sogyal rimpoche)El libro tibetano de la vida y la muerte (sogyal rimpoche)
El libro tibetano de la vida y la muerte (sogyal rimpoche)
Misael Flores
 
Solicitud examen a la FDC 2011
Solicitud examen a la FDC 2011Solicitud examen a la FDC 2011
Solicitud examen a la FDC 2011
Fernando Cáceres
 

Andere mochten auch (12)

Libertad, libertad de expresion, guerra cultural
Libertad, libertad de expresion, guerra culturalLibertad, libertad de expresion, guerra cultural
Libertad, libertad de expresion, guerra cultural
 
Obra de la independencia(1)
Obra de la independencia(1)Obra de la independencia(1)
Obra de la independencia(1)
 
Noelia nationalites
Noelia nationalitesNoelia nationalites
Noelia nationalites
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
 
F Tronik Kurzversion
F Tronik KurzversionF Tronik Kurzversion
F Tronik Kurzversion
 
Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)
 
Das Liebe Alter
Das Liebe AlterDas Liebe Alter
Das Liebe Alter
 
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
OpinonWay / Kidioui : Les Français et la négociation / Septembre 2014
 
Présentation du projet des traductions des résumés de PEDro par la SFP
Présentation du projet des traductions des résumés de PEDro par la SFPPrésentation du projet des traductions des résumés de PEDro par la SFP
Présentation du projet des traductions des résumés de PEDro par la SFP
 
El libro tibetano de la vida y la muerte (sogyal rimpoche)
El libro tibetano de la vida y la muerte (sogyal rimpoche)El libro tibetano de la vida y la muerte (sogyal rimpoche)
El libro tibetano de la vida y la muerte (sogyal rimpoche)
 
Et si on jouait au tdd 20131017
Et si on jouait au tdd 20131017Et si on jouait au tdd 20131017
Et si on jouait au tdd 20131017
 
Solicitud examen a la FDC 2011
Solicitud examen a la FDC 2011Solicitud examen a la FDC 2011
Solicitud examen a la FDC 2011
 

Ähnlich wie Funktionsweise und Ansätze von inhaltsbasiertem Filtern

Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Hendrik Kalb
 
FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
FMK 2013, Suchstrategien, Martin Braendle & Volker KrambichFMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
Verein FM Konferenz
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systems
pgbigi
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?
Dirk Lewandowski
 
Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -
Jens Schwartz-Freiberg
 
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Hamburg University of Applied Sciences (HAW)
 
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Dirk Lewandowski
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Dirk Lewandowski
 
Fachmodell-First: Einstieg in das NoSQL-Schema-Design
Fachmodell-First: Einstieg in das NoSQL-Schema-DesignFachmodell-First: Einstieg in das NoSQL-Schema-Design
Fachmodell-First: Einstieg in das NoSQL-Schema-Design
Gregor Biswanger
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Dirk Lewandowski
 
Maßgeschneiderte Suchmaschinen
Maßgeschneiderte SuchmaschinenMaßgeschneiderte Suchmaschinen
Maßgeschneiderte Suchmaschinen
Walter Ebert
 

Ähnlich wie Funktionsweise und Ansätze von inhaltsbasiertem Filtern (11)

Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
 
FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
FMK 2013, Suchstrategien, Martin Braendle & Volker KrambichFMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systems
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?
 
Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -
 
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
 
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
Workshop "Direkte Nutzerunterstützung durch Suchvorschläge während der Eingab...
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
 
Fachmodell-First: Einstieg in das NoSQL-Schema-Design
Fachmodell-First: Einstieg in das NoSQL-Schema-DesignFachmodell-First: Einstieg in das NoSQL-Schema-Design
Fachmodell-First: Einstieg in das NoSQL-Schema-Design
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
 
Maßgeschneiderte Suchmaschinen
Maßgeschneiderte SuchmaschinenMaßgeschneiderte Suchmaschinen
Maßgeschneiderte Suchmaschinen
 

Mehr von Florian Stegmaier

Ansätze für gemeinschaftliches Filtering
Ansätze für gemeinschaftliches FilteringAnsätze für gemeinschaftliches Filtering
Ansätze für gemeinschaftliches Filtering
Florian Stegmaier
 
Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative Filtering
Florian Stegmaier
 
Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of Datastreams
Florian Stegmaier
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen Datenmengen
Florian Stegmaier
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systems
Florian Stegmaier
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Florian Stegmaier
 
Musikempfehlungssysteme
MusikempfehlungssystemeMusikempfehlungssysteme
Musikempfehlungssysteme
Florian Stegmaier
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in Empfehlungssystemen
Florian Stegmaier
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für Empfehlungssysteme
Florian Stegmaier
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender System
Florian Stegmaier
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte Personalisierungsansätze
Florian Stegmaier
 
Evaluierung von Empfehlungssystemen
Evaluierung von EmpfehlungssystemenEvaluierung von Empfehlungssystemen
Evaluierung von Empfehlungssystemen
Florian Stegmaier
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen Datenmengen
Florian Stegmaier
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBC
Florian Stegmaier
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Florian Stegmaier
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
Florian Stegmaier
 

Mehr von Florian Stegmaier (16)

Ansätze für gemeinschaftliches Filtering
Ansätze für gemeinschaftliches FilteringAnsätze für gemeinschaftliches Filtering
Ansätze für gemeinschaftliches Filtering
 
Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative Filtering
 
Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of Datastreams
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen Datenmengen
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systems
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
 
Musikempfehlungssysteme
MusikempfehlungssystemeMusikempfehlungssysteme
Musikempfehlungssysteme
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in Empfehlungssystemen
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für Empfehlungssysteme
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender System
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte Personalisierungsansätze
 
Evaluierung von Empfehlungssystemen
Evaluierung von EmpfehlungssystemenEvaluierung von Empfehlungssystemen
Evaluierung von Empfehlungssystemen
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen Datenmengen
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBC
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
 

Funktionsweise und Ansätze von inhaltsbasiertem Filtern