1. Semantically-Enhanced
Recommendation Algorithms
CCIA 2012
Victor Codina & Luigi Ceccaroni
vcodina@lsi.upc.edu lceccaroni@BDigital.org
Departament de Llenguatges i Sistemes Informàtics Health Informatics
Knowledge Engineering and Machine Learning Group Personalized Computational Medicine
3. The value of recommendations
Netflix: 2/3 of the movies rented are recommend
Google News: 38% more clickthrough
Amazon: 35% sales from recommendations
All these systems employ as a main component
Collaborative Filtering (CF) approach
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 3
4. But in most online services the CF approach
does not work so well
Why??
Usually: Lack of Data
Other reasons: lack of context-awareness,
domain-specific particularities
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 4
5. Outline
Cold-start problem and existing solutions
Proposed solution to overcome cold start
Evaluation and results
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 5
6. Outline
Cold-start problem
Cold-start problem and
existing solutions
Hybrid recommenders
Proposed solution to overcome cold start
Evaluation and results
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 6
7. What is the cold-start problem?
Narrow view
o No ratings at all associated to items or users
Wider view
o Few ratings associated
Cold-start scenarios: Users
Many ratings Few ratings
Many
Normal New user
ratings
Items
Few
New item New user & item
ratings
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 7
8. Typical solution: hybrid recommender combining
CF with content-based filtering
PAST SOLUTION MORE RECENT SOLUTION
Collaborative Filtering Collaborative Filtering
+ +
Traditional Semantically-Enhanced
Content-based filtering Content-based filtering
New item
New user
Lack of understanding The need of domain
Limitation and exploitation of ontologies describing explicit
domain semantics metadata relations
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 8
9. Outline
Cold-start problem and existing solutions
Acquisition of implicit semantics
Proposed solution to
overcome cold start Methods for semantics exploitation
Evaluation and results
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 9
10. Acquisition of implicit domain semantics
Implicit semantics = semantic similarities among item
attributes extracted from Vector Space Models (VSMs)
Distributional hypothesis: “words that share similar
contexts share similar meaning”
Items Users
Context
Matrix
Attributes
Similarity
…
Attribute
… wa,c Transformation measure semantic
(SVD, Conditional (Cosine, similarities
probabilities) Jaccard)
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 10
11. Semantic similarities are context-dependant
Item-based
o Similarity is measured in terms of how many items are similarly
described by both attributes
User-based
o Similarity is measured in terms of how many users are similarly
interested in both attributes
Example: User-based Items-based
- Top-5 tags similar to “Sci-Fi” Scifi 0.79598457 Scifi 0.48631117
- Calculated using cosine future 0.6889696 aliens 0.42508063
similarity without matrix space 0.65459067 dystopia 0.34769687
transformation aliens 0.6110453 space 0.32580933
robots 0.59465224 future 0.27470198
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 11
12. Exploitation of implicit semantics in
content-based filtering
USER MODELING PREDICTION GENERATION
Attributes Attributes
Attribute
relevance [0,1] … wi,a
…
Items
… w Item attributes (i)
i,a
degree of interest [-1,1]
Items score
Attributes
… ru,i … User modeling … wu,a Vector-based
2. Semantic ( )
technique matching
matching
user ratings (u) User interests (u)
Expanded
user interests (u)
1. Profile
expansion
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 12
13. Method 1: User profile expansion by constrained
spreading activation
activated node
Attribute a1 a2 a3 a4 a5
semantic similarities 0 0.5 -0.1 0 0 User interests [-1,1]
a1 a2 a3 a4 a5
1 0.5 0.2 0 0.3
a1 (0.5) (0.3)
0.5 1 0.3 0 0.1
a2
a3
0.2 0.3 1 0.7 0.8
a4 0.25 0.5 0.05 0 0 Expanded
0 0 0.7 1 0
a1 a2 a3 a4 a5 user interests [-1,1]
a5
0.3 0.1 0.8 0 1 new interest Weight updated
Similarities can be symmetric or
not depending on the similarity
measure used Method - activation threshold = 0.25
hyper-parameters: - fan-out threshold = 0.25
- max.expansion levels = 1
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 13
14. Method 2: Prediction generation by pair-wise
semantic matching strategies
Approach: Vector-based matching
All-pairs matching
Best-pairs matching
Attribute Result: 0.15 - 0.056 = 0.094 - 0.056 = 0.12
- 0.009 + 0.035
semantic similarities (using the product as aggregation function)
a1 a2 a3 a4 a5 a1 a2 a3 a4 a5
Item attributes [0,1]
1 0.5 0.2 0 0.3
a1 0 0.3 0 0 0.7
0.5 1 0.3 0 0.1
a2
a3 (0.3)
0.2 0.3 1 0.7 0.8
Direct (0.1)
a4
0 0 0.7 1 0
matching (1)
(0.8)
a5
0.3 0.1 0.8 0 1
Similarities can be symmetric or 0 0.5 -0.1 0 0 User interests [-1,1]
not depending on the similarity
a1 a2 a3 a4 a5
measure used
Method
- similarity threshold = 0.05
hyper-parameter:
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 14
15. Outline
Cold-start problem and existing solutions
Proposed solution to overcome cold start
MovieLens data set
Evaluation and results
Experimental results
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 15
16. Offline experimentation with a MovieLens data
set extended with movie metadata
Data set statistics after pruning unusual
attributes values and movies with few attributes:
Users 2113
Movies 1646
Attributes 4 (Genres, directors, actors and tags)
Attribute values 2886
Ratings per user on avg. 239
Rating density 14%
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 16
17. Evaluation of methods for semantics exploitation
Baseline = Traditional CB using hybrid user modeling technique
Expansion-CB = CSA-same + User-based + raw frequencies
Matching-CB = Best-pairs-same + User-based + Forbes-Zhu method
BPR-MF = CF based on matrix factorization optimized for ranking
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 17
18. Conclusions
Cold-start problem can be very critical
o Above all in systems with small databases
Existing solutions have some limitations
o Traditional CB cannot solve new user scenario
o Semantically-enhanced CB requires domain ontologies to work
Exploitation of implicit semantics can be a good
alternative to overcome cold-start problem
o User-based semantics is more effective than item-based
o The best-pair semantic matching method is more effective than
the profile expansion based on spreading activation
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 18
19. Future work
Experimenting with data sets of different domains
o Million Song data set
Extending the study of Vector Space Models
o Probabilistic similarity measures (e.g. Kullback-Leiber)
Apply the same approach to enhance cold-start
performance of context-aware recommenders
o Implicit semantics of contextual conditions can also be acquired
from user data
o Similarly, pair-wise semantic strategies can be employed to
enhance contextual user modeling
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 19
Hinweis der Redaktion
Soc estudiant de doctorat del grup KEMLG a la UPC i el meu director de tesis és el Luigi Ceccaroni A grans trets la meva investigació consisteix en estudiar nous metodes per millorar el rendiment de les tecniques de recomanació existents mitjançant la explotació de la semantica implicita del domini
Desde l’arribada d’internet tenim un al nostre abast un exces d’informarció que fa dificil en moltes ocasions trobar els productes i serveis que millor s’adapten a les nostres preferencies. Per cobrir aquesta necessitat van apareixer els sistemes de filtrat d’informació o de recomanació personalitzada, i cada cop més, s’han convertit en un component imprescindible per a molts serveis en linea, principalment de l’industria de l’entreteniment.
Oferir bones recomanacions als usuaris comporta normalment una millora de la seva satisfacció i un increment de les ventes o de l’us del sistema. Clars exemples d’exit els tenim en companyies amb una gran base de dades com Netflix, Google I Amazon La tecnica de recomanació que més predomina actualment es la recomanació cooperativa o CF, donat que en condicions optimes es la que aconsegueix recomanacions més precises. La idea principal d’aquesta tecnica es la de recomanar objectes que han agradat a altres usuaris amb interessos semblants al nostre.
Pero el problema es que aquest bon rendiment no es repeteix normalment en la majoria de serveis online. Per què? Doncs la principal raó es la falta de dades d’usuari. Una de las principals limitacions dels metodes basats en CF es que el seu rendiment va altament lligat a la quantitat de dades disponibles per generar les prediccions, es a dir, en el nombre d’usuaris i de ratings disponibles. La falta de sensibilitat al context i particularitats del domini on s’aplica el recomanador també poden causar un mal funcionament.
- El nostre treball es centra amb el problema de la falta d’informació que normalment es coneix com el cold-start o d’arrencada en fred - Començaré parlant amb més detall d’aquest problema i de les solucions que existeixen actualment Després presentaré la solució que proposem I finalment mostraré els resultats principals de la nostra evaluació
- A continuació explicaré el problema de cold-start i les solucions principals que s’apliquen actualment
-En la literatura, el problema de cold-start es pot definir desde 2 punts de vista diferents: alguns consideren cold-start quan els usuaris o objectes son completament nous, es a dir, encara no hi ha cap valoració implicita o explicita associada amb ells; I a d’altres que consideren cold-start, ademés dels completament nous, els que tenen poques valoracions associades. Nosaltres fem us d’aquest punt de vista més ampli del problema. -Ens podem trobar en 3 escenaris de cold-start alhora de predir el grau d’utilitat d’un objecte per un usuari concret. -L’escenari de nou objecte, quan nomes tenim poques valoracions de l’objecte -L’escenari de nou usuari, quan nomes tenim -I l’escenari més extrem quan hi ha poques valoracions tan de l’objecte com de l’usuari.
-La solucio més comuna per evitar un baix rendiment en els escenaris de cold-start es utilitzar un sistem hibrid on es combini recomanacio cooperativa amb recomanacio basada en contingut. Aquesta altre familia de tecniques fa us dels descripcions textuals o metadata dels objectes per generar les recomanacions. -D’aquesta manera l’escenari de nou objecte queda solventat ja que no depen de que altres usuaris l’hagin valorat anteriorment. -En canvi, l’escenari nou usuari segueix sent un problema ja que per construir un perfil d’usuari precis es necessari que l’usuari proporcioni un nombre determinat de valoracions. -Ademes, el metode tradicional té la limitació de que la semantica del domini no es té en compte durant la predicció. -Per solventar aquesta limitació, més recentment va apareixer la familia de recomanadors semantics que es caracteritzar per explotar la semantica explicita del domini normalment representada en la forma d’ontologies. Gracies a la semantica diversos estudis han demostrat que també es pot millorar el rendiment en l’escenari de nou usuari ja que permet completar els perfils d’usuari. - Tot I això, l’aplicació dels recomanador semantics actuals depenen completament de l’existencia d’ontologies de domini I aixo no es sempre possible.
Amb l’objectiu de solventar aquesta limitació dels recomanadors semantics, en aquest treball hem desenvolupat I evaluat metodes per l’acquisició I explotacio de la semantica implicita del domini.
Nosaltres entenem com a semantica implicita del domini a les semblances semantics entre atributs que descrien els objectes calculades a partir de models distribucionals, també coneguts com vector space models. Aquests models es basen en la hypothesis distribucional, que assumeix que termes o paraules que apareixen frequentment en contexts semblants estan relacionades semanticament. Nosaltres hem generalitzat aquesta hypthosis per a ser utilitzada per calcular relacions semantics entre attributs, ja siguin tags, actors de peliculas. En particular, utilitzem com a corpus els perfils normalizats dels objectes o del usuaris, que com a continuació veureu implican resultats ben diferents. Un cop seleccionat el corpus, es pot aplicat una transformació a la matriu corresponent (com una reducció de dimensionalitat) I finalment es calcula la similitut entre attributs comparant els vectors de coocurrencia corresponents per a cada attribut. En els experiments hem utilitzat 2 tecnicas de reduccio de dimensionalitat i la measure del cosinus.
Com he dit anteriorment, depenent del context utilitzat com a corpus les similituts semantics resultants son diferents. En el cas d’utilitzar els objectes com a context de coocurrencia, la semblança entre dos attributs es mesura en termes de quants objectes contenen ambdos atributs. En el cas d’utilitzar els usuarios, la semblança es measura en termes de quants usuaris estan interessats en ambdos attributs. Com podeu veure en l’example, les semblances calculades varien dependen del context tan en valor com en ordre.
Aquest grafic mostra els principals components de la recomanacio basada en contingut: per una banda hi ha el component de modelatge d’usuari, que s’encarrega de crear el perfil d’usuari en relació als atributs del domini a partir de les valoracions als objectes del domini I de la seves descripcions. I per una altra banda hi ha el component de predicció que s’encarrega de generar la puntuació per a un objecte concret, calculant la correspodencia entre els perfil d’usuari I de l’objecte. En aquest treball hem implementat dos metodes per explotar la semantica implicita: el metode d’expansio de perfil d’usuari que modifica el vector d’interesos uriginal amb nova informació que despres s’utilitza pel calcul de la correspondencia. I el metode de correspodencia semantica que incorpora les relacions semantics entre atributs durant el calcul.
En aquesta transparencia mostro un exemple senzill de com funciona l’algoritme d’expansio de perfil d’usuari que hem desenvolupat basat en una tecnica de CSA. En el costat esquerra podeu veure la matriu de semblances semantiques entre els atributs del domini. En aquest exemple hi ha 5 attributs. I a la dreta teniu un perfil d’usuari en relació als 5 attributs. Un valor positiu representa que l’usuari esta interessat en l’atribut I un negatiu el contrari. El metode d’expansio té 3 hyperparamentres que regulen el grau de propagació: el llindar d’activació que delimita el grau d’interes necessari que a que s’activi la propagació desde un node; el llindar de fanout que delimita la semblança minima entre atributs per fer la propagació a un node; I finalment el numero maxim de nivells d’expansio des del node inicial. Tenint en compte els valors indicats del hyperparams, en aquest example nomes s’activaria la propagació des de l’atribut 2 ja que es l’unic que supera el llindar d’activació. Des d’aquest node es propagaria el valor als atributs 1 I 3 ja que el valor de les seves semblances superen el llindar de fanout. Donat que max num de nivells d’expansio es 1 aqui s’acabaria la expansio de perfil. Com a resultat el perfil d’usuari s’hauria completat amb 1 nou interes positiu I un recalcul del grau d’interes en l’atribut 3.
-Ara passaré a explicar com funcional el metode correspodencia semantica aprofitant el mateix example, per lo que la matriu de semblances I el perfil d’usuari son els mateixos -En aquest cas el que busquem es incorporar les relacions semantiques entre atributs durant el calcul de la predicció Començo per mostrar com funciona el metode tradicional basat en el producte vectorial. En aquest cas, l’unic attribut que coincideix en ambdos perfils es el 2 per lo que la predicció es calculario como el producte del pesos corresponents. Si en comptes del metode tradicional utilizem l’estrategia de correspondencia semantica de millor-parell, ademés del atribut 2 també es consideria la correspondecia entre l’atribut 5 de l’object I el 3 de l’usuari, ja que aquesta estrategia considera per a cada atribut del perfil de l’objecte amb valor diferent de zero l’atribut del perfil d’usuari més semblant. L’altre estrategia semantica que hem estudiat es la de tots els parells, en la qual es consideren totes les correspondencies semantiques. En aquests casos l’aportació de cada correspodencia es ponderada amb el valor de la semblança entre atributs. Amb l’objectiu d’evitar correspodencias massa debils les estrategies utilitzen un llindar de semblança que delimina el minim valor de semblança per a ser considerat en el calcul de la correspodencia.
A continuació mostraré els results principals de l’avaluació dels metodes proposats
Per a l’avaluació hem utilitzat un dels conjunts de dades disponibles del sistema MovieLens que inclou metadata sobre les peliculas. Aquestes son les principals estadisticas del data set despres de filtrar pelicules amb poca metadata. En particular hem utilitzat per a l’experiment 4 attributes differents: … amb un total de 2886 valors d’atributs diferents.
En aquest grafic de barres es poden apreciar els principals resultats dels metodes d’explotació semantica proposats. El que es mostra es el tan percent de millora respecte al baseline en quan a precisió de ranking. En aquest cas el baseline consisteix en un metode basat en contingut tradicional, es adir, sense fer us de la semantic del domini. Les barres de color negre corresponen als resultats globals, tenint en compte tots els usuaris I objectes. La de color vermell corresponen als resultats de nomes nous usuaris I la de color ver son els de nous objectes. Pels simular els escenaris de cold-start hem seleccionat el 10% d’usuaris I objectes amb menys ratings. En quant els algoritmes avaluats expansion-CB correspon el metode d’expansio de perfil d’usuari, matching-CB correspon al metode de correspondencia semantica de millor parells, I BPR-MF correspon a un algoritme actual de CF optimizat per generar rankings. Per a cada un dels algoritmes hem seleccionat la configuració amb millor rendiment global. A partir dels resultats s’observa que el metode correspodencia semantica es més efectiu que el metode d’expansio de perfil. Si el comparem amb el resultats de l’algoritme de filtrat cooperatiu podem comprobar que tan en nous usuaris com nous objectes el rendiment de matching-CB es millor. De fet, el rendiment del recomanador collaboratiu en l’escenari de nous items es pitjor que el de baseline, algo força normal tenint em compte que el baseline es una algoritme basat en contingut. Finalment, el terms de rendiment global els dos metodes estan força equiparats sent una mica millor el de filtrat cooperatiu.