3. COLLABORATIVE FILTERING
• Valoraciones de todos los usuarios como características de
los ítems
• Perfil de usuario
• En base a las valoraciones del propio usuario
• Recomendaciones o predicciones
• Por similaridad/probabilidad entre usuarios
• Por similaridad/probabilidad entre ítems
[Schafer, 2007]
4. COLLABORATIVE FILTERING
• Universo
• Valoraciones de U de los ítems en I
• Entrada
• Valoraciones de u de los ítems en I
• Proceso
• Identificar usuarios en U similares a u y extrapolar sus valoraciones
de i
[Burke, 2002]
5. COLLABORATIVE FILTERING
• Predicciones
• Valor numérico que representa la opinión anticipada del usuario
para el ítem no valorado. Conocido como Individual Scoring.
• Recomendaciones
• Lista de N ítems que se corresponden con las preferencias del
usuario. Conocido como Top-N recommendation o Rank Scoring.
[Vozalis, 2003]
8. 9 Collaborative Filtering Recommender Systems 293
RECOMENDACIONES
(Table 1). Without loss of generality, a ratings matrix consists of a table where each
row represents a user, each column represents a specific movie, and the number at the
intersection of a row and a column represents the user’s rating value. The absence of a
rating score at this intersection indicates that user has not yet rated the item.
Table 1. A MovieLens ratings matrix. Amy rated the movie Sideways a 5. Matt has not seen
The Matrix
Speed Sideways Brokeback
The M atrix M ountain
Amy 1 2 5
M att 3 5 4
Paul 5 5 2 1
Cliff 5 5 5 5
The term user refers to any individual who provides ratings to a system. Most often,
we use this term to refer to the people using a system to receive information (e.g.,
recommendations) although it also refers to those who provided the data (ratings)
used in generating this information.
Collaborative filtering systems produce predictions or recommendations for a
14. COLLABORATIVE FILTERING
• Escenarios para su utilización:
• Ítems que no requieran una exactitud semántica con las preferencias
del usuario
• Ítems con características heterogéneas y múltiples dominios
• Cuando se tengan valoraciones de los ítems
• Cuando no se conozcan las necesidades del usuario pero si sus
preferencias
15. CONTENT-BASED
• Los ítems se definen por sus características
• Género, año de publicación, autor, no. de páginas.
• Palabras clave.
• Perfil de (interés de) usuario
• Características de los ítems valorados por el usuario.
• Recomendaciones
• Comparación del ítem no valorado con el perfil de (interés de)
usuario.
16. CONTENT-BASED
• Universo
• Características de los ítems en I
• Entrada
• Características de los ítems en I valorados por u
• Proceso
• Generar un clasificador que represente la conducta de valoraciones
de u y usarlo sobre cada i no valorado.
[Burke, 2002]
17. CONTENT-BASED
• Técnicas
1. Representación de ítems
2. Creación del perfil (de interés) de usuario - Clasificador
3. Similaridad de (1) con (2)
18. 10.1.1 I tem Representation
CONTENT-BASED
Items that can be recommended to the user are often stored in a database table. Table
10.1 shows a simple database with records (i.e., “rows”) that describe three
restaurants. The column names (e.g., Cuisine or Service) are properties of restaurants.
These properties are also called “attributes,” “characteristics,” “fields,” or “variables”
in different publications. Each record contains a value for each attribute. A unique
• Representación de ítemsitems with the same name to be distinguished and
identifier, ID in Table 10.1, allows
serves as a key to retrieve the other attributes of the record.
Table 10.1. A restaurant database
ID Name Cuisine Service Cost
10001 Mike’s Pizza Italian Counter Low
10002 Chris’s Cafe French Table Medium
10003 Jacques Bistro French Table High
The database depicted in Table 10.1 could be used to drive a web site that lists and
Table 10.2. Part of a newspaper article
recommends restaurants. This is an example of structured data in which there is a
small number Fine-Tuning Energy item is described by the same set of attributes, and
Lawmakers of attributes, each Plan
there is a known set of values that theCalifornia's may have. In this case, manyall but
SACRAMENTO, Calif. -- With attributes energy reserves remaining machine
depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.
learning algorithms may be used to learn a user profile, or a menu interface can easily
Gray Davis says will put the state in the power business for "a long time to come."
be created to allow a user to create a profile. The next section of this chapter
The proposal involves partially taking over California's two largest utilities and
discusses several approachesof up to 10 years toprofile from structured data.
signing long-term contracts to creating a user buy electricity from wholesalers.
Of course, a web page typically has more information than is shown in Table 10.1,
such as a texttexts such asof the restaurant, a restaurant of unstructured data. Unlike
Unrestricted description news articles are examples review, or even a menu. These
may easily be storedare no attribute fields in thewell-defined values. Furthermore,be
structured data, there as additional names with database and a web page can
[Pazzani, 2007]
created with templatesnatural language text fields (as wellthe text field including
the full complexity of to display the may be present in as the structured data).
19. CONTENT-BASED
• Representación de ítems
• Vector Space Model (VSM)
• Keyword-based VSM
• Synset-based VSM
• Semantic analysis
• Ontologies
• Explicit Semantic Analysis (ESA)
20. REPRESENTACIÓN DE ÍTEMS
• Vector Space Model
• Representación espacial de las características del ítem
• Aplicado a ítems de tipo texto o con características textuales
• NO-ESTRUCTURADO
21. REPRESENTACIÓN DE ÍTEMS
• Keyword-based VSM
• Basado en técnicas de recuperación de información
• TF-IDF (Term Frequency – Inverse Document Frecuency)
22. REPRESENTACIÓN DE ÍTEMS
• Keyword-based VSM
• En base a observaciones empíricas, se observan 3 supuestos:
• IDF assumption: Los términos poco frecuentes no son menos relevantes
que los frecuentes.
• TF assumption: Múltiples ocurrencias de un término en un documento
no con menos relevantes que las ocurrencias simples.
• Normalization assumption: Los documentos largos no se prefieren sobre
los cortos.
[Lops, 2011]
23. REPRESENTACIÓN DE ÍTEMS
• Keyword-based VSM
Table 10.2. Part of a newspaper article
Lawmakers Fine-Tuning Energy Plan
SACRAMENTO, Calif. -- With California's energy reserves remaining all but
depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.
Gray Davis says will put the state in the power business for "a long time to come."
The proposal involves partially taking over California's two largest utilities and
signing long-term contracts of up to 10 years to buy electricity from wholesalers.
Unrestricted texts such as news articles are examples of unstructured data. Unlike
structured data, there are no attribute names with well-defined values. Furthermore,
the full complexity of natural language may be present in the text field including
polysemous words (the same word may have several meanings) and synonyms
(different words may have the same meaning). For example, in the article in Table
10.2, “Gray” is a name rather than a color, and “power” and “electricity” refer to the
same underlying concept.
Many domains are best represented by semi-structured data in which there are
some attributes with a set of restricted values and some free-text fields. A common
approach to dealing with free text fields is to convert the free text to a structured
representation. For example, each word may be viewed as an attribute, with a
Boolean value indicating whether the word is in the article or with an integer value
24. REPRESENTACIÓN DE ÍTEMS
• Keyword-based VSM
• Stemming
• Ocurrencia de palabras tomando la raíz del término
• Computación, Computadora, Computólogo, Cómputo
25. REPRESENTACIÓN DE ÍTEMS
• Synset-based VSM
• Utiliza los synsets de WordNet
• Mismos cálculos que Keyword-based VSM
• Los pesos de los términos del mismo synset forman un elemento del
vector
• Los 3 supuestos aplican de la misma forma
• Propósito:
• Dar tratamiento a la sinonimia y polisemia
26. REPRESENTACIÓN DE ÍTEMS
• Semantic Analysis
• Adición de información semántica a las representaciones de los
ítems
• Uso de Ontologías
27. REPRESENTACIÓN DE ÍTEMS
• Explicit Semantic Analysis
• Añade información de fuentes de conocimiento externas como
Wikipedia, Open Directory Project (ODP) y Yahoo! Web Directory.
• Cada concepto de la ontología se encuentra ligado a un enlace de la
fuente externa
[Gabrilovich, 2011]
28. CONTENT-BASED
• Creación del perfil (de interés) de usuario
• Vector Space Model(VSM)
• Support Vector Machine (SVM)
• Métodos probabilísticos (Naïve Bayes)
• Relevance Feedback (Rochio’s Algorithm)
29. CREACIÓN DEL PERFIL DE USUARIO
• Vector Space Model
• Mismo caso que el VSM para la representación de ítems
• Vector con las características de todos los ítems valorados por el
usuario
30. CREACIÓN DEL PERFIL DE USUARIO
• Support Vector Machine
• Encontrar una función (hiperplano lineal, límite de decisión) que
separe los datos con un margen maximizado.
32. CREACIÓN DEL PERFIL DE USUARIO
• Métodos probabilísticos (Naïve Bayes)
Multinomial Event Model
33. CREACIÓN DEL PERFIL DE USUARIO
• Relevance Feedback (Rochio’s Algorithm)
• Similar al VSM
• Crea un vector prototipo para compararlo con el vector de
características del ítem
35. CONTENT-BASED
• Escenarios para su utilización:
• Ítems con contenido textual (Objetos de conocimiento)
• Ítems con descripciones textuales
• Ítems que con el mismo conjunto de características y valores
discretos para cada rasgo (Sin heterogeneidad de ítems)
• Cuando sea necesario relacionar un ítem con una categoría
36. KNOWLEDGE-BASED
• Se basa en inferencias sobre las necesidades y preferencias
del usuario
• Diferencia
• Utiliza conocimiento funcional
• Como un determinado ítem cumple una necesidad específica
• El perfil de usuario debe ser una estructura de
conocimiento que soporte la inferencia
[Burke, 2002]
37. KNOWLEDGE-BASED
• Universo
• Características de los ítems en I
• Conocimiento sobre como estos ítems cumplen las necesidades de
los usuarios (Reglas de inferencia)
• Entrada
• Descripción de los intereses o necesidades de u
• Proceso
• Inferir una relación entre i y las necesidades de u
[Burke, 2002]
38. KNOWLEDGE-BASED
• Association Rule Mining
• Identifica colecciones de dos o mas elementos con un número
repetitivo de transacciones que los contienen.
• Itemset = Colecciones (Milk, Beer, Diaper)
• Support count = Ocurrencias/Transacciones
• Frequent itemset = Colecciones con Support count superior o igual al
umbral
• Association rule = X -> Y
(Milk, Diaper) -> Beer
• Se hacen N combinaciones y se comparan con el umbral mínimo de
transacciones.
[Amatriain, 2011]
40. KNOWLEDGE-BASED
Example Example
• Rule-based classifier
Know le d ge Ba se :
Know le d ge Ba se : P
Pr oduct ca t a lo gue :
Pow e r shot XY W e ight LH S e ight
W LH S RH S RH S Po
pref. Brand Canon C1: 25 TRUE 25
C1: TRUE Brand = Brand pref. = Brand
Brand Br
=< Lower focal length 35 C2: 20 Motives 20 Landscape =Low. foc. Length =<
C2: = Motives Landscape Low. foc. Lengt
Lo
28 28
Upper focal length 140 Up
ost C3: 15 TRUE 15
C3: TRUE Price =< Max Price =< Max c
Max. cost Max.
Price 420 EUR Pr
Cur r e nt use r : Cur r e nt use r :
Lum ix Lu
Use r m ode l Use r m ode l
Brand Panasonic Br
( r e quir e m e nt s) quir e m e nt s)
( re
Lower focal length 28 Lo
Motives Motives Landscape Landscape
Upper focal length 112 Up
Brand preference
Brand preference Canon Canon
Price 319 EUR Pr
Max. cost Max. cost
350 EUR 350 EUR
- 59 -
42. KNOWLEDGE-BASED
• Escenarios para su utilización:
• Cuando se han obtenido las reglas asociativas mediante el análisis
previo del dominio
• Cuando no se tienen valoraciones de los ítems
• Cuando se cuente con información de las necesidades del usuario y
del dominio de los ítems
47. HÍBRIDAS
• Mixed
• Las recomendaciones de distintos recomendadores se presentan al
mismo tiempo
• Feature Augmentation
• La salida de un recomendador es la entrada del siguiente.
49. ARGUMENTACIÓN
• Predicciones
• Data-Explorative Model
• El usuario puede observar los datos sobre los cuales se hizo la
predicción.
• No se basa en el proceso matemático para la obtención de la predicción.
• Process-Explorative Model
• Se explica el proceso matemático tras la predicción.
• Diagrama de flujos
• Argumentative Model
• Utiliza técnicas de argumentación lógica para soportar la predicción.
53. ARGUMENTACIÓN
• Por tipo de visualización
• Keyword Style Explanation
• Neighbor Style Explanation
• Influence Style Explanation
[Bilgic, 2005]
54. REFERENCIAS
[Burke, 2002] Burke, Robin. «Hybrid Recommender Systems: Survey and
Experiments.» User Modeling and User-Adapted Interaction,
nº 12 (2002): 331-370.
[Schafer, 1999] Schafer, J. B., J. Konstan, y J. Riedl. «Recommender Systems in
E-Commerce.» Proceedings of the First ACM Conference on
Electronic Commerce. Denver, Colorado, 1999. 158-166.
[Pasquale, 2011] Lops, Pasquale, Marco de Gemmis, y Giovanni Semeraro.
«Content-based Recommender Systems: State of the Art and
Trends.» En Recommender Systems Handbook, de Francesco
Ricci, Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105.
Springer Science+Bussiness Media, 2011.
[Pazzani, 2007] Pazzani, Michael J., y Daniel Billsus. «Content-based
Recommendation Systems.» En Personalization, The
Adaptative Web: Methods and Strategies of Web, de Peter
Brusilovsky, Alfred Kobsa y Wolfgang Nejdl, 325-341.
Springer-Verlag Berlin Heidelberg, 2007.
55. REFERENCIAS
[Gabrilovich, 2007] Gabrilovich, E., Markovitch, S.: Computing Semantic
Relatedness Using Wikipedia-based Explicit Semantic
Analysis. In: M.M. Veloso (ed.) Proceedings of the 20th
International Joint Conference on Artificial Intelligence, pp.
1606–1611 (2007)
[Schafer, 2007] Schafer, J. B., Frankowski, D., Herlocker, J. y S. Shilad.
«Collaborative Filtering Recommender Systems.» En
Personalization, The Adaptative Web: Methods and
Strategies of Web, de Peter Brusilovsky, Alfred Kobsa y
Wolfgang Nejdl, 325-341. Springer-Verlag Berlin
Heidelberg, 2007.
[Vozalis, 2003] Vozalis, E., y K. G. Margaritis. «Analysis of Recommender
Systems' Algorithms.» 6th Hellenic European Conference on
Computer Mathematics & its Applications HERCMA. Atenas,
Grecia, 2003.
56. REFERENCIAS
[Zanker, 2010] Zanker, M., y D. Jannach. «Introduction to
Recommender Systems.» Tutorial at ACM Symposium
on Applied Computing. Sierre, Suiza, 2010.
[Amatriain, 2011] Amatriain, X., Jaimes, A., Oliver, N. y Pujol, J. M. «Data
Mining Methods for Recommender Systems» En
Recommender Systems Handbook, de Francesco Ricci,
Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105.
Springer Science+Bussiness Media, 2011.
[Papadimitriou, 2011] Papadimitriou, Alexis, Panagiotis Symeonidis, y
Yannis Manolopoulos. «A generalized taxonomy of
explanations styles for traditional and social
recommender systems.» Data Mining and Knowledge
Discovery , 2011: 1-29.
57. REFERENCIAS
[Bilgic, 2005] Bilgic, M., y R. J. Mooney. «Explaining Recommendations:
Satisfaction vs. Promotion.» International Conference on
Intelligent User Interfaces. San Diego, California, 2005.