Este documento presenta una introducción al minado de opiniones, incluyendo subtareas como la recuperación y análisis de sentimientos. Explica cómo las opiniones en medios sociales pueden usarse para mejorar productos y estrategias de marketing. También resume algunos métodos comunes para la clasificación de sentimientos y resumen de opiniones.
2. Outline
• Intro & Background
• Modelo Formal
• Subtareas
• Recuperación de Opiniones (Opinion Retrieval)
• Modelos de Análisis de Sentimiento (Sentiment Analysis)
• Resumen (Summarization)
• Problemas y desafíos
• Referencias
3. Intro
El objetivo del Minado de Opiniones - (OM) es recuperar y
extraer la orientación semántica de un conjunto de textos para
clasificarlos de acuerdo a ella como positivas o negativas.
OM es una disciplina relativamente reciente que utiliza técnicas
de IR, AI, ML y NLP para recuperar textos de opinión e inducir
la orientación/polaridad semántica; más informalmente, extraer
opiniones y sentimientos de textos.
Incluye subtareas como:
• Recuperación de Opiniones (Opinion Retrieval)
• Modelos de Análisis de Sentimiento (Sentiment Analysis)
• Resumen (Summarization)
4. Social media
• La social media es una gran espacio donde se comparten
opiniones y experiencias de consumidores.
• Las opiniones pueden ser sobre un producto como un
teléfono celular o una película; un evento, como un festival
de música; o una persona como un candidato político.
• Los textos son:
• datos poco-estructurados,
• pueden estar mal formados,
• ajustado a las condiciones del medio (140 caracteres),
• errores de ortografía,
• lenguajes particulares, emoticons, multi-lang,
• y muchos problemas más tratados por técnicas de
Procesamiento de Lenguaje Natural.
5. Opinion Mining is Big Business
!"#$%&'#()*+,*-.%,,#%/01*234
!"#$#%$&'#$#$(&#)&*#(&*+)#$,))
Alguien que quiere comprar una
! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61
cámara
! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/)
• Busca comentarios y reviews.
! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61
Alguien que ya compró una cámara
! =%..,$2)&%$
• Escribe su experiencia.
! >6#2,)&13%+2&20,#6&,?",6#,$5,
• Fanático vs. contra-fanático.
! =1.,61&'1$+9152+6,6
Fabricante
! @,2)&9,,:3158&96%.&5+)2%.,6
• Obtiene feedback de los
! A."6%;,&20,#6&"6%:+52)
consumidores.
! B:<+)2&'168,2#$(&-2612,(#,)
• Mejora de los productos.
• Adapta estrategias de márketing.!
6. Otras aplicaciones Opinion Mining
Ads placements
• Relevar e identificar la ubicación para imprimir un ad en la
social media.
• Teniendo en cuenta opiniones de la página huésped.
• Opiniones propias y de la competencia.
Influencia y Reputación
• Identificar usuarios líderes y formadores de opinión.
• Predecir compra de usuarios.
Opinion Spam
• Identificar opiniones falsas.
• Identificar usuarios falsos/sesgados.
10. Online social media sentiment apps - Issues
• Funciona para gente famosa!
• Diferentes estrategias para construir los modelos de
sentiment analysis causan resultados muy dispares.
• Basados en diccionarios, rule-based, SVM, EM, etc.
• Dificultad para separar la polaridad general
• Buzz (menciones) vs. Opiniones.
• Muchas veces funciona muy bien. Y algunas muy mal.
11. No sólo cámaras y vestidos...
• Películas, obras de teatro, libros, moda.
• Predicciones, tendencias, humor social.
• Monitoreo de opinión pública de acciones de gobierno,
actos de campaña.
• Feedback sobre congresos, eventos, conferencias.
• Monitoreo de catástrofes, accidentes, estado del tránsito,
etc.
• Comportamiento del mercado de valores. Medir el buzz de
acciones, bonos, títulos.
12. ¿La voz del pueblo o de un experto?
Depende de la complejidad de la pregunta. Y de la precisión de
la respuesta.
¿Cuál es la altura del monte
¿Cuál es la capital de España?
Kilimanjaro?
1 Barcelona
1 19,341 ft
2 Madrid
2 23,341 ft
3 Valencia
3 15,341 ft
4 Sevilla
4 21,341 ft
13. No todas las opiniones valen lo mismo
• ¿Cómo medir el valor de una opinión?
• Usuario expertos del dominio.
• Usuario frecuentes.
• Spammer?
• Expertos en un área no necesariamente son expertos en
otra.
Confianza
• Basada en el vínculo (local): User-similarity, entramado
social.
• Basada en la reputación (global): Esta recomendación me ha
sido útil
14. Subtareas
Opinion Retrieval & Extraction
• Recuperar de grandes volúmenes de textos, aquellos que
contienen referencia al objeto.
• Luego identificar el contexto de opinión.
Sentiment Analysis
• Extraer la polaridad de la opinión
• Puede ser positivo-negativo, pos-neg-neutro, o una escala
numérica.
Opinion summarization
• Resumir la opinión general de un conjunto de opiniones o
de una opinón con varias facetas.
• El resumen puede ser una metáfora visual.
15. Opinion Retrieval & Extraction
Me compré una cámara de fotos el día de ayer. Me salió
muy cara, pero saca unas fotos excelentes y la batería
dura mucho.
• Identificar zonas dentro de la página que responden a un
texto de opinión.
• Reglas sintácticas, estructurales del sitio.
• Modelos estadísticos sobre sliding windows.
• Identificación del objeto, marca.
• Contexto fijo y variable.
• Detección de puntos, fin de párrafo, etc.
• ID, hastag, sinónimos, hiperónimos, etc.
16. Sentiment Analysis
Identificar y extraer la orientación subjetiva de un texto.
• Objetivo, Subjetivo.
• Positivo, Negativo, Neutro. Rango numérico.
• Métodos basados en reglas: diccionarios, boosted weak
rules, etc.
• Modelos de machine learning: SVM, NB, EM.
• Prepos: steming, lematización, extracción de palabras por
función (ADJ, VER, ADV).
• Sentiment words: Genial, excelente, horrible, malo, peor,
roto, etc.
17. Sentiment classification using ML methods. Pang, EMNLP-02
Este paper aplica diversos métodos de ML supervisado para la
clasificación de reviews de películas.
En el preprocesamiento se utilizaron: tags de negación (no,
pero, sin embargo, no obstante, por el contrario. . . ), unigramas,
bigramas, POS tags, posición dentro de la oración.
Se utilizaron métodos Naïve Bayes, Maximum entropy, Support
vector machine, este último con la mejor performance del 83 %.
18. Unsupervised review classification. Turney, ACL-02
Se extrajeron reviews de epinions.com sobre autos, bancos,
películas y destinos turísticos. El enfoque consta de 3 partes:
1 POS Tagging. Se extrajeron frases de 2-palabras según
diversos patrones sintácticos: JJ-NN (Adjective-singular
common nouns).
2 Se estima la orientación semantica (SO) de las frases
utilizando Pointwise mutual information (PMI).
3 Se calcula el SO promedio para todas las frases.
19. Unsupervised review classification. Turney, ACL-02
Pointwise mutual information
P(a ∧ b)
PMI(word1 , word2 ) = log2
P(a) ∧ P(b)
Semantic orientation (SO)
SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor)
Se puede usar el operador NEAR de AltaVista para buscar las
frases y calcular los indicadores PMI y SO.
20. Unsupervised review classification. Turney, ACL-02
Por último se calcula el SO promedio para todas las frases que
componen la opinión.
La performance de este enfoque:
• autos - 84 %
• bancos - 80 %
• películas - 65.83 %
• destinos turísticos - 70.53 %
21. Term Subjectivity and Term... Esuli and Sebastiani
Construye clasificadores a nivel término objetivo-subjetivo y
positivo-negativo. También de manera semisupervisada.
• Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln
y Lo de términos Positivos, Negativos y Objetivos.
• Los términos son synsets de Wordnet
http://wordnet.princeton.edu/.
• Y en cada iteración se navega por el grafo resultante de las
relaciones de cada synset.
• direct antonymy, similarity, derivedfrom, pertains-to,
attribute, y also-see...
• Sentiwordnet http://sentiwordnet.isti.cnr.it/
28. Herramientas
• NLTK Natural Language Toolkit http://nltk.org/
• Freeling http://nlp.lsi.upc.edu/freeling/
• Mallet MAchine Learning for LanguagE Toolkit
http://mallet.cs.umass.edu/
• GATE General Architecture for Text Engineering http://gate.ac.uk/
• Bow: A Toolkit for Statistical Language Modeling
http://www.cs.cmu.edu/∼mccallum/bow/
• Cluto: Software for Clustering High-Dimensional Datasets
http://glaros.dtc.umn.edu/gkhome/views/cluto
• icsiboost: Open-source implementation of Boostexter
http://code.google.com/p/icsiboost/
• ManyEyes
http://www-958.ibm.com/software/data/cognos/manyeyes/
• TwitterStreamGraphs
http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
29. Referencias
• Opinion Mining: Exploiting the Sentiment of the Crowd,
Diana Maynard, Adam Funk, Kalina Bontcheva. University
of Sheffield, UK. 1995-2012
• Sentiment Analysis and Opinion Mining, Bing Liu,
AAAI-2011, EACL-2012, and Sentiment Analysis
Symposium, Department of Computer Science, University
Of Illinois at Chicago
• Sentiment Analysis and Opinion Mining. Morgan & Claypool
Publishers. May 2012., Bing Liu.
• Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/
• Web Data Mining, Bing Liu, Springer, December, 2006
• Language and Intelligence Group, Università di Pisa.
http://medialab.di.unipi.it/web/Language+Intelligence/