SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Minado de
Opiniones!
#datafest!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Datafest – La Nación & Univ. Austral !
Noviembre 2012 – BA – Argentina !
                   7puentes.com!
Outline



   • Intro & Background
   • Modelo Formal
   • Subtareas
       • Recuperación de Opiniones (Opinion Retrieval)
       • Modelos de Análisis de Sentimiento (Sentiment Analysis)
       • Resumen (Summarization)
   • Problemas y desafíos
   • Referencias
Intro

  El objetivo del Minado de Opiniones - (OM) es recuperar y
  extraer la orientación semántica de un conjunto de textos para
  clasificarlos de acuerdo a ella como positivas o negativas.

  OM es una disciplina relativamente reciente que utiliza técnicas
  de IR, AI, ML y NLP para recuperar textos de opinión e inducir
  la orientación/polaridad semántica; más informalmente, extraer
  opiniones y sentimientos de textos.

  Incluye subtareas como:
    • Recuperación de Opiniones (Opinion Retrieval)
    • Modelos de Análisis de Sentimiento (Sentiment Analysis)
    • Resumen (Summarization)
Social media


   • La social media es una gran espacio donde se comparten
     opiniones y experiencias de consumidores.
   • Las opiniones pueden ser sobre un producto como un
     teléfono celular o una película; un evento, como un festival
     de música; o una persona como un candidato político.
   • Los textos son:
       •   datos poco-estructurados,
       •   pueden estar mal formados,
       •   ajustado a las condiciones del medio (140 caracteres),
       •   errores de ortografía,
       •   lenguajes particulares, emoticons, multi-lang,
       •   y muchos problemas más tratados por técnicas de
           Procesamiento de Lenguaje Natural.
Opinion Mining is Big Business
       !"#$%&'#()*+,*-.%,,#%/01*234


            !"#$#%$&'#$#$(&#)&*#(&*+)#$,))

 Alguien que quiere comprar una
        ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61
 cámara
             !   7%%8)&9%6&5%..,$2)&1$:&6,;#,/)
   • Busca comentarios y reviews.
        !    -%.,%$,&/0%&<+)2&3%+(02&1&51.,61
 Alguien que ya compró una cámara
             !   =%..,$2)&%$&#2
   • Escribe su experiencia.
             !   >6#2,)&13%+2&20,#6&,?",6#,$5,
   • Fanático vs. contra-fanático.
        !    =1.,61&'1$+9152+6,6
 Fabricante
             !   @,2)&9,,:3158&96%.&5+)2%.,6
   • Obtiene feedback de los
             !   A."6%;,&20,#6&"6%:+52)
     consumidores.
             !   B:<+)2&'168,2#$(&-2612,(#,)
   • Mejora de los productos.
   • Adapta estrategias de márketing.!
Otras aplicaciones Opinion Mining

  Ads placements
    • Relevar e identificar la ubicación para imprimir un ad en la
      social media.
    • Teniendo en cuenta opiniones de la página huésped.
    • Opiniones propias y de la competencia.

  Influencia y Reputación
    • Identificar usuarios líderes y formadores de opinión.
    • Predecir compra de usuarios.

  Opinion Spam
    • Identificar opiniones falsas.
    • Identificar usuarios falsos/sesgados.
El vestido de Venus
El vestido de Venus
   !"#$%&'#()*+,*-.%,,#%/01*234


      !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+




                                  !
Online social media sentiment apps


   • Twitter sentiment: http://twittersentiment.appspot.com/
   • Twends: http://twendz.waggeneredstrom.com/
   • Twittratr: http://twitrratr.com/
   • SocialMention: http://socialmention.com/
   • . . . +40 empresas en USA

   • Tribatics: http://www.tribatics.com/
   • SocialMetrix: http://socialmetrix.com/
   • Zenzey: http://www.zenzey.com/
   • Keepcon: http://keepcon.com/
   • Ventura*: http://7puentes.com/products/ventura/
Online social media sentiment apps - Issues



    • Funciona para gente famosa!
    • Diferentes estrategias para construir los modelos de
      sentiment analysis causan resultados muy dispares.
    • Basados en diccionarios, rule-based, SVM, EM, etc.
    • Dificultad para separar la polaridad general
    • Buzz (menciones) vs. Opiniones.
    • Muchas veces funciona muy bien. Y algunas muy mal.
No sólo cámaras y vestidos...


    • Películas, obras de teatro, libros, moda.
    • Predicciones, tendencias, humor social.
    • Monitoreo de opinión pública de acciones de gobierno,
      actos de campaña.
    • Feedback sobre congresos, eventos, conferencias.
    • Monitoreo de catástrofes, accidentes, estado del tránsito,
      etc.

    • Comportamiento del mercado de valores. Medir el buzz de
      acciones, bonos, títulos.
¿La voz del pueblo o de un experto?


  Depende de la complejidad de la pregunta. Y de la precisión de
  la respuesta.


 ¿Cuál es la altura del monte
                                   ¿Cuál es la capital de España?
 Kilimanjaro?
                                     1   Barcelona
   1   19,341 ft
                                     2   Madrid
   2   23,341 ft
                                     3   Valencia
   3   15,341 ft
                                     4   Sevilla
   4   21,341 ft
No todas las opiniones valen lo mismo

    • ¿Cómo medir el valor de una opinión?
    • Usuario expertos del dominio.
    • Usuario frecuentes.
    • Spammer?
    • Expertos en un área no necesariamente son expertos en
      otra.

  Confianza
    • Basada en el vínculo (local): User-similarity, entramado
      social.
    • Basada en la reputación (global): Esta recomendación me ha
      sido útil
Subtareas

  Opinion Retrieval & Extraction
    • Recuperar de grandes volúmenes de textos, aquellos que
      contienen referencia al objeto.
    • Luego identificar el contexto de opinión.

  Sentiment Analysis
    • Extraer la polaridad de la opinión
    • Puede ser positivo-negativo, pos-neg-neutro, o una escala
      numérica.

  Opinion summarization
    • Resumir la opinión general de un conjunto de opiniones o
      de una opinón con varias facetas.
    • El resumen puede ser una metáfora visual.
Opinion Retrieval & Extraction

      Me compré una cámara de fotos el día de ayer. Me salió
      muy cara, pero saca unas fotos excelentes y la batería
      dura mucho.

    • Identificar zonas dentro de la página que responden a un
      texto de opinión.
    • Reglas sintácticas, estructurales del sitio.
    • Modelos estadísticos sobre sliding windows.
    • Identificación del objeto, marca.
    • Contexto fijo y variable.
    • Detección de puntos, fin de párrafo, etc.
    • ID, hastag, sinónimos, hiperónimos, etc.
Sentiment Analysis

  Identificar y extraer la orientación subjetiva de un texto.

    • Objetivo, Subjetivo.
    • Positivo, Negativo, Neutro. Rango numérico.

    • Métodos basados en reglas: diccionarios, boosted weak
      rules, etc.
    • Modelos de machine learning: SVM, NB, EM.
    • Prepos: steming, lematización, extracción de palabras por
      función (ADJ, VER, ADV).

    • Sentiment words: Genial, excelente, horrible, malo, peor,
      roto, etc.
Sentiment classification using ML methods. Pang, EMNLP-02




   Este paper aplica diversos métodos de ML supervisado para la
   clasificación de reviews de películas.

   En el preprocesamiento se utilizaron: tags de negación (no,
   pero, sin embargo, no obstante, por el contrario. . . ), unigramas,
   bigramas, POS tags, posición dentro de la oración.

   Se utilizaron métodos Naïve Bayes, Maximum entropy, Support
   vector machine, este último con la mejor performance del 83 %.
Unsupervised review classification. Turney, ACL-02


  Se extrajeron reviews de epinions.com sobre autos, bancos,
  películas y destinos turísticos. El enfoque consta de 3 partes:

    1   POS Tagging. Se extrajeron frases de 2-palabras según
        diversos patrones sintácticos: JJ-NN (Adjective-singular
        common nouns).
    2   Se estima la orientación semantica (SO) de las frases
        utilizando Pointwise mutual information (PMI).
    3   Se calcula el SO promedio para todas las frases.
Unsupervised review classification. Turney, ACL-02


  Pointwise mutual information
                                           P(a ∧ b)
             PMI(word1 , word2 ) = log2
                                          P(a) ∧ P(b)

  Semantic orientation (SO)

     SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor)

  Se puede usar el operador NEAR de AltaVista para buscar las
  frases y calcular los indicadores PMI y SO.
Unsupervised review classification. Turney, ACL-02



  Por último se calcula el SO promedio para todas las frases que
  componen la opinión.

  La performance de este enfoque:
    • autos - 84 %
    • bancos - 80 %
    • películas - 65.83 %
    • destinos turísticos - 70.53 %
Term Subjectivity and Term... Esuli and Sebastiani

   Construye clasificadores a nivel término objetivo-subjetivo y
   positivo-negativo. También de manera semisupervisada.

     • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln
       y Lo de términos Positivos, Negativos y Objetivos.
     • Los términos son synsets de Wordnet
       http://wordnet.princeton.edu/.
     • Y en cada iteración se navega por el grafo resultante de las
       relaciones de cada synset.
     • direct antonymy, similarity, derivedfrom, pertains-to,
       attribute, y also-see...

     • Sentiwordnet http://sentiwordnet.isti.cnr.it/
Opinion summarization & visualization
Opinion summarization & visualization
       Ejemplo: AIT en opinión política!

      Elecciones legislativas 2009!   Controles de Alcoholemia!




                                        Seguimiento Gripe A!




     7puentes.com!                     Análisis Inteligente de Textos!
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Herramientas

   • NLTK Natural Language Toolkit http://nltk.org/
   • Freeling http://nlp.lsi.upc.edu/freeling/
   • Mallet MAchine Learning for LanguagE Toolkit
     http://mallet.cs.umass.edu/
   • GATE General Architecture for Text Engineering http://gate.ac.uk/
   • Bow: A Toolkit for Statistical Language Modeling
     http://www.cs.cmu.edu/∼mccallum/bow/
   • Cluto: Software for Clustering High-Dimensional Datasets
     http://glaros.dtc.umn.edu/gkhome/views/cluto
   • icsiboost: Open-source implementation of Boostexter
     http://code.google.com/p/icsiboost/

   • ManyEyes
     http://www-958.ibm.com/software/data/cognos/manyeyes/
   • TwitterStreamGraphs
     http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
Referencias

    • Opinion Mining: Exploiting the Sentiment of the Crowd,
      Diana Maynard, Adam Funk, Kalina Bontcheva. University
      of Sheffield, UK. 1995-2012
    • Sentiment Analysis and Opinion Mining, Bing Liu,
      AAAI-2011, EACL-2012, and Sentiment Analysis
      Symposium, Department of Computer Science, University
      Of Illinois at Chicago
    • Sentiment Analysis and Opinion Mining. Morgan & Claypool
      Publishers. May 2012., Bing Liu.
    • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/
    • Web Data Mining, Bing Liu, Springer, December, 2006
    • Language and Intelligence Group, Università di Pisa.
      http://medialab.di.unipi.it/web/Language+Intelligence/
Gracias por
vuestra !
atención!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Weitere ähnliche Inhalte

Ähnlich wie Opinion Mining #datafestAr

Temario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoTemario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoADVISE Consultores
 
¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?Carlos Perales
 
"Conducta en la red" 2012
"Conducta en la red" 2012"Conducta en la red" 2012
"Conducta en la red" 2012Juan Carlos
 
Encuestafacil
EncuestafacilEncuestafacil
EncuestafacilKorazza
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioMercadoLibre Córdoba
 
Edgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sánchez
 
SEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEOSEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEONatzir Turrado
 
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María EcheverriUsabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María Echeverriwww.usarte.co
 
Analisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfAnalisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfssuserd8290b1
 
Tecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionTecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionDuber Collazos
 
Ux en 30 minutos
Ux en 30 minutosUx en 30 minutos
Ux en 30 minutosSol Mesz
 
Lean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioLean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioSol Mesz
 
Conversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esConversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esClinic Seo
 
Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Juan Carlos
 

Ähnlich wie Opinion Mining #datafestAr (20)

Monitoreo de reputación online
Monitoreo de reputación onlineMonitoreo de reputación online
Monitoreo de reputación online
 
Temario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoTemario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamiento
 
¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?
 
"Conducta en la red" 2012
"Conducta en la red" 2012"Conducta en la red" 2012
"Conducta en la red" 2012
 
Encuestafacil
EncuestafacilEncuestafacil
Encuestafacil
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuario
 
Edgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdf
 
SEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEOSEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEO
 
El analisis de sentimientos
El analisis de sentimientosEl analisis de sentimientos
El analisis de sentimientos
 
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María EcheverriUsabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
 
Marketing&amp;ventas 01
Marketing&amp;ventas 01Marketing&amp;ventas 01
Marketing&amp;ventas 01
 
Analisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfAnalisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdf
 
Introducción al CRO
Introducción al CROIntroducción al CRO
Introducción al CRO
 
Tecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionTecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacion
 
Investigacion de mercado v.2010
Investigacion de mercado v.2010Investigacion de mercado v.2010
Investigacion de mercado v.2010
 
Duoc ai - usabilidad - metodologias
Duoc   ai - usabilidad - metodologiasDuoc   ai - usabilidad - metodologias
Duoc ai - usabilidad - metodologias
 
Ux en 30 minutos
Ux en 30 minutosUx en 30 minutos
Ux en 30 minutos
 
Lean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioLean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuario
 
Conversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esConversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.es
 
Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012
 

Mehr von Ernesto Mislej

Data Science & Big Data
Data Science & Big DataData Science & Big Data
Data Science & Big DataErnesto Mislej
 
Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Ernesto Mislej
 
Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Ernesto Mislej
 
Análisis Inteligente de Textos
Análisis Inteligente de TextosAnálisis Inteligente de Textos
Análisis Inteligente de TextosErnesto Mislej
 

Mehr von Ernesto Mislej (9)

Data Science & Big Data
Data Science & Big DataData Science & Big Data
Data Science & Big Data
 
Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013
 
Data Mining
Data MiningData Mining
Data Mining
 
Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4
 
Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3
 
Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2
 
Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5
 
Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011
 
Análisis Inteligente de Textos
Análisis Inteligente de TextosAnálisis Inteligente de Textos
Análisis Inteligente de Textos
 

Kürzlich hochgeladen

Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024anasofiarodriguezcru
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y maslida630411
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalEmanuelCastro64
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdflauralizcano0319
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nóminacuellosameidy
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaElizabethLpezSoto
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 

Kürzlich hochgeladen (20)

Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y mas
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamental
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nómina
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestría
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 

Opinion Mining #datafestAr

  • 1. Minado de Opiniones! #datafest! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio ! Datafest – La Nación & Univ. Austral ! Noviembre 2012 – BA – Argentina ! 7puentes.com!
  • 2. Outline • Intro & Background • Modelo Formal • Subtareas • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization) • Problemas y desafíos • Referencias
  • 3. Intro El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas. OM es una disciplina relativamente reciente que utiliza técnicas de IR, AI, ML y NLP para recuperar textos de opinión e inducir la orientación/polaridad semántica; más informalmente, extraer opiniones y sentimientos de textos. Incluye subtareas como: • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization)
  • 4. Social media • La social media es una gran espacio donde se comparten opiniones y experiencias de consumidores. • Las opiniones pueden ser sobre un producto como un teléfono celular o una película; un evento, como un festival de música; o una persona como un candidato político. • Los textos son: • datos poco-estructurados, • pueden estar mal formados, • ajustado a las condiciones del medio (140 caracteres), • errores de ortografía, • lenguajes particulares, emoticons, multi-lang, • y muchos problemas más tratados por técnicas de Procesamiento de Lenguaje Natural.
  • 5. Opinion Mining is Big Business !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&#)&*#(&*+)#$,)) Alguien que quiere comprar una ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61 cámara ! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/) • Busca comentarios y reviews. ! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61 Alguien que ya compró una cámara ! =%..,$2)&%$&#2 • Escribe su experiencia. ! >6#2,)&13%+2&20,#6&,?",6#,$5, • Fanático vs. contra-fanático. ! =1.,61&'1$+9152+6,6 Fabricante ! @,2)&9,,:3158&96%.&5+)2%.,6 • Obtiene feedback de los ! A."6%;,&20,#6&"6%:+52) consumidores. ! B:<+)2&'168,2#$(&-2612,(#,) • Mejora de los productos. • Adapta estrategias de márketing.!
  • 6. Otras aplicaciones Opinion Mining Ads placements • Relevar e identificar la ubicación para imprimir un ad en la social media. • Teniendo en cuenta opiniones de la página huésped. • Opiniones propias y de la competencia. Influencia y Reputación • Identificar usuarios líderes y formadores de opinión. • Predecir compra de usuarios. Opinion Spam • Identificar opiniones falsas. • Identificar usuarios falsos/sesgados.
  • 8. El vestido de Venus !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+ !
  • 9. Online social media sentiment apps • Twitter sentiment: http://twittersentiment.appspot.com/ • Twends: http://twendz.waggeneredstrom.com/ • Twittratr: http://twitrratr.com/ • SocialMention: http://socialmention.com/ • . . . +40 empresas en USA • Tribatics: http://www.tribatics.com/ • SocialMetrix: http://socialmetrix.com/ • Zenzey: http://www.zenzey.com/ • Keepcon: http://keepcon.com/ • Ventura*: http://7puentes.com/products/ventura/
  • 10. Online social media sentiment apps - Issues • Funciona para gente famosa! • Diferentes estrategias para construir los modelos de sentiment analysis causan resultados muy dispares. • Basados en diccionarios, rule-based, SVM, EM, etc. • Dificultad para separar la polaridad general • Buzz (menciones) vs. Opiniones. • Muchas veces funciona muy bien. Y algunas muy mal.
  • 11. No sólo cámaras y vestidos... • Películas, obras de teatro, libros, moda. • Predicciones, tendencias, humor social. • Monitoreo de opinión pública de acciones de gobierno, actos de campaña. • Feedback sobre congresos, eventos, conferencias. • Monitoreo de catástrofes, accidentes, estado del tránsito, etc. • Comportamiento del mercado de valores. Medir el buzz de acciones, bonos, títulos.
  • 12. ¿La voz del pueblo o de un experto? Depende de la complejidad de la pregunta. Y de la precisión de la respuesta. ¿Cuál es la altura del monte ¿Cuál es la capital de España? Kilimanjaro? 1 Barcelona 1 19,341 ft 2 Madrid 2 23,341 ft 3 Valencia 3 15,341 ft 4 Sevilla 4 21,341 ft
  • 13. No todas las opiniones valen lo mismo • ¿Cómo medir el valor de una opinión? • Usuario expertos del dominio. • Usuario frecuentes. • Spammer? • Expertos en un área no necesariamente son expertos en otra. Confianza • Basada en el vínculo (local): User-similarity, entramado social. • Basada en la reputación (global): Esta recomendación me ha sido útil
  • 14. Subtareas Opinion Retrieval & Extraction • Recuperar de grandes volúmenes de textos, aquellos que contienen referencia al objeto. • Luego identificar el contexto de opinión. Sentiment Analysis • Extraer la polaridad de la opinión • Puede ser positivo-negativo, pos-neg-neutro, o una escala numérica. Opinion summarization • Resumir la opinión general de un conjunto de opiniones o de una opinón con varias facetas. • El resumen puede ser una metáfora visual.
  • 15. Opinion Retrieval & Extraction Me compré una cámara de fotos el día de ayer. Me salió muy cara, pero saca unas fotos excelentes y la batería dura mucho. • Identificar zonas dentro de la página que responden a un texto de opinión. • Reglas sintácticas, estructurales del sitio. • Modelos estadísticos sobre sliding windows. • Identificación del objeto, marca. • Contexto fijo y variable. • Detección de puntos, fin de párrafo, etc. • ID, hastag, sinónimos, hiperónimos, etc.
  • 16. Sentiment Analysis Identificar y extraer la orientación subjetiva de un texto. • Objetivo, Subjetivo. • Positivo, Negativo, Neutro. Rango numérico. • Métodos basados en reglas: diccionarios, boosted weak rules, etc. • Modelos de machine learning: SVM, NB, EM. • Prepos: steming, lematización, extracción de palabras por función (ADJ, VER, ADV). • Sentiment words: Genial, excelente, horrible, malo, peor, roto, etc.
  • 17. Sentiment classification using ML methods. Pang, EMNLP-02 Este paper aplica diversos métodos de ML supervisado para la clasificación de reviews de películas. En el preprocesamiento se utilizaron: tags de negación (no, pero, sin embargo, no obstante, por el contrario. . . ), unigramas, bigramas, POS tags, posición dentro de la oración. Se utilizaron métodos Naïve Bayes, Maximum entropy, Support vector machine, este último con la mejor performance del 83 %.
  • 18. Unsupervised review classification. Turney, ACL-02 Se extrajeron reviews de epinions.com sobre autos, bancos, películas y destinos turísticos. El enfoque consta de 3 partes: 1 POS Tagging. Se extrajeron frases de 2-palabras según diversos patrones sintácticos: JJ-NN (Adjective-singular common nouns). 2 Se estima la orientación semantica (SO) de las frases utilizando Pointwise mutual information (PMI). 3 Se calcula el SO promedio para todas las frases.
  • 19. Unsupervised review classification. Turney, ACL-02 Pointwise mutual information P(a ∧ b) PMI(word1 , word2 ) = log2 P(a) ∧ P(b) Semantic orientation (SO) SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor) Se puede usar el operador NEAR de AltaVista para buscar las frases y calcular los indicadores PMI y SO.
  • 20. Unsupervised review classification. Turney, ACL-02 Por último se calcula el SO promedio para todas las frases que componen la opinión. La performance de este enfoque: • autos - 84 % • bancos - 80 % • películas - 65.83 % • destinos turísticos - 70.53 %
  • 21. Term Subjectivity and Term... Esuli and Sebastiani Construye clasificadores a nivel término objetivo-subjetivo y positivo-negativo. También de manera semisupervisada. • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln y Lo de términos Positivos, Negativos y Objetivos. • Los términos son synsets de Wordnet http://wordnet.princeton.edu/. • Y en cada iteración se navega por el grafo resultante de las relaciones de cada synset. • direct antonymy, similarity, derivedfrom, pertains-to, attribute, y also-see... • Sentiwordnet http://sentiwordnet.isti.cnr.it/
  • 22. Opinion summarization & visualization
  • 23. Opinion summarization & visualization Ejemplo: AIT en opinión política! Elecciones legislativas 2009! Controles de Alcoholemia! Seguimiento Gripe A! 7puentes.com! Análisis Inteligente de Textos!
  • 24. Opinion summarization & visualization
  • 25. Opinion summarization & visualization
  • 26. Opinion summarization & visualization
  • 27. Opinion summarization & visualization
  • 28. Herramientas • NLTK Natural Language Toolkit http://nltk.org/ • Freeling http://nlp.lsi.upc.edu/freeling/ • Mallet MAchine Learning for LanguagE Toolkit http://mallet.cs.umass.edu/ • GATE General Architecture for Text Engineering http://gate.ac.uk/ • Bow: A Toolkit for Statistical Language Modeling http://www.cs.cmu.edu/∼mccallum/bow/ • Cluto: Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/views/cluto • icsiboost: Open-source implementation of Boostexter http://code.google.com/p/icsiboost/ • ManyEyes http://www-958.ibm.com/software/data/cognos/manyeyes/ • TwitterStreamGraphs http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
  • 29. Referencias • Opinion Mining: Exploiting the Sentiment of the Crowd, Diana Maynard, Adam Funk, Kalina Bontcheva. University of Sheffield, UK. 1995-2012 • Sentiment Analysis and Opinion Mining, Bing Liu, AAAI-2011, EACL-2012, and Sentiment Analysis Symposium, Department of Computer Science, University Of Illinois at Chicago • Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012., Bing Liu. • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/ • Web Data Mining, Bing Liu, Springer, December, 2006 • Language and Intelligence Group, Università di Pisa. http://medialab.di.unipi.it/web/Language+Intelligence/
  • 30. Gracias por vuestra ! atención! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio !