SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Evaluación de sistemas de monitorización de
     contenidos generados por usuarios

  Enrique Amigó, Damiano Spina                  Bernardino Beotas
    Grupo PLN y RI de la UNED                     Grupo ALMA
  {enrique,damiano}@lsi.uned.es               b.beotas@almatech.es
            nlp.uned.es                        www.grupoalma.com




             Workshop on Opinion Mining and Sentiment Analysis
                               CAEPIA 2009
                              Sevilla, España
Evaluación de sistemas de monitorización de
contenidos generados por usuarios (UGCs)

 Introducción
   › Gestión de reputación online
   › Informe de monitorización
 Estado del arte
   › Modelos para la monitorización de temas
   › Evaluación de modelos
 Propuesta de metodología de evaluación
 Conclusiones y posibilidades futuras


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
   › User Generated Content (UGC)
   › Blogs, Foros, Sitios de valoraciones, redes sociales




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
    › User Generated Content (UGC)
    › Blogs, Foros, Sitios de valoraciones, redes sociales
 Gestión de la reputación online (Online Reputation Management, ORM)
    › Auditoría de imagen
               Fotografía: la entidad en la Web
    › Monitorización
               Alertas
               Análisis continuo
    › Definición de Estrategia
               Participación en las conversaciones
               Generación de Contenido




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
    › User Generated Content (UGC)
    › Blogs, Foros, Sitios de valoraciones, redes sociales
 Gestión de la reputación online (Online Reputation Management, ORM)
    › Auditoría de imagen
               Fotografía: la entidad en la Web
    › Monitorización
               Alertas
               Análisis continuo
    › Definición de Estrategia
               Participación en las conversaciones
               Generación de Contenido




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Monitorización de la reputación online




                 UGCs




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización de la reputación online




                 UGCs


                                                                                     Informe de
                                                                                    monitorización




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                 Grupo ALMA
   nlp.uned.es                                                                             www.grupoalma.com
El informe de monitorización


 Informe de monitorización
   › Opiniones más relevantes en un intervalo de tiempo
   › Estructurado por fuentes
   › Referencias a los documentos




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
El informe de monitorización


 Informe de monitorización
   › Opiniones más relevantes en un intervalo de tiempo
   › Estructurado por fuentes
   › Referencias a los documentos
 Relevancia de un documento
   › Polaridad a nivel de reputación
              "Las acciones de X han bajado un 40%"
   › Autoridad de la fuente
              Nº de comentarios, posicionamiento en buscadores, nº de visitas…
   › Novedad
   › Propagabilidad



   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                Factual




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                    Grupo ALMA
   nlp.uned.es                                                                                www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                               Opinión                    Factual
                                                                         Ambigüedad (IR)                         Opinion Mining &
                                                                                                                 Sentiment Analysis
                              TREC Blog Track,
                                MOAT NTCIR                                  Subjetividad
  Feature-based
  Opinion mining                                                              Polaridad                          SemEval2007

                                         Swotti                              Frecuencia

                                                                                 Temas

                                                                           Temporalidad

                                                                              Autoridad




     Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
     nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad

                                                                           Frecuencia

                  BlogPulse, Technorati                                        Temas

                                                                         Temporalidad
                        Herramientas                                        Autoridad
                            SEO




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas

             distribución de términos,                                         Temas
             modelos probabilísticos
                                                                         Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                              Opinión                   Factual
                                                                       Ambigüedad (IR)                     Opinion Mining &
                                                                                                           Sentiment Analysis
                                                                          Subjetividad                     Análisis de la
                                                                                                           blogosfera
                                                                            Polaridad
                                                                                                           Monitorización de
                                                                           Frecuencia                      temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                    Grupo ALMA
   nlp.uned.es                                                                                www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Requisitos del problema


 Requisitos
   › Agregación
              Identificación de temas tratados en las opiniones
              Conocer los temas nuevos y las tendencias
   › Temporalidad
              Identificación de fenómenos temporales
              Novedad
   › Interpretabilidad
              Interpretar los temas identificados
   › Accesibilidad
              Exploración de documentos asociados a los temas
              Selección de documentos para el informe de monitorización


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Estado del arte


 Modelos para la monitorización de temas
   › Tema ≈ término
               tfcidf (Gruhl et al., 2004)



   › Tema ≈ variable oculta en una red bayesiana
               pLSI (Chou & Chen, 2008)
               Mixture models (Mei et al., 2006)
               Topics Over Time (Wang & McCallum, 2006)
               Dynamic Topic Model (Blei & Lafferty, 2006)
               Multiscale Topic Tomography (Nallapati et al., 2007)




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Estado del arte


 Metodologías de evaluación
   › Evaluación cualitativa de los resultados
               Subjetiva
               No permite comparar modelos
   › Evaluación intrínseca
               No permiten evaluar todos los requisitos
               Métricas de clustering
               Perplejidad -> sólo modelos probabilísticos
   › Evaluación extrínseca
               Temas extraídos automaticamente vs. Temas extraídos manualmente
                   – Gold standard para subtemas
               Topic Detection and Tracking (TDT)
                   – Centrada en eventos periodísticos
                   – documento-evento: relación uno-a-uno

    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Propuesta de metodología de evaluación




                               P(x|y): distribución de probabilidad de x dada una instancia de la variable y.

 Métricas:
   › Temporalidad y agregación
   › Accesibilidad
   › Capacidad predictiva e Interpretabilidad


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 1: Temporalidad


 Identificación de fenómenos temporales
 Documentos conectados por un tema deberían de estar
  temporalmente próximos
 Dos documentos están conectados si hablan de un mismo
  tema




                                 : Distancia temporal entre los documentos d y d’


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 2: Agregación


 Capacidad de agrupar documentos que comparten un mismo
  tema
 Documentos explícitamente relacionados deberían de
  compartir temas
 Relaciones explícitas:
   › Fuente
                                                           ’
                                                      <da,da> : explícitamente relacionados
   › Autor                                            <db,d’ > : no explícitamente relacionados
                                                           c
   › Enlaces




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 3: Accesibilidad


 Capacidad de dar acceso a los n documentos más relevantes
  de cada tema
 Anotación de los expertos
 Curvas de precisión y cobertura
 : conjunto de los n documentos con mayor P(d|θ) de cada
  tema
 : conjunto de documentos relevantes según el experto




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Métrica 4: Capacidad predictiva


 Capacidad de predecir el comportamiento de los temas en un
  futuro próximo

 P(t|θ)

 Evaluación indirecta                        (Wang & McCallum, 2006)
   › Un modelo capaz de predecir la fecha de un documento tiene más
     capacidad predictiva en general
   › P(t|d)




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 5: Interpretabilidad


 Capacidad de generar temas interpretables por el usuario

 P(w| θ)

 No es posible anotar manualmente todas las palabras
  representativas posibles

 Evaluación manual con usuarios de prueba




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Conclusiones


 Factores importantes para la
  monitorización de la reputación online
   › autoridad, polaridad, novedad, propagabilidad
   › Contenido Generados por Usuarios (UGCs)


 Esbozo de una metodología de evaluación
   › Comparar modelos de monitorización de temas

   › Temporalidad y agregación
   › Accesibilidad
   › Capacidad predictiva e interpretabilidad


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Posibilidades futuras


 Aplicar métricas a modelos existentes de monitorización de
  temas (temporalidad y agregación)
 Definir un modelo que tenga en cuenta la autoridad de las
  fuentes
 Definir una metodología de anotación para aplicar la métrica
  de accesibilidad
 Aplicación de las métricas capacidad predictiva e
  interpretabilidad
   › Definición de interfaces de usuario comunes para los modelos
     existentes



    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Evaluación de sistemas de monitorización de contenidos
                 generados por usuarios


                      ¡Muchas gracias!

  Enrique Amigó, Damiano Spina                  Bernardino Beotas
    Grupo PLN y RI de la UNED                     Grupo ALMA
  {enrique,damiano}@lsi.uned.es               b.beotas@almatech.es
            nlp.uned.es                       www.grupoalma.com




            Workshop on Opinion Mining and Sentiment Analysis
                              CAEPIA 2009
                             Sevilla, España

Weitere ähnliche Inhalte

Mehr von Damiano Spina

A Formal Account of Effectiveness Evaluation and Ranking Fusion
A Formal Account of Effectiveness Evaluation and Ranking FusionA Formal Account of Effectiveness Evaluation and Ranking Fusion
A Formal Account of Effectiveness Evaluation and Ranking FusionDamiano Spina
 
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...Damiano Spina
 
Learning Similarity Functions for Topic Detection in Online Reputation Monito...
Learning Similarity Functions for Topic Detection in Online Reputation Monito...Learning Similarity Functions for Topic Detection in Online Reputation Monito...
Learning Similarity Functions for Topic Detection in Online Reputation Monito...Damiano Spina
 
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in Twitter
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in TwitterORMA: A Semi-Automatic Tool for Online Reputation Monitoring in Twitter
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in TwitterDamiano Spina
 
Online Reputation Monitoring in Twitter from an Information Access Perspective
Online Reputation Monitoring in Twitter from an Information Access PerspectiveOnline Reputation Monitoring in Twitter from an Information Access Perspective
Online Reputation Monitoring in Twitter from an Information Access PerspectiveDamiano Spina
 
Towards an Active Learning System for Company Name Disambiguation in Microblo...
Towards an Active Learning System for Company Name Disambiguation in Microblo...Towards an Active Learning System for Company Name Disambiguation in Microblo...
Towards an Active Learning System for Company Name Disambiguation in Microblo...Damiano Spina
 
UNED Online Reputation Monitoring Team at RepLab 2013
UNED Online Reputation Monitoring Team at RepLab 2013UNED Online Reputation Monitoring Team at RepLab 2013
UNED Online Reputation Monitoring Team at RepLab 2013Damiano Spina
 
Identifying Entity Aspects in Microblog Posts
Identifying Entity Aspects in Microblog PostsIdentifying Entity Aspects in Microblog Posts
Identifying Entity Aspects in Microblog PostsDamiano Spina
 
Towards Real-Time Summarization of Scheduled Events from Twitter Streams
Towards Real-Time Summarization of Scheduled Events from Twitter StreamsTowards Real-Time Summarization of Scheduled Events from Twitter Streams
Towards Real-Time Summarization of Scheduled Events from Twitter StreamsDamiano Spina
 
A Corpus for Entity Profiling in Microblog Posts
A Corpus for Entity Profiling in Microblog PostsA Corpus for Entity Profiling in Microblog Posts
A Corpus for Entity Profiling in Microblog PostsDamiano Spina
 
Filter keywords and majority class strategies for company name disambiguation...
Filter keywords and majority class strategies for company name disambiguation...Filter keywords and majority class strategies for company name disambiguation...
Filter keywords and majority class strategies for company name disambiguation...Damiano Spina
 
Caracterización de una entidad basada en opiniones: un estudio de caso
Caracterización de una entidad basada en opiniones: un estudio de casoCaracterización de una entidad basada en opiniones: un estudio de caso
Caracterización de una entidad basada en opiniones: un estudio de casoDamiano Spina
 

Mehr von Damiano Spina (12)

A Formal Account of Effectiveness Evaluation and Ranking Fusion
A Formal Account of Effectiveness Evaluation and Ranking FusionA Formal Account of Effectiveness Evaluation and Ranking Fusion
A Formal Account of Effectiveness Evaluation and Ranking Fusion
 
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...
SpeakerLDA: Discovering Topics in Transcribed Multi-Speaker Audio Contents @ ...
 
Learning Similarity Functions for Topic Detection in Online Reputation Monito...
Learning Similarity Functions for Topic Detection in Online Reputation Monito...Learning Similarity Functions for Topic Detection in Online Reputation Monito...
Learning Similarity Functions for Topic Detection in Online Reputation Monito...
 
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in Twitter
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in TwitterORMA: A Semi-Automatic Tool for Online Reputation Monitoring in Twitter
ORMA: A Semi-Automatic Tool for Online Reputation Monitoring in Twitter
 
Online Reputation Monitoring in Twitter from an Information Access Perspective
Online Reputation Monitoring in Twitter from an Information Access PerspectiveOnline Reputation Monitoring in Twitter from an Information Access Perspective
Online Reputation Monitoring in Twitter from an Information Access Perspective
 
Towards an Active Learning System for Company Name Disambiguation in Microblo...
Towards an Active Learning System for Company Name Disambiguation in Microblo...Towards an Active Learning System for Company Name Disambiguation in Microblo...
Towards an Active Learning System for Company Name Disambiguation in Microblo...
 
UNED Online Reputation Monitoring Team at RepLab 2013
UNED Online Reputation Monitoring Team at RepLab 2013UNED Online Reputation Monitoring Team at RepLab 2013
UNED Online Reputation Monitoring Team at RepLab 2013
 
Identifying Entity Aspects in Microblog Posts
Identifying Entity Aspects in Microblog PostsIdentifying Entity Aspects in Microblog Posts
Identifying Entity Aspects in Microblog Posts
 
Towards Real-Time Summarization of Scheduled Events from Twitter Streams
Towards Real-Time Summarization of Scheduled Events from Twitter StreamsTowards Real-Time Summarization of Scheduled Events from Twitter Streams
Towards Real-Time Summarization of Scheduled Events from Twitter Streams
 
A Corpus for Entity Profiling in Microblog Posts
A Corpus for Entity Profiling in Microblog PostsA Corpus for Entity Profiling in Microblog Posts
A Corpus for Entity Profiling in Microblog Posts
 
Filter keywords and majority class strategies for company name disambiguation...
Filter keywords and majority class strategies for company name disambiguation...Filter keywords and majority class strategies for company name disambiguation...
Filter keywords and majority class strategies for company name disambiguation...
 
Caracterización de una entidad basada en opiniones: un estudio de caso
Caracterización de una entidad basada en opiniones: un estudio de casoCaracterización de una entidad basada en opiniones: un estudio de caso
Caracterización de una entidad basada en opiniones: un estudio de caso
 

Evaluación sistemas UGC monitorización

  • 1. Evaluación de sistemas de monitorización de contenidos generados por usuarios Enrique Amigó, Damiano Spina Bernardino Beotas Grupo PLN y RI de la UNED Grupo ALMA {enrique,damiano}@lsi.uned.es b.beotas@almatech.es nlp.uned.es www.grupoalma.com Workshop on Opinion Mining and Sentiment Analysis CAEPIA 2009 Sevilla, España
  • 2. Evaluación de sistemas de monitorización de contenidos generados por usuarios (UGCs)  Introducción › Gestión de reputación online › Informe de monitorización  Estado del arte › Modelos para la monitorización de temas › Evaluación de modelos  Propuesta de metodología de evaluación  Conclusiones y posibilidades futuras Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 3. UGCs y Gestión de reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 4. UGCs y Gestión de reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales  Gestión de la reputación online (Online Reputation Management, ORM) › Auditoría de imagen Fotografía: la entidad en la Web › Monitorización Alertas Análisis continuo › Definición de Estrategia Participación en las conversaciones Generación de Contenido Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 5. UGCs y Gestión de reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales  Gestión de la reputación online (Online Reputation Management, ORM) › Auditoría de imagen Fotografía: la entidad en la Web › Monitorización Alertas Análisis continuo › Definición de Estrategia Participación en las conversaciones Generación de Contenido Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 6. Monitorización de la reputación online UGCs Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 7. Monitorización de la reputación online UGCs Informe de monitorización Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 8. El informe de monitorización  Informe de monitorización › Opiniones más relevantes en un intervalo de tiempo › Estructurado por fuentes › Referencias a los documentos Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 9. El informe de monitorización  Informe de monitorización › Opiniones más relevantes en un intervalo de tiempo › Estructurado por fuentes › Referencias a los documentos  Relevancia de un documento › Polaridad a nivel de reputación "Las acciones de X han bajado un 40%" › Autoridad de la fuente Nº de comentarios, posicionamiento en buscadores, nº de visitas… › Novedad › Propagabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 10. Monitorización: ¿Qué tienen en cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 11. Monitorización: ¿Qué tienen en cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 12. Monitorización: ¿Qué tienen en cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 13. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 14. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis TREC Blog Track, MOAT NTCIR Subjetividad Feature-based Opinion mining Polaridad SemEval2007 Swotti Frecuencia Temas Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 15. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Frecuencia BlogPulse, Technorati Temas Temporalidad Herramientas Autoridad SEO Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 16. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas distribución de términos, Temas modelos probabilísticos Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 17. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 18. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 19. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 20. Monitorización: ¿Qué tienen en cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 21. Requisitos del problema  Requisitos › Agregación Identificación de temas tratados en las opiniones Conocer los temas nuevos y las tendencias › Temporalidad Identificación de fenómenos temporales Novedad › Interpretabilidad Interpretar los temas identificados › Accesibilidad Exploración de documentos asociados a los temas Selección de documentos para el informe de monitorización Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 22. Estado del arte  Modelos para la monitorización de temas › Tema ≈ término tfcidf (Gruhl et al., 2004) › Tema ≈ variable oculta en una red bayesiana pLSI (Chou & Chen, 2008) Mixture models (Mei et al., 2006) Topics Over Time (Wang & McCallum, 2006) Dynamic Topic Model (Blei & Lafferty, 2006) Multiscale Topic Tomography (Nallapati et al., 2007) Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 23. Estado del arte  Metodologías de evaluación › Evaluación cualitativa de los resultados Subjetiva No permite comparar modelos › Evaluación intrínseca No permiten evaluar todos los requisitos Métricas de clustering Perplejidad -> sólo modelos probabilísticos › Evaluación extrínseca Temas extraídos automaticamente vs. Temas extraídos manualmente – Gold standard para subtemas Topic Detection and Tracking (TDT) – Centrada en eventos periodísticos – documento-evento: relación uno-a-uno Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 24. Propuesta de metodología de evaluación P(x|y): distribución de probabilidad de x dada una instancia de la variable y.  Métricas: › Temporalidad y agregación › Accesibilidad › Capacidad predictiva e Interpretabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 25. Métrica 1: Temporalidad  Identificación de fenómenos temporales  Documentos conectados por un tema deberían de estar temporalmente próximos  Dos documentos están conectados si hablan de un mismo tema : Distancia temporal entre los documentos d y d’ Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 26. Métrica 2: Agregación  Capacidad de agrupar documentos que comparten un mismo tema  Documentos explícitamente relacionados deberían de compartir temas  Relaciones explícitas: › Fuente ’ <da,da> : explícitamente relacionados › Autor <db,d’ > : no explícitamente relacionados c › Enlaces Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 27. Métrica 3: Accesibilidad  Capacidad de dar acceso a los n documentos más relevantes de cada tema  Anotación de los expertos  Curvas de precisión y cobertura  : conjunto de los n documentos con mayor P(d|θ) de cada tema  : conjunto de documentos relevantes según el experto Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 28. Métrica 4: Capacidad predictiva  Capacidad de predecir el comportamiento de los temas en un futuro próximo  P(t|θ)  Evaluación indirecta (Wang & McCallum, 2006) › Un modelo capaz de predecir la fecha de un documento tiene más capacidad predictiva en general › P(t|d) Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 29. Métrica 5: Interpretabilidad  Capacidad de generar temas interpretables por el usuario  P(w| θ)  No es posible anotar manualmente todas las palabras representativas posibles  Evaluación manual con usuarios de prueba Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 30. Conclusiones  Factores importantes para la monitorización de la reputación online › autoridad, polaridad, novedad, propagabilidad › Contenido Generados por Usuarios (UGCs)  Esbozo de una metodología de evaluación › Comparar modelos de monitorización de temas › Temporalidad y agregación › Accesibilidad › Capacidad predictiva e interpretabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 31. Posibilidades futuras  Aplicar métricas a modelos existentes de monitorización de temas (temporalidad y agregación)  Definir un modelo que tenga en cuenta la autoridad de las fuentes  Definir una metodología de anotación para aplicar la métrica de accesibilidad  Aplicación de las métricas capacidad predictiva e interpretabilidad › Definición de interfaces de usuario comunes para los modelos existentes Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 32. Evaluación de sistemas de monitorización de contenidos generados por usuarios ¡Muchas gracias! Enrique Amigó, Damiano Spina Bernardino Beotas Grupo PLN y RI de la UNED Grupo ALMA {enrique,damiano}@lsi.uned.es b.beotas@almatech.es nlp.uned.es www.grupoalma.com Workshop on Opinion Mining and Sentiment Analysis CAEPIA 2009 Sevilla, España