SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Recursos Linguísticos,
Análisis de Sentimiento y APIs
APIdays Mediterranea, 29-30 Mayo, 2014
:
1. EUROSENTIMENT
2. Web Semántica
3. Bases de conocimiento
4. WordNet
5. Caso Práctico 1
6. Procesamiento del Lenguaje
Natural
7. Análisis de Sentimientos
8. Caso Práctico 2
9. Conclusiones y Futuro
Índice
Raúl Lario
rlario@paradigmatecnologico.com
Mario Muñoz
mmunoz@paradigmatecnologico.com
Autores
Esther Peinado
epeinado@paradigmatecnologico.com
EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
1
• Cada vez se vuelca más y más información en la Web.
• Muy copiosa y muy diversa.
• Las opiniones son especialmente valiosas.
“Con la ayuda de herramientas NLP
y conociendo los recursos lingüísticos disponibles,
podemos sacar mucho valor de esos datos”
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
• Dispersión de recursos
• Ausencia de estándares
• Limitaciones de uso
“Todo ello dificulta la
Interoperabilidad
y la Reutilización”
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
• Desarrollo a medida 
• Long Tail
• REST + JSON
• Third Party Integration
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
• Plataforma: cloud-based,
escalable…
• Subscripciones y Beneficios
• IPR y Licencias
• Seguridad
• QA y SLAs
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
MULTI-IDIOMA ORIENTADO A DOMINO
INTEROPERABILIDAD
SEMÁNTICA
BASADO EN LINKED
DATA
Web Semántica
Recursos Lingüísticos, Análisis de Sentimiento y APIs
2
2 Web Semántica
Recursos Lingüísticos, Análisis de Sentimiento y APIs
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> a lemon:LexicalEntry .
_:node18h8ttlh3x11 a lemon:CanonicalForm ;
lemon:writtenRep "room"@en .
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:canonicalForm
_:node18h8ttlh3x11 .
<http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> a lemon:Sense ;
lemon:reference "04105893" ;
lexinfo:partOfSpeach lexinfo:noun .
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:sense
<http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> .
<http://www.eurosentiment.com/hotel/en/lexicon/paradigma> lemon:entry
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> .
PREFIX lemon: <http://www.monnet-project.eu/lemon#>
SELECT ?entry WHERE {
<http://www.eurosentiment.com/electronics/en/lexicon> lemon:entry ?entry.
}
Bases de Conocimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
3
3 Bases de Conocimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
WordNet
Recursos Lingüísticos, Análisis de Sentimiento y APIs
4
WordNet: Base de datos léxica
● Synset
● PoS-tagging
● Palabras
● Significado
● Ejemplos
● Relaciones (hiperonimia, meronimia, …)
4 Wordnet 3.0
Recursos Lingüísticos, Análisis de Sentimiento y APIs
4 Wordnet 3.0
Recursos Lingüísticos, Análisis de Sentimiento y APIs
factoría
n#00017222:
Organismo vivo
carente del poder
de locomoción
n#05577190:
La parte inferior
del pie
n#03365991:
Una estructura que consiste
en una habitación o conjunto
de habitaciones en una
única posición a lo largo de
una escala vertical
n#03956922:
Edificios para la
realización del
trabajo industrial
planta
fábrica
n#05563266:
La parte de la pierna de
un ser humano por
debajo de la articulación
del tobillo
parte de
● WN-Domains
● WN-Affect
● Multi-WordNet
● SentiWordNet
● TempoWordNet
● ImageNet
4 Wordnet Extensions
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Caso Práctico 1
Recursos Lingüísticos, Análisis de Sentimiento y APIs
5
Hotel 12345678
Muy 12487456
Mucho 12425478
Personal 12114578
Bien 12111354
Situación 12108451
Totalmente 11687451
Excelente 11549846
Desayuno 10067874
Limpieza 9861212
….
WordNet
5 Caso Práctico 1
Recursos Lingüísticos, Análisis de Sentimiento y APIs
04105893 n habitación 07387509 n ruido -0’75
03579355 n internet 00980527 a lento -0’5
07575726 n comida 02343110 a excelente 1
08439955 n personal 01459422 n amabilidad 0’75
02818832 n cama 00476663 a estrecho -0,75
04446276 n baño 01391351 a pequeño -0’5
07574602 n desayuno 00106456 a escaso -0’5
01053617 n estancia 01800349 a grato 0’625
Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
6
NLP = Informática + Lingüísitica
1) Tokenización
2) Lematización
3) POS-tagging (morfosintaxis)
4) Semántica
5) Conocimiento (Linked-Data)
6 Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Reputación Online
Extracción de información, análisis de
sentimientos y emociones, NER
Categorizador, recomendador, NER (basado
en Wikipedia), moderación de comentarios
(análisis de sentimiento)
6 Aplicaciones del Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Análisis de Sentimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
7
“Actividad que analiza un texto de acuerdo un algoritmo para
identificar y cuantificar las opiniones que contiene
acerca de entidades (productos, servicios, personajes...)”
• Tipos: document-level, entity-level, feature-level
• Frase por frase
• Detección del Dominio
Recursos Lingüísticos, Análisis de Sentimiento y APIs
7 Análisis de Sentimiento
Caso Práctico 2
Recursos Lingüísticos, Análisis de Sentimiento y APIs
8
Recursos Lingüísticos, Análisis de Sentimiento y APIs
8 Caso práctico 2
NLP: Análisis de sentimiento
1) Tokenización
2) Lematización
3) PoS-tagging (morfosintaxis)
4) Semántica
La conexión a internet era lenta.
Como punto más positivo destacaría la amabilidad del personal
El cuarto de baño pequeño.
Las camas son estrechas.
ART NC VBO ADJ
Como punto más positivo destacar el amabilidad del personal
CSUB NC ADV ADJ VBO ART NC PDEL NC
El cama ser estrecho.
ART NC PREP NC VBO ADJ
El cuarto de baño pequeño.
ART NC PREP NC ADJ
El conexión a internet ser lento.
03579355 n internet 00980527 a lento -0’5
08439955 n personal 01459422 n amabilidad 0’75
02818832 n cama 00476663 a estrecho -0,75
04446276 n baño 01391351 a pequeño -0’5
-1’0
+0’75
-0’75
-0’5
-0’5
Conclusiones y Futuro
Recursos Lingüísticos, Análisis de Sentimiento y APIs
9
Recursos Lingüísticos, Análisis de Sentimiento y APIs
9 Conclusiones y Futuro
• SaaS negocio al alza
• Web de datos interconectados
• Good research needs good
resource!!
• Aplicaciones: Social TV (2nd
screen), RL multimedia
• Develop a Sentiment Analysis tool for your brand in 10 minutes!,
http://textalytics.com/blog/build-sentiment-analysis-in-twitter/
• Linked Data => Web of Data => Semantic Web, http://tomheath.com/blog/2009/03/linked-data-
web-of-data-semantic-web-wtf/
• Linked Open Data, Tim Berners Lee, http://www.w3.org/2008/Talks/0617-lod-tbl/#(1)
• Red temática española de Linked Data, http://red.linkeddata.es/web/guest
• TED Talk, 2009: Tim Berners Lee: The next web
http://www.ted.com/talks/tim_berners_lee_on_the_next_web#t-343422
• “Linguistic Linked Data for Sentiment Analysis”, P. Buitelaar
• “Linked-Data based Domain-Specific Sentiment Lexicons”, G. Vulcu
Related Projects:
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Referencias
Preguntas?
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Esther Peinado – epeinado@paradigmatecnologico.com
Mario Muñoz – mmunoz@paradigmatecnologico.com
Raúl Lario – rlario@paradigmatecnologico.com
?

Weitere ähnliche Inhalte

Andere mochten auch

Sesion2 act1 organizador grafico tiempo historico
Sesion2 act1 organizador grafico tiempo historicoSesion2 act1 organizador grafico tiempo historico
Sesion2 act1 organizador grafico tiempo historicoAuroraCutz
 
Funciones esenciales de la salud pública
Funciones esenciales de la salud públicaFunciones esenciales de la salud pública
Funciones esenciales de la salud públicaIvan Miranda
 
Presente del indicativo
Presente del indicativoPresente del indicativo
Presente del indicativoSEDF
 
Uso tiempos indicativo
Uso tiempos indicativoUso tiempos indicativo
Uso tiempos indicativoVanessa
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónJairo626
 
Funciones de la salud publica
Funciones de la  salud publica Funciones de la  salud publica
Funciones de la salud publica marioumanaserrato
 
Funciones esenciales de salud publica
Funciones esenciales de salud publicaFunciones esenciales de salud publica
Funciones esenciales de salud publicaAlex Hernandez
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialAlfonso E. Romero
 
Proceso de salud enfermedad como fenómeno social
Proceso de salud enfermedad como fenómeno socialProceso de salud enfermedad como fenómeno social
Proceso de salud enfermedad como fenómeno socialMaggie Espinoza
 
Signos de Puntuación para resaltar la Información
Signos de Puntuación para resaltar la Información Signos de Puntuación para resaltar la Información
Signos de Puntuación para resaltar la Información Lady Bandrui
 
Uso de adjetivos, participios y aposiciones
Uso de adjetivos, participios y aposicionesUso de adjetivos, participios y aposiciones
Uso de adjetivos, participios y aposicionesLady Bandrui
 
Tecnocracia
TecnocraciaTecnocracia
TecnocraciaJose938
 
El sintagma verbal del español
El sintagma verbal del españolEl sintagma verbal del español
El sintagma verbal del españolRuth Romero
 
FUNCIONES ESENCIALES DE SALUD PÚBLICA
FUNCIONES ESENCIALES DE SALUD PÚBLICA FUNCIONES ESENCIALES DE SALUD PÚBLICA
FUNCIONES ESENCIALES DE SALUD PÚBLICA CRISTHY ARAUZ
 
Significado De Las Formas Verbales
Significado De Las Formas VerbalesSignificado De Las Formas Verbales
Significado De Las Formas VerbalesJMGonzalezBall
 

Andere mochten auch (20)

Sesion2 act1 organizador grafico tiempo historico
Sesion2 act1 organizador grafico tiempo historicoSesion2 act1 organizador grafico tiempo historico
Sesion2 act1 organizador grafico tiempo historico
 
Programa de español ii
Programa de español iiPrograma de español ii
Programa de español ii
 
Funciones Esenciales de Salud Pública 1,2 y 3
Funciones Esenciales de Salud Pública 1,2 y 3Funciones Esenciales de Salud Pública 1,2 y 3
Funciones Esenciales de Salud Pública 1,2 y 3
 
Funciones esenciales de la salud pública
Funciones esenciales de la salud públicaFunciones esenciales de la salud pública
Funciones esenciales de la salud pública
 
Funciones esenciales de la salud publica
Funciones esenciales de la salud publicaFunciones esenciales de la salud publica
Funciones esenciales de la salud publica
 
Bloque 3 Biografía
Bloque 3 BiografíaBloque 3 Biografía
Bloque 3 Biografía
 
Presente del indicativo
Presente del indicativoPresente del indicativo
Presente del indicativo
 
Uso tiempos indicativo
Uso tiempos indicativoUso tiempos indicativo
Uso tiempos indicativo
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificación
 
Funciones de la salud publica
Funciones de la  salud publica Funciones de la  salud publica
Funciones de la salud publica
 
Funciones esenciales de salud publica
Funciones esenciales de salud publicaFunciones esenciales de salud publica
Funciones esenciales de salud publica
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio Vectorial
 
Proceso de salud enfermedad como fenómeno social
Proceso de salud enfermedad como fenómeno socialProceso de salud enfermedad como fenómeno social
Proceso de salud enfermedad como fenómeno social
 
Signos de Puntuación para resaltar la Información
Signos de Puntuación para resaltar la Información Signos de Puntuación para resaltar la Información
Signos de Puntuación para resaltar la Información
 
Uso de adjetivos, participios y aposiciones
Uso de adjetivos, participios y aposicionesUso de adjetivos, participios y aposiciones
Uso de adjetivos, participios y aposiciones
 
Tecnocracia
TecnocraciaTecnocracia
Tecnocracia
 
El sintagma verbal del español
El sintagma verbal del españolEl sintagma verbal del español
El sintagma verbal del español
 
FUNCIONES ESENCIALES DE SALUD PÚBLICA
FUNCIONES ESENCIALES DE SALUD PÚBLICA FUNCIONES ESENCIALES DE SALUD PÚBLICA
FUNCIONES ESENCIALES DE SALUD PÚBLICA
 
IR
IRIR
IR
 
Significado De Las Formas Verbales
Significado De Las Formas VerbalesSignificado De Las Formas Verbales
Significado De Las Formas Verbales
 

Ähnlich wie Recursos lingüísticos, análisis de sentimiento y APIs

Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Datos.gob.es
 
Webquest 03: Delitos Informáticos
Webquest 03: Delitos InformáticosWebquest 03: Delitos Informáticos
Webquest 03: Delitos InformáticosSharon Alí
 
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...KAROLIVETHGAMBOAGARC
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendSngular Meaning
 
Redradix Weekend Textalytics
Redradix Weekend TextalyticsRedradix Weekend Textalytics
Redradix Weekend TextalyticsRedradix
 
Introducción a la Ingeniería del Software.pdf
Introducción a la Ingeniería del Software.pdfIntroducción a la Ingeniería del Software.pdf
Introducción a la Ingeniería del Software.pdfSilviaReyes77
 
Las bases del análisis del sentimiento en redes sociales
Las bases del análisis del sentimiento en redes socialesLas bases del análisis del sentimiento en redes sociales
Las bases del análisis del sentimiento en redes socialesCyberIntellix
 
Machine Learning e inteligencia artificial en las organizaciones
Machine Learning e inteligencia artificial en las organizacionesMachine Learning e inteligencia artificial en las organizaciones
Machine Learning e inteligencia artificial en las organizacionesCRISEL BY AEFOL
 
SQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power biSQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power bijorge Muchaypiña
 
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativa
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativaAnaliticas de Aprendizaje: Nuevo paradigma en la investigación educativa
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativaXavier Ochoa
 
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación Educativa
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación EducativaAnalítica del Aprendizaje como Nuevo Paradigma de la Investigación Educativa
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación EducativaXavier Ochoa
 
INTRODUCCIÓN A LA USABILIDAD
INTRODUCCIÓN A LA USABILIDADINTRODUCCIÓN A LA USABILIDAD
INTRODUCCIÓN A LA USABILIDADVerónica Traynor
 
Proyecto enfocado al análisis y ciencia de Datos
Proyecto enfocado al análisis y ciencia de DatosProyecto enfocado al análisis y ciencia de Datos
Proyecto enfocado al análisis y ciencia de Datosanthony1999mayhuay
 
Voice Processing Technologies
Voice Processing TechnologiesVoice Processing Technologies
Voice Processing TechnologiesMartin Propato
 
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...jorge Muchaypiña
 
Azure Cognitive Services
Azure Cognitive Services Azure Cognitive Services
Azure Cognitive Services Luis Beltran
 

Ähnlich wie Recursos lingüísticos, análisis de sentimiento y APIs (20)

Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
 
Webquest 03: Delitos Informáticos
Webquest 03: Delitos InformáticosWebquest 03: Delitos Informáticos
Webquest 03: Delitos Informáticos
 
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...
CHATBOTS - USO DEL PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN LA IMPLEMENTAC...
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix Weekend
 
Redradix Weekend Textalytics
Redradix Weekend TextalyticsRedradix Weekend Textalytics
Redradix Weekend Textalytics
 
Introducción a la Ingeniería del Software.pdf
Introducción a la Ingeniería del Software.pdfIntroducción a la Ingeniería del Software.pdf
Introducción a la Ingeniería del Software.pdf
 
Las bases del análisis del sentimiento en redes sociales
Las bases del análisis del sentimiento en redes socialesLas bases del análisis del sentimiento en redes sociales
Las bases del análisis del sentimiento en redes sociales
 
Machine Learning e inteligencia artificial en las organizaciones
Machine Learning e inteligencia artificial en las organizacionesMachine Learning e inteligencia artificial en las organizaciones
Machine Learning e inteligencia artificial en las organizaciones
 
SQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power biSQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power bi
 
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativa
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativaAnaliticas de Aprendizaje: Nuevo paradigma en la investigación educativa
Analiticas de Aprendizaje: Nuevo paradigma en la investigación educativa
 
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación Educativa
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación EducativaAnalítica del Aprendizaje como Nuevo Paradigma de la Investigación Educativa
Analítica del Aprendizaje como Nuevo Paradigma de la Investigación Educativa
 
Context-Aware Recommender System
Context-Aware Recommender System�Context-Aware Recommender System�
Context-Aware Recommender System
 
INTRODUCCIÓN A LA USABILIDAD
INTRODUCCIÓN A LA USABILIDADINTRODUCCIÓN A LA USABILIDAD
INTRODUCCIÓN A LA USABILIDAD
 
Proyecto enfocado al análisis y ciencia de Datos
Proyecto enfocado al análisis y ciencia de DatosProyecto enfocado al análisis y ciencia de Datos
Proyecto enfocado al análisis y ciencia de Datos
 
Voice Processing Technologies
Voice Processing TechnologiesVoice Processing Technologies
Voice Processing Technologies
 
Monitorización y análisis de redes sociales con Opileak
Monitorización y análisis de redes sociales con OpileakMonitorización y análisis de redes sociales con Opileak
Monitorización y análisis de redes sociales con Opileak
 
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
 
Azure Cognitive Services
Azure Cognitive Services Azure Cognitive Services
Azure Cognitive Services
 
Bots
BotsBots
Bots
 
Slide Lewis Chimarro
Slide   Lewis ChimarroSlide   Lewis Chimarro
Slide Lewis Chimarro
 

Kürzlich hochgeladen

Unidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disolucionesUnidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disolucioneschorantina325
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdflauradbernals
 
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señorkkte210207
 
Las redes sociales en el mercado digital
Las redes sociales en el mercado digitalLas redes sociales en el mercado digital
Las redes sociales en el mercado digitalNayaniJulietaRamosRa
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdfedwinmelgarschlink2
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfisrael garcia
 

Kürzlich hochgeladen (6)

Unidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disolucionesUnidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disoluciones
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdf
 
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
02. Mr. Spencer (T.L. Sawn).pdf.libro de un señor
 
Las redes sociales en el mercado digital
Las redes sociales en el mercado digitalLas redes sociales en el mercado digital
Las redes sociales en el mercado digital
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
 

Recursos lingüísticos, análisis de sentimiento y APIs

  • 1. Recursos Linguísticos, Análisis de Sentimiento y APIs APIdays Mediterranea, 29-30 Mayo, 2014 :
  • 2. 1. EUROSENTIMENT 2. Web Semántica 3. Bases de conocimiento 4. WordNet 5. Caso Práctico 1 6. Procesamiento del Lenguaje Natural 7. Análisis de Sentimientos 8. Caso Práctico 2 9. Conclusiones y Futuro Índice Raúl Lario rlario@paradigmatecnologico.com Mario Muñoz mmunoz@paradigmatecnologico.com Autores Esther Peinado epeinado@paradigmatecnologico.com
  • 4. • Cada vez se vuelca más y más información en la Web. • Muy copiosa y muy diversa. • Las opiniones son especialmente valiosas. “Con la ayuda de herramientas NLP y conociendo los recursos lingüísticos disponibles, podemos sacar mucho valor de esos datos” 1 EUROSENTIMENT Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 5. • Dispersión de recursos • Ausencia de estándares • Limitaciones de uso “Todo ello dificulta la Interoperabilidad y la Reutilización” 1 EUROSENTIMENT Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 6. • Desarrollo a medida  • Long Tail • REST + JSON • Third Party Integration 1 EUROSENTIMENT Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 7. • Plataforma: cloud-based, escalable… • Subscripciones y Beneficios • IPR y Licencias • Seguridad • QA y SLAs 1 EUROSENTIMENT Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 8. MULTI-IDIOMA ORIENTADO A DOMINO INTEROPERABILIDAD SEMÁNTICA BASADO EN LINKED DATA
  • 9. Web Semántica Recursos Lingüísticos, Análisis de Sentimiento y APIs 2
  • 10. 2 Web Semántica Recursos Lingüísticos, Análisis de Sentimiento y APIs <http://www.eurosentiment.com/hotel/en/lexicalentry/room> a lemon:LexicalEntry . _:node18h8ttlh3x11 a lemon:CanonicalForm ; lemon:writtenRep "room"@en . <http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:canonicalForm _:node18h8ttlh3x11 . <http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> a lemon:Sense ; lemon:reference "04105893" ; lexinfo:partOfSpeach lexinfo:noun . <http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:sense <http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> . <http://www.eurosentiment.com/hotel/en/lexicon/paradigma> lemon:entry <http://www.eurosentiment.com/hotel/en/lexicalentry/room> . PREFIX lemon: <http://www.monnet-project.eu/lemon#> SELECT ?entry WHERE { <http://www.eurosentiment.com/electronics/en/lexicon> lemon:entry ?entry. }
  • 11. Bases de Conocimiento Recursos Lingüísticos, Análisis de Sentimiento y APIs 3
  • 12. 3 Bases de Conocimiento Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 14. WordNet: Base de datos léxica ● Synset ● PoS-tagging ● Palabras ● Significado ● Ejemplos ● Relaciones (hiperonimia, meronimia, …) 4 Wordnet 3.0 Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 15. 4 Wordnet 3.0 Recursos Lingüísticos, Análisis de Sentimiento y APIs factoría n#00017222: Organismo vivo carente del poder de locomoción n#05577190: La parte inferior del pie n#03365991: Una estructura que consiste en una habitación o conjunto de habitaciones en una única posición a lo largo de una escala vertical n#03956922: Edificios para la realización del trabajo industrial planta fábrica n#05563266: La parte de la pierna de un ser humano por debajo de la articulación del tobillo parte de
  • 16. ● WN-Domains ● WN-Affect ● Multi-WordNet ● SentiWordNet ● TempoWordNet ● ImageNet 4 Wordnet Extensions Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 17. Caso Práctico 1 Recursos Lingüísticos, Análisis de Sentimiento y APIs 5
  • 18. Hotel 12345678 Muy 12487456 Mucho 12425478 Personal 12114578 Bien 12111354 Situación 12108451 Totalmente 11687451 Excelente 11549846 Desayuno 10067874 Limpieza 9861212 …. WordNet 5 Caso Práctico 1 Recursos Lingüísticos, Análisis de Sentimiento y APIs 04105893 n habitación 07387509 n ruido -0’75 03579355 n internet 00980527 a lento -0’5 07575726 n comida 02343110 a excelente 1 08439955 n personal 01459422 n amabilidad 0’75 02818832 n cama 00476663 a estrecho -0,75 04446276 n baño 01391351 a pequeño -0’5 07574602 n desayuno 00106456 a escaso -0’5 01053617 n estancia 01800349 a grato 0’625
  • 19. Procesamiento del Lenguaje Natural Recursos Lingüísticos, Análisis de Sentimiento y APIs 6
  • 20. NLP = Informática + Lingüísitica 1) Tokenización 2) Lematización 3) POS-tagging (morfosintaxis) 4) Semántica 5) Conocimiento (Linked-Data) 6 Procesamiento del Lenguaje Natural Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 21. Reputación Online Extracción de información, análisis de sentimientos y emociones, NER Categorizador, recomendador, NER (basado en Wikipedia), moderación de comentarios (análisis de sentimiento) 6 Aplicaciones del Procesamiento del Lenguaje Natural Recursos Lingüísticos, Análisis de Sentimiento y APIs
  • 22. Análisis de Sentimiento Recursos Lingüísticos, Análisis de Sentimiento y APIs 7
  • 23. “Actividad que analiza un texto de acuerdo un algoritmo para identificar y cuantificar las opiniones que contiene acerca de entidades (productos, servicios, personajes...)” • Tipos: document-level, entity-level, feature-level • Frase por frase • Detección del Dominio Recursos Lingüísticos, Análisis de Sentimiento y APIs 7 Análisis de Sentimiento
  • 24. Caso Práctico 2 Recursos Lingüísticos, Análisis de Sentimiento y APIs 8
  • 25. Recursos Lingüísticos, Análisis de Sentimiento y APIs 8 Caso práctico 2 NLP: Análisis de sentimiento 1) Tokenización 2) Lematización 3) PoS-tagging (morfosintaxis) 4) Semántica La conexión a internet era lenta. Como punto más positivo destacaría la amabilidad del personal El cuarto de baño pequeño. Las camas son estrechas. ART NC VBO ADJ Como punto más positivo destacar el amabilidad del personal CSUB NC ADV ADJ VBO ART NC PDEL NC El cama ser estrecho. ART NC PREP NC VBO ADJ El cuarto de baño pequeño. ART NC PREP NC ADJ El conexión a internet ser lento. 03579355 n internet 00980527 a lento -0’5 08439955 n personal 01459422 n amabilidad 0’75 02818832 n cama 00476663 a estrecho -0,75 04446276 n baño 01391351 a pequeño -0’5 -1’0 +0’75 -0’75 -0’5 -0’5
  • 26. Conclusiones y Futuro Recursos Lingüísticos, Análisis de Sentimiento y APIs 9
  • 27. Recursos Lingüísticos, Análisis de Sentimiento y APIs 9 Conclusiones y Futuro • SaaS negocio al alza • Web de datos interconectados • Good research needs good resource!! • Aplicaciones: Social TV (2nd screen), RL multimedia
  • 28. • Develop a Sentiment Analysis tool for your brand in 10 minutes!, http://textalytics.com/blog/build-sentiment-analysis-in-twitter/ • Linked Data => Web of Data => Semantic Web, http://tomheath.com/blog/2009/03/linked-data- web-of-data-semantic-web-wtf/ • Linked Open Data, Tim Berners Lee, http://www.w3.org/2008/Talks/0617-lod-tbl/#(1) • Red temática española de Linked Data, http://red.linkeddata.es/web/guest • TED Talk, 2009: Tim Berners Lee: The next web http://www.ted.com/talks/tim_berners_lee_on_the_next_web#t-343422 • “Linguistic Linked Data for Sentiment Analysis”, P. Buitelaar • “Linked-Data based Domain-Specific Sentiment Lexicons”, G. Vulcu Related Projects: Recursos Lingüísticos, Análisis de Sentimiento y APIs Referencias
  • 29. Preguntas? Recursos Lingüísticos, Análisis de Sentimiento y APIs Esther Peinado – epeinado@paradigmatecnologico.com Mario Muñoz – mmunoz@paradigmatecnologico.com Raúl Lario – rlario@paradigmatecnologico.com ?

Hinweis der Redaktion

  1. “The explosion of IT has led to a substantial growth in quantity, diversity and complexity of linguistic data accessible on the Web.” En la web cada vez se vuelca más información, siendo en particular la textual muy valiosa (opiniones). Si dominas bien herramientas NLP y conoces qué recursos (Wikipedia, bases de conocimiento, ontologías, tesauros...) hay disponibles, puedes sacarle mucho partido a esos datos.
  2. “The lack of interoperability between linguistic and language resources represents a major challenge that needs to be addressed, in particular, if information from different sources is to be combined, such as machine-readable lexicons, corpus data and terminology repositories.” Actualmente, los recursos lingüísticos existentes están muy dispersos, no hay estándares definidos, hay limitaciones de uso... todo ello dificulta la interoperabilidad y la reutilización. S/E analysis can foster the development of new products and services. Nevertheless, the main obstacle to develop these services is the difficulty in accessing to multilingual LRs for s/e analysis. The main barriers we have identified are: 1. The developed LRs remain scattered and restricted to their customers. 2. Lack of agreed LR schemas and available multilingual LRs for s/e analysis. 3. Atomised s/e analysis projects resulting in reduced LRs visibility, accessibility and interoperability.
  3. More and more: Apprenda, AlchemyAPI, DataSift From case-by-case development to APIs to be used by many customers (long-tail) Ventaja: desembolso inicial menor, mashups - Ojo con la integración Standard de facto - REST more flexible than SOA - JSON lighter than XML 3rd party integration, win-win
  4. 1) Amazon: cloud-based, scalable, flexible 2) Security: Access Token RESOURCES: Global SparQL queries (SELECT * FROM language-domain) They must be detected and limited in terms of returned KB/lexical_entries. We try to avoid bad-customers to download whole lexicons and also to avoid high time/cpu-consuming queries. No way to specify which SparQL queries can be used for each lexicon since it would imply a loss of flexibility for SD and a lot of work for EuroSentiment. Responses cannot be stopped since there could exist actual queries like that. Eventually, the legal contract should include a clause like: ‘Don’t download the whole lexicon and quit EuroSentiment’. 3) Subscriptions: Flat Rate vs. Pay-As-You-Go Commitment: 1month? Free vs. NonFree Credits? BillCycle vs. month Changing Subscription in the middle of a BillCycle vs. Changis costs (informing customers + detail the traces with consumptions) Overage charges? Pricing & Limit rates Way of Payment: gateway, cc, RIB? → DCI-PSS, httpS, sensitive info 4) REVENUES: Sharing based on popularity, quality, complexity, volume? Fee: how much: 30%? Taxes Cost: CPU/HDD usage Multinational context for companies 5) IPR, Terms & Conditions, Licenses: - Simplicity: only 1 license for Resources LRGPL: less open of the GPL family 6) SLA/QA: - 3rd party services integrations - You must control the availability/stability/response_time/quality of them when register and with monitors - Effectiveness vs. Efficiency 7) Dissemination: Focus Group Surveys, feedback Demo Liaisons Newsletter
  5. EuroSentiment es un proyecto de I+D financiado por la UE, en el que colaboran empresas y universidades. Su objetivo es crear una plataforma de APIs (LR y S) multi-idioma/dominio/proveedor para la centralización de recursos y servicios lingüísticos. Busca facilitar el desarrollo de productos relacionados (detectores de dominio/idioma/entidades, análisis de sentimiento, análisis de emociones...), pues se trata de un mercado emergente que se quiere potenciar. 1. Multi-idioma: Inglés, Francés, Alemán, Castellano, Portugués, Catalán… 2. Orientado a dominio: Categorización necesaria para mejorar las precisiones y favorecer la colaboración. 3. Interoperabilidad semántica: Pseudo-automatic PIPELINE Alignment with WN 3.0 allows automatic inheritance among labeling results for different languages. RDF(xml/ttl) Standardization (lemon/Marl) Enrichment: Wikipedia articles vs. WN synsets, Wikipedia categories vs. WN-Domains, Dbpedia, Translations for Lexicons 4. Basado en Linked Data: Tim Berners Lee: “Linked Data is the Semantic Web done right” Data providers have started to publish and interlink data on the Web using URIs and standards (RDF) means (LD) ---> end (SW) based on tech (RDF) “Think about HTML documents; when people started weaving these together with hyperlinks we got a Web of documents. Now think about data. When people started weaving individual bits of data together with RDF triples (that expressed the relationship between these bits of data) we saw the emergence of a Web of data. Linked Data is no more complex than this – connecting related data across the Web using URIs, HTTP and RDF. Of course there are many ways to have linked data, but in common usage Linked Data refers to the principles set out by Tim Berners-Lee in 2006.” Charla TED Tim Berners-Lee Pubby: datasets published on the web as linked data (DBpedia…) “The resulting Web of Data currently consists of several billion RDF triples and covers domains such as geographic information, people, companies, online communities, films, music, books and scientific publications.” Linked Data browsers, Linked Data crawlers, Web of Data search engines and other applications that consume Linked Data from the Web. Linked Data in the web describes resources identified by URIs, interconnected with other resources and accessible via HTTP for both people and applications. Linked Data are often structured according to the RDF standard and they are accesible either as dumps or through query languages.
  6. La web se está volviendo más inteligente, y su potencial es brutal… si se siguen unas sencillas pautas. “que en un futuro espera que la informacion de la web tenga un significado exacto y que dicha informacion pueda ser comprendida y procesada por las computadoras, para que estas puedan integrar la informacion de la web.” [2000] Tim Berners Lee: “The first step is putting data on the Web in a form that machines can naturally understand, or converting it to that form. This creates what I call a Semantic Web – a web of data that can be processed directly or indirectly by machines.”
  7. Current knowledge bases are very specific and very cost-intensive to keep up-to-date DBpedia: “Crowd-sourced community effort to extract structured info. from Wikipedia and make this information available on the Web” - allows you to ask sophisticated queries against Wikipedia, and to link the different data sets on the Web to Wikipedia data. - Ha generado durante mucho tiempo información semántica a partir de la Wikipedia (100 millones de triples RDF, 70% accesible vía SparQL) - several advantages over existing knowledge bases: it covers many domains; it represents real community agreement; it automatically evolves as Wikipedia changes, and it is truly multilingual. FreeBase: “A community-curated database of well-known people, places, and things” Freebase has over 39 million topics about real-world entities like people, places and things. Since Freebase data is represented a graph, these topics correspond to the nodes in the graph. GeoNames: “Geographical database covers all countries and contains over eight million placenames” The GeoNames geographical database covers all countries and contains over eight million placenames that are available for download free of charge. YAGO: “Huge semantic knowledge base, derived from Wikipedia WordNet and GeoNames” Currently, YAGO2s has knowledge of more than 10 million entities (like persons, organizations, cities, etc.) and contains more than 120 million facts about these entities BableNet: “Multilingual encyclopedic dictionary, with lexicographic and encyclopedic coverage of terms in 50 languages, and a semantic network which connects concepts and named entities in a very large network of semantic relations” API Java
  8. Princeton,English lexical database Comenzó en 1985, muy madura, 155000 synsets (30 años) POS: sustantivos, verbos, adjetivos y adverbios Words: sinónimos o collocations (world_war) Relations: dependiendo del tipo de palabra (POS) hyperonym: todos los elementos de un grupo son de un tipo (todos los canes son perros), meronymy (pertenece a) ventana es parte de edificio
  9. Princeton,English lexical database There are more than 100,000 synsets in WordNet, majority of them are nouns (80,000+) D3.2: synset, [multi] lexical matrix, a-labels & d-labels hierarchies OTROS: TempoWN: free lexical knowledge base for temporal analysis where each synset of WordNet is assigned to its intrinsic temporal values. Each synset of WordNet is automatically time-tagged with four dimensions : atemporal, past, present and future. Imagenet (1000 images to illustrate each synset. Images of each concept are quality-controlled and human-annotated)
  10. WN-Domains y WN-Affect (son del FBK, fundación de empresas partner de EU) WN-Domains: por ejemplo para horse: Animals, Biology para years: Time_period WN-Domains: jerarquía (doctrinas, tiempo libre, ciencia aplicada, ciencias puras, ciencias sociales, …) WN-Domains: desambiguar: banco (dinero) - economy banco (arena) - geologia banco (construccion) - Arquitectura... WN-Affect: illness: physical state, inhibited: behaviour, intolerance: attitude, coldness: sensation MultiWordnet : FBK SentiWordNet: Istituto di Scienza e Tecnologie dell’Informazione TempoWN: free lexical knowledge base for temporal analysis where each synset of WordNet is assigned to its intrinsic temporal values. Each synset of WordNet is automatically time-tagged with four dimensions : atemporal, past, present and future. Imagenet (1000 images to illustrate each synset. Images of each concept are quality-controlled and human-annotated)
  11. 1) Webs de reviews (tripadvisor, amazon, booking…) 2) Scrapping (Python, XPath, SolR) [Rafa] 3) Tokenization + Lemmatization? + NER - stopwords 4) Frecuency (Pig) 5) Human Ranking (trade-off effort-recall) 6) Collocations (Pig) 7) 3-words window → triples 8) Human Review + WN disambiguation (POStagging) + Sentiment score (trade-off effort-recall) 9) SynsetId → MultiWordNet, WN-Affect, WN-Domains, SentiWordNet (custom) 10) Standardization: RDF(lemon/Marl) + RDF(sentiment marl dictionary) 11) Enrichment: Gabi? 12) Virtuoso → SparQL → s/e analysis services; 13) Pubby (LD publish)→ dereferencable url, LodLive De esta hemos pasado de las 6482 tripletas que ha etiquetado manualmente Miguel a estas: Inglés: 23.037 tripletas. Español: 8.315 tripletas. Portugués: 9.272 tripletas. Italiano: 15.632 tripletas. Catalán: 13.485 tripletas. Francés: 2.771 tripletas. ** Enseñar input/output de un LR procesado ----> Notepad ++
  12. Algoritmo LNP 1) 2) Lemmatizacion : cantico, cantaran -> cant Stemming: cantaran: cantar, cantico: canto 3) Clasificacion verbo/adjetivo/l…. Herramientas: TreeTagger, Freeling 4) ?¿?¿?¿?¿?¿ 5) Enlazar y enriquecer con otros datos relacionados (DBPedia, Wikipedia, …)
  13. Comentas posibilidades de sumarización
  14. == Minería de Opinión
  15. Identificación del Dominio muy importante  topic-classification, WN-Domains se ha usado en EUROSENTIMENT (ej: SentiWN polarity scores) Heurísticas necesarias: reglas de tagging, collocations, stopwords específicas, whitewords
  16. 1) Webs de reviews 2) Scrapping (Python, XPath, SolR) [Rafa] 3) Tokenization + Lemmatization? + NER - stopwords 4) Frecuency (Pig) 5) Human Ranking (trade-off effort-recall) 6) Collocations (Pig) 7) 3-words window → triples 8) Human Review + WN disambiguation (POStagging) + Sentiment score (trade-off effort-recall) 9) SynsetId → MultiWordNet, WN-Affect, WN-Domains, SentiWordNet (custom) 10) Standardization: RDF(lemon/Marl) + RDF(sentiment marl dictionary) 11) Enrichment: Gabi? 12) Virtuoso → SparQL → s/e analysis services; 13) Pubby (LD publish)→ dereferencable url, LodLive De esta hemos pasado de las 6482 tripletas que ha etiquetado manualmente Miguel a estas: Inglés: 23.037 tripletas. Español: 8.315 tripletas. Portugués: 9.272 tripletas. Italiano: 15.632 tripletas. Catalán: 13.485 tripletas. Francés: 2.771 tripletas. ** Enseñar input/output de un LR procesado ----> Notepad ++
  17. EUROSENTIMENT LRP project Intro to Semantic Web, NLP, S/E Analysis, LD concepts, standards and technologies. SaaS business in future (oportunidad) Good research needs good resource!! Multimodal Resources (Paul) APPS: Question Answering, Information Retrieval, Information Extraction, Summarization, Natural Language Generation, Inferences, and other knowledge intensive applications. TV: Aplicaciones que amplian la información del contenido (2nd screen), Social TV Media API Linguistic Metadata
  18. Papers, Events, Webs, Tools