1. Tecnología para Publicación Semántica
Textalytics
by Daedalus
La manera más sencilla
de incorporar
procesamiento semántico
a tus aplicaciones
César de Pablo - @zdepablo
cdepablo@daedalus.es
Daedalus
1 de marzo de 2014
2. Textalytics API – Meaning as a Service
Agenda
Introducción a Textalytics (1h)
1. Daedalus - ¿Quienes somos?
2. Textalytics: Análisis de lenguaje y text mining
3. Paseo por las Core API
4. API verticales – Media Analysis – Semantic Publishing
Hacking (1h)
3. Textalytics API – Meaning as a Service
Daedalus
Empresa española especializada en el procesamiento de contenido no
estructurado, procesamiento de lenguaje natural y minería de texto.
Daedalus resuelve las “3 Vs” en análisis de contenido no estructurado
Variedad
Trata contenidos de
cualquier canal:
noticias, redes
sociales, blogs, etc.
Puede procesar texto,
voz, video
Capacidades
multiidioma (incl.
español)
Velocidad
Realiza análisis
sofisticados en tiempo
real
Permite gestionar “por
excepción”
Volumen
Tecnología multiproceso
escalable
Disponible en la nube
4. Textalytics API – Meaning as a Service
Algunos clientes
Medios
Servicios de información
Telecomunicación
Administración Pública
Defensa, Energía
6. Textalytics API – Meaning as a Service
Una variedad de tecnologías
Ontologías
Procesamiento de
Lenguaje Natural
Machine Learning
… la dificultad está en combinarlas de manera óptima
para cada aplicación
7. Textalytics API – Meaning as a Service
Nuestras nuevas APIs Semánticas
No es la típica API Lingüística
APIs Semánticas de alto nivel, optimizadas para escenarios de aplicación
API Análisis
Medios
API Voz del
Cliente (may)
Configuración y
Recursos
Lingüísticos
API Publicación
Semántica
Configuración y
Recursos
Lingüísticos
Configuración y
Recursos
Lingüísticos
Core API: funcionalidades individuales
Topics
Classif.
Sentiment
POS
Linked Data
8. Textalytics API – Meaning as a Service
Nuestras nuevas APIs Semánticas
No es la típica API Lingüística
APIs Semánticas de alto nivel, optimizadas para escenarios de aplicación
API Análisis
Medios
API Voz del
Cliente (may)
Configuración y
Recursos
Lingüísticos
API Publicación
Semántica
Configuración y
Recursos
Lingüísticos
Configuración y
Recursos
Lingüísticos
Core API: funcionalidades individuales
Topics
Classif.
Sentiment
POS
Linked Data
9. Textalytics API – Meaning as a Service
Características
●
Natural Language Processing and Semantics API
●
Multilingüe: EN, ES (FR,IT,PT,CA)
●
Servicios REST: JSON and XML
●
Developer SDK
●
●
●
Integración con herramientas de búsqueda: Solr,
ElasticSearch
Integracion con plataformas de procesamiento de contenido:
GATE, UIMa
Herramientas de productividad (Excel) + CMS
11. Textalytics API – Meaning as a Service
Análisis de lenguaje
El Iphone me gusta pero el teclado es incómodo
.
12. Textalytics API – Meaning as a Service
Análisis de lenguaje
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
13. Textalytics API – Meaning as a Service
Análisis de lenguaje
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
14. Textalytics API – Meaning as a Service
Análisis de lenguaje
Morfologia
T N
P
V
C
T N
V
A
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
15. Textalytics API – Meaning as a Service
Análisis de lenguaje
Morfologia
detallada
Morfologia
VI-S3PSAIL-N3
T N
P
V
C
T N
categoria: Verbo
modo: Indicativo
género: número: Singular
persona: 3º
tiempo: Presente
aspecto: simple
voz: Activa
transitividad: Intransitivo
V
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
16. Textalytics API – Meaning as a Service
Análisis de lenguaje
Sintaxis superf
Morfologia
SN
T N
SN
P
SV
V
V
C
C
SN
T N
SV
V
SA
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
17. Textalytics API – Meaning as a Service
Análisis de lenguaje
O
C
O
Sintaxis
GN
SV
Sintaxis superf
Morfologia
SN
T N
SN
P
SV
SV
V
V
C
C
SN
T N
SV
V
SA
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
18. Textalytics API – Meaning as a Service
Análisis de lenguaje
Semántica
O
C
O
Sintaxis
GN
SV
Sintaxis superf
Morfologia
SN
T N
SN
P
SV
SV
V
V
C
C
SN
T N
SV
V
SA
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
19. Textalytics API – Meaning as a Service
Análisis de lenguaje
Semántica
O
C
O
Sintaxis
GN
SV
Sintaxis superf
Morfologia
SN
T N
SN
P
SV
SV
V
V
C
C
SN
T N
SV
V
SA
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
20. Textalytics API – Meaning as a Service
Análisis de lenguaje
Semántica
O
C
O
Sintaxis
GN
SV
Sintaxis superf
Morfologia
SN
T N
SN
P
SV
SV
V
V
C
C
SN
T N
SV
V
SA
A.
1
Lematización
El Iphone yo gustar pero el teclado ser incómodo
.
Tokenización
El Iphone me gusta pero el teclado es incómodo
.
21. Textalytics API – Meaning as a Service
Análisis de lenguaje
Semántica
El Iphone me gusta pero el teclado es incómodo
22. Textalytics API – Meaning as a Service
Análisis de lenguaje
Conocimiento
fabricado por
Semántica
El Iphone me gusta pero el teclado es incómodo
23. Textalytics API – Meaning as a Service
Análisis de lenguaje
http://dbpedia.org/page/Apple_Inc.
Conocimiento
fabricado por
fabricado por
http://dbpedia.org/page/IPhone
Semántica
El Iphone me gusta pero el teclado es incómodo
24. Textalytics API – Meaning as a Service
Análisis de lenguaje
http://dbpedia.org/page/Apple_Inc.
Conocimiento
fabricado por
fabricado por
http://dbpedia.org/page/IPhone
Semántica
El Iphone me gusta pero el teclado es incómodo
27. Textalytics API – Meaning as a Service
Language Identification API
●
Identifica el idioma de un documento de texto
–
proporciona una lista de idiomas
–
idealmente un solo idioma
●
Elige entre 62 idiomas
●
Usa “firmas” de n-gramas
29. Textalytics API – Meaning as a Service
Text Classification API
●
Clasifica un documento respecto a su temática
–
–
●
jerarquia temática (taxonomía)
–
●
multiples etiquetas
relevancia
modelos predefinidos – IPTC, EUROVOC, Businnes
Reputation
construye tus propios modelos (SemPub API)
32. Textalytics API – Meaning as a Service
Lemmatization, POS and Parser API
●
Lematización – raiz de las palabras
●
Part of Speech – Análisis morfológico detallado
●
Reconocimiento de oraciones
●
Parsing – analisis sintáctico de constituyentes
●
Correferencia
33. Textalytics API – Meaning as a Service
Lemmatization, POS and Parser API
12
10
8
Columna 1
Columna 2
Columna 3
6
4
2
0
Fila 1
Fila 2
Fila 3
Fila 4
35. Textalytics API – Meaning as a Service
Topics Extraction API
●
Extracción del “ADN” del significado
●
Entidades – RedRadix, IPhone
●
Conceptos – empresa, teléfono, desarrollo de software
●
Datos relevantes
–
Expresiones temporales
–
Cantidades económicas
–
Direcciones electrónicas
–
Teléfonos
36. Textalytics API – Meaning as a Service
Topics Extraction API
9 tipos principales
person
+ de 200 tipos
(ontología)
location
●
Instances – BBVA
product
●
Classes – bank
event
●
fictional/historic
living thing
●
●
organization
id
unit
other entity
37. Textalytics API – Meaning as a Service
Social TV – organizando la
conversación en tiempo real
38. Textalytics API – Meaning as a Service
Caso cliente: WhoGotFunded
Caso cliente: WhoGotFunded
Regístrate gratis en
http://www.whogotfunded.com
Eventos de financiación
Empresa/start-up
País
Sector
Cantidad
Inversor/es
40. Textalytics API – Meaning as a Service
Inserción de conocimiento
●
Reconocer: Apple
●
Clasificar:
–
●
Agrupar:
–
●
Top>Organization>Company>
TechnologyCompany>SoftwareCompany
Apple, Apple Inc
Desambiguar:
–
apple vs Apple Inc.
41. Textalytics API – Meaning as a Service
Linked Open Data
“best practice for exposing, sharing and connecting pieces
of data, information and knowledge using URIs and RDF”
42. Textalytics API – Meaning as a Service
Linked Open Data
“best practice for exposing, sharing and connecting pieces
of data, information and knowledge using URIs and RDF”
Web for Humans
Web for Machines
43. Textalytics API – Meaning as a Service
Linked Open Data
1. Usar URI para denotar cosas
2. Usar HTTP URI para que se puedan resolver por personas y
“user agents”
3. Proporciona información util usando estándares como RDF y
SPARQL
4. Incluye enlaces a otras cosas relacionadas usando sus URI
44. Textalytics API – Meaning as a Service
http://dbpedia.org/page/Apple
http://dbpedia.org/page/Apple_Inc.
45. Textalytics API – Meaning as a Service
http://www.freebase.com/m/0k8z
47. Textalytics API – Meaning as a Service
Semantic Linked Data Viewer API
●
●
●
Facilita el acceso a la
nube de Linked Data
recuperar “hechos” más
importantes en un
idioma concreto
Conectado a la ontología
de Daedalus
49. Textalytics API – Meaning as a Service
Sentiment Analysis API
●
Extracción de sentimiento a nivel de documento
–
–
●
Sentimiento: Positivo, Negativo, Neutro
Subjetivo/Objetivo
Extracción de opiniones para:
–
–
●
Entidades
Conceptos
Adaptado a textos cortos (micropost) y UGC
–
RT, @, hashtags, emoticons, spelling errors, disfluence
50. Textalytics API – Meaning as a Service
Social TV – monitorizando
el sentimiento de un programa
52. Textalytics API – Meaning as a Service
User Demographics API
●
Perfilado de los usuarios según perfil de redes sociales
(Twitter)
–
Tipo: Persona, Organización
–
Sexo: masculino, femenino
–
Edad
55. Textalytics API – Meaning as a Service
Spell, Grammar
and Style Proofreading API
●
Correción de textos
–
–
●
Gramátical
–
●
Ortográfica
Estilo
Guías de estilo: EL PAIS, RAE, Fundeu
Sugerencias, correción interactiva, varios diccionarios
temáticos y variedades lingüísticas
56. Textalytics API – Meaning as a Service
Speech Recognition
and Speaker Diarization API
●
Bulk API
●
Reconocimiento de habla continua
–
–
no interactivo
–
●
contenido multimedia: transcripción de video y audio
vocabulario independiente de dominio – alta
precisión
Reconocimiento de locutor
–
Identificación de cada hablante y características
(sexo)
57.
58. Textalytics API – Meaning as a Service
Media Analysis API
Media Analysis API
Para quién
Agencias y departamentos de marketing/comunicación/
seguimiento de medios, depart. reputación corporativa
Qué necesidad
cubre
Entender lo que se dice en medios sociales y tradicionales
en volumen, velocidad, variedad
Cómo lo hace
Servicios personalizables para monitorización de marcas,
organizaciones, personas, temas, análisis de sentimiento
Beneficios
Información más completa, precisa y “actuable” de todo
tipo de medios, en tiempo real y sin importar volumen
Aplicaciones
Seguimiento de medios, análisis competitivo, social TV,
publicidad enfocada (intención)
Disponibilidad
YA
59. Textalytics API – Meaning as a Service
Semantic Publishing API
Semantic Publishing API
Para quién
Medios de comunicación (prensa, radio, TV), editoriales,
publicadores de contenidos
Qué necesidad
cubre
Producir contenidos más valiosos, más rápidamente y con
menor coste, monetizarlos mejor
Cómo lo hace
Servicios personalizables de etiquetado, enriquecimiento,
revisión
Beneficios
Mayores posibilidades de caracterizar, descubrir,
encontrar, reutilizar, modularizar, relacionar, combinar,
personalizar… contenidos
Aplicaciones
Publicación semántica dinámica, productos a medida,
gestión de archivo/activos digitales, publicidad enfocada
(contexto)
Disponibilidad
Ya
61. Textalytics API – Meaning as a Service
Precios
Crédito: unidad de consumo para todas las API
El usuario puede gastar sus créditos en las API que desee
Las API consumen créditos a diferente velocidad
500.000 créditos/mes GRATIS
1 crédito = 1 palabra procesada
con una API de alto nivel
62. Textalytics API – Meaning as a Service
Roadmap (sujeto a cambios)
Febrero 2014
Mayo 2014
Septiembre 2014
Semantic Publishing API
•
•
Etiquetado y enriquecimiento
Corrección y estandarización
Funcionalidad transversal
•
Diccionarios y modelos
personalizados
Voice of Customer API
•
•
•
•
Moderación de contenidos
Buying signals
Reputación corporativa
Modelos de clasificación
orientados a CRM
Funcionalidad transversal
•
Ayudas a la integración y
fomento del ecosistema
•
•
•
•
•
plug-ins CMS
integración ofimática
plataforma aps. móviles
integración buscadores
integración entornos PLN
FAQs API
•
Consulta en lenguaje natural
Funcionalidad transversal
•
Detección de relaciones
dependientes de la
aplicación
• Perfilado avanzado de
usuarios
• Clasificación de emociones
63. Textalytics API – Meaning as a Service
¡Gracias por vuestra atención!
Preguntas, sugerencias, etc.
Antonio Matarranz
Director Comercial
amatarranz@daedalus.es
Daedalus, S.A.
Tel: +34 913324301
info@daedalus.es
http://www.daedalus.es
@daedalus_sa