Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015

erbio
VoIP2Day 2015 Pablo Gil Robiou
Tendencias y aplicaciones prácticas
sobre tecnologías del habla

[NLP]
Procesamiento de
Lenguaje Natural

Antes
Poco
Avance
Expectativas
Frustradas
Poca
Precisión
Tecnología
No embebida
Pocas
Aplicaciones

https://youtu.be/CA4h59JbsD8
Antes

Últimos 18 meses
Gran
Avance
Expectativas
Altas
Mejor
Precisión
Tecnología
embebida
Algunas
Aplicaciones

https://youtu.be/3JsN56-6wjQ
Últimos 18 meses

Presente y Futuro
Avance
Vertiginoso
Explosión
Big Data
Nuevos
Dispositivos
Interacción
Rápida
Democratización y
Uso Masivo

Círculo VirtuosoMejora Continua

Círculo Virtuoso Lenguaje Natural
Adopción y
uso
Más datos
Mejor
rendimiento
Redes
Neuronales
BI
Data Mining

A continuación mostramos el Portfolio de Soluciones sobre Lenguaje Natural
Soluciones Empáticas

Contenido propuesto
Síntesis
de Voz
Reconocimiento
de Voz
Portales
de Voz
Contact Centers Biometría
Vocal

Wolfgang von
Kempelen
Speaking Machine
Sir Charles
Wheatstone
Improved Replica
Alexander Graham Bell
Experiments and
Research  Telephone
Bell Telephone
Laboratory –
Homer Dudley
The Vocoder  The
Voder - Electric
1769
Síntesis de Voz [Historia]
1 2 3 4
1837 1876 1937

DEC based on Dennis
Klatt’s work
DECtalk  Stephen
Hawking
HMM-based Speech
Synthesis System (HTS)
Flexibility, quality,
naturalness
Yamaha – Vocaloid
UTAU (2008)
Singer voices and
music synthesizer
Deep Learning-based
Speech Synthesis
Conditional
distribution of acoustic
features given
linguistic features
1984
Síntesis de Voz [Historia]
5 6 7 8
1999 2004 2006

Casos Prácticos
Síntesis de Voz
Megafonía
Aeropuertos,mediosdetransporte,ascensores,sistemas
de gestión deturnos…
Ayuda en la navegación
SistemasGPS paralaconducción
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.
Asistentes
GoogleNow,Siri,Cortana…
Ayuda en la lectura
E-books parainvidentes
Aprendizajenuevos idiomas

Retos
Síntesis de Voz
Diferentesestadosde ánimo (espectogramas)
Fuente: TUB emotional database

Síntesis de Voz Ajustes y mejoras [TTS]
SSML
TTS soporta las etiquetas
definidas dentro del estándar
SSML (Speech Synthesis
Markup Language) a través de
las cuales podemos indicar al
motor la forma como
queremos sintetizar una
palabra o conjunto deellas.
Etiqueta Descripción
Reproducciónde ficheros(PCM–lineal 16bits)
Selecciónde aspectossemánticos
language
voice
prosody
say-as
break
audio
emphasis
age, gender, name
Pitch, range, rate, volume
date, time,digits, telephone
Selección del idiomade síntesis
Selección del tipode locutor
Selección de laintensidadde lavoz
Selección de aspectosprosódicos
Gestiónde pausas



<código>
VerbioPrompt(Por favor, tras oír la señal, diga dígito a dígito , la siguiente
secuencia: <prosody rate="x-slow">${DIGITS:0:1}<break
time="500ms">${DIGITS:1:1}<break time="500ms">${DIGITS:2:1}<break
time="500ms">${DIGITS:3:1} </prosody>.,${TTS},${SPK},v)

Retos
Síntesis de Voz
Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado)
Contemplar riesgos potenciales para evitar fraude y suplantación de identidad
Generar una voz sintéticapersonal y multiidioma
Contemplar diferencias fonéticas y prosódicas (como la entonación) entre idiomas
Expresar diferentes estados de ánimo con resultado realista, bien alterando la prosodia mediante
procesado digital de la señal (DSP) o mediante uso de diferentes unidades fonéticas.

Info gramatical
Contienen información
acercadelasestructuras
gramaticalesmásprobables
en el entorno detrabajo.
Info estadística
Contienen información de
probabilidadesdequeuna
palabraprecedao sucedaa
otra palabra.
Info contextual
Complementan al oído paraque
el motor dereconocimiento
determinecuál hasido la
locución pronunciada.
Los modelos lingüísticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestión de la decisión a tomar ante
ambigüedades acústicas, pues contienen información lingüística contextual para el entorno de trabajo.
El modelo lingüístico
01 02 03
Reconocimiento de VozFundamentos tecnológicos [ASR]
Los modelos acústicos son el oído del motor de reconocimiento.
Están basados en modelar los semi-fonemas del idioma de trabajoa partir de técnicas de procesado de la señal, principalmente en el dominio
espectral, que extraen sus particularidades únicas.
Cada semi-fonema es un modelo matemáticoque representa las característicasacústicasúnicas del fonema en cuestión en presencia de otro
fonema concreto anterior o posterior.
El modelo acústico
al restaurante
correr
comer
coser Ayer fuí a comer al restaurante
Gramáticas deterministas (ABNF, XML)
Modelos Estadísticosdel Lenguaje (SLM)
A%
Ayer fuí a

Distintos Tipos
Reconocimiento de Voz
Reconocimiento discreto
Capazdereconocer palabraso frasescortasdichastal y
como seespera,sin incluirdiscurso anterior o posterior.
Reconocimiento continuo
Capazdereconocer palabrasy expresionesen cualquier
punto dela conversación,no afectandoal reconocimiento
lo quesediceanteso despuésdelaexpresión.
Reconocimiento de lenguaje natural
Basado en transcripción,quea su vezsefundamentasobre
modelos estadísticosdel lenguaje,quetomanen cuentala
distribucióndeprobabilidades sobresecuenciasde
palabras.
Ejemplo
Comercial,marketing,técnico,recursos humanos…
Ejemplo
consultarel estadodemi cuenta,realizar una
transferencia,revisarunafactura,darmedebaja…
Ejemplo
Mi queja con el servicio vieneporquellevodos semanas
esperando a quemellegueel pedido.Medijeron que
tardaríaunasemanaen llegar,pero yahan pasadodos y
estoy muy disgustadaporquenadieseha puesto en
contactoconmigotodavía…

Casos Prácticos
Transcripción y Dictado
Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas
y actosdeprensa… Cualquierescenarioen el quese
requierapasar del canal habladoal escrito
Ayuda en la navegación
SistemasGPS paralaconducción
Móvilesconectadosmediantebluetooth
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Asistentes
GoogleNow,Siri,Cortana…
Aplicaciones móviles paraejecutar acciones
transaccionales
Ayuda
AprendizajeNuevos idiomas
Accesibilidady ayudaparadiscapacitados
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.

Retos
Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento
Dependiente del Locutor
Igualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento
Dependiente del Contexto
Nivelar avances para distintos Idiomas
Nivelar mejoras para diferentes canales
Mejorar el reconocimiento con ruido y para personas con diferentes características prosódicas (como
el acento)

Portales de Voz Estrategias de diálogo [ASR/TTS]
Se anuncianlasrespuestasposibles
a cada pregunta,loque implica
lentitudenlastransacciones
Flujo Secuencial
La máquinaconduce el diálogo:el
usuarionopuede tomarlainiciativa
enningúnmomento
Rigidezante casosde error,
llevandoalafrustracióndel usuario

Portales de Voz Estrategias de diálogo [ASR/TTS]
Las preguntaspuedensermás
abiertas,permitiendointroducir
más de undato porpregunta
Diálogo Acotado
El diálogose adaptaala experiencia
del usuario
Estrategiasde confirmaciones
implícitasypromptsdinámicos
Se podrántratar losdatos
agrupados(másde undato enla
respuesta) ydesordenados,e
inclusopermitiráal usuariocorregir
informaciónanteriormente
entregada,condiálogoadaptativo
enfunciónde lascircunstancias

Portales de Voz Estrategias de diálogo [Verbio ASR/TTS]
Apoyadoporreconocimientoybasado
enpatronesestadísticos,formula
preguntasabiertasytomadecisiones
dinámicamente enfunciónde la
respuesta
Diálogo Libre
Algoritmode decisióncomplejo
Se persigue agilizaraúnmásel
procesoparatodoslosusuarios,sin
penalizaralosesporádicosrespectoa
la estrategiaguiada
Sistemaexpertoque interacciona
con el usuariode formasimilara
comolo haría unhumano

Pregunta abierta
Desplegar un servicio telefónico automatizadodel
tipo “say anything”, donde el usuario podrá
responder abiertamente y con lenguaje naturala la
pregunta inicial “¿En qué puedo ayudarle?”.
Más de 60 operativas
El sistema deberá comprender el motivo por el cual
llama el usuario y etiquetar dicha llamada con la
categoría correcta entre las más de 60 existentes.
Recuperación de metadatos
No se trata de implementar un servicio de Call
Steering (redirección de llamadas). El sistema deberá
tener la capacidadde obtener información relevante
para la operativa seleccionada, con objeto de no
repreguntarlaposteriormente al usuario.
Redirección a IVR
Cuando el sistema haya comprendido el motivo de la
llamada, y tras haber extraído la información
disponible, redirigirá al usuario hacia la rama del IVR
correspondiente.
Experiencia conversacional
Se persigue ofrecer al usuario una experiencia
conversacional soportada en el estado del artedel
NLP (Lenguaje Natural), no sólo en la pregunta
abierta sino también en la automatizaciónde la
operativa posterior.
Servicio altamente autoatendido
Se busca la reducción de los costes de atención
telefónica, y se persigue que el portal de voz tenga la
capacidad de resolver la operativa demandada por el
usuario sin ser necesaria la intervención de un
agente.
Portales de Voz Lenguaje Natural [ASR/TTS]
? [A]

Los portales de Voz del pasado han hecho un uso deficiente de la tecnología,
buscando principalmentereducir costes
IVRs al servicio de las empresas
Portales de Voz - Pasado
Objetivo 1 - Disminuir necesidad de Agentes (Costes)
Objetivo 2 – Generar Ingresos para sufragar Costes (902)
Objetivo 3 – Disuadir al cliente de llevar a cabo ciertas operativas

Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa
o, al menos, no potenciar una imagen negativa
IVRs al servicio de las empresas y sus clientes
Portales de Voz - Presente
Objetivo 1 – Automatizar con calidad
Objetivo 2 – Conseguir promotores y prescriptores
Objetivo 3 – Optimización y mejora continua

Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar
transacciones y solucionar incidencias de forma (casi) tan eficiente como un humano
IVRs al servicio de sus clientes
Portales de Voz - Futuro
Objetivo 1 – Parte del Plan de Marketing. Orientación al cliente
Objetivo 2 – Transacciones rápidas, sencillas, cómodas y resolutivas
Objetivo 3 – Política de 0 clientes insatisfechos. Seguimiento

[Speech & Text Analytics]
Contact
Centers

Contact Centers Multicanalidad [Speech Analytics]
Móvil App./SMS
Teléfono E-mail
WEB/Chat/IM
Redes SocialesFax/Carta

Los Contact Centers buscan la excelencia a través de métricas tales como el
Nivel de Servicio y Encuestas de Calidad (NPS)
Pasado, presente y futuro
Contact Centers
Pasado – Atender/Emitir llamadas por canal telefónico
Productividad
Presente – Atender/Emitir eventos por múltiples canales de contacto
Experiencia de Usuario (Calidad, Satisfacción, FCR, Tº resolución…)
Futuro – Convergencia y Seguimiento, Deslocalización y Cloud
Experiencia multicanal y personalizada para cada cliente

Para mejorarla calidad hay que empezarplanificándola,asegurando que los
procesos la cumplen y monitorizando queel resultado final es el esperado
El grado en el que un conjunto de características inherentes cumple con los requisitos
¿Qué es calidad?
Planificar la calidad (Diseño de procesos, argumentario, objeciones…)
Aseguramiento de la calidad (checklists, auditorías…)
Control de Calidad (encuestas de satisfacción, mistery shopping…)

Speech Analytics
Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla
Idea
Partiendo de:
- audios pregrabados para su posterior procesado
- conversaciones telefónicas en tiempo real
(pinchadas o intervenidas)

• Cruce de lainformaciónunidimensional recabadaen:
– Voz del Cliente
– Quality Assurance
– Cumplimientodela Normativa
• Conlas diferentescategoríasidentificadascomomotivosde la
llamada,paraconocerenqué medidase venimpactadoslos
diferentesKPIsdefinidosyacordadosconel cliente(FCR,
Transfer,ScriptCompliance, CrossSelling…),connavegación
enprofundidadyfiltrosde servicio, agente, supervisor,destino
y llamante.
Solución

Caso práctico [Verbio SA]
Análisis multidimensional

Text Analytics se usa también para generar modelos lingüísticos y estadísticos
usando técnicas de aprendizajeautomático con el fin de relacionar la información
para aportar conocimiento con fines predictivos o resolutivos
Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio
Text Analytics
Categorización, clustering, taxonomías
Extracción de datos de negocio, resúmenes
Sentiment Analysis

Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio
Text Analytics
CRM Analytics - Transcripción
Social Media Analytics + Sentiment Analysis
Intención de Compra, Predicción de rotación de clientes, Riesgo para
la Reputación…

[Speaker Recognition]
Biometría Vocal

Para generarla huella vocal se usará entrenamiento implícito o explícito
La huella vocal es tan fiable como la huella dactilar o el escáner de iris
Sistemas de Biometría
Verificación – Autenticación, Firma Vocal, Prueba de Vida
Identificación y Clustering – Lucha contra el Fraude
Indexación – Separación de locutores por marcas de tiempo

¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios
Defensas antispoofing
Sistemas de Biometría
Anti Reproducción
Anti Repetición
Desafío dinámico

Retos
Biometría de Voz
Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser
sustituido por la voz)
Obtener validez legal al nivel del certificado electrónico para la firma digital de documentos
Integración multidispositivo para acceso a diferentes servicios – IoT
Mitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia

[Aplicaciones Prácticas sobre Tecnologías del Habla]
Complementos

Asistentes Virtuales
Pasado: Asistentes Virtuales para Empresas
Ikea
Vueling
Eroski
Presente: Asistentes Virtuales para Móvil, PC
Google Now
Cortana
Siri
Futuro: Asistentes en Hogar, Wearables y en IoT
Amazon Echo
Ubi + Samsung SmartThings

Traducción Simultánea
Pasado: Traducción de Texto On-line
Google Translator
Presente:
Traducción de Texto y Voz en tiempo Real p2p
Skype Translator
Traducción de Mensajes (Realidad Aumentada) en tiempo Real
Google Translate(Móvil)
Futuro:
Traducción de Imágenes/Voz automática Mass-media

Wearables
Pasado:
Pulsómetro, GPS, Podómetro, GoPro, cascos BT, alarmas
Presente:
Smartwatches, Google Glass, Cámaras, eHealh, VR
Futuro:
Microchip interno, Casco Inflable, Smart Clothing, lentillas AR

Retos
Unique ID:
Utilizar mecanismos biométricos combinados
Lenguaje Verbal + No Verbal:
Analizar las emociones mediante la voz y signos del cuerpo
Predicción:
Alertas automáticas que nos avisen de:
Oportunidades
Riesgos
Futurosproblemas

Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015

Recomendados

Recomendados

Más contenido relacionado

Similar a Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015

Similar a Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015 (20)

Último

Último (11)

Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015