Este documento describe los portales de voz, incluyendo su historia, estrategias de diálogo y casos prácticos. Los portales de voz han evolucionado de sistemas rígidos enfocados en reducir costes a sistemas más conversacionales que buscan mejorar la experiencia del cliente. En el futuro, los portales de voz se espera que sean sistemas expertos capaces de realizar transacciones de forma eficiente similar a un humano.
13. Wolfgang von
Kempelen
Speaking Machine
Sir Charles
Wheatstone
Improved Replica
Alexander Graham Bell
Experiments and
Research Telephone
Bell Telephone
Laboratory –
Homer Dudley
The Vocoder The
Voder - Electric
1769
Síntesis de Voz [Historia]
1 2 3 4
1837 1876 1937
14. DEC based on Dennis
Klatt’s work
DECtalk Stephen
Hawking
HMM-based Speech
Synthesis System (HTS)
Flexibility, quality,
naturalness
Yamaha – Vocaloid
UTAU (2008)
Singer voices and
music synthesizer
Deep Learning-based
Speech Synthesis
Conditional
distribution of acoustic
features given
linguistic features
1984
Síntesis de Voz [Historia]
5 6 7 8
1999 2004 2006
15. Casos Prácticos
Síntesis de Voz
Megafonía
Aeropuertos,mediosdetransporte,ascensores,sistemas
de gestión deturnos…
Ayuda en la navegación
SistemasGPS paralaconducción
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.
Asistentes
GoogleNow,Siri,Cortana…
Ayuda en la lectura
E-books parainvidentes
Aprendizajenuevos idiomas
17. Síntesis de Voz Ajustes y mejoras [TTS]
SSML
TTS soporta las etiquetas
definidas dentro del estándar
SSML (Speech Synthesis
Markup Language) a través de
las cuales podemos indicar al
motor la forma como
queremos sintetizar una
palabra o conjunto deellas.
Etiqueta Descripción
Reproducciónde ficheros(PCM–lineal 16bits)
Selecciónde aspectossemánticos
language
voice
prosody
say-as
break
audio
emphasis
age, gender, name
Pitch, range, rate, volume
date, time,digits, telephone
Selección del idiomade síntesis
Selección del tipode locutor
Selección de laintensidadde lavoz
Selección de aspectosprosódicos
Gestiónde pausas
<código>
VerbioPrompt(Por favor, tras oír la señal, diga dígito a dígito , la siguiente
secuencia: <prosody rate="x-slow">${DIGITS:0:1}<break
time="500ms">${DIGITS:1:1}<break time="500ms">${DIGITS:2:1}<break
time="500ms">${DIGITS:3:1} </prosody>.,${TTS},${SPK},v)
18. Retos
Síntesis de Voz
Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado)
Contemplar riesgos potenciales para evitar fraude y suplantación de identidad
Generar una voz sintéticapersonal y multiidioma
Contemplar diferencias fonéticas y prosódicas (como la entonación) entre idiomas
Expresar diferentes estados de ánimo con resultado realista, bien alterando la prosodia mediante
procesado digital de la señal (DSP) o mediante uso de diferentes unidades fonéticas.
20. Info gramatical
Contienen información
acercadelasestructuras
gramaticalesmásprobables
en el entorno detrabajo.
Info estadística
Contienen información de
probabilidadesdequeuna
palabraprecedao sucedaa
otra palabra.
Info contextual
Complementan al oído paraque
el motor dereconocimiento
determinecuál hasido la
locución pronunciada.
Los modelos lingüísticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestión de la decisión a tomar ante
ambigüedades acústicas, pues contienen información lingüística contextual para el entorno de trabajo.
El modelo lingüístico
01 02 03
Reconocimiento de VozFundamentos tecnológicos [ASR]
Los modelos acústicos son el oído del motor de reconocimiento.
Están basados en modelar los semi-fonemas del idioma de trabajoa partir de técnicas de procesado de la señal, principalmente en el dominio
espectral, que extraen sus particularidades únicas.
Cada semi-fonema es un modelo matemáticoque representa las característicasacústicasúnicas del fonema en cuestión en presencia de otro
fonema concreto anterior o posterior.
El modelo acústico
al restaurante
correr
comer
coser Ayer fuí a comer al restaurante
Gramáticas deterministas (ABNF, XML)
Modelos Estadísticosdel Lenguaje (SLM)
A%
Ayer fuí a
21. Distintos Tipos
Reconocimiento de Voz
Reconocimiento discreto
Capazdereconocer palabraso frasescortasdichastal y
como seespera,sin incluirdiscurso anterior o posterior.
Reconocimiento continuo
Capazdereconocer palabrasy expresionesen cualquier
punto dela conversación,no afectandoal reconocimiento
lo quesediceanteso despuésdelaexpresión.
Reconocimiento de lenguaje natural
Basado en transcripción,quea su vezsefundamentasobre
modelos estadísticosdel lenguaje,quetomanen cuentala
distribucióndeprobabilidades sobresecuenciasde
palabras.
Ejemplo
Comercial,marketing,técnico,recursos humanos…
Ejemplo
consultarel estadodemi cuenta,realizar una
transferencia,revisarunafactura,darmedebaja…
Ejemplo
Mi queja con el servicio vieneporquellevodos semanas
esperando a quemellegueel pedido.Medijeron que
tardaríaunasemanaen llegar,pero yahan pasadodos y
estoy muy disgustadaporquenadieseha puesto en
contactoconmigotodavía…
22. Casos Prácticos
Reconocimiento de Voz
Transcripción y Dictado
Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas
y actosdeprensa… Cualquierescenarioen el quese
requierapasar del canal habladoal escrito
Ayuda en la navegación
SistemasGPS paralaconducción
Móvilesconectadosmediantebluetooth
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Asistentes
GoogleNow,Siri,Cortana…
Aplicaciones móviles paraejecutar acciones
transaccionales
Ayuda
AprendizajeNuevos idiomas
Accesibilidady ayudaparadiscapacitados
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.
23. Retos
Reconocimiento de Voz
Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento
Dependiente del Locutor
Igualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento
Dependiente del Contexto
Nivelar avances para distintos Idiomas
Nivelar mejoras para diferentes canales
Mejorar el reconocimiento con ruido y para personas con diferentes características prosódicas (como
el acento)
25. Portales de Voz Estrategias de diálogo [ASR/TTS]
Se anuncianlasrespuestasposibles
a cada pregunta,loque implica
lentitudenlastransacciones
Flujo Secuencial
La máquinaconduce el diálogo:el
usuarionopuede tomarlainiciativa
enningúnmomento
Rigidezante casosde error,
llevandoalafrustracióndel usuario
26. Portales de Voz Estrategias de diálogo [ASR/TTS]
Las preguntaspuedensermás
abiertas,permitiendointroducir
más de undato porpregunta
Diálogo Acotado
El diálogose adaptaala experiencia
del usuario
Estrategiasde confirmaciones
implícitasypromptsdinámicos
Se podrántratar losdatos
agrupados(másde undato enla
respuesta) ydesordenados,e
inclusopermitiráal usuariocorregir
informaciónanteriormente
entregada,condiálogoadaptativo
enfunciónde lascircunstancias
27. Portales de Voz Estrategias de diálogo [Verbio ASR/TTS]
Apoyadoporreconocimientoybasado
enpatronesestadísticos,formula
preguntasabiertasytomadecisiones
dinámicamente enfunciónde la
respuesta
Diálogo Libre
Algoritmode decisióncomplejo
Se persigue agilizaraúnmásel
procesoparatodoslosusuarios,sin
penalizaralosesporádicosrespectoa
la estrategiaguiada
Sistemaexpertoque interacciona
con el usuariode formasimilara
comolo haría unhumano
28. Pregunta abierta
Desplegar un servicio telefónico automatizadodel
tipo “say anything”, donde el usuario podrá
responder abiertamente y con lenguaje naturala la
pregunta inicial “¿En qué puedo ayudarle?”.
Más de 60 operativas
El sistema deberá comprender el motivo por el cual
llama el usuario y etiquetar dicha llamada con la
categoría correcta entre las más de 60 existentes.
Recuperación de metadatos
No se trata de implementar un servicio de Call
Steering (redirección de llamadas). El sistema deberá
tener la capacidadde obtener información relevante
para la operativa seleccionada, con objeto de no
repreguntarlaposteriormente al usuario.
Redirección a IVR
Cuando el sistema haya comprendido el motivo de la
llamada, y tras haber extraído la información
disponible, redirigirá al usuario hacia la rama del IVR
correspondiente.
Experiencia conversacional
Se persigue ofrecer al usuario una experiencia
conversacional soportada en el estado del artedel
NLP (Lenguaje Natural), no sólo en la pregunta
abierta sino también en la automatizaciónde la
operativa posterior.
Servicio altamente autoatendido
Se busca la reducción de los costes de atención
telefónica, y se persigue que el portal de voz tenga la
capacidad de resolver la operativa demandada por el
usuario sin ser necesaria la intervención de un
agente.
Portales de Voz Lenguaje Natural [ASR/TTS]
? [A]
29. Los portales de Voz del pasado han hecho un uso deficiente de la tecnología,
buscando principalmentereducir costes
IVRs al servicio de las empresas
Portales de Voz - Pasado
Objetivo 1 - Disminuir necesidad de Agentes (Costes)
Objetivo 2 – Generar Ingresos para sufragar Costes (902)
Objetivo 3 – Disuadir al cliente de llevar a cabo ciertas operativas
30. Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa
o, al menos, no potenciar una imagen negativa
IVRs al servicio de las empresas y sus clientes
Portales de Voz - Presente
Objetivo 1 – Automatizar con calidad
Objetivo 2 – Conseguir promotores y prescriptores
Objetivo 3 – Optimización y mejora continua
31. Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar
transacciones y solucionar incidencias de forma (casi) tan eficiente como un humano
IVRs al servicio de sus clientes
Portales de Voz - Futuro
Objetivo 1 – Parte del Plan de Marketing. Orientación al cliente
Objetivo 2 – Transacciones rápidas, sencillas, cómodas y resolutivas
Objetivo 3 – Política de 0 clientes insatisfechos. Seguimiento
34. Los Contact Centers buscan la excelencia a través de métricas tales como el
Nivel de Servicio y Encuestas de Calidad (NPS)
Pasado, presente y futuro
Contact Centers
Pasado – Atender/Emitir llamadas por canal telefónico
Productividad
Presente – Atender/Emitir eventos por múltiples canales de contacto
Experiencia de Usuario (Calidad, Satisfacción, FCR, Tº resolución…)
Futuro – Convergencia y Seguimiento, Deslocalización y Cloud
Experiencia multicanal y personalizada para cada cliente
35. Para mejorarla calidad hay que empezarplanificándola,asegurando que los
procesos la cumplen y monitorizando queel resultado final es el esperado
El grado en el que un conjunto de características inherentes cumple con los requisitos
¿Qué es calidad?
Planificar la calidad (Diseño de procesos, argumentario, objeciones…)
Aseguramiento de la calidad (checklists, auditorías…)
Control de Calidad (encuestas de satisfacción, mistery shopping…)
36. Speech Analytics
Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla
Idea
Partiendo de:
- audios pregrabados para su posterior procesado
- conversaciones telefónicas en tiempo real
(pinchadas o intervenidas)
42. Text Analytics se usa también para generar modelos lingüísticos y estadísticos
usando técnicas de aprendizajeautomático con el fin de relacionar la información
para aportar conocimiento con fines predictivos o resolutivos
Procesamiento del Lenguaje Natural Predecir y Solucionar Problemas de Negocio
Text Analytics
Categorización, clustering, taxonomías
Extracción de datos de negocio, resúmenes
Sentiment Analysis
43. Procesamiento del Lenguaje Natural Predecir y Solucionar Problemas de Negocio
Text Analytics
CRM Analytics - Transcripción
Social Media Analytics + Sentiment Analysis
Intención de Compra, Predicción de rotación de clientes, Riesgo para
la Reputación…
45. Para generarla huella vocal se usará entrenamiento implícito o explícito
La huella vocal es tan fiable como la huella dactilar o el escáner de iris
Sistemas de Biometría
Verificación – Autenticación, Firma Vocal, Prueba de Vida
Identificación y Clustering – Lucha contra el Fraude
Indexación – Separación de locutores por marcas de tiempo
46. ¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios
Defensas antispoofing
Sistemas de Biometría
Anti Reproducción
Anti Repetición
Desafío dinámico
47. Retos
Biometría de Voz
Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser
sustituido por la voz)
Obtener validez legal al nivel del certificado electrónico para la firma digital de documentos
Integración multidispositivo para acceso a diferentes servicios – IoT
Mitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia
50. Asistentes Virtuales
Pasado: Asistentes Virtuales para Empresas
Ikea
Vueling
Eroski
Presente: Asistentes Virtuales para Móvil, PC
Google Now
Cortana
Siri
Futuro: Asistentes en Hogar, Wearables y en IoT
Amazon Echo
Ubi + Samsung SmartThings
51. Traducción Simultánea
Pasado: Traducción de Texto On-line
Google Translator
Presente:
Traducción de Texto y Voz en tiempo Real p2p
Skype Translator
Traducción de Mensajes (Realidad Aumentada) en tiempo Real
Google Translate(Móvil)
Futuro:
Traducción de Imágenes/Voz automática Mass-media
54. Retos
Unique ID:
Utilizar mecanismos biométricos combinados
Lenguaje Verbal + No Verbal:
Analizar las emociones mediante la voz y signos del cuerpo
Predicción:
Alertas automáticas que nos avisen de:
Oportunidades
Riesgos
Futurosproblemas