Los sistemas de reconocimiento de voz deben lidiar con la gramática, los distintos acentos dentro de un idioma y las diferentes formas de hablar de cada persona. Utilizan modelos acústicos, lingüísticos y semánticos para identificar el idioma, entender el significado y la construcción de frases, y comprender cómo varía el habla según la región y cultura. Un motor estadístico almacena y busca frases en una base de datos.
Avances tecnológicos del siglo XXI y ejemplos de estos
Sistemas de control de voz
1. SISTEMAS DE CONTROL DE VOZ
EL MODELO ACÚSTICO, LA TECNOLOGÍA IDENTIFICA SI EL SONIDO PROCEDE DE UN MÓVIL,
TELÉFONO IP O CUALQUIER OTRO MEDIO.
EL MODELO LINGÜÍSTICO TRATA DEL IDIOMA. PERO NO ES TAN SENCILLO COMO INDICAR AL
SISTEMA QUE INDENTIFIQUE EL IDIOMA. NO SÓLO ES ENTENDER LA LENGUA SINO LOS DISTINTOS
ACENTOS CON QUE SE HABLA E INCLUSO ENTENDER LAS FORMAS DE EXPRESARSE, QUE PUEDEN SER
DIFERENTES EN CADA HABLANTE.
MODELO SEMÁNTICO. CON ÉL SE CONSIGUE QUE UN SISTEMA DE RECONOCIMIENTO DE VOZ ENTIENDA
LA FORMA DE HABLAR DE LA GENTE, CÓMO SE CONSTRUYEN LAS FRASES Y CÓMO PUEDE VARIAR ESTA
CONSTRUCCIÓN, DEPENDIENDO DE LA REGIÓN, DE LA CULTURA Y DE TODAS LAS INFLUENCIAS
PERSONALES.
POR ÚLTIMO, FUNCIONA UN MOTOR ESTADÍSTICO, QUE ALMACENA LA FRASE O TEXTO Y REALIZA UNA
BÚSQUEDA EN LA BASE DE DATOS CON ESTOS TÉRMINOS.
2. • Los sistemas de reconocimiento de voz tienen que lidiar con la gramática así como con los
distintos acentos dentro de un idioma y las diferentes formas de hablar de cada persona.
• La biometría registra el timbre, la edad y el género masculino o femenino de una voz para
establecer estas características como contraseña.
Entrando en las técnicas de captura y transmisión de la voz para aplicaciones de reconocimiento de
voz aplicadas al Hogar Digital se comprueba que unos valores óptimos pueden ser:
-Ancho de banda señal de voz: 8.000 Hz.
-Filtrado mediante paso banda con frecuencias de corte de 100Hz y 8.000Hz.
-Frecuencia de muestreo: 16 KHz
-Codificación: 10 bits
-Bit rate mínimo que debe asegurar el BUS: 1,6 Mbit/s
3. Si el sistema se humaniza, la interacción es más
natural para los usuarios. Desde el punto de vista
técnico también es positiva la introducción de una
palabra de atención y que permite “despertar” al
sistema con una palabra clave que a su vez sirve como
ajuste de los sistemas captadores de audio. Es
favorable el uso como palabra “CLAVE” de nombres poco
comunes y de más de dos sílabas. También se valora
positivamente la inclusión de aplicaciones de
verificación del hablante, localización del usuario
en la vivienda y el procesado de órdenes simultaneas
por diferentes usuarios localizados en puntos
diferentes de la vivienda.