Implementação VTLN Métodos Reconhecimento Voz

Implementação da técnica VTLN
Estudo de Métodos
Aluno: Ramon Mayor Martins
Prof: Carlos Alberto Ynoguti

Refinamento de Pesquisa
Processamento de Voz
Reconhecimento de Voz
Reconhecimento de
Palavras
Independente do Locutor
HMM
VTLN
Warping Factor
Selection
LT Metodos
Warp
Application
Warp Type
Parametric Features Based
Sintese da Fala Codificacao da Fala
Reconhecimento de
Locutor
Identificação da
Linguagem
Dependente do Locutor
Fala
Discreta
Fala
Contínua
Fala
Discreta
Fala
Contínua
Non-
Parametric
HMM Based
Modo Normal
Modo
Calibração
1- Maximum
Likelihood
2- Maximum
Log-Likelihood
3- ML com
referencia
GMM
7- ML warp
factor respect
GMM-UBM
4- Pitch-Based
warp factor
estimation
5- Pitch-Based
+ ML
estimation com
6-ML with
Jacobian
8- ML variacao
1
9- ML variacao
2

Implementação do VTLN – Estudo dos Métodos
-Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da
Universidade de Washington) recomendou 3 áreas de pesquisa sobre o VTLN.
• Warping Factor Selection: Como escolher o fator ótimo de distorção
de cada locutor
• Warp Application: Como aplicar a distorção nos dados
• Warp Type: Linear, Não-Linear, Piece-wise Linear.
-Procurou-se fazer uma pesquisa com relação á busca do Fator ótimo de
distorção.

Implementação do VTLN – Estudo dos Métodos
-Warping Factor Selection
-2 grandes decisões:
• Parametrico vs Não-Parametrico:
Estimar o fator de distorção , ou buscar o fator ótimo sobre uma faixa pré-determinada
de fatores de distorção.
• HMM (Model) Based vs Feature Based:
Usar HMM pré-treinados para estimar o fator de distorção , ou estima-lo
baseando nas características da fala? Feature Based , podem ser movidos
inteiramente no processamento de sinais do Front-End

Diagrama de Blocos: [Front-End ->VTLN -> HMM ]
VTLN
Convencional
VTLN Convencional
Pre-
Process
FFT
Banco de
Filtro
Log DCT
HCopy
MFCC
Treino
Distorção do
Eixo de Freq.
Normalização
de Locutor
Implementação
do Banco
Transformação
dos Parametros
HCompV
Sinal de MFCC
Voz
HERest HHEd
MFCC
Teste
config .mfcc
HVite HResult
Front-End , Extração de Características
Reconhecedor - HMM
HMM
Treinamento
Teste
Likelihood
Acc

Diagrama de Blocos: [Front-End ->VTLN -> HMM ]
2 Formas de busca do Warp Factor Selection
VTLN
Convencional
VTLN Convencional
Pre-
Process
FFT
Banco de
Filtro
Log DCT
HCopy
MFCC
Treino
Distorção do
Eixo de Freq.
Normalização
de Locutor
Implementação
do Banco
Transformação
dos Parametros
Feature Based
HCompV
Sinal de MFCC
Voz
HERest HHEd
MFCC
Teste
config .mfcc
HVite HResult
Front-End , Extração de Características
Reconhecedor - HMM
hmmx
Treinamento
Teste
Likelihood
Acc
Warp
Factor
Selection
HMM Model Based

VTLN Convencional
-Distorção do Eixo de Frequencia:
-O Banco de Filtros é escalonado no eixo das frequencias por um fator de
distorção.
-Segundo [1] tem-se maior eficiência do método quando o processo de
distorção é realizado no banco de filtros (variação do banco de filtros)

VTLN Convencional
-Fator de Distorção (Warp Factor)
-Com uma única FFT executada em cada segmento do sinal de fala analisado,
pode-se empregar diferentes fatores de distorção (normalização) diretamente
no banco de filtros.
-Função: Escalonar um banco de filtros , afim de compensar a variação do
comprimento do trato vocal de um locutor em relação a um trato vocal de
comprimento médio.
-Representado pela razão entre o comprimento do trato vocal do locutor sendo
analisado e o comprimento do trato vocal utilizado como referencia.

VTLN Convencional
-Fator de Distorção (Warp Factor)
-A estimação segura deste comprimento deve ocorrer baseada em dados
acusticos.
-No entanto isso é dificil de fazer uma vez que diferentes locutores possuem
diferentes comprimentos de trato vocal, que podem ser modificados de acordo
com o som produzido.
-Segundo [1] a melhor forma de se obter o fator responsavel pelo
escalonamento é escolhe-lo de modo que a probabilidade de um conjunto de
caracteristicas acusticas , de um determinado locutor, seja maximizada em
relação a um dado modelo acustico tomado como referencia.
-Não leva em consideração o movimento dos labios (não tem efeito significativo
na estimação do fator de distorção)
-O Fator de distorção pode ser estimado.

VTLN Convencional
-Fator de Distorção Otimo (Warp Factor)
-O principal objetivo do VTLN é encontrar um fator de distorção otimo para
deformar o eixo da frequência do sinal de fala, de modo que variações de
frequências formantes dos locutores pronunciando o mesmo som seja reduzida.
[Umesh - Indian Academy of Sciences,2011]
-O melhor alpha será aquele que, ao escalonarmos o banco de filtro, na escala
Mel, proporcionará a maior verossimilhança média nas suas locuções [Lee and
Rose,1998] , o que define o método padrão de busca do alpha ótimo, usado na
maioria dos artigos.

Métodos Estudados
• Método Padrão
0-Maximizing Likelihood [1]
• Métodos Alternativos
1- Maximizing Log-Likelihood [2]
2- Maximizing Likelihood with a GMM Reference [3]
3- Pitch-Based Warp Factor estimation [3]
4- Pitch-Based and ML Estimate – combinantion [3]
5- Maximizing Likelihood with Jacobian Transcript [4]
6- Maximizing Likelihood warp factor estimation respect to the GMM-UBM [5]
7- Maximizing Likelihood [Variação 1]

Métodos Padrão
Metodo 1: Maximizing Likelihood
Artigo:
[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE,
1998]
Resumo:
-O paper apresenta um método eficiente de estimar o fator de distorção e um
mecanismo para implementar o banco de filtro.
Obs: Bem explorado na tese da Raquel.

Métodos Padrão
-Fator de Distorção Otimo ( OptimalWarp Factor)
-Para cada locutor i , é então obtido pela máxima probabilidade de se obter um
conjunto de características acústicas, dado um modelo λ e as transcrições de cada
locução referente ao locutor i
- conjunto de características acusticas de todas as N
Locuções do locutor i, escalonados de alpha
- conjunto de transcrições de todas as N locuções
associadas a um dado locutor i
- ótimo fator de distorção para o locutor i
λ – representa o modelo HMM treinado por um grande numero de locutores

Métodos Padrão
-Escolha do Fator de Distorção Otimo ( OptimalWarp Factor)
-O melhor fator de distorção será aquele que, ao escalonarmos o banco de filtros,
na escala Mel, proporcionará a maior verossimilhança média nas suas locuções.
-Na escolha são levados em consideração
-Todas as locuções do locutor analisado
-A transcrição fonética das locuções associadas
a este locutor
-Sub-unidades adotadas (fones)
-modelo HMM utilizado como referencia

Métodos Padrão
-Algoritmo
Inicialização
-matrizes de transição e emissão , hmm1 pré-treinado
Recursao
-Definição de variável [alpha, Wi, Lambda, Xi ]
-Para cada locutor i, faz:
-calcular a maxima verossimilhança entre os 13 valores de alpha
-Armazenar o valor de alpha que proporciona a max verossimilhança
associado a seu respectivo locutor
-Usa-se o Viterbi para isso
Termino
-Finalizado quando se obtem para cada locutor i, o seu respectivo alpha

Métodos Padrão
-Treinamento (baseado na tese da Raquel)
-É realizado a partir de fones, locuções de treinamento separados por locutor,
transcrição fonética, alphas obtidos para cada locutor, e o modelo hmm1 (sem
normalização).
-Inicialmente:
-Calculam-se os alpha otimos para cada locutor do conjunto de M locutores de
treinamento
-Em seguida os alphas associados a seus respectivos locutores são empregados
para calcular um novo conjunto de parametros mel-cepstrais q serao utilizados
no treinamento do sistema
-O treinamento é entao executado durante tantas epocas (até a distorção de
0.001 de uma época para outra)
-Depois de realizada todas as epocas tem-se um novo modelo HMM

Métodos Padrão
-Treinamento (baseado na tese da Raquel)
-É feito uma comparação entre os valores alpha novo e alpha incialmente
calculado
-Obtem-se no final deste processo o HMM normalizado
-Reconhecimento
-Realizado da mesma forma q no sistema s/ normalização
-Entretanto, antes d se reconhecer cada locução deve-se escolher o melhor fator
de distorção para cada um dos locutores de teste
-O HMM normalizado (obtivo após o retreinamento) é utilizado tanto na escolha
do melhor alpha quanto no reconhecimento das locucoes
-Uma vez obtido o melhor fator de distorção , para cada locutor, este fator é
utilizado para todos as demais locucoes do respectivo locutor (na obtencao dos
parametros acusticos)

Métodos Alternativos
Metodo 1: Maximizing Log-Likelihood
Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal
Tract Length Normalization”, IEEE Transactions on ASLP, 2013]
Resumo do escopo do estimador:
-Apresenta um método que não é encontrado na literatura
-Apresenta um esquema de otimização baseado na máxima verossimilhança
para obter o fator de distorção (warp factor) para substituir o grid search.
-O fator de distorção mostrado no artigo , mostrou mais dependência do locutor
e mais independencia do conteudo acustico –fonético do que o fator de
distorção resultante dos métodos VTLN-convencional e VTLN estado da arte

Funcionamento:
-Ao invés de avaliar vários fatores de distorção para escolher aquele que
maximiza a verossimilhança , é sempre desejável estimar o ótimo
analiticamente
Estimador:
C – vetor característica
S – sequencia de estados dentro do λ (representando a decodificacao da
melhor hipotese dada por Viterbi, computado com C)
λ – sequencia de fonemas dependentes de contexto , modelo HMM com K
estados
- fator distorção otimo , estimado pelo maximo log-verossimilhança

Motivação:
-Reduzir a perturbação introduzida na estimação da energia do banco de filtro
Mel pela composição harmonica dos intervalos de fala e amostras DFT quando a
frequencia central dos filtros passa-faixa é deslocado.
Contra o Método Padrão:
-O deslocamento da frequencia central dos filtros passa-faixa pode introduzir
perturbações na estimação de energia do filtro devido a descontinuidade
causada pela DFT e a estrutura harmonica dos sinais de voz. Este problema é
especialmente agudo nas baixas frequencias onde a largura de faixa do filtro é
estreito de acordo com a escala Mel.

Método 2: Maximizing Likelihood with a GMM Reference
Método 3: Pitch-Based Warp Factor estimation
Método 4: Pitch-Based and ML Estimate – combinantion (Maximum a posteriori)
Artigo: [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp
Factors”, INTERSPEECH, 2005]
Resumo:
-Descrito uma abordagem alternativa
-Explora a correlação entre o pitch médio do locutor e o comprimento do
trato vocal, o modelo de distribuição de probabilidade do fator distorção
condicionado na observação do pitch
-Pitch do locutor (tom da voz, altura do som)

Método 4: Pitch-Based and ML Estimate – combinantion (MAP)
-Investigação :
-A estimação do fator de distorção baseado no pitch para VTLN é eficiente e
requer baixo custo computacional
-O método mais comum para achar o fator de distorção no VTLN invoca o
critério de ML para escolher o fator de distorção que da a maior
probabilidade de observação para o locutor
-A maxima verossimilhança pode ser computada usando modelos de
reconhecimento de fones.
Alternativas:
-Como Alternativa o fator de distorção pode ser escolhido pela maxima
verossimilhança das referencias acusticas dos Modelos de Misturas
Gaussianas (GMM)

-Alternativas:
-Outra abordagem de predição do fator de distorção é observando mais
diretamente parametros acusticos da fala, tal como os formantes
(frequencias ressonante do trato vocal)
-Há o método proposto por [C. Lopes e Perdigão, “VTLN through warp factors
based on pitch”, Revista Brasileira de Telecomunicações, vol 18 , 2003], onde
o fator de distorção é computado usando a relação do pitch de um locutor
para um valor de referencia. Faria, o autor do artigo sob analise, acredita que
essa abordagem não é ótima desde que o pitch não é diretamente
proporcional ao comprimento do trato vocal.
-De acordo com [Eide e Gish, 1996] , frequencias formantes são diretamente
proporcional ao comprimento do trato vocal.

Motivação:
-O trabalho de Faria, apresenta uma abordagem inspirada pela correlação
entre o tamanho laringeal e o comprimento do trato vocal.
Funcionamento:
-Durante o treinamento, a distribuição conjunta do pitch e o fator de
distorção é estimado pelo acumulo da verossimilhança da observação
acustica na medida dos valores do pitch.
-Essa distribuição conjunta, pode ser utilizada para selecionar o fator de
distorção mais provavel dado um pitch médio de um locutor, ou pode ser
utilizada como prioridade baseada em pitch para combinação com a maxima
verossimilhança usado na estimação do fator de distorção.

Vantagens:
-O processo de seleção do fator de distorção pode ser reduzido para a
extração de pitch, o qual irá reduzir o custo computacional e os recursos de
memoria requerido pelo VTLN.
-Usando o fator de estimação baseado em pitch para VTLN, provê uma
melhora substancial no sistema sem VTLN
-consegue-se ter uma maior precisão.

-Particularidade do método:
-A versossimilhança acustica pode ser computada usando uma Mistura
Multivariada Gaussiana ao modelo de fala generico em vez do modelamento
HMM temporal.
-a seleçao do fator de distorção pode ser deslocado completamente para o
front-end, com uma referencia GMM , para atribuir probabilidades dos
frames de locuções (warped utterance frames)
-Mais eficiente para estimar o fator de estimação (elimina a necessidade de
full recognition passes and rescored alignments)

Motivação:
-Melhorar o método da ML
Funcionamento:
-Correlação entre o pitch médio do locutor e o tamanho do seu trato vocal
-Leva em consideração a glote e as pregas vocais (o que afeta as
caracteristicas da fala)
-Pitch Based Warp Factor , simplesmente requer a probabilidade condicional
onde:
Fo – associado um valor único do pitch Fo de cada locutor
fi – é considerado o pitch médio do frame da fala do i-ésimo locutor

-dado um pitch observado Fo = fi , o fator de distorção é encontrado por:
-O modelamento de dos dados de treinamento é dado pela
Probabilidade condicional de um alpha em particular.

Método 4: Pitch-Based and ML Estimate – combination (MAP)
Funcionamento:
-Combinação dos Métidos 3 e 4
-o fator de distorção utiliza um critério de Maximum a posteriori
-Obteve resultados muito bons para a Normalização de Locutor, comparado
aos outros métodos e ao método padrão

Discussão:
-O método 3, VTLN com estimação de fator de distorção baseado em pitch é
um método eficiente de normalização de locutor
-Os experimentos demonstraram uma redução substancial no WER
comparado com um sistema sem VTLN
-Deste modo , pitch foi util para estimar o fator de distorção, mesmo quando
calculado sobre locuções curtas.
-É quase tão bom quanto o ML
-O método 4, melhorou bastante os resultados
-Mas somente no cenário com dados normalizados limitados

Métodos Alternativos – Método 5
Método 5: Maximizing Likelihood with Jacobian Transcript
Artigo:
[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear
Transformation based VTLN under Matched and Mis-matched Speaker
Conditions, IEEE, 2010]
Resumo:
-No artigo é estudado o efeito de usar o Jacobiano no VTLN como uma
transformação linear.
Funcionamento:
-Combinação dos Métidos 3 e 4
-o fator de distorção utiliza um critério de Maximum a posteriori
-Obteve resultados muito bons para a Normalização de Locutor, comparado
aos outros métodos e ao método padrão

Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM
Artigo:
[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based
Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010]
Resumo:
-Tenta combinar o espectro de um locutor para outro locutor pelo
escalonamento do eixo de frequencia do espectro com um fator de distorção
,ou fator VTLN.
-a estimação do fator de distorção é feito com respeito ao GMM-UBM

Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM
Funcionamento:
-Os passos envolvem uma estimação de α e um cluster de locutores baseado
em α
-Usa um separador UBM para um grupo de locutores alvo
-Os locutores alvo são agrupados / clusterizados baseados no fator α

Métodos Alternativos – Método 7/8
Artigo:
[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based
on Maximum Likelihood Criterion” , IEEE , 2009]
Resumo:
-O paper propoe usar modelo com uma gaussiana por estado no HMM como
um conjunto de modelo inicial
-Propoe algumas variacoes no método padrão
-Suprir a fraqueza do método padrão.

Funcionamento:
-O procedimento termina imediatamente após a 1ª iteração
-O modelo com uma gaussiana por estado HMM é escolhido porque ele não
pode aprender as caracteristica de um locutor em particular , ao contrário
dos modelos HMM com mais de uma mistura Gaussiana por estado.
Fraqueza do método padrão
-A fraqueza do processo padrão para estimação, é que ele favorece fonemas
frequentes e longos.

Variações para melhorar o método padrão
-1ª variação: Maximum Sample mean of likelihood per phoneme para um
locutor em particular
-objetivo: Eliminar a influencia da duração, mas não a influencia da
frequencia do fone na estimação do coeficiente VTN.
-2ª variação: Likelihood of a particular phoneme ,representa a média
amostral da verossimilhança de todo vetor caracteristica que pertence a esse
fonema.
-método mais robusto.

Propostas
Influência dos Parâmetros na Escolha do α ótimo (mel, delta
delta mel)
Influência da quantidade de locução na escolha do α ótimo
Reduzir a diferença de Crianças para Adultos o máximo possível
Otimizar o VTLN Convencional

Bibliografia
[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998]
[Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length
Normalization”, IEEE Transactions on ASLP, 2013]
[Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”,
INTERSPEECH, 2005]
[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation
based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010]
[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker-
Cluster UBM for Speaker Verification”, IEEE NCC, 2010]
[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on
Maximum Likelihood Criterion” , IEEE , 2009]

Implementação VTLN Métodos Reconhecimento Voz

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Ramon Mayor Martins

Mehr von Ramon Mayor Martins (12)

Implementação VTLN Métodos Reconhecimento Voz