SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Implementação da técnica VTLN 
Estudo de Métodos 
Aluno: Ramon Mayor Martins 
Prof: Carlos Alberto Ynoguti
Refinamento de Pesquisa 
Processamento de Voz 
Reconhecimento de Voz 
Reconhecimento de 
Palavras 
Independente do Locutor 
HMM 
VTLN 
Warping Factor 
Selection 
LT Metodos 
Warp 
Application 
Warp Type 
Parametric Features Based 
Sintese da Fala Codificacao da Fala 
Reconhecimento de 
Locutor 
Identificação da 
Linguagem 
Dependente do Locutor 
Fala 
Discreta 
Fala 
Contínua 
Fala 
Discreta 
Fala 
Contínua 
Non- 
Parametric 
HMM Based 
Modo Normal 
Modo 
Calibração 
1- Maximum 
Likelihood 
2- Maximum 
Log-Likelihood 
3- ML com 
referencia 
GMM 
7- ML warp 
factor respect 
GMM-UBM 
4- Pitch-Based 
warp factor 
estimation 
5- Pitch-Based 
+ ML 
estimation com 
6-ML with 
Jacobian 
8- ML variacao 
1 
9- ML variacao 
2
Refinamento de Pesquisa 
Processamento de Voz 
Reconhecimento de Voz 
Reconhecimento de 
Palavras 
Independente do Locutor 
HMM 
VTLN 
Warping Factor 
Selection 
LT Metodos 
Warp 
Application 
Warp Type 
Parametric Features Based 
Sintese da Fala Codificacao da Fala 
Reconhecimento de 
Locutor 
Identificação da 
Linguagem 
Dependente do Locutor 
Fala 
Discreta 
Fala 
Contínua 
Fala 
Discreta 
Fala 
Contínua 
Non- 
Parametric 
HMM Based 
Modo Normal 
Modo 
Calibração 
1- Maximum 
Likelihood 
2- Maximum 
Log-Likelihood 
3- ML com 
referencia 
GMM 
7- ML warp 
factor respect 
GMM-UBM 
4- Pitch-Based 
warp factor 
estimation 
5- Pitch-Based 
+ ML 
estimation com 
6-ML with 
Jacobian 
8- ML variacao 
1 
9- ML variacao 
2
Implementação do VTLN – Estudo dos Métodos 
-Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da 
Universidade de Washington) recomendou 3 áreas de pesquisa sobre o VTLN. 
• Warping Factor Selection: Como escolher o fator ótimo de distorção 
de cada locutor 
• Warp Application: Como aplicar a distorção nos dados 
• Warp Type: Linear, Não-Linear, Piece-wise Linear. 
-Procurou-se fazer uma pesquisa com relação á busca do Fator ótimo de 
distorção.
Implementação do VTLN – Estudo dos Métodos 
-Warping Factor Selection 
-2 grandes decisões: 
• Parametrico vs Não-Parametrico: 
Estimar o fator de distorção , ou buscar o fator ótimo sobre uma faixa pré-determinada 
de fatores de distorção. 
• HMM (Model) Based vs Feature Based: 
Usar HMM pré-treinados para estimar o fator de distorção , ou estima-lo 
baseando nas características da fala? Feature Based , podem ser movidos 
inteiramente no processamento de sinais do Front-End
Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 
VTLN 
Convencional 
VTLN Convencional 
Pre- 
Process 
FFT 
Banco de 
Filtro 
Log DCT 
HCopy 
MFCC 
Treino 
Distorção do 
Eixo de Freq. 
Normalização 
de Locutor 
Implementação 
do Banco 
Transformação 
dos Parametros 
HCompV 
Sinal de MFCC 
Voz 
HERest HHEd 
MFCC 
Teste 
config .mfcc 
HVite HResult 
Front-End , Extração de Características 
Reconhecedor - HMM 
HMM 
Treinamento 
Teste 
Likelihood 
Acc
Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 
2 Formas de busca do Warp Factor Selection 
VTLN 
Convencional 
VTLN Convencional 
Pre- 
Process 
FFT 
Banco de 
Filtro 
Log DCT 
HCopy 
MFCC 
Treino 
Distorção do 
Eixo de Freq. 
Normalização 
de Locutor 
Implementação 
do Banco 
Transformação 
dos Parametros 
Feature Based 
HCompV 
Sinal de MFCC 
Voz 
HERest HHEd 
MFCC 
Teste 
config .mfcc 
HVite HResult 
Front-End , Extração de Características 
Reconhecedor - HMM 
hmmx 
Treinamento 
Teste 
Likelihood 
Acc 
Warp 
Factor 
Selection 
HMM Model Based
VTLN Convencional 
-Distorção do Eixo de Frequencia: 
-O Banco de Filtros é escalonado no eixo das frequencias por um fator de 
distorção. 
-Segundo [1] tem-se maior eficiência do método quando o processo de 
distorção é realizado no banco de filtros (variação do banco de filtros)
VTLN Convencional 
-Fator de Distorção (Warp Factor) 
-Com uma única FFT executada em cada segmento do sinal de fala analisado, 
pode-se empregar diferentes fatores de distorção (normalização) diretamente 
no banco de filtros. 
-Função: Escalonar um banco de filtros , afim de compensar a variação do 
comprimento do trato vocal de um locutor em relação a um trato vocal de 
comprimento médio. 
-Representado pela razão entre o comprimento do trato vocal do locutor sendo 
analisado e o comprimento do trato vocal utilizado como referencia.
VTLN Convencional 
-Fator de Distorção (Warp Factor) 
-A estimação segura deste comprimento deve ocorrer baseada em dados 
acusticos. 
-No entanto isso é dificil de fazer uma vez que diferentes locutores possuem 
diferentes comprimentos de trato vocal, que podem ser modificados de acordo 
com o som produzido. 
-Segundo [1] a melhor forma de se obter o fator responsavel pelo 
escalonamento é escolhe-lo de modo que a probabilidade de um conjunto de 
caracteristicas acusticas , de um determinado locutor, seja maximizada em 
relação a um dado modelo acustico tomado como referencia. 
-Não leva em consideração o movimento dos labios (não tem efeito significativo 
na estimação do fator de distorção) 
-O Fator de distorção pode ser estimado.
VTLN Convencional 
-Fator de Distorção Otimo (Warp Factor) 
-O principal objetivo do VTLN é encontrar um fator de distorção otimo para 
deformar o eixo da frequência do sinal de fala, de modo que variações de 
frequências formantes dos locutores pronunciando o mesmo som seja reduzida. 
[Umesh - Indian Academy of Sciences,2011] 
-O melhor alpha será aquele que, ao escalonarmos o banco de filtro, na escala 
Mel, proporcionará a maior verossimilhança média nas suas locuções [Lee and 
Rose,1998] , o que define o método padrão de busca do alpha ótimo, usado na 
maioria dos artigos.
Métodos Estudados 
• Método Padrão 
0-Maximizing Likelihood [1] 
• Métodos Alternativos 
1- Maximizing Log-Likelihood [2] 
2- Maximizing Likelihood with a GMM Reference [3] 
3- Pitch-Based Warp Factor estimation [3] 
4- Pitch-Based and ML Estimate – combinantion [3] 
5- Maximizing Likelihood with Jacobian Transcript [4] 
6- Maximizing Likelihood warp factor estimation respect to the GMM-UBM [5] 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2]
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
Artigo: 
[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 
1998] 
Resumo: 
-O paper apresenta um método eficiente de estimar o fator de distorção e um 
mecanismo para implementar o banco de filtro. 
Obs: Bem explorado na tese da Raquel.
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Fator de Distorção Otimo ( OptimalWarp Factor) 
-Para cada locutor i , é então obtido pela máxima probabilidade de se obter um 
conjunto de características acústicas, dado um modelo λ e as transcrições de cada 
locução referente ao locutor i 
- conjunto de características acusticas de todas as N 
Locuções do locutor i, escalonados de alpha 
- conjunto de transcrições de todas as N locuções 
associadas a um dado locutor i 
- ótimo fator de distorção para o locutor i 
λ – representa o modelo HMM treinado por um grande numero de locutores
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Escolha do Fator de Distorção Otimo ( OptimalWarp Factor) 
-O melhor fator de distorção será aquele que, ao escalonarmos o banco de filtros, 
na escala Mel, proporcionará a maior verossimilhança média nas suas locuções. 
-Na escolha são levados em consideração 
-Todas as locuções do locutor analisado 
-A transcrição fonética das locuções associadas 
a este locutor 
-Sub-unidades adotadas (fones) 
-modelo HMM utilizado como referencia
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Algoritmo 
Inicialização 
-matrizes de transição e emissão , hmm1 pré-treinado 
Recursao 
-Definição de variável [alpha, Wi, Lambda, Xi ] 
-Para cada locutor i, faz: 
-calcular a maxima verossimilhança entre os 13 valores de alpha 
-Armazenar o valor de alpha que proporciona a max verossimilhança 
associado a seu respectivo locutor 
-Usa-se o Viterbi para isso 
Termino 
-Finalizado quando se obtem para cada locutor i, o seu respectivo alpha
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Treinamento (baseado na tese da Raquel) 
-É realizado a partir de fones, locuções de treinamento separados por locutor, 
transcrição fonética, alphas obtidos para cada locutor, e o modelo hmm1 (sem 
normalização). 
-Inicialmente: 
-Calculam-se os alpha otimos para cada locutor do conjunto de M locutores de 
treinamento 
-Em seguida os alphas associados a seus respectivos locutores são empregados 
para calcular um novo conjunto de parametros mel-cepstrais q serao utilizados 
no treinamento do sistema 
-O treinamento é entao executado durante tantas epocas (até a distorção de 
0.001 de uma época para outra) 
-Depois de realizada todas as epocas tem-se um novo modelo HMM
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Treinamento (baseado na tese da Raquel) 
-É feito uma comparação entre os valores alpha novo e alpha incialmente 
calculado 
-Obtem-se no final deste processo o HMM normalizado 
-Reconhecimento 
-Realizado da mesma forma q no sistema s/ normalização 
-Entretanto, antes d se reconhecer cada locução deve-se escolher o melhor fator 
de distorção para cada um dos locutores de teste 
-O HMM normalizado (obtivo após o retreinamento) é utilizado tanto na escolha 
do melhor alpha quanto no reconhecimento das locucoes 
-Uma vez obtido o melhor fator de distorção , para cada locutor, este fator é 
utilizado para todos as demais locucoes do respectivo locutor (na obtencao dos 
parametros acusticos)
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal 
Tract Length Normalization”, IEEE Transactions on ASLP, 2013] 
Resumo do escopo do estimador: 
-Apresenta um método que não é encontrado na literatura 
-Apresenta um esquema de otimização baseado na máxima verossimilhança 
para obter o fator de distorção (warp factor) para substituir o grid search. 
-O fator de distorção mostrado no artigo , mostrou mais dependência do locutor 
e mais independencia do conteudo acustico –fonético do que o fator de 
distorção resultante dos métodos VTLN-convencional e VTLN estado da arte
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Funcionamento: 
-Ao invés de avaliar vários fatores de distorção para escolher aquele que 
maximiza a verossimilhança , é sempre desejável estimar o ótimo 
analiticamente 
Estimador: 
C – vetor característica 
S – sequencia de estados dentro do λ (representando a decodificacao da 
melhor hipotese dada por Viterbi, computado com C) 
λ – sequencia de fonemas dependentes de contexto , modelo HMM com K 
estados 
- fator distorção otimo , estimado pelo maximo log-verossimilhança
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Motivação: 
-Reduzir a perturbação introduzida na estimação da energia do banco de filtro 
Mel pela composição harmonica dos intervalos de fala e amostras DFT quando a 
frequencia central dos filtros passa-faixa é deslocado. 
Contra o Método Padrão: 
-O deslocamento da frequencia central dos filtros passa-faixa pode introduzir 
perturbações na estimação de energia do filtro devido a descontinuidade 
causada pela DFT e a estrutura harmonica dos sinais de voz. Este problema é 
especialmente agudo nas baixas frequencias onde a largura de faixa do filtro é 
estreito de acordo com a escala Mel.
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (Maximum a posteriori) 
Artigo: [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp 
Factors”, INTERSPEECH, 2005] 
Resumo: 
-Descrito uma abordagem alternativa 
-Explora a correlação entre o pitch médio do locutor e o comprimento do 
trato vocal, o modelo de distribuição de probabilidade do fator distorção 
condicionado na observação do pitch 
-Pitch do locutor (tom da voz, altura do som)
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (MAP) 
-Investigação : 
-A estimação do fator de distorção baseado no pitch para VTLN é eficiente e 
requer baixo custo computacional 
-O método mais comum para achar o fator de distorção no VTLN invoca o 
critério de ML para escolher o fator de distorção que da a maior 
probabilidade de observação para o locutor 
-A maxima verossimilhança pode ser computada usando modelos de 
reconhecimento de fones. 
Alternativas: 
-Como Alternativa o fator de distorção pode ser escolhido pela maxima 
verossimilhança das referencias acusticas dos Modelos de Misturas 
Gaussianas (GMM)
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (MAP) 
-Alternativas: 
-Outra abordagem de predição do fator de distorção é observando mais 
diretamente parametros acusticos da fala, tal como os formantes 
(frequencias ressonante do trato vocal) 
-Há o método proposto por [C. Lopes e Perdigão, “VTLN through warp factors 
based on pitch”, Revista Brasileira de Telecomunicações, vol 18 , 2003], onde 
o fator de distorção é computado usando a relação do pitch de um locutor 
para um valor de referencia. Faria, o autor do artigo sob analise, acredita que 
essa abordagem não é ótima desde que o pitch não é diretamente 
proporcional ao comprimento do trato vocal. 
-De acordo com [Eide e Gish, 1996] , frequencias formantes são diretamente 
proporcional ao comprimento do trato vocal.
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (MAP) 
Motivação: 
-O trabalho de Faria, apresenta uma abordagem inspirada pela correlação 
entre o tamanho laringeal e o comprimento do trato vocal. 
Funcionamento: 
-Durante o treinamento, a distribuição conjunta do pitch e o fator de 
distorção é estimado pelo acumulo da verossimilhança da observação 
acustica na medida dos valores do pitch. 
-Essa distribuição conjunta, pode ser utilizada para selecionar o fator de 
distorção mais provavel dado um pitch médio de um locutor, ou pode ser 
utilizada como prioridade baseada em pitch para combinação com a maxima 
verossimilhança usado na estimação do fator de distorção.
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (MAP) 
Vantagens: 
-O processo de seleção do fator de distorção pode ser reduzido para a 
extração de pitch, o qual irá reduzir o custo computacional e os recursos de 
memoria requerido pelo VTLN. 
-Usando o fator de estimação baseado em pitch para VTLN, provê uma 
melhora substancial no sistema sem VTLN 
-consegue-se ter uma maior precisão.
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
-Particularidade do método: 
-A versossimilhança acustica pode ser computada usando uma Mistura 
Multivariada Gaussiana ao modelo de fala generico em vez do modelamento 
HMM temporal. 
-a seleçao do fator de distorção pode ser deslocado completamente para o 
front-end, com uma referencia GMM , para atribuir probabilidades dos 
frames de locuções (warped utterance frames) 
-Mais eficiente para estimar o fator de estimação (elimina a necessidade de 
full recognition passes and rescored alignments)
Métodos Alternativos 
Método 3: Pitch-Based Warp Factor estimation 
Motivação: 
-Melhorar o método da ML 
Funcionamento: 
-Correlação entre o pitch médio do locutor e o tamanho do seu trato vocal 
-Leva em consideração a glote e as pregas vocais (o que afeta as 
caracteristicas da fala) 
-Pitch Based Warp Factor , simplesmente requer a probabilidade condicional 
onde: 
Fo – associado um valor único do pitch Fo de cada locutor 
fi – é considerado o pitch médio do frame da fala do i-ésimo locutor
Métodos Alternativos 
Método 3: Pitch-Based Warp Factor estimation 
-dado um pitch observado Fo = fi , o fator de distorção é encontrado por: 
-O modelamento de dos dados de treinamento é dado pela 
Probabilidade condicional de um alpha em particular.
Métodos Alternativos 
Método 4: Pitch-Based and ML Estimate – combination (MAP) 
Funcionamento: 
-Combinação dos Métidos 3 e 4 
-o fator de distorção utiliza um critério de Maximum a posteriori 
-Obteve resultados muito bons para a Normalização de Locutor, comparado 
aos outros métodos e ao método padrão
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
Método 4: Pitch-Based and ML Estimate – combinantion (MAP) 
Discussão: 
-O método 3, VTLN com estimação de fator de distorção baseado em pitch é 
um método eficiente de normalização de locutor 
-Os experimentos demonstraram uma redução substancial no WER 
comparado com um sistema sem VTLN 
-Deste modo , pitch foi util para estimar o fator de distorção, mesmo quando 
calculado sobre locuções curtas. 
-É quase tão bom quanto o ML 
-O método 4, melhorou bastante os resultados 
-Mas somente no cenário com dados normalizados limitados
Métodos Alternativos 
Método 4: Pitch-Based and ML Estimate – combination (MAP) 
Funcionamento: 
-Combinação dos Métidos 3 e 4 
-o fator de distorção utiliza um critério de Maximum a posteriori 
-Obteve resultados muito bons para a Normalização de Locutor, comparado 
aos outros métodos e ao método padrão
Métodos Alternativos – Método 5 
Método 5: Maximizing Likelihood with Jacobian Transcript 
Artigo: 
[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear 
Transformation based VTLN under Matched and Mis-matched Speaker 
Conditions, IEEE, 2010] 
Resumo: 
-No artigo é estudado o efeito de usar o Jacobiano no VTLN como uma 
transformação linear. 
Funcionamento: 
-Combinação dos Métidos 3 e 4 
-o fator de distorção utiliza um critério de Maximum a posteriori 
-Obteve resultados muito bons para a Normalização de Locutor, comparado 
aos outros métodos e ao método padrão
Métodos Alternativos – Método 6 
Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM 
Artigo: 
[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based 
Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010] 
Resumo: 
-Tenta combinar o espectro de um locutor para outro locutor pelo 
escalonamento do eixo de frequencia do espectro com um fator de distorção 
,ou fator VTLN. 
-a estimação do fator de distorção é feito com respeito ao GMM-UBM
Métodos Alternativos – Método 6 
Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM 
Funcionamento: 
-Os passos envolvem uma estimação de α e um cluster de locutores baseado 
em α 
-Usa um separador UBM para um grupo de locutores alvo 
-Os locutores alvo são agrupados / clusterizados baseados no fator α
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Artigo: 
[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based 
on Maximum Likelihood Criterion” , IEEE , 2009] 
Resumo: 
-O paper propoe usar modelo com uma gaussiana por estado no HMM como 
um conjunto de modelo inicial 
-Propoe algumas variacoes no método padrão 
-Suprir a fraqueza do método padrão.
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Funcionamento: 
-O procedimento termina imediatamente após a 1ª iteração 
-O modelo com uma gaussiana por estado HMM é escolhido porque ele não 
pode aprender as caracteristica de um locutor em particular , ao contrário 
dos modelos HMM com mais de uma mistura Gaussiana por estado. 
Fraqueza do método padrão 
-A fraqueza do processo padrão para estimação, é que ele favorece fonemas 
frequentes e longos.
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Variações para melhorar o método padrão 
-1ª variação: Maximum Sample mean of likelihood per phoneme para um 
locutor em particular 
-objetivo: Eliminar a influencia da duração, mas não a influencia da 
frequencia do fone na estimação do coeficiente VTN. 
-2ª variação: Likelihood of a particular phoneme ,representa a média 
amostral da verossimilhança de todo vetor caracteristica que pertence a esse 
fonema. 
-método mais robusto.
Propostas 
Influência dos Parâmetros na Escolha do α ótimo (mel, delta 
delta mel) 
Influência da quantidade de locução na escolha do α ótimo 
Reduzir a diferença de Crianças para Adultos o máximo possível 
Otimizar o VTLN Convencional
Bibliografia 
[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] 
[Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length 
Normalization”, IEEE Transactions on ASLP, 2013] 
[Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, 
INTERSPEECH, 2005] 
[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation 
based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010] 
[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker- 
Cluster UBM for Speaker Verification”, IEEE NCC, 2010] 
[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on 
Maximum Likelihood Criterion” , IEEE , 2009]

Weitere ähnliche Inhalte

Mehr von Ramon Mayor Martins

IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1Ramon Mayor Martins
 
IFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareIFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareRamon Mayor Martins
 
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...Ramon Mayor Martins
 
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...Ramon Mayor Martins
 
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosIES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosRamon Mayor Martins
 
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...Ramon Mayor Martins
 
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Ramon Mayor Martins
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosRamon Mayor Martins
 
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRedes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRamon Mayor Martins
 

Mehr von Ramon Mayor Martins (12)

IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1
 
IFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareIFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por software
 
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
 
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
 
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosIES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
 
INATEL - Matlab introdução
INATEL - Matlab introduçãoINATEL - Matlab introdução
INATEL - Matlab introdução
 
Introdução ao matlab
Introdução ao matlabIntrodução ao matlab
Introdução ao matlab
 
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...
[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM n...
 
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios Cognitivos
 
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRedes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
 
Redes Oportunistas: Haggle
Redes Oportunistas: HaggleRedes Oportunistas: Haggle
Redes Oportunistas: Haggle
 

Implementação VTLN Métodos Reconhecimento Voz

  • 1. Implementação da técnica VTLN Estudo de Métodos Aluno: Ramon Mayor Martins Prof: Carlos Alberto Ynoguti
  • 2. Refinamento de Pesquisa Processamento de Voz Reconhecimento de Voz Reconhecimento de Palavras Independente do Locutor HMM VTLN Warping Factor Selection LT Metodos Warp Application Warp Type Parametric Features Based Sintese da Fala Codificacao da Fala Reconhecimento de Locutor Identificação da Linguagem Dependente do Locutor Fala Discreta Fala Contínua Fala Discreta Fala Contínua Non- Parametric HMM Based Modo Normal Modo Calibração 1- Maximum Likelihood 2- Maximum Log-Likelihood 3- ML com referencia GMM 7- ML warp factor respect GMM-UBM 4- Pitch-Based warp factor estimation 5- Pitch-Based + ML estimation com 6-ML with Jacobian 8- ML variacao 1 9- ML variacao 2
  • 3. Refinamento de Pesquisa Processamento de Voz Reconhecimento de Voz Reconhecimento de Palavras Independente do Locutor HMM VTLN Warping Factor Selection LT Metodos Warp Application Warp Type Parametric Features Based Sintese da Fala Codificacao da Fala Reconhecimento de Locutor Identificação da Linguagem Dependente do Locutor Fala Discreta Fala Contínua Fala Discreta Fala Contínua Non- Parametric HMM Based Modo Normal Modo Calibração 1- Maximum Likelihood 2- Maximum Log-Likelihood 3- ML com referencia GMM 7- ML warp factor respect GMM-UBM 4- Pitch-Based warp factor estimation 5- Pitch-Based + ML estimation com 6-ML with Jacobian 8- ML variacao 1 9- ML variacao 2
  • 4. Implementação do VTLN – Estudo dos Métodos -Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da Universidade de Washington) recomendou 3 áreas de pesquisa sobre o VTLN. • Warping Factor Selection: Como escolher o fator ótimo de distorção de cada locutor • Warp Application: Como aplicar a distorção nos dados • Warp Type: Linear, Não-Linear, Piece-wise Linear. -Procurou-se fazer uma pesquisa com relação á busca do Fator ótimo de distorção.
  • 5. Implementação do VTLN – Estudo dos Métodos -Warping Factor Selection -2 grandes decisões: • Parametrico vs Não-Parametrico: Estimar o fator de distorção , ou buscar o fator ótimo sobre uma faixa pré-determinada de fatores de distorção. • HMM (Model) Based vs Feature Based: Usar HMM pré-treinados para estimar o fator de distorção , ou estima-lo baseando nas características da fala? Feature Based , podem ser movidos inteiramente no processamento de sinais do Front-End
  • 6. Diagrama de Blocos: [Front-End ->VTLN -> HMM ] VTLN Convencional VTLN Convencional Pre- Process FFT Banco de Filtro Log DCT HCopy MFCC Treino Distorção do Eixo de Freq. Normalização de Locutor Implementação do Banco Transformação dos Parametros HCompV Sinal de MFCC Voz HERest HHEd MFCC Teste config .mfcc HVite HResult Front-End , Extração de Características Reconhecedor - HMM HMM Treinamento Teste Likelihood Acc
  • 7. Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 2 Formas de busca do Warp Factor Selection VTLN Convencional VTLN Convencional Pre- Process FFT Banco de Filtro Log DCT HCopy MFCC Treino Distorção do Eixo de Freq. Normalização de Locutor Implementação do Banco Transformação dos Parametros Feature Based HCompV Sinal de MFCC Voz HERest HHEd MFCC Teste config .mfcc HVite HResult Front-End , Extração de Características Reconhecedor - HMM hmmx Treinamento Teste Likelihood Acc Warp Factor Selection HMM Model Based
  • 8. VTLN Convencional -Distorção do Eixo de Frequencia: -O Banco de Filtros é escalonado no eixo das frequencias por um fator de distorção. -Segundo [1] tem-se maior eficiência do método quando o processo de distorção é realizado no banco de filtros (variação do banco de filtros)
  • 9. VTLN Convencional -Fator de Distorção (Warp Factor) -Com uma única FFT executada em cada segmento do sinal de fala analisado, pode-se empregar diferentes fatores de distorção (normalização) diretamente no banco de filtros. -Função: Escalonar um banco de filtros , afim de compensar a variação do comprimento do trato vocal de um locutor em relação a um trato vocal de comprimento médio. -Representado pela razão entre o comprimento do trato vocal do locutor sendo analisado e o comprimento do trato vocal utilizado como referencia.
  • 10. VTLN Convencional -Fator de Distorção (Warp Factor) -A estimação segura deste comprimento deve ocorrer baseada em dados acusticos. -No entanto isso é dificil de fazer uma vez que diferentes locutores possuem diferentes comprimentos de trato vocal, que podem ser modificados de acordo com o som produzido. -Segundo [1] a melhor forma de se obter o fator responsavel pelo escalonamento é escolhe-lo de modo que a probabilidade de um conjunto de caracteristicas acusticas , de um determinado locutor, seja maximizada em relação a um dado modelo acustico tomado como referencia. -Não leva em consideração o movimento dos labios (não tem efeito significativo na estimação do fator de distorção) -O Fator de distorção pode ser estimado.
  • 11. VTLN Convencional -Fator de Distorção Otimo (Warp Factor) -O principal objetivo do VTLN é encontrar um fator de distorção otimo para deformar o eixo da frequência do sinal de fala, de modo que variações de frequências formantes dos locutores pronunciando o mesmo som seja reduzida. [Umesh - Indian Academy of Sciences,2011] -O melhor alpha será aquele que, ao escalonarmos o banco de filtro, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções [Lee and Rose,1998] , o que define o método padrão de busca do alpha ótimo, usado na maioria dos artigos.
  • 12. Métodos Estudados • Método Padrão 0-Maximizing Likelihood [1] • Métodos Alternativos 1- Maximizing Log-Likelihood [2] 2- Maximizing Likelihood with a GMM Reference [3] 3- Pitch-Based Warp Factor estimation [3] 4- Pitch-Based and ML Estimate – combinantion [3] 5- Maximizing Likelihood with Jacobian Transcript [4] 6- Maximizing Likelihood warp factor estimation respect to the GMM-UBM [5] 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2]
  • 13. Métodos Padrão Metodo 1: Maximizing Likelihood Artigo: [Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] Resumo: -O paper apresenta um método eficiente de estimar o fator de distorção e um mecanismo para implementar o banco de filtro. Obs: Bem explorado na tese da Raquel.
  • 14. Métodos Padrão Metodo 1: Maximizing Likelihood -Fator de Distorção Otimo ( OptimalWarp Factor) -Para cada locutor i , é então obtido pela máxima probabilidade de se obter um conjunto de características acústicas, dado um modelo λ e as transcrições de cada locução referente ao locutor i - conjunto de características acusticas de todas as N Locuções do locutor i, escalonados de alpha - conjunto de transcrições de todas as N locuções associadas a um dado locutor i - ótimo fator de distorção para o locutor i λ – representa o modelo HMM treinado por um grande numero de locutores
  • 15. Métodos Padrão Metodo 1: Maximizing Likelihood -Escolha do Fator de Distorção Otimo ( OptimalWarp Factor) -O melhor fator de distorção será aquele que, ao escalonarmos o banco de filtros, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções. -Na escolha são levados em consideração -Todas as locuções do locutor analisado -A transcrição fonética das locuções associadas a este locutor -Sub-unidades adotadas (fones) -modelo HMM utilizado como referencia
  • 16. Métodos Padrão Metodo 1: Maximizing Likelihood -Algoritmo Inicialização -matrizes de transição e emissão , hmm1 pré-treinado Recursao -Definição de variável [alpha, Wi, Lambda, Xi ] -Para cada locutor i, faz: -calcular a maxima verossimilhança entre os 13 valores de alpha -Armazenar o valor de alpha que proporciona a max verossimilhança associado a seu respectivo locutor -Usa-se o Viterbi para isso Termino -Finalizado quando se obtem para cada locutor i, o seu respectivo alpha
  • 17. Métodos Padrão Metodo 1: Maximizing Likelihood -Treinamento (baseado na tese da Raquel) -É realizado a partir de fones, locuções de treinamento separados por locutor, transcrição fonética, alphas obtidos para cada locutor, e o modelo hmm1 (sem normalização). -Inicialmente: -Calculam-se os alpha otimos para cada locutor do conjunto de M locutores de treinamento -Em seguida os alphas associados a seus respectivos locutores são empregados para calcular um novo conjunto de parametros mel-cepstrais q serao utilizados no treinamento do sistema -O treinamento é entao executado durante tantas epocas (até a distorção de 0.001 de uma época para outra) -Depois de realizada todas as epocas tem-se um novo modelo HMM
  • 18. Métodos Padrão Metodo 1: Maximizing Likelihood -Treinamento (baseado na tese da Raquel) -É feito uma comparação entre os valores alpha novo e alpha incialmente calculado -Obtem-se no final deste processo o HMM normalizado -Reconhecimento -Realizado da mesma forma q no sistema s/ normalização -Entretanto, antes d se reconhecer cada locução deve-se escolher o melhor fator de distorção para cada um dos locutores de teste -O HMM normalizado (obtivo após o retreinamento) é utilizado tanto na escolha do melhor alpha quanto no reconhecimento das locucoes -Uma vez obtido o melhor fator de distorção , para cada locutor, este fator é utilizado para todos as demais locucoes do respectivo locutor (na obtencao dos parametros acusticos)
  • 19. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013] Resumo do escopo do estimador: -Apresenta um método que não é encontrado na literatura -Apresenta um esquema de otimização baseado na máxima verossimilhança para obter o fator de distorção (warp factor) para substituir o grid search. -O fator de distorção mostrado no artigo , mostrou mais dependência do locutor e mais independencia do conteudo acustico –fonético do que o fator de distorção resultante dos métodos VTLN-convencional e VTLN estado da arte
  • 20. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Funcionamento: -Ao invés de avaliar vários fatores de distorção para escolher aquele que maximiza a verossimilhança , é sempre desejável estimar o ótimo analiticamente Estimador: C – vetor característica S – sequencia de estados dentro do λ (representando a decodificacao da melhor hipotese dada por Viterbi, computado com C) λ – sequencia de fonemas dependentes de contexto , modelo HMM com K estados - fator distorção otimo , estimado pelo maximo log-verossimilhança
  • 21. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Motivação: -Reduzir a perturbação introduzida na estimação da energia do banco de filtro Mel pela composição harmonica dos intervalos de fala e amostras DFT quando a frequencia central dos filtros passa-faixa é deslocado. Contra o Método Padrão: -O deslocamento da frequencia central dos filtros passa-faixa pode introduzir perturbações na estimação de energia do filtro devido a descontinuidade causada pela DFT e a estrutura harmonica dos sinais de voz. Este problema é especialmente agudo nas baixas frequencias onde a largura de faixa do filtro é estreito de acordo com a escala Mel.
  • 22. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (Maximum a posteriori) Artigo: [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005] Resumo: -Descrito uma abordagem alternativa -Explora a correlação entre o pitch médio do locutor e o comprimento do trato vocal, o modelo de distribuição de probabilidade do fator distorção condicionado na observação do pitch -Pitch do locutor (tom da voz, altura do som)
  • 23. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) -Investigação : -A estimação do fator de distorção baseado no pitch para VTLN é eficiente e requer baixo custo computacional -O método mais comum para achar o fator de distorção no VTLN invoca o critério de ML para escolher o fator de distorção que da a maior probabilidade de observação para o locutor -A maxima verossimilhança pode ser computada usando modelos de reconhecimento de fones. Alternativas: -Como Alternativa o fator de distorção pode ser escolhido pela maxima verossimilhança das referencias acusticas dos Modelos de Misturas Gaussianas (GMM)
  • 24. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) -Alternativas: -Outra abordagem de predição do fator de distorção é observando mais diretamente parametros acusticos da fala, tal como os formantes (frequencias ressonante do trato vocal) -Há o método proposto por [C. Lopes e Perdigão, “VTLN through warp factors based on pitch”, Revista Brasileira de Telecomunicações, vol 18 , 2003], onde o fator de distorção é computado usando a relação do pitch de um locutor para um valor de referencia. Faria, o autor do artigo sob analise, acredita que essa abordagem não é ótima desde que o pitch não é diretamente proporcional ao comprimento do trato vocal. -De acordo com [Eide e Gish, 1996] , frequencias formantes são diretamente proporcional ao comprimento do trato vocal.
  • 25. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Motivação: -O trabalho de Faria, apresenta uma abordagem inspirada pela correlação entre o tamanho laringeal e o comprimento do trato vocal. Funcionamento: -Durante o treinamento, a distribuição conjunta do pitch e o fator de distorção é estimado pelo acumulo da verossimilhança da observação acustica na medida dos valores do pitch. -Essa distribuição conjunta, pode ser utilizada para selecionar o fator de distorção mais provavel dado um pitch médio de um locutor, ou pode ser utilizada como prioridade baseada em pitch para combinação com a maxima verossimilhança usado na estimação do fator de distorção.
  • 26. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Vantagens: -O processo de seleção do fator de distorção pode ser reduzido para a extração de pitch, o qual irá reduzir o custo computacional e os recursos de memoria requerido pelo VTLN. -Usando o fator de estimação baseado em pitch para VTLN, provê uma melhora substancial no sistema sem VTLN -consegue-se ter uma maior precisão.
  • 27. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference -Particularidade do método: -A versossimilhança acustica pode ser computada usando uma Mistura Multivariada Gaussiana ao modelo de fala generico em vez do modelamento HMM temporal. -a seleçao do fator de distorção pode ser deslocado completamente para o front-end, com uma referencia GMM , para atribuir probabilidades dos frames de locuções (warped utterance frames) -Mais eficiente para estimar o fator de estimação (elimina a necessidade de full recognition passes and rescored alignments)
  • 28. Métodos Alternativos Método 3: Pitch-Based Warp Factor estimation Motivação: -Melhorar o método da ML Funcionamento: -Correlação entre o pitch médio do locutor e o tamanho do seu trato vocal -Leva em consideração a glote e as pregas vocais (o que afeta as caracteristicas da fala) -Pitch Based Warp Factor , simplesmente requer a probabilidade condicional onde: Fo – associado um valor único do pitch Fo de cada locutor fi – é considerado o pitch médio do frame da fala do i-ésimo locutor
  • 29. Métodos Alternativos Método 3: Pitch-Based Warp Factor estimation -dado um pitch observado Fo = fi , o fator de distorção é encontrado por: -O modelamento de dos dados de treinamento é dado pela Probabilidade condicional de um alpha em particular.
  • 30. Métodos Alternativos Método 4: Pitch-Based and ML Estimate – combination (MAP) Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  • 31. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Discussão: -O método 3, VTLN com estimação de fator de distorção baseado em pitch é um método eficiente de normalização de locutor -Os experimentos demonstraram uma redução substancial no WER comparado com um sistema sem VTLN -Deste modo , pitch foi util para estimar o fator de distorção, mesmo quando calculado sobre locuções curtas. -É quase tão bom quanto o ML -O método 4, melhorou bastante os resultados -Mas somente no cenário com dados normalizados limitados
  • 32. Métodos Alternativos Método 4: Pitch-Based and ML Estimate – combination (MAP) Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  • 33. Métodos Alternativos – Método 5 Método 5: Maximizing Likelihood with Jacobian Transcript Artigo: [Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010] Resumo: -No artigo é estudado o efeito de usar o Jacobiano no VTLN como uma transformação linear. Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  • 34. Métodos Alternativos – Método 6 Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM Artigo: [Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010] Resumo: -Tenta combinar o espectro de um locutor para outro locutor pelo escalonamento do eixo de frequencia do espectro com um fator de distorção ,ou fator VTLN. -a estimação do fator de distorção é feito com respeito ao GMM-UBM
  • 35. Métodos Alternativos – Método 6 Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM Funcionamento: -Os passos envolvem uma estimação de α e um cluster de locutores baseado em α -Usa um separador UBM para um grupo de locutores alvo -Os locutores alvo são agrupados / clusterizados baseados no fator α
  • 36. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Artigo: [Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009] Resumo: -O paper propoe usar modelo com uma gaussiana por estado no HMM como um conjunto de modelo inicial -Propoe algumas variacoes no método padrão -Suprir a fraqueza do método padrão.
  • 37. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Funcionamento: -O procedimento termina imediatamente após a 1ª iteração -O modelo com uma gaussiana por estado HMM é escolhido porque ele não pode aprender as caracteristica de um locutor em particular , ao contrário dos modelos HMM com mais de uma mistura Gaussiana por estado. Fraqueza do método padrão -A fraqueza do processo padrão para estimação, é que ele favorece fonemas frequentes e longos.
  • 38. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Variações para melhorar o método padrão -1ª variação: Maximum Sample mean of likelihood per phoneme para um locutor em particular -objetivo: Eliminar a influencia da duração, mas não a influencia da frequencia do fone na estimação do coeficiente VTN. -2ª variação: Likelihood of a particular phoneme ,representa a média amostral da verossimilhança de todo vetor caracteristica que pertence a esse fonema. -método mais robusto.
  • 39. Propostas Influência dos Parâmetros na Escolha do α ótimo (mel, delta delta mel) Influência da quantidade de locução na escolha do α ótimo Reduzir a diferença de Crianças para Adultos o máximo possível Otimizar o VTLN Convencional
  • 40. Bibliografia [Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013] [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005] [Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010] [Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker- Cluster UBM for Speaker Verification”, IEEE NCC, 2010] [Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009]