変調スペクトルを考慮したHMM音声合成

日本音響学会 2013年秋季研究発表会
２－７－１０

変調スペクトルを考慮したHMM音声合成

高道慎之介戸田智基
Graham Neubig Sakriani Sakti 中村哲（奈良先端大）

2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST
09/26/2013

発表概要
 問題： HMM音声合成 [Zen et al., 2009.] の音質劣化
– HMMの平滑化処理により発生
– 平滑化の影響を定量的に表現する特徴量とは？

 平滑化を表現する特徴量とは？：
– パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.]
– 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入

 提案法：変調スペクトルを補償するポストフィルタ
– 生成パラメータ系列に対して、事前学習したフィルタを適用

HMM音声合成およびGVと比較して、合成音声の音質を改善
2/15

HMM音声合成の枠組み
[Zen et al., 2009.]

自然音声のパラメータ系列
freq

Time

HMM学習

HMM
パラメータ
生成
freq

Time

合成音声のパラメータ系列

ある次元のパラメータ系列を見てみると・・・？
3/15

4th mel-cepstral coefficient

自然/合成音声のパラメータ系列

Natural speech

HMM [Zen et al., 2009.]
HMM+GV [Toda et al., 2007.]

Time
自然/合成音声のパラメータ系列の違いとは？
4/15

変調スペクトル（MS: Modulation Spectrum）

離散フーリエ変換 &
対数振幅の計算

変調スペクトル
（MS）

 変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義
– 系列の周波数変動を表現するパラメータ
– 先行研究における有効性
• 音声知覚におけるスペクトルキュー [Rob et al., 1993.]
• HMMによる音声認識技術の精度向上 [Sriram et al., 2009.]
– 本研究では、系列毎に変調スペクトルを計算
5/15

Modulation spectrum (MS)

自然/合成音声のパラメータ系列のMS

“Natural speech”のMS
“HMM”のMS

“HMM+GV”のMS

Modulation frequency
変調スペクトルの直接補償により、音質改善が期待
6/15

提案法の処理手順
学習部
学習

MS

自然音声

確率密度関数
確率密度
関数を推定

MSを
計算
生成

生成部

MS
MSを
計算

生成

ポスト
フィルタ
位相を
計算

フィルタ後のMS

位相
8/15

MS of d-th parameter
sequence Sd(m)

学習部： MSの確率密度関数を推定

“Natural speech”のMSの
確率密度関数 N sd m   d( Nm) ,  d( Nm) 
,
,

“HMM”のMSの
確率密度関数



(
(
N sd m   dGm) ,  dGm)
,
,



Modulation frequency m
自然/合成音声のパラメータ系列のMSを正規分布でモデル化
9/15

MS of d-th parameter
sequence Sd(m)

生成部：生成パラメータのMSを線形変換




(
(
N sd m   d Nm) ,  d Nm)
,
,



変換

“HMM”のMS



(
(
N sd m   dGm) ,  dGm)
,
,



Modulation frequency m
(
 d Nm)
(G )
( N) 
,
s 'd m   1  k sd m   k 
s m    d ,m   d ,m 
(
 dGm) d
,








フィルタ強度係数 “HMM”のMS

10/15

4th mel-cepstral coefficient

自然音声、従来法/提案法のパラメータ系列

HMM+MS：”HMM”に
フィルタリング

Natural speech

HMM [Zen et al., 2009.]
HMM+GV [Toda et al., 2007.]

Time

11/15

実験条件
 評価：
– 適切なフィルタ強度係数の決定（客観評価）
– 音質改善効果の確認（主観評価）

 手法：
–
–
–
–

“HMM”： HMM音声合成 [Zen et al., 2009.]
“HMM+MS”： “HMM”に提案法を適用
“HMM+GV”： GVを考慮 [Toda et al., 2007.]
“HMM+GV+MS”： “HMM+GV”に提案法を適用

実験条件
学習データ

ATR音素バランス文450文、女性

テストデータ

同53文

スペクトルパラメータ

0～24次のメルケプストラム（提案法を適用）

音源パラメータ

対数F0、5周波数帯域の非周期成分

MSのFFT長

4096 （全データの系列の長さを超える値） 12/15

客観評価：適切なフィルタ強度係数
ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算
90
85
80
75

HMM+GV+MS

70
65
60

Log MS likelihood (x0.001)

100

HMM+MS

Log GV likelihood

Log HMM likelihood

95

50
0
-50
-100

Natural speech

55

-150

-2
-4
-6
-8

-10
-12
-14
-16

0 0.25 0.5 0.75 1

0 0.250.5 0.75 1

0 0.25 0.5 0.75 1

Filter coefficient

Filter coefficient

Filter coefficient

主観評価に用いるフィルタ強度係数を0.85に決定

13/15

Preference score for speech quality

主観評価：音質改善効果
７人に対するプリファレンステストを実施
1
0.8
0.6
0.4

0.2
0

HMM

HMM+MS

HMM+GV

HMM+GV+MS

提案法による音質改善を確認

14/15

まとめ
 目的
– HMM音声合成による合成音声の音質改善

 変調スペクトル（MS）を考慮した提案法
– 合成音声のMSは、自然音声のMSと比較して大きく劣化
– MSを補償するポストフィルタを提案

 評価結果
– 従来法と比較して音質改善を確認

 今後の予定
– HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法

15/15

HMM

HMM+MS

HMM+GV HMM+GV+MS

16/15

変調スペクトルを考慮したHMM音声合成

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (9)

Mehr von 奈良先端大情報科学研究科

Mehr von 奈良先端大情報科学研究科 (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)