方向統計DNNに基づく振幅スペクトログラムからの位相復元

09/12/2018©Shinnosuke Takamichi,
The University of Tokyo
方向統計DNNに基づく
振幅スペクトログラムからの位相復元
Phase reconstruction from amplitude spectrograms
based directional-statistics DNNs
高道慎之介，齋藤佑樹，高宗典玄 (東京大学)
北村大地 (香川高専)，猿渡洋 (東京大学)
2018年音響学会秋季研究発表会 2-4-2

/15
課題
2
入力変数に依存し，かつ非対称な確率分布に従う
周期変数をDNNでどう扱う？
𝑦
0 𝜋 2𝜋
Count

/15
概要
 タスク：振幅スペクトログラムからの位相復元
– 処理対象として頻用される振幅から，位相をどうやって復元する？
 従来法：von Mises分布DNNに基づく位相モデリング [Takamichi18]
– 円周上の確率分布である von Mises 分布を有するDNN
– 位相よりも，位相の1次差分で近似した群遅延を高精度に推定可能
 問題点：非対称性のモデリング
– 群遅延の分布は，極や零点の影響により，最頻値を中心に非対称
→ 対称分布である von Mises 分布の利用は適切でない
 提案法：正弦関数摂動一般化ハート分布DNNに基づく群遅延予測
– von Mises 分布を一般化した非対称分布
• 非対称性の導入により，群遅延の分布を高精度にモデル化 3

/15
○○分布DNNとは
 定義：パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN
– 負の対数尤度を最小化する，DNN学習時の損失関数 𝐿 ⋅
– 例)
𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN
− cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN
 本発表：正弦関数摂動一般化ハート分布
– 円周上の確率分布 (位相のような周期変数に対応)
– 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布
– 正弦関数摂動 [Abe11] … 円周上の分布の非対称化
4
𝑥 𝑦 𝑦𝐿 ⋅
[Takamichi18]
以降では，分布を導入してDNN学習時の損失関数を定義

/15
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
5
𝑃 𝑦; 𝜇, 𝜅, 𝜓 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
平均 (mean) 集中度パラメータ (concentration param.)
[Jones05]
* 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う
von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1)
𝑦
0 𝜋 2𝜋
𝜇
𝜅

/15
6
𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
摂動パラメータ (shewness param.)円周上の確率分布
[Abe11]
sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1])
𝑦
0 𝜋 2𝜋

/15
7
𝜓∞−∞ −1 10
von
Mises Cardioid
Wrapped
CauchyUniform Uniform
Generalized
cardioid
Sine-skewed
cardioid
1
−1
Sine-skewed
wrapped Cauchy
Sine-skewed
von Mises
Sine-skewed generalized cardioid
𝜆
𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
[Abe11]

提案法
正弦関数摂動一般化ハート分布DNNによる群遅延推定
8

/15
正弦関数摂動一般化ハート分布DNNによる
群遅延推定
9
0
1
𝐹
Δ𝑦𝑡,∗
Group delay
at frame 𝑡
𝐿GD
gc
⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿GD
ss
⋅Mean
Concentration
Skew
Freq. index
各時間周波数の群遅延が当該分布に従うと仮定し，
DNN学習時の損失関数 𝐿GD
gc
⋅ と 𝐿GD
ss
⋅ を次ページで定義
(一般化ハート由来) (正弦関数摂動由来)
Ampli-
tude

/15
DNN学習時の損失関数
正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN
正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN
正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN
10
𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log
1 + 𝜅 𝑡,𝑓
2
− 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
1 − 𝜅 𝑡,𝑓
2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
(一般化ハート由来) (正弦関数摂動由来)
𝐿GD
gc
⋅ 𝐿GD
ss
⋅
*
*
* ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意．論文を参照．

/15
実験条件・比較手法・評価基準
12
学習／テストデータ JSUTコーパス[Sonobe17] 5000文／300文
サンプリング周波数 16 kHz
音声分析条件 512点FFT，25 msフレーム，5 msシフト
群遅延の計算近接周波数との1次差分で近似 [Takamichi18]
DNN Feed-Forward with Gated activation units
DNN入力 5フレーム連結の対数振幅スペクトル
 比較手法
– 巻き込み Cauchy 分布 DNN (𝜓 = −1)
– von Mises 分布 DNN (𝜓 = 0)
– ハート分布 DNN (𝜓 = 1)
+正弦関数摂動 (−1 ≤ 𝜆 ≤ 1)
 評価基準
– テストデータの群遅延に対する負の対数尤度

/15
負の対数尤度の box plot
13
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善

/15
推定されたモデルパラメータの例
(濃いほど値が大きい)
14
Log amplitude (input) 𝜇 𝑡,𝑓 (mean)
𝜅 𝑡,𝑓 (concentration) 𝜆 𝑡,𝑓 (skew)
Time 𝑡
Frequency𝑓
調波構造に関係したモデルパラメータになる

/15
まとめ
 入力変数で変動し，かつ非対称な確率分布に従う周期変数
– 正弦関数摂動一般化ハート分布DNNを提案
 実験結果
– 正弦関数摂動により，一次差分近似の群遅延を高精度にモデル化
– 調波構造に関連したモデルパラメータ
 今後の予定
– 音声特徴量とモデルパラメータの関係性の調査
15
深層生成モデルによる回帰周期変数に
対応
非対称性に
対応

方向統計DNNに基づく振幅スペクトログラムからの位相復元

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Shinnosuke Takamichi

Mehr von Shinnosuke Takamichi (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

方向統計DNNに基づく振幅スペクトログラムからの位相復元