Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

超解像に基づく教師あり非負値行列因子分解の
最適距離規範に関する検討
奈良先端科学技術大学院大学
北村大地猿渡洋鹿野清宏
ヤマハ株式会社
近藤多伸高橋祐
Study on optimal divergence for superresolution-based
supervised nonnegative matrix factorization

研究背景
• 複数の楽器音が多重に混合された音楽信号
から，楽器音を分離・抽出音楽信号分解
• 応用例
– ユーザが好み応じて各楽器音を編集
– 音楽信号の自動採譜
– 音の拡張現実 (AR) 等
2

• 非負値行列因子分解 [Lee, et al., 1999]
• データのスパース性，重ね合わせ表現を考慮
• 効率的な乗法型更新式
• 画像処理，信号処理等様々な分野への応用
研究背景
3

Time [sec]
Frequency[Hz]
Nonnegative Matrix Factorization (NMF)
4
…
…
…
…
頻出スペクトル
各スペクトルの
タイミングと音量

Time [sec]
Frequency[Hz]
Nonnegative Matrix Factorization (NMF)
5
…
…
…
…
アクティベーション行列
スペクトル基底行列

• NMF では，分解行列因子のとを最適
化するための目的関数が距離関数として与
えられる
• この距離関数はデータや分解する目的に応
じて使い分けられる
– 音源分離：一般化KLダイバージェンス
– 自動採譜：板倉-斉藤擬距離
NMF の目的関数
6
: 任意の距離関数
ex.)

• 一般化距離関数 -divergence [Eguchi, et al., 2001]
7
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視
された距離尺度に
-divergence について

• におけるのグラフ
8
5x10
2
4
3
2
1
0
IS-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EUC-distance
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
が正入力変数がデータより大きい
が負入力変数がデータより小さい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に

9
5x10
2
4
3
2
1
0
IS-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EUC-distance
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
スパース性: 強スパース性: 弱

10
100
80
60
40
20
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=3)
9x10
2
8
7
6
5
4
3
2
1
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=4)
5x10
97
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=100)
さらにを大きくすると，入力変数とデータを
入れ替えたような性質になる

• -divergence の全てのにおいて収束性が
保障された更新式の導出
-divergence規範NMF [Nakano, et al., 2010]
11
はそれぞれ
の要素

• 分離する楽器の教師音を用いる手法
学習プロセス
12
目的の楽器の教師音を
用いて学習した基底
分離プロセス教師基底を固定してを構成
Penalized Supervised NMF (PSNMF)
[Yagi, et al., 2012]
はとなるべく無相関となるように求める

• 分離する楽器の教師音を用いる手法
学習プロセス
13
目的の楽器の教師音を
用いて学習した基底
分離プロセス教師基底を固定してを構成
から再構成した
スペクトログラムが分離結果

• PSNMF の問題点
– 混合された音源数 (楽器の種類数) が 4 つ以上
のように多くなると分離精度が低下
• 原因
– 様々な楽器の間で類似したスペクトルが現れる
– 学習基底の重ね合わせにより別の楽器のスペク
トルを表現してしまう
14

方位クラスタリング [Miyabe, et al., 2009]
• ステレオ信号を対象とした方位分解手法
• チャネル間の定位情報 (振幅差と位相差) を
用いてクラスタリング
15
L R L-chの入力信号
R-ch の入力信号
：音源成分
：空間代表ベクトル

クラスタリングによるバイナリマスクの生成
• ハードクラスタリングは完全スパース性を仮定
• スペクトログラムのグリッドが方位クラスタに属
するか否かを示すバイナリマスクが生成
16
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
: 目的楽音成分
時間
周波数
時間
周波数
: 不要音成分
：アダマール積 (要素積)
入力信号バイナリマスク分解されたクラスタ

方位クラスタリングの問題点
• 問題点
– 実際には完全スパース性が成り立たない為，クラ
スタリング誤りによる人工的な歪みが生じる
– 同一方位にある音源の分解はできない
17
時間
周波数
分解されたクラスタ
-40
-20
0
20
40Amplitude[dB]
10008006004002000
Frequency [Hz]
L R

Multichannel NMF
• NMF をマルチチャネル信号へと拡張
– チャネル間の位相情報も利用して信号分解
• 方位と調波構造を統一してモデル化し1つの
コスト関数で最適化
• 問題点
– 1つのコスト関数で多くの変数を最適化しようとす
るため，非常に困難な推定問題
– 初期値依存性が極端に強く，頑健に動作させるこ
とが難しい
18
[Sawada, et al., 2012]
[Ozerov, et al., 2010]

従来手法のまとめ
• PSNMF
– モノラル信号が対象
– 教師あり分解
– 混合楽器数が増加すると分離精度が低下
• 方位クラスタリング
– マルチチャネル信号が対象
– 人工的な歪みが発生
– 同一方位の音源は分解できない
• Multichannel NMF
– マルチチャネル信号が対象
– 初期値依存性が強く，頑健性に欠ける
19

• マルチチャネル信号を対象として高精度かつ
頑健に動作する教師あり信号分解手法
– 前段に方位クラスタリングによる方位分解
– 分解された目的方位クラスタに対して教師あり
NMF を適用し目的楽器音を分離
– 方位分解と調波構造による音源分離のそれぞれ
に対して適切な手法を用いる分割統治法
20
提案手法
方位クラスタリング
L R
教師あり NMF

– 方位クラスタリングのバイナリマ
スクによってスペクトログラムの
解像度が低下
– 通常の PSNMF を後段に接続す
ると，歪みが発生
21
方位分解と教師あり NMF のハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
時間
周波数
時間周波数
: 不要音成分
-40
-20
0
20
40
Amplitude[dB]
10008006004002000
Frequency [Hz]
• 後段の教師あり NMF について
: 欠落

• 超解像に基づく教師あり NMF
– 欠落を観測できなかった成分として NMF の誤差
関数から省く
– 観測可能な成分のみを考慮し，表現できる教師基
底をフィッティングさせる
– 欠落成分は教師基底によって外挿される (超解像)
22
目的音成分の穴を NMF の誤差関数から省く
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
時間
周波数
時間周波数
: 欠落
: 不要音成分

• ハイブリッド手法の処理の流れ
23
方位
音源成分
目的音成分

24
方位
音源成分
目的音成分
方位
音源成分
目的方位成分
目的成分
の欠落

25
方位
音源成分
目的成分
の欠落

26
方位
音源成分
外挿された
目的成分
方位
音源成分
目的成分
の欠落

• 超解像における正則化の必要性
– あるフレームにおいて観測可能な成分が極端に少
ない場合，いかなる教師基底もマッチングできる
– 間違った教師基底が選択されてスペクトルが外挿
される可能性がある
27
4
3
2
1
0
Frequency[kHz]
43210
Time [s]
欠落グリッド数が多く (約99%が穴)，
外挿誤りが生じたフレーム
外挿誤りを防ぐための
正則化が必要

• ノルム最小化による正則化
28
穴が極端に多いフレーム
本来目的音成分が
存在していなかった
事前仮定
– 事前仮定を導入
– それぞれのフレームにおいて，穴の数が多いほど
ノルムが小さくなる (出力音が小さくなる) 教師基
底を選択してフィッティング

• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底
– は方位クラスタリングのバイナリインデックス
– はインデックス (0, 1) の論理反転
– はそれぞれ直交化項，正則化項の重み係数
29

• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底
– は方位クラスタリングのバイナリインデックス
– はインデックス (0, 1) の論理反転
– はそれぞれ直交化項，正則化項の重み係数
30
距離関数に  -divergence を用いた場合の更新式を導出し，
超解像に基づく教師あり NMF において最適な距離規範の検討を行う

• 更新式導出は補助関数法を用いる
– コスト関数の上限を与える補助関数を定義
– コスト関数を間接的に最小化
超解像に基づく教師あり NMF 更新式導出
31
は変数の集合，はバイナリマスクのインデックス行列の要素

• コスト関数 (上式) の第一項は定数
• 第二項，第三項，第四項はの値に応じて凸
関数 (convex) か凹関数 (concave) になる
32
concave
convex
convex
concave
convex
convex
convex
convex
concave

• 各項の上限関数は以下の不等式を用いて設
計できる
– 凸関数: Jensen の不等式
– 凹関数: 接線不等式
33
: 凸関数
: 凹関数

超解像に基づく教師あり NMF 更新式
34
• 補助関数を各変数で微分し，補助変数の等
号成立条件を代入することで更新式を導出
• 超解像に基づく教師あり NMF 更新式

超解像に基づく教師あり NMF 実験条件
35
目的音信号 (MIDI) フルート，オーボエ，ピアノ，トロンボーン
観測信号 (MIDI) 4 種類の楽器の等パワー混合信号
教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音
方位クラスタ数 3
基底数教師基底: 100, その他の基底: 30
NMF の更新回数教師基底学習時: 500, 分離時: 400
重み係数 m , l 評価値が最も高くなる値を実験的に求める
距離規範 (教師基底学習時と分離時では統一)
比較手法
PSNMF単体
超解像に基づく教師あり NMF を用いたハイブリッド手法
客観評価尺度
Signal to distortion ratio (SDR: 目的音の品質),
Source to interference ratio (SIR: 分離度合),
Sources to artifact ratio (SAR: 処理歪みの少なさ)

• 入力信号
– 左右の音源の定位角
度は15 , 40 を用意
– 目的音源は常に中央
(1番) に定位
– 4 種の目的音源のそれ
ぞれに対して非目的音
の配置が 3 パターン
– 計 12 パターンの音源
に分離実験を行った評
価値の平均
36
Center
１
２３
４
Left Right

• 比較手法
37
Input stereo signal
L-ch R-ch
STFT
Directional clustering
Center component
L-ch R-ch
center cluster
Index of
based SNMF
Superresolution-
based SNMF
Superresolution-
ISTFT ISTFT
Mixing
Extracted signal
Input stereo signal
L-ch R-ch
STFT
Monaural component
PSNMF
ISTFT
Mixing
Extracted signal
PSNMF 超解像に基づくハイブリッド手法
入力信号をモノラルにミックスダウン

• の入力信号の結果
• 従来の PSNMF では (KL-divergence)
が最も良い分離精度
– 従来の NMF を用いた音源分離の研究で経験的
に知られていた事実
超解像に基づく教師あり NMF 実験結果
38
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF

• 従来の PSNMF では (KL-divergence)
が最も良い分離精度
– 従来の NMF を用いた音源分離の研究で経験的
に知られていた事実
39
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF

• 超解像に基づく教師あり NMF では
(EUC-distance) が最も良い分離精度
– 通常の音源分離とは異なる結果に
40
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF

• においても同様の結果となった
41
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF

• 通常の NMF 音源分離
– KL-divergence ( ) が分離精度が良い
• 今回の PSNMF の結果や多くの論文で示されている
– EUC-distance ( ) が良い結果となった
• 超解像処理を用いる NMF の最適な距離規範
は EUC-distance といえる
超解像に基づく教師あり NMF 考察
42

• の値が 0 に近くなるほど
– 事前学習時
• 教師基底はピークとスパース性を重視
• アクティベーションのスパース性から局所的 (アタック部,
サスティン部等) な特徴を良く捉えた基底が作られる
43
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz] Attack Sustain Release
Amplitude Time
Decay

• の値が大きくなるほど
– 事前学習時
• 教師基底はそれほどスパースにならず，少し滑らか
• より大局的な特徴を捉えた教師基底が学習される
44
Attack
Decay
Sustain Release
Amplitude Time
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]

– 分離時
• 見えている成分のみで教師基底のフィッティングを行わ
なければならない
• 教師基底がスパースで局所的な特徴を捉えた教師基
底は外挿しにくい
• 逆に少し滑らかで大局的な表現が可能な教師基底の
方が外挿しやすい
45
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]

– 分離時
46
-10
-8
-6
-4
-2
0Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
性能
分離精度
外挿能力
スパース性: 強スパース性: 弱
総合的な性能

• ハイブリッド音源分離手法である超解像に基
づく教師あり NMF において -divergenceを
用いた更新式を導出
• 超解像処理を含む音源分離 NMF では
EUC-distance が最適な距離規範であること
を示した
• バイノーラル信号に対する分離精度の確認
• 方位クラスタリング以外の方位分解手法を用
いた場合の実験
まとめと今後
47

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (8)

Ähnlich wie Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

Ähnlich wie Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese) (9)

Mehr von Daichi Kitamura

Mehr von Daichi Kitamura (7)

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

Hinweis der Redaktion