Weitere ähnliche Inhalte Ähnlich wie 独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA) (7) Mehr von Daichi Kitamura (18) 独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)2. 背景
• ブラインド音源分離(blind source separation: BSS)
– 混合系 (マイクや音源位置の部屋の形状等)が未知
• 優決定条件(マイク数≧音源数)のBSS
– 音源間の独立性に基づく分離系 の推定
• 独立成分分析(ICA)[P. Comon, 1994]
• 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・
• 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007]
• 劣決定条件(マイク数<音源数)のBSS
– 混合系 の推定(時間周波数マスク)
• Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007]
• Duong法 [N. Q. K. Duong+, 2010]
2
混合系 分離系
3. 音源分離の歴史と発展(関連手法のみ掲載)
3
1994
1998
2013
1999
2012
パーミュテーション問題
の解決法
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析(IVA)
2016
2009
2006
2011 補助関数IVA(AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
多チャネル信号
優決定条件 劣決定条件
単一チャネル信号
Duong法
Duong+DNN法
深層ニューラルネットワーク
(DNN)
独立成分分析(ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura]
[Kitamura]
[Nugraha]
[Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
4. • 優決定条件(マイク数≧音源数)が対象
– 混合系 の逆系(分離系 )が存在
• BSSで活用されるモデル
– 空間モデル:分離系 推定の仮定
• 音源間の独立性と種は数領域での瞬時混合(ICA,IVA,ILRMA)
– 音源モデル:分離信号の時間周波数構造の仮定
• グループスパース性(IVA),低ランク性(ILRMA)
– 不適切な音源モデルによる性能の劣化
• パーミュテーション問題
• 独立深層学習行列分析(IDLMA)
– ICA由来の「独立性に基づく分離系推定」
• 空間モデル(分離系 )はブラインド推定
– DNNで構築する「教師あり音源モデル」
• 音源モデルは学習データ(教師)より獲得
本発表の概要
4
ICA
IVA
ILRMA IDLMA
ブラインド
音源モデル
教師あり
推定対象
分離系
5. • 音源数 ,マイク数(チャネル数)
– 決定系条件 を考える
• 短時間フーリエ変換(STFT)して得られる各信号
– 多チャネル観測信号
– 混合行列の逆行列 が存在するとき,
多チャネル分離信号
• 時間周波数行列としての表記
– 要素毎の絶対値および指数演算を で表す
• 例: チャネルの観測パワースペクトログラム
記号の定義と定式化
5
時不変混合行列周波数 時間
ただし
音源スペクトログラム 観測スペクトログラム 分離スペクトログラム
とおくと
6. • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009]
– 時間周波数の各成分が平均0分散 の独立な原点対称複素
ガウス分布に従う
音源の生成モデル
6
分散(パワーの期待値)
Frequencybin
Time frame
: パワースペクトログラム
パワーが大=分散が大
大振幅の複素数も生成しうる
濃淡がパワーの
大きさを示す
パワーが小=分散が小
0付近の複素数しか生成しない
9. • 分離信号 や分散 に何も仮定をおかない(FDICA)
– 分離行列 が周波数に関して非依存(separable)
パーミュテーション問題を引き起こす
音源モデル:分散の構造的仮定
9
分離
行列
音源1
音源2
観測1
観測2
パーミュテーション
の整合
分離信号1
分離信号2Time
10. • 分離信号のパワースペクトログラム に対して
グループスパース性を仮定
– 同時に生起する周波数成分は同じ音源
としてまとまる パーミュテーション問題の回避
– 独立ベクトル分析(IVA) [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007]
• 生成モデルの分散行列 に対して低ランク構造を仮定
– 各音源の低ランク構造( )を推定
パーミュテーション問題を回避
– 低ランクな音源が混ざるとランクは増える
低ランクに誘導することで音源が分離される
– 独立低ランク行列分析(ILRMA) [D. Kitamura, 2016]
音源モデル:分散の構造的仮定
10
Frequency
Time
Frequency
Time
NMFによる表現(ランク )
12. • 独立低ランク行列分析(ILRMA)
• 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA)
– 統計的独立性と教師ありDNN音源モデルに基づく音源分離
提案手法:独立深層学習行列分析
12
観測信号
周波数毎の
分離行列
分離信号 DNN音源モデルによる分散推定
Time
Frequency
Frequency
Time
STFT
Time
Frequency
Frequency
Time
観測信号
周波数毎の
分離行列
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ「低ランクな時
間周波数構造」を持つように分離行列を更新
STFT
NMFによる低ランク近似
分離信号が「互いに独立」かつ「学習済みの
DNNで表現されるような時間周波数構造」を
持つように分離行列を更新
音源モデルを教師あり化
15. • 原点対称複素ガウス分布の負対数尤度
• 反復射影法(iterative projection: IP) [N. Ono, 2011]
– 分離行列を行毎( 毎)に更新
提案手法:分離行列と分散行列の最適化
15
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列 を更新する
ことで最小化可能
空間モデルの更新
…
更新
固定
分散 の更新
固定
…
固定
更新
固定
…
固定
固定
更新
番目の要素が1,
他が0の縦ベクトル
16. • 原点対称複素ガウス分布の負対数尤度
• 学習済DNN音源モデルの適用
– 分離信号 を入力し分散を推定
– IPの数値安定性向上のためフロア処理
提案手法:分離行列と分散行列の最適化
16
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列 を更新する
ことで最小化可能
空間モデルの更新
要素毎のmax演算
を施した行列を返す
微小フロアリング値
Time
Frequency
Time
Frequency
Time
Frequency
フロア
処理
17. 評価実験:条件(1/2)
17
学習信号
SiSEC2016 DSD100音楽データセット
開発データ50曲(Ba., Vo., Dr.の3音源)
評価信号
SiSEC2016 DSD100音楽データセット
テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース
収録のE2Aインパルス応答で畳み込んで観測した信号
サンプリング周波数 8 kHzにダウンサンプリング
STFTの設定
窓長128, 256, 512, 1024 msのハミング窓
シフト長は常に窓長の半分
評価指標 信号対歪み比(signal-to-distortion ratio: SDR)の改善量
2 m
Vo.
5.66cm
40
40
Ba. or Dr.
RWCP収録
E2Aインパルス応答
T60 = 300ms
22. • 100回更新時の計算時間例比較(30秒の観測信号)
– Python 3.5.2+Chainer 2.1.0環境
– Intel Core i7-6850K(3.60 GHz,6コア)
– DNN音源モデルによる分散推定はGeForce GTX 1080 Ti
評価実験:結果(4/4)
22
0
50
100
150
200
250
300
350
ILRMA Duong+DNN IDLMA
Computationaltime[s]
23.31 s 26.56 s
287.06 s
23. • 分離行列の最適化(IP)は分離フィルタの更新順に依存
– 例:2音源の場合
• 今回はグリーディに全通り( 通り)の更新順を試行
– DNN音源モデルを用いた推定SN比を算出し高い結果を採用
IP最適化の性能不安定性
23
更新
固定
分散 の更新
固定
更新
音源インデクスの昇順
固定
更新
分散 の更新
更新
固定
音源インデクスの降順
IPによる分離フィルタ の更新式
よりよい分離行列の推定の為には
分散行列 が高精度に推定でき
た音源を先に更新すべき
推定分散分離行列
24. • DNN音源モデルに基づく推定SN比
– 現在の分離信号 を音源モデル に入力した際の出力
– 現在の分離信号 中の音源 の成分と残留する他音源
の成分をDNN音源モデルより推定しSN比を算出
• 全時間周波数の総パワーによる推定SN比
• 各時間周波数グリッドの推定SN比の時間周波数平均
– IPの更新順の全通りの結果について上記を算出
• 推定SN比が高くなる結果を採用
IPの更新順の選択基準
24
全音源に
関して平均
全音源に
関して平均
Hinweis der Redaktion 初めに本研究の背景です.
本研究では,音源分離問題を取り扱います.音源分離問題は,特にブラインド音源分離と呼ばれる技術が盛んに研究されています.これは,マイクや音源の位置等の「混合系A」の情報が未知な状況での音源分離です.
音源の数とマイクの数が同じかマイクが多い場合を優決定条件,逆にマイク数が少ない場合を劣決定条件と呼びます.
優決定条件では,音源間の独立性に基づいて,混合系の逆システムである「分離系W」を推定する技術がこれまで発展してきました.独立成分分析,ICAが周波数領域へ拡張され,独立ベクトル分析,IVAという技術も登場しました.
一方で,劣決定条件では,何らかの仮定の下で混合系Aを推定する手法がこれまで研究されています. こちらは右から単一チャネル,劣決定,優決定での音源分離手法の発展をまとめた図です.
単一チャネルでは,非負値行列因子分解,NMFの登場により発展しましたが,現在はDNNが主流となっています.
劣決定条件では2010年に登場したDuong法が有名であり,NMFを取り入れた多チャネルNMFやDNNを取り入れたDuong+DNN法として発展しています.
優決定条件ではICAの登場以降,音源モデルの高度化が進み,NMFを取り入れた独立低ランク行列分析,ILRMAが2016年に提案されました.
本日の発表では,このILRMAの音源モデルをDNNに置き換えた教師あり多チャネル音源分離手法を提案します. 本発表の概要です.本発表では優決定条件を対象とし,分離系Wを推定します.
この分離系の推定には「空間モデル」と「音源モデル」の2つが必要であり,特に音源モデルは分離性能を大きく左右します.つまり,不適切な音源モデルを仮定してしまうと,性能が劣化してしまうということです.
そこで,学習データからDNNで構築する適切な音源モデルと,従来通りのブラインドな空間モデル推定を組み合わせた新しい手法の「独立深層学習行列分析,アイドルエムエー」を提案します.
これまでのIVAやILRMAは空間も音源もブラインドに推定しましたが,IDLMAでは音源に関して教師あり,というアプローチを採用します.(3.00) それでは詳細に入ります.まず,記号の定義と定式化を簡単に説明します.
今,N個の音源の混合信号をM個のマイクで観測します.ただし,M=Nという条件を以後仮定します.
観測信号をSTFTして,x_ijという多チャネル観測信号を得ます.iは周波数,jは時間です.このxは,音源信号sが時不変な混合行列Aiを通して観測されています.Aがフルランクならば,その逆の分離行列を推定することで分離信号yを得ます.
これらの信号は多チャネルベクトルではなく,I×Jというスペクトログラムの形でも定義しておきます.また,ドット付き指数と絶対値を,要素毎の絶対値および指数演算と定義します.3.55 次に,従来のILRMAや今回の提案手法のIDLMAで仮定されている音源の統計的な生成モデルについて説明します.
ここでは,音源の時間周波数の各複素成分が平均0,分散r_ijを持つ独立な原点対称複素ガウス分布に従うと仮定します.分散r_ijは,時間周波数に依存するので,これは即ちその音源のパワースペクトログラムの期待値そのものになります.
たとえばパワーの小さい時間周波数スロットでは,この図のように分散が小さくなり,0付近の複素数しか生成しません.
逆に,スペクトルのピークのように,パワーの大きい時間周波数スロットは大きな分散となるため,このように絶対値の大きな複素数も生成しうる,というような生成モデルです.5.00 この生成モデルの分散r_ijの最尤推定を考えると,負対数尤度はこの中央の式のようになります.この式をr_ijで偏微分することを考えると,これはすなわちNMF等で有名な板倉斎藤擬距離の偏微分と同じになりますので,実はこの生成モデルの分散の最尤推定は板倉斎藤擬距離の最小化問題と等価になります.5.25 さて,分離行列Wiの最適化問題について説明します.
音源間の独立性を仮定したときの分離行列Wiの最適化問題は,ICAの理論より,多チャネル観測信号の尤度を使った最尤推定問題と考えることができます.
観測の負対数尤度関数を計算すると,こちらの式のようになりますが,ここに音源の生成モデルp(Y)の項がでてきます.
ここに,先ほど説明した複素ガウス分布の生成モデルを代入すると,下の式のようになり,これは(クリック)
分離行列Wiを推定する項,即ち空間モデル項と,(クリック)
分散の時間周波数行列である「分散行列Rn」を推定する項,即ち音源モデル項の二つから構成されます.
これらのモデルを交互に最適化することを考えます. 先ほどの尤度関数は周波数に関して非依存,separableなので,分離信号Yや分散rに何のモデルも仮定しないと,いわゆるパーミュテーション問題がおきてしまいます.
これは,一つ一つの周波数で独立に動くICAの出力が,音源の順番に関してバラバラになってしまうことから,分離行列を推定した後にポスト処理として周波数方向にアラインメントを取らないといけない問題です.
このポスト処理としてのパーミュテーション解法は様々な規範が提案されましたが,そもそも分離行列Wiを推定する段階でパーミュテーションを起こさないようにする,という手法へと発展していきます.7.04 例えば,分離信号Ynのパワースペクトログラムに対してグループスパース性を仮定すると,右上の図のように同時に生起する周波数成分が一つの音源とみなされるため,パーミュテーション問題を回避しながら分離行列が推定できるようになります.このグループスパース音源モデルを導入した手法が即ち独立ベクトル分析,IVAです.
あるいは,分散行列Rnに対して,NMFによる低ランク構造を仮定したものがILRMAです.分散行列はR=TVという一定ランクの行列でモデル化され,基底行列Tとアクティベーション行列Vを分離行列Wと同時に推定することで,分離された信号が低ランクな時間周波数構造をもつような制約が課されます.通常複数の音源が混ざると,混合信号のランクはふえていきますので,その逆をやることで音源分離を促進し,同時にパーミュテーション問題を回避できます.8.05 このように,パーミュテーション問題の回避には,各音源の時間周波数の統計的,あるいは構造的な仮定を置く必要がありました.このような仮定を改めて音源モデルと呼びます.しかし,不適切な音源モデルを仮定してしまうと,パーミュテーション問題が解けずに分離精度が劣化します.
例えば,ボーカルや音声信号は,この図を見てわかる通り,ドラムやギターほど極端に低ランクではないため,低ランク音源モデルを仮定するILRMAでは,音声の高精度な分離は失敗しがちです.
万能な音源モデルがあればよいのですが,ブラインドな条件ではそれは非常に困難な問題です.しかし,もし音源毎の十分な学習データがあるならば,適切な音源モデルを構築することは容易です.例えば,DNNに基づく単一チャネルの音源分離モデルは最たる例であり,ある程度成功しています.実際に,音楽や音声などのソロ音源の学習データは利用可能な時代になりつつありますので,音源モデルの教師あり化は現実的です.
一方で,空間モデルは学習可能か,という疑問も生まれます.しかし一般に空間モデルは,部屋の形状や残響時間,マイク位置,音源位置,音速等,膨大な物理要因に依存するため,これらを網羅的に学習することができる多チャネルの学習データを用意することは不可能です.従って,従来のIVAやILRMAのように,空間モデルのブラインド推定は非常に有用といえます.
以上の動機より,本発表では,音源モデルはDNNによる教師あり,空間モデルはブラインド推定という手法を提案し,これを独立深層学習行列分析,アイドルエムエーと呼びます. ILRMAとIDLMAの違いを簡単に説明します.
ILRMAでは,右上のように現在の分離信号をNMFで低ランク近似することによって少し分離を進め,これを新たな分散Rとして分離行列Wの最適化に利用し,このループを繰り返します.
本発表の提案手法である独立深層学習行列分析,アイドルエムエーでは,このNMF音源モデルを教師ありのDNN音源モデルに置き換えます.現在の分離信号YnをDNN音源モデルでさらに分離し,推定された信号を分散行列Rとして分離行列Wの最適化に利用します.このループを繰り返します.ここで用いているDNN音源モデルというのは,混合信号から特定の音源をのみ強調する学習済みのネットワークであり,音源毎に用意していると仮定します. DNN音源モデルの学習手順はこの図のようになっています.今音源1と音源2の学習データを,ランダムなSN比で混合し,混合ベクトルを作ります.これをDNNの入力として,出力と正解ベクトルの損失関数を最小化することで,目的の音源だけが協調されるにDNNを学習します.
学習時の損失関数には,下に示した板倉斎藤擬距離を使います.こうすることで,このDNNは,冒頭に説明した複素ガウス分布の分散を最尤推定するブラックボックスと解釈でき,IDLMAの音源モデルの更新にそのまま使うことができるようになります. こちらはIDLMAのコスト関数,即ち負対数尤度の再掲です.IDLMAでは,空間モデルWiの更新と音源モデルRnの更新を交互に行います.
空間モデル,即ち分離行列Wの更新はILRMAと同様で,反復射影法,IPと呼ばれる最適化理論が適用できます.これはこの図のように,分離行列Wiを行毎に更新していく高速かつ安定なアルゴリズムです.具体的な計算は右下のようになっていますが,現在の推定分散値rを使って,計算されます. 一方,音源モデル,即ち分散行列Rの更新は学習済みの音源毎のDNNを通すだけです.現在の分離信号YnのパワースペクトログラムをDNNに入力し,出てきた出力に微小値のフロアリングを施してこれを推定分散行列Rnとします.
このような分離行列と分散行列の推定を繰り返すことで,最適化が進んでいく,という仕組みです. それでは実験を説明します.DNN音源モデルの学習にはSiSEC2016のDSD100音楽データセットの内開発データ50曲,ベースとボーカルとドラムを用いました.音源分離の評価信号は,同じデータセットのテストデータ25曲に対して,下の図のインパルス応答を畳み込んで作成しました.音源の組み合わせは「ベースとボーカル」,「ドラムとボーカル」という2種類を実験しました. DNNは全結合型のフィードフォワード,隠れ層4層,各層のユニット数は1024です.隠れ層と出力層にはReLUを用いています.
比較手法として,
ブラインド多チャネル分離のILRMA,
教師あり単一チャネル分離のDNN+WF,これは各音源用DNNの出力でWienerフィルタを適用しています,
さらに提案手法と同様のアプローチのDuong+DNN,これは音源モデルにDNNを活用し,空間相関行列をブラインドにEMで推定する手法です.そして,提案手法のIDLMAの4つです.DNNをつかうこの3の手法は,フェアな比較のために,学習済みの同じDNNを使ってます.14.00 こちらは,上側が真のベースおよびボーカルの分散値と,下側がDNN音源モデルの推定分散の一例を示しています.これをみると,多くの成分でうまく推定できており,生成モデルの分散としては非常に信頼のおけるものになっていることが分かります.これを用いて分離行列Wiが更新され,よりよい分離音が得られます. こちらは様々な窓長に対する25曲の平均です.左がベースボーカル,右がドラムボーカルの分離結果で,横軸がSTFTの窓長,縦軸が分離精度を表します.この結果より,IDLMAはどの手法よりも高い性能を示しています.窓長に関しては,短くなると瞬時混合仮定が成り立たず,長くなると統計バイアスの増加やDNNの学習が難しくなることから,IDLMAはトレードオフがあるようです. こちらは横軸が空間モデルの更新回数,縦軸が分離性能です.DNN+WFは反復をしない手法ですので,緑の水平線で表しています.IDLMAとDuong+DNN法は,空間モデルを10回更新するたびにDNN音源モデルを1回通していますので,そのタイミングで大きな性能改善が確認できます.ただし,Duong+DNN法は途中でDNNが足を引っ張っており,IDLMAよりも低い精度でとまってしまっていることが分かります. こちらは先ほどの結果の計算時間の比較です.やはり空間相関行列を推定するDuong法は計算量が多く,信号長の10倍弱かかってしまっていますが,IDLMAはILRMAと同程度の高速性を保っています.15.55 さて,ILRMAやIDLMAで用いられている空間モデル最適化のIPは,行ベクトルの更新する順番に依存して性能が変化します.
例えば2音源の場合,この図のように1,2という昇順でやるか,2,1という降順でやるかがあります.
IPの更新式は,前回の行更新の結果を次の行更新に引き継ぐため,この順番によって得られる解が変わります.
従ってよりよい分離行列の推定には,分散行列Rが高精度に推定できた音源を先に更新するべきです.
今回は,グリーディに全通りの更新順を試行し,DNN音源モデルを用いて現在の推定SN比を算出して高い結果を採用する,という手法をとりました. この方法では,現在のYnという推定分離音の中の,音源nの成分とそれ以外の成分を,DNN音源モデルでそれぞれ推定し,推定SN比を計算します.本発表では,2種類の推定SN比を定義しました.
一つ目は時間周波数の総パワーの推定SN比,二つ目は各時間周波数の推定SN比の総和であり,これらは全音源について求めて平均します.
IPの更新順の全通りの結果についてこれらを算出し,推定SN比が高くなる結果を採用します. こちらが実験結果です.条件は先の評価実験と同様です.
まず,IPの更新順が昇順と降順とで,ベースボーカルでは2dB以上もの差が開いています.
実は調べてみると,25曲中24曲でベースを先に更新した方が精度が上がることが分かりました.
先ほどの推定SN比で順番を選択する方法では,ほとんど最高性能に近い結果になっていることが分かります.
どちらの推定SN比が良いかは音源に依存してしまいましたが,どちらも改善が得られるようです.