SlideShare ist ein Scribd-Unternehmen logo
1 von 32
第37回信号処理シンポジウム
2022年12月15日 9:20〜9:40
周波数方向再帰に基づく
深層パーミュテーション解決法
Deep Permutation Solver Based on Frequency
Bidirectional Recursion
蓮池 郁也*,北村 大地*,渡辺 瑠伊,川口 翔也*
*香川高等専門学校
北陸先端科学技術大学院大学
†
†
信号処理若手奨励賞審査対象
2
• 音源分離とは
– 音声,雑音,歌声,楽器音,機械音等の音源を個々に分離
• 音源分離の応用先
⁃ 音声認識
⁃ AI スピーカー
⁃ 補聴器の高機能化
⁃ ノイズキャンセリング etc.
はじめに
音源分離
3
• ブラインド音源分離 (blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– 優決定BSS(マイク数≧分離したい音源の数)
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
• 本研究では,優決定BSSについて取り扱う
– 高音質であり,様々な分野に適用可能
ブラインド音源分離
例. 独立成分分析(ICA) [Comon, 1994]
例. 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006]
例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016]
混合系
BSS
分離系
4
BSSの歴史
周波数領域独立成分分析 (FDICA) フルランク空間共分散分析 (FCA)
[Smaragdis, 1998] [Duong+, 2010]
パーミュテーション問題発生
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
局所周波数領域に基づく深層パーミュ
テーション解決法 [Yamaji+, 2020]
パーミュテーション問題
を回避する手法
パーミュテーション問題を
解決する手法
提案手法
周波数間相関に基づく解決法
DOAに基づく解決法
[Saruwatari+, 2006]
[Murata+, 2001],
[Sawada+, 2004]
教師あり手法
教師なし手法
MLPを用いた深層パーミュテーション
解決法 [Hasuike+, 2022]
5
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
6
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
7
• FDICAやFCAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
パーミュテーション問題
ICA
or
FCA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
パーミュテーション
不整合信号1
パーミュテーション
不整合信号2
各周波数では音源分離されているが,分離信号の順序が周波数間
で不揃いになっている状態(パーミュテーション問題)
8
パーミュテーション問題を回避する手法
• 独立ベクトル分析(IVA)
– 各信号源は全周波数成分の
強弱が同期すると仮定
• 独立低ランク行列分析(ILRMA)
– 各信号源は時間周波数構造が
低ランクな構造(繰り返しを多分
に含む)を持つと仮定
Time
Frequency
IVAの音源モデル
M
icrophone Frequency
ILRMAの音源モデル
Time M
icrophone
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
パーミュテーション問題
を避ける手法
9
深層パーミュテーション解決法の動機
• 音源ごとの時間周波数構造の違い
– 音源モデルが音源に適していない場合,IVAやILRMAのBSS
の精度は低下
– さまざまな音源に適応する万能な音源モデルの作成は困難
• パーミュテーション問題の解決のみをDNNを用いて実装
– さまざまな音源に適応するモデルを作成できる可能性あり
Drums Guitar
Vocals
深層パーミュテーション解決法 [Yamaji+, 2020] が提案される
10
先行研究:深層パーミュテーション解決法
• 局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価 [Yamaji+, 2020]
– DNNを用いて参照周波数成分と近傍の周波数成分が一致して
いるか異なるかを判断
– 推定結果が1の場合は周波数成分が異なる音源である
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源
11
Time
Frequency
DNN
DNN
Input vector
DNN
outputs
・
・
・
・
・
・
・
・
・
1 : 異なる⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
先行研究:3音源以上でアルゴリズムが複雑化
• 入力が3音源以上での問題点
– DNNの予測が「1:異なる音源」の時,音源の組み合わせが一
意に定まらない
音源の組み合わせ
が不明
音源数分の組み合わせの処理を行う必要があり,
処理が複雑になる
入力ベクトル 出力ベクトル
12
MLPを用いた深層パーミュテーション解決法
• パーミュテーション行列をMLPを用いて推定する手法
[Hasuike+, 2022]
Frequency
1
0
0
0
0
0
0
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
入力ベクトル
全結合層
全結合層
出力層
出力層
全結合層
3層の隠れ層
出力ベクトル
2個の出力層
出力行列
従来手法の
ネットワーク構造
ブロックパーミュテーション問題にしか適用できない
13
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
14
• パーミュテーション不整合信号を並び替えるようなパー
ミュテーション行列をDNNを用いて予測
– 周波数方向再帰に基づき予測
提案手法の概要(従来手法[Hasuike+, 2022] と共通)
周波数方向再帰に基づくDNNを用いて推定
行列積
解析可能
推定する
2音源のパーミュテーション行列
パーミュテーション
不整合信号
推定分離信号
15
前処理(従来手法[Hasuike+, 2022] と共通)
• パーミュテーション不整合信号 に対して正規化処理を
行う [Sawada+, 2007]
– 同一音源の成分の相関を強調できる
– DNNの入力の値を区間 [0,1] に制限できる
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Frequency
Frequency
Time
Frequency
Time
Time
Time
16
DNNの構造
• DNNは入力層,BiLSTM層3層,出力層の計5層で構成
– 出力層にSoftmax関数をかけて,各周波数成分の値が足して1
になる(確率値)制約を設けた
Frequency
LSTM LSTM
LSTM LSTM
LSTM LSTM
LSTM LSTM
LSTM LSTM
Softmax
Softmax
Softmax
LSTM LSTM
Three BiLSTM layers Freq.-wise dense layer
Product
Product
Product
Product
Product
Product
3層のBiLSTM層 周波数ビン単位の全結合層
17
推定パーミュテーション行列の導出(従来手法[Hasuike+, 2022] と共通)
• DNNの出力値(確率値)を用いて,推定パーミュテーショ
ン行列 を作成
– 確率値をパーミュテーション行列の係数とする
– 2音源の場合,2つのパーミュテーション行列を足し合わせて推
定パーミュテーション行列を作成
推定パーミュテーション
行列へ変換
Frequency
1.0
0.1
0.9
0.1
0.5
0.0
0.9
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
18
局所時間推定分離信号の導出(従来手法 [Hasuike+, 2022] と共通)
• 推定パーミュテーション行列と局所時間スペクトログラム
との間で行列積を取り,推定分離信号を作成
– パーミュテーション行列の値によっては2つの音源が混合
行列積
推定分離信号
パーミュテーション
不整合信号
19
損失の導出方法(従来手法[Hasuike+, 2022] と共通)
• 損失関数の設計
– 推定分離信号と完全分離信号との間で平均二乗誤差(mean
squared error: MSE)を導入
– 分離信号の順序は予測の対象としないため,順序不変学習
(permutation invariant training: PIT)[Yu+, 2017] を導入
Frequency
Time Time
Frequency
Time Time
Frequency
Frequency
MSE & PIT
20
Frequency
Time
Frequency
Time
テストデータに対する多数決処理(従来手法 [Hasuike+, 2022] と共通)
• 各局所時間スペクトログラムに対してDNNで予測を行い
多数決処理を施す
パーミュテーション
行列へ変換
パーミュテーション
行列へ変換
パーミュテーション
行列へ変換
多数決処理
21
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
22
• 比較手法
– 局所時間に基づく深層パーミュテーション解決法 [Yamaji+, 2020]
– MLPを用いた深層パーミュテーション解決法 [Hasuike+, 2022]
– 提案手法
• 評価指標
– SDR(Source-to-distortion ratio)[Vincent+, 2006]
• 実験データ
– SiSEC2011より男女の音声及びドラムとギターの音楽信号
実験条件
音響の種類 音響信号 ファイル名 信号長 [s]
音声
男性 dev2_male4_inst_src_2 10.0
女性 dev3_female4_inst_src_2 10.0
音楽
ドラム dev1_wdrums_src_3 11.0
ギター Dev1_wdrums_src_2 11.0
23
• 学習データ
– 音声信号及び音楽信号の時間周波数信号を周波数ビン単位
でランダムにシャッフルしたデータ
– シャッフルパターンは150
• テストデータ
– 学習データとは重複しない10パターン
を用いてランダムに入れ替えたデータ
• 2つのモデル作成
– 音声モデル:男女の音声信号(2種類)を用いて作成
– 音楽モデル:ギターとドラムの音楽信号(2種類)を用いて作成
• 2種類のテスト条件:in-domainとout-of-domain
– In-domain: 学習データとテストデータの音源が同じ
– Out-of-domain: 学習データとテストデータの音源が異なる
実験条件
ランダムに
シャッフル
ランダムに
シャッフル
ランダムに
シャッフル
24
実験条件
• テスト条件:in-domain
• テスト条件:out-of-domain
学習データと重複しない
パーミュテーションパターン
音
声
DNN
学習
音声で評価
音
声
DNN
学習
音楽で評価
25
実験結果(in-domainデータセット)
• BiLSTM手法においてSDRの改善が見られた
• MLP手法ではSDRの改善が見られず,パーミュテーショ
ン問題を解決できていない
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -6.25 3.60 -8.45 44.5
2 -6.85 4.65 -7.45 44.5
3 -5.40 3.60 -9.10 44.5
4 -6.45 3.55 -6.20 44.5
5 -6.60 4.70 -7.95 44.5
6 -6.45 4.65 -8.50 44.5
7 -6.35 3.60 -6.80 44.5
8 -5.50 4.65 -8.45 44.5
9 -5.85 3.60 -7.65 44.5
10 -5.55 4.65 -7.70 44.5
音声信号のin-domainに対するSDR値 [dB] 音楽信号のin-domainに対するSDR値 [dB]
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -0.95 2.95 1.80 64.75
2 2.00 2.95 -0.20 64.75
3 0.55 2.95 2.75 155.00
4 1.25 2.95 2.25 64.75
5 -1.00 2.95 -1.25 66.65
6 -1.00 2.95 -1.40 61.15
7 -0.85 2.95 -1.95 66.65
8 -0.15 2.95 2.10 64.75
9 0.60 2.95 0.70 64.75
10 -0.35 2.95 -0.80 61.15
26
実験結果(out-of-domainデータセット)
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -0.95 5.05 4.85 3.35
2 2.00 5.05 -0.50 1.75
3 0.55 5.05 2.55 3.35
4 1.25 11.35 0.40 3.35
5 -1.00 11.35 0.50 3.35
6 -1.00 11.35 2.05 3.35
7 -0.85 11.35 0.30 3.35
8 -0.15 5.05 -0.40 3.35
9 0.60 5.05 -0.35 3.35
10 -0.35 5.05 -1.25 1.75
音声信号のout-of-domainに
対するSDR値 [dB]
音楽信号のout-of-domainに
対するSDR値 [dB]
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -6.25 -8.00 -4.45 33.55
2 -6.85 -5.85 -5.00 22.85
3 -5.40 -7.20 -6.25 33.85
4 -6.45 -7.60 -6.60 23.50
5 -6.60 -7.40 -5.90 22.00
6 -6.45 -7.25 -4.95 24.05
7 -6.35 -1.40 -5.65 23.60
8 -5.50 -7.65 -6.70 26.65
9 -5.85 -6.40 -4.75 25.15
10 -5.55 -7.90 -5.45 24.05
• 音楽信号のout-of-domainに対してBiLSTM手法はSDR
の改善が見られた
• 音声信号のout-of-domainに対してBiLSTM手法でSDR
値の改善は見られたものの従来手法が優勢
27
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果(音声信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
28
Time [s]
1
0.5
0
0
0 1
1 2
2 3
3 4
4 5
5
1
0.5
0
Frequency
[kHz] 実験結果(音声信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
29
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果(音楽信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
30
Time [s]
1
0.5
0
0
0 1
1 2
2 3
3 4
4 5
5
1
0.5
0
Frequency
[kHz] 実験結果(音楽信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
31
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
32
まとめ
• 目的
– 周波数ビン単位のパーミュテーション問題の解決
– 省サンプルデータで汎用性が高いモデルの作成
• 提案手法
– 周波数方向再帰の基づく深層パーミュテーション解決法を提案
– DNNの出力をパーミュテーション行列の係数とし,足し合わせ
ることで推定パーミュテーション行列を作成
• 結果
– 省サンプルデータで周波数ビン単位のパーミュテーション問題
を解決できた

Weitere ähnliche Inhalte

Mehr von Kitamura Laboratory

時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用Kitamura Laboratory
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用Kitamura Laboratory
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 

Mehr von Kitamura Laboratory (20)

時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 

周波数双方向再帰に基づく深層パーミュテーション解決法

Hinweis der Redaktion

  1. 【0:10】 初めに,音源分離について説明します. 特定の音声を抽出したり,雑音,楽器音等の音の分離を行ったりすることを音源分離と呼びます. 音源分離の応用先としては,音声認識,AIスピーカー,補聴器の高機能化,ノイズキャンセリング等があります.
  2. 【0:25】 ブラインド音源分離について説明します. ブラインド音源分離とは混合系Aが未知の条件で分離系Wを推定する手法でありBSSと呼ばれます. BSSには,優決定BSSと呼ばれる条件があり.優決定BSSとはマイク数が分離したい音源の数以上であることを指します. 一般的に,優決定BSSは線形な分離が可能であるため,人工的な雑音等の歪みが少なく,音源分離に続く処理に対して悪影響を及ぼしにくいです. そのため,様々な分野に応用可能となっています. 本研究ではこの優決定BSSについて取り扱います.
  3. 【1:00】 これまで様々なBSSの手法が提案されてきました. 周波数領域独立成分分析FDICAやフルランク空間共分散分析FCAを適用した際にはパーミュテーション問題が発生します. パーミュテーション問題については後ほど詳しく説明します. パーミュテーション問題を回避する手法と解決する手法が提案されてきました. パーミュテーション問題を解決する手法として周波数間相関に基づく手法やDOAに基づく手法が提案されました. 2020年以降には,教師あり手法として深層学習を用いた手法が提案されました. 本発表では,新たな教師ありのパーミュテーション解決法を提案します.
  4. 【1:40】 こちらは本発表の目次になります.
  5. 【1:40】 まず,従来手法について説明します.
  6. 【1:45】 FDICAやFCAで生じるパーミュテーション問題について説明します. この図は奥行きが周波数で横軸が時間を示しています. FDICAは各周波数成分に対して独立なICAを行います.各周波数ごとに赤色と青色の音源が分離されていきますが,ICAは出力の順番を問わないためFDICAに適用した際に周波数毎に順番がバラバラになってしまう問題が生じます. これは,一般的にパーミュテーション問題と呼ばれ,この問題を解決するような手法が現在求められています. ここで,Y1とY2のように周波数ごとに成分がバラバラになっている信号を今後パーミュテーション不整合信号と定義します. 私はこのパーミュテーション問題に対して現在広い分野で用いられている深層学習(DNN)を用いて解決する手法を新たに提案します.
  7. 【2:40】 パーミュテーション問題を回避する手法について説明します. 独立ベクトル分析IVAや独立低ランク行列分析ILRMAは音源モデルに従って分離を行います. IVAでは,各信号源は全周波数成分の強弱が同期すると仮定し分離を行います. 一方でILRMAでは,各信号源は時間周波数構造が低ランクな構造を持つと仮定し分離を行います. これらの手法はパーミュテーション問題を回避しながら,分離行列を求めます.
  8. 【3:00】 しかしながら,こちらのボーカル,ドラム,ギターのように音源ごとに時間周波数構造は異なります. 音源モデルが音源に適していない場合,IVAやILRMAのBSSの精度は低下します. このように,様々な音源に適応するような万能な音源モデルを作成することは困難です. 一方で,パーミュテーション問題の解決のみを行うモデルであれば,様々な音源に適応するモデルを作成できる可能性があると考えています. これが,深層学習を用いてパーミュテーション問題を解決することの動機であり,深層パーミュテーション解決法が提案されました.
  9. 【3:40】 局所時間周波数構造に基づく深層パーミュテーション解決法では,パーミュテーション不整合信号のパワースペクトログラムを用意します. その後,参照周波数成分と近傍の周波数成分が一致しているかどうかを判断します. 推定結果が1の場合は参照周波数と近傍の周波数が異なる音源であることを示し,0の場合は同一音源であることを示します.
  10. 【4:00】 しかし,この手法は入力音源が増えるとアルゴリズムが複雑化します. 例えば3音源の場合,参照周波数成分と近傍の周波数成分の値が異なる音源であるとDNNが予測した場合に,どの組み合わせと一致するかが一意に定まりません. こちらの図では,一番上のDNNの予測が「1」であり,異なる音源といった予測結果になっていますが,どの音源の組み合わせと一致するのかがわかりません. そのため,音源数分の組み合わせの処理を行う必要があり,処理がかなり複雑になるといった問題点があります. そこで,私は新たに3音源以上になっても一般性をかけない深層パーミュテーション解決法を過去に提案しました.
  11. 【5:00】 こちらの手法は以前私が提案した,多層パーセプロトン(MLP)を用いた深層パーミュテーション解決法です. パーミュテーション不整合信号を並び替えるような,パーミュテーション行列をMLPを用いて予測します. 予測した推定パーミュテーション行列をパーミュテーション不整合信号の間で行列積をとることで分離信号を求めます. ただ,この手法では後に実験結果で示すようにブロックパーミュテーション問題にしか適用できないことが問題点として挙げられます.
  12. 【5:15】 ここからは提案手法について説明します.
  13. 【5:20】 # パーミュテーション行列の逆行列を推定を行います.これは,同じくパーミュテーション行列となるので,今後パーミュテーション行列と定義して説明します.←この文言欲しいかも. 提案手法の概要です. 分かりやすさのために2音源の例を用いて,提案手法の概要を説明していきます. ただ,3音源以上になっても同じ処理を考えることができます. FDICAを適用した後,推定分離行列W_hatを得ます. ただ,この行列はスケールとパーミュテーションの不定性が残っています. こちらの行列Dはスケールの不定性を表し,行列Pはパーミュテーションの不正性を表しており,これはパーミュテーション行列です. スケールの不定性を示す行列Dは,プロジェクションバック法を用いて解析可能です. パーミュテーションの不定性を解決するには,行列Pの逆行列を求める必要があります. 2音源の場合,行列Pの逆行列はこちらの2つになります. 提案手法では,パーミュテーション不整合信号を並び替えるようなパーミュテーション行列を周波数方向再帰に基づくDNN用いて推定します.
  14. 【6:20】 提案手法における前処理について説明します. 前処理として,パーミュテーション不整合信号に対して正規化処理を行います. 正規化処理はこの式で表すことができ,行列に対する絶対値記号は要素ごとの絶対値,ドット付き指数乗は要素毎の指数乗,分数は要素ごとの商を表しています. この処理を行うことで,同一音源の成分の相関を強調できるのと同時に,推定信号の値を0〜1の区間に限定することができ,DNNの学習が安定する効果があります.
  15. 【6:50】 DNNの構造について説明します. 正規化処理を行ったスペクトログラムから局所時間スペクトログラムを抽出したものをDNNの入力に用います. 各音源の周波数方向の関係性を明確に学習するために,周波数方向に対してBiLSTMを適用しました. 各BiLSTM層では,周波数ビンの順方向の特徴量と逆方向の特徴量を要素ごとに乗算しています. 3層のBiLSTM層の後は,次元を圧縮するために周波数ビン単位で全結合層を通しました. 出力層では,Softmax関数を用いて,各周波数成分の値が足して1になる制約を設けました.
  16. 【7:30】 パーミュテーション不整合信号を並び替えるために必要である,推定パーミュテーション行列を求める方法について説明します. 先ほど,DNNの出力として確率値を出力すると説明しました. この確率値はパーミュテーション行列の係数として,用いられます. 2音源を並び替えるようなパーミュテーション行列は,先ほど説明したように2種類ありそれは,この図の[1.0 ,0.0, 0.0, 1.0]と[0.0, 1.0, 1.0 0.0]にあたります. 3音源となるとこのパーミュテーション行列の数は6種類となり,音源数の階乗分,増加していくこととなります. DNNから出力された確率値を2つのパーミュテーション行列に係数としてかけ,それぞれの行列を足したものを推定パーミュテーション行列とします.
  17. 【8:20】 推定パーミュテーション行列を求めた後は,パーミュテーション不整合信号との間で行列積をとることで完全分離信号を求めることができます.
  18. 【8:30】 DNNの学習時には,推定分離信号と完全分離信号との間で平均二乗誤差MSEを導入し,損失を計上します. その際に,分離信号全体の順序は予測の対象としないため,順序不変学習(PIT)を導入します. PITとMSEを用いたLossの取得に関する式はこちらになります.
  19. 【8:50】 学習したDNNをテストデータに適用する際には,より精度を上げるために多数決処理を行います. パーミュテーション問題は時不変であるため,複数の局所時間スペクトログラムをDNNの入力とすることで複数の推定結果を得ることができます. 複数の推定パーミュテーション行列に対して多数決処理を行うことで,最終的に1か0で形成されたパーミュテーション行列を導き出します.
  20. 【9:20】 実験についてです.
  21. 【9:25】 提案手法の性能を評価するために,従来の深層パーミュテーション解決法とMLPを用いた深層パーミュテーション解決法との比較実験を行いました. 実験データには,SiSEC2011より男女の音声およびドラムとギターの音楽信号の4種類を使用しました.
  22. 【9:40】 学習データには音声および音楽信号の時間周波数信号を周波数ビン単位でランダムにシャッフルしたデータを用いました. シャッフルのパターンは150に設定しました. テストデータには学習データとは重複しない10パターンを用いてランダムに信号を入れ替えたデータを用いました. そして,音声と音楽の2つモデルを作成しました. その後,学習データとテストデータに同じ音源を用いるin-domainと異なる音源を用いるout-of-domainでのテストを行いました.
  23. 【10:20】 In-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを学習データとは重複しないパーミュテーションパターンを持つ音声信号に適用することを指します. 学習に音楽信号を用いた場合は,テストも音楽信号で行います. 一方で,out-of-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを音楽信号に適用することを指します. 学習に音楽信号を用いた場合は,テストに音声信号を用いました.
  24. 【10:55】 こちらはin-domainデータセットに対する実験結果です. 提案手法が音声信号と音楽信号に対して高精度でパーミュテーション問題が解決できていることが分かります.
  25. 【11:10】 こちらはout-of-domainデータセットに対する実験結果です. 音声信号のout-of-domainに対する実験結果では,従来法が高精度でパーミュテーション問題を解決できているのに対し,音楽信号のout-of-domainに対する実験結果では,提案法が高精度でパーミュテーション問題を解決していることが分かります.
  26. 【11:30】 こちらは音声信号のout-of-domainデータセットに対するスペクトログラムです. 左上から観測信号,従来手法,MLP法,BiLSTM法を示しています. MLP法は,全くパーミュテーション問題を解決できていないことがわかります.
  27. 【12:00】 続いて先ほどのスペクトログラムの重要な成分が含まれている低周波数領域に注目してみます. BiLSTM法は,従来手法と比較すると低周波領域においてパーミュテーション問題を解決できていないことが確認できます.
  28. 【12:15】 こちらは音楽信号のout-of-domainデータセットに対するスペクトログラムです. MLP法は,全くパーミュテーション問題を解決できていないのに対して,BiLSTM法はほとんど完璧に解決できていることがわかります.
  29. 【12:30】 低周波数領域を拡大した図がこちらになります. この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります. パーミュテーション問題が生じている観測信号の音声はこちらになります. 続いてMLP法です. 続いて従来手法です. 続いて提案手法です. 音声を聞いてみると提案手法が一番パーミュテーション問題を解決できていることがわかります.
  30. 【13:40】 最後にまとめです.
  31. 低周波数領域を拡大した図がこちらになります. この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります.
  32. 【14:00】 こちらまとめになります. 以上で発表を終わります. ご清聴ありがとうございました.