方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)

奈良先端科学技術大学院大学
☆宮内智, 北村大地, 猿渡洋, 中村哲
方位クラスタリングと非負値行列因子分解を
用いた音像深度自動推定

発表内容
 研究背景と関連研究
 課題と研究目的
 提案手法
- DOA ヒストグラム
- アクティベーション同期型マルチチャネル NMF
 評価実験
 まとめと今後の課題
2

研究背景
3D TV 等の普及により “深度：奥行き感” のある映像が呈示可能
音像に深度を与えることが可能な音響システムは確立していない
映像と音像の位置が一致せず知覚上の違和感が生じる
混合音全体が移動することによる違和感が生じる
問題1 映像音像
映像音像
: 音像
: 音像
3D TV
3D TV
一方
問題2
3

関連研究
複数のラウドスピーカアレイを用い
音像を呈示することが可能な技術
Wave Field Synthesis (WFS)
問題1の関連研究
3D 立体映像と一致する音像呈示
[A. J. Berkhout, et al., 1993]
…… …
方位クラスタリングに基づく音源分離
[S. Araki, et al., 2007]
問題2の関連研究
混合音に含まれる各音像の分離
受聴者
ステレオ信号の左右チャネル信号
から方位を取得し音源分離
4

方位クラスタリングに基づく方位分解
5：Source component ：Spatial representative vector
L-chinputsignal
R-ch input signal
L-chinputsignal
R-ch input signal
Normalization Clustering
混合信号
L-chinputsignal
R-ch input signal
各クラスタ毎の分離信号

課題と研究目的
6
DOA (direction of arrival) を用いた
マルチチャネル音源中の音像深度推定
提案手法
一次音源の深度に関する推定
どの様に音像の深度情報を取得するか?
本研究の目的
課題既存コンテンツは定位情報が失われており
そのままでは WFS に適用することができない．
Up-mixer
一次音源の方位に関しては推定可能
逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012]

→ direction of arrival：音の到来方向
DOA の分布を利用し音像深度の推定
Center RightLeft
Frequency
Direction of arrival
方位クラスタリングに基づく音源分離重み付けDOA ヒストグラム
DOA
振幅値
7
方位
重み付け項
提案手法： DOA に基づく音像深度推定

提案手法： DOA に基づく音像深度推定
8
sourcecomponent
Frequencyof
sourcecomponent
Frequencyof
Far
Near
裾野は広く頻度値は小
ヒストグラムの分散値が大
音源深度によるDOA ヒストグラム形状の違い
DOA ヒストグラムの分散値から音像深度の推定を行う
裾野は狭く頻度値は大
ヒストグラムの分散値が小
音源が近い
音源が遠い

DOA に基づく音像深度推定
信号処理上の
問題点
L-ch
R-ch
レベルの小さな雑音成分も過大に
扱われてしまい目的音が埋もれる
L-chinputsignal
R-ch input signalBinaural – recorded
Noise
正規化問題
9
DOA
Frequency
Center
RightLeft
背景雑音やデジタル信号処理で生じる人工的なノイズの抑圧が必要
そのまま適用しただけでは目的音の真の分散値が評価できない．
アクティベーション同期型マルチチャネル NMF改良手法

アクティベーション同期型マルチチャネル NMF
10
Time
Frequency
Amplitude
Frequency
Amplitude
Time
𝛺: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
非負値行列因子分解 (nonnegative matrix factorization: NMF)
𝑭が現れるタイミング
及び音量を表現する
非負行列を2つの非負行列の行列積で表現する．
→ 特徴的なパターンが基底となって現れる特徴を持つ．
この性質を利用し目的信号成分の抽出を行う．
基底行列スペクトログラム
アクティベーション行列
スペクトログラム中で頻出
するスペクトルパターン
×左右チャネル別々に NMF 処理を行うと方位情報 (振幅比) が乱れる．

11
L-ch
NMF
R-ch
NMF
問題
Frequency
DOA
チャネル毎に NMF で
処理すると基底が
無相関に学習される．
アクティベーション共有型マルチチャネル NMF
方位情報
フレーム周波数
ビン毎の振幅比
方位情報が乱れ
本来の DOA の
分布が不明に

12
方位情報を保存しつつ
目的音源抽出
コスト関数
アクティベーション
を共有
アクティベーション同期型マルチチャネル NMF改良手法
: コスト関数, : βダイバージェンス, : 中の各要素
L-ch
NMF
R-ch
NMF

一般化距離関数 -divergence [Eguchi, et al., 2001]
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視
された距離尺度に

更新式導出は補助関数法を用いる
コスト関数の上限を与える補助関数を定義
コスト関数を間接的に最小化
14
距離関数に b -divergence を用いた場合の更新式を導出し，
超解像に基づく教師あり NMF において最適な距離規範の検討を行う
-divergenceを用いて

コスト関数(上式) の第一項，第二項はの値に応じて
凸関数 (convex) か関数 (concave) になる．
concave
convex
convex
concave
convex
concave
15

各項の上限関数は以下の不等式を用いて設計できる
凸関数: Jensen の不等式
凹関数: 接線不等式
: 凸関数
: 凹関数
16

補助関数を各変数で微分し，補助変数の等号成立条件を
代入することで更新式を導出
17
はそれぞれ
の要素

提案手法フロー
Input stereo signal
L-ch R-ch
STFT
Cluster RCluster CCluster L
Weighted DOA histogram
estimation
Variance
estimation
Variance
estimation
Variance
shared NMF
Activation
Frequency
DOA各クラスタのDOA ヒストグラムの分散値を
評価することにより音像深度を推定
Frequency
DOA
Frequency
DOA
shared NMF
Activation
shared NMF
Activation
18

 3種類の楽器の混合音源
 距離の違う3つの目的音
 ピンクノイズを混合した音源についても評価
 方位の組み合わせ: 6通り
目的音の距離： 3通り
ノイズ付加率の違い： 4通り
評価実験
19
Mixing source parameter
Test source 1, 2, 3
SNR
NMF beta
NMF basis
実験条件
Interference
Target
1.5 m 0.5 m2.5 m
Dummy
Interference
source
head
source
source
重み付けのみ提案法 1 提案法 2 重み付け + NMF 処理
72個のテストセット

評価実験
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Depth of sound source
VarianceofhistogramVarianceofhistogram
VarianceofhistogramVarianceofhistogram (d)
(a)
(c)
(b)
：Proposed
method 1
結果  3つの音源距離間で有意な推定が行われた．
 全条件において提案法2の結果が若干優位
 ノイズの強い音源に関しても頑健性が示唆された．
(a) signal only
(b) signal with pink
noise (SNR=30 dB)
(c) signal with pink
noise (SNR=20 dB)
(d) signal with pink
noise (SNR=１0 dB)
：Proposed
method 2
0.5 m 1.5 m 2.5 m
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
0.5 m 1.5 m 2.5 m
0.5 m 1.5 m 2.5 m0.5 m 1.5 m 2.5 m
Depth of sound source
Depth of sound sourceDepth of sound source
20

まとめと今後の課題
21
まとめ!
 波面合成法で必要となる音像深度の推定手法として， DOA
ヒストグラムの分散値を評価することを提案した．
 改良手法として，アクティベーション共有型マルチチャネル
NMF を提案した．
 音源距離の違いに応じて特徴量に有意な差が見られ，音
像深度の推定に対する提案法の有効性が示された．
 別条件の音源に対する評価実験の実施
 音像定位推定を波面合成法へ適用し，実音場で再現を
行った合成音源に対する主観評価実験の実施
まとめ
今後の課題

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (16)

Mehr von Daichi Kitamura

Mehr von Daichi Kitamura (14)

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)

Hinweis der Redaktion