SlideShare ist ein Scribd-Unternehmen logo
1 von 21
奈良先端科学技術大学院大学
☆宮内智, 北村大地, 猿渡洋, 中村哲
方位クラスタリングと非負値行列因子分解を
用いた音像深度自動推定
発表内容
 研究背景と関連研究
 課題と研究目的
 提案手法
- DOA ヒストグラム
- アクティベーション同期型マルチチャネル NMF
 評価実験
 まとめと今後の課題
2
研究背景
3D TV 等の普及により “深度:奥行き感” のある映像が呈示可能
音像に深度を与えることが可能な音響システムは確立していない
映像と音像の位置が一致せず知覚上の違和感が生じる
混合音全体が移動することによる違和感が生じる
問題1 映像 音像
映像 音像
: 音像
: 音像
3D TV
3D TV
一方
問題2
3
関連研究
複数のラウドスピーカアレイを用い
音像を呈示することが可能な技術
Wave Field Synthesis (WFS)
問題1の関連研究
3D 立体映像と一致する音像呈示
[A. J. Berkhout, et al., 1993]
…… …
方位クラスタリングに基づく音源分離
[S. Araki, et al., 2007]
問題2の関連研究
混合音に含まれる各音像の分離
受聴者
ステレオ信号の左右チャネル信号
から方位を取得し音源分離
4
方位クラスタリングに基づく方位分解
5:Source component :Spatial representative vector
L-chinputsignal
R-ch input signal
L-chinputsignal
R-ch input signal
Normalization Clustering
混合信号
L-chinputsignal
R-ch input signal
各クラスタ毎の分離信号
課題と研究目的
6
DOA (direction of arrival) を用いた
マルチチャネル音源中の音像深度推定
提案手法
一次音源の深度に関する推定
どの様に音像の深度情報を取得するか?
本研究の目的
課題 既存コンテンツは定位情報が失われており
そのままでは WFS に適用することができない.
Up-mixer
一次音源の方位に関しては推定可能
逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012]
→ direction of arrival: 音の到来方向
DOA の分布を利用し音像深度の推定
Center RightLeft
Frequency
Direction of arrival
方位クラスタリングに基づく音源分離 重み付けDOA ヒストグラム
DOA
振幅値
7
方位
重み付け項
提案手法: DOA に基づく音像深度推定
提案手法: DOA に基づく音像深度推定
8
sourcecomponent
Frequencyof
sourcecomponent
Frequencyof
Far
Direction of arrival
Near
裾野は広く頻度値は小
ヒストグラムの分散値が大
音源深度によるDOA ヒストグラム形状の違い
DOA ヒストグラムの分散値から音像深度の推定を行う
裾野は狭く頻度値は大
ヒストグラムの分散値が小
音源が近い
音源が遠い
Direction of arrival
DOA に基づく音像深度推定
信号処理上の
問題点
L-ch
R-ch
レベルの小さな雑音成分も過大に
扱われてしまい目的音が埋もれる
L-chinputsignal
R-ch input signalBinaural – recorded
Noise
正規化問題
9
DOA
Frequency
Center
RightLeft
背景雑音やデジタル信号処理で生じる人工的なノイズの抑圧が必要
そのまま適用しただけでは目的音の真の分散値が評価できない.
アクティベーション同期型マルチチャネル NMF改良手法
アクティベーション同期型マルチチャネル NMF
10
Time
Frequency
Amplitude
Frequency
Amplitude
Time
𝛺: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
非負値行列因子分解 (nonnegative matrix factorization: NMF)
𝑭が現れるタイミング
及び音量を表現する
非負行列を2つの非負行列の行列積で表現する.
→ 特徴的なパターンが基底となって現れる特徴を持つ.
この性質を利用し目的信号成分の抽出を行う.
基底行列スペクトログラム
アクティベーション行列
スペクトログラム中で頻出
するスペクトルパターン
×左右チャネル別々に NMF 処理を行うと方位情報 (振幅比) が乱れる.
11
L-ch
NMF
R-ch
NMF
問題
Frequency
DOA
チャネル毎に NMF で
処理すると基底が
無相関に学習される.
アクティベーション共有型マルチチャネル NMF
方位情報
フレーム周波数
ビン毎の振幅比
方位情報が乱れ
本来の DOA の
分布が不明に
12
方位情報を保存しつつ
目的音源抽出
コスト関数
アクティベーション
を共有
アクティベーション同期型マルチチャネル NMF改良手法
: コスト関数, : βダイバージェンス, : 中の各要素
アクティベーション共有型マルチチャネル NMF
L-ch
NMF
R-ch
NMF
一般化距離関数 -divergence [Eguchi, et al., 2001]
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視
された距離尺度に
アクティベーション共有型マルチチャネル NMF
更新式導出は補助関数法を用いる
コスト関数 の上限を与える補助関数を定義
コスト関数を間接的に最小化
アクティベーション共有型マルチチャネル NMF
14
距離関数に b -divergence を用いた場合の更新式を導出し,
超解像に基づく教師あり NMF において最適な距離規範の検討を行う
-divergenceを用いて
コスト関数(上式) の第一項,第二項は の値に応じて
凸関数 (convex) か関数 (concave) になる.
concave
convex
convex
concave
convex
concave
アクティベーション共有型マルチチャネル NMF
15
各項の上限関数は以下の不等式を用いて設計できる
凸関数: Jensen の不等式
凹関数: 接線不等式
: 凸関数
: 凹関数
アクティベーション共有型マルチチャネル NMF
16
アクティベーション共有型マルチチャネル NMF
補助関数を各変数で微分し,補助変数の等号成立条件を
代入することで更新式を導出
17
はそれぞれ
の要素
提案手法フロー
Input stereo signal
L-ch R-ch
STFT
Cluster RCluster CCluster L
Weighted DOA histogram
estimation
Variance
estimation
Variance
estimation
Variance
shared NMF
Activation
Frequency
DOA各クラスタのDOA ヒストグラムの分散値を
評価することにより音像深度を推定
Frequency
DOA
Frequency
DOA
shared NMF
Activation
shared NMF
Activation
18
 3種類の楽器の混合音源
 距離の違う3つの目的音
 ピンクノイズを混合した音源についても評価
 方位の組み合わせ: 6通り
目的音の距離: 3通り
ノイズ付加率の違い: 4通り
評価実験
19
Mixing source parameter
Test source 1, 2, 3
SNR
NMF beta
NMF basis
実験条件
Interference
Target
1.5 m 0.5 m2.5 m
Dummy
Interference
source
head
source
source
重み付けのみ提案法 1 提案法 2 重み付け + NMF 処理
72個のテストセット
評価実験
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Depth of sound source
VarianceofhistogramVarianceofhistogram
VarianceofhistogramVarianceofhistogram (d)
(a)
(c)
(b)
:Proposed
method 1
結果  3つの音源距離間で有意な推定が行われた.
 全条件において提案法2の結果が若干優位
 ノイズの強い音源に関しても頑健性が示唆された.
(a) signal only
(b) signal with pink
noise (SNR=30 dB)
(c) signal with pink
noise (SNR=20 dB)
(d) signal with pink
noise (SNR=10 dB)
:Proposed
method 2
0.5 m 1.5 m 2.5 m
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
0.5 m 1.5 m 2.5 m
0.5 m 1.5 m 2.5 m0.5 m 1.5 m 2.5 m
Depth of sound source
Depth of sound sourceDepth of sound source
20
まとめと今後の課題
21
まとめ!
 波面合成法で必要となる音像深度の推定手法として, DOA
ヒストグラムの分散値を評価することを提案した.
 改良手法として,アクティベーション共有型マルチチャネル
NMF を提案した.
 音源距離の違いに応じて特徴量に有意な差が見られ,音
像深度の推定に対する提案法の有効性が示された.
 別条件の音源に対する評価実験の実施
 音像定位推定を波面合成法へ適用し,実音場で再現を
行った合成音源に対する主観評価実験の実施
まとめ
今後の課題

Weitere ähnliche Inhalte

Andere mochten auch

Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料洋資 堅田
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントSlideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントTaichi Hirano
 
人と向き合うプロトタイピング
人と向き合うプロトタイピング人と向き合うプロトタイピング
人と向き合うプロトタイピングwariemon
 
0528 kanntigai ui_ux
0528 kanntigai ui_ux0528 kanntigai ui_ux
0528 kanntigai ui_uxSaori Matsui
 
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識Tsutomu Sogitani
 
女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -Shoko Tanaka
 

Andere mochten auch (16)

Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントSlideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
 
人と向き合うプロトタイピング
人と向き合うプロトタイピング人と向き合うプロトタイピング
人と向き合うプロトタイピング
 
0528 kanntigai ui_ux
0528 kanntigai ui_ux0528 kanntigai ui_ux
0528 kanntigai ui_ux
 
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識
ビジネスマン必見!キレイな提案書を作るためのデザインの基礎知識
 
女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -
 

Mehr von Daichi Kitamura

独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 

Mehr von Daichi Kitamura (14)

独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)

Hinweis der Redaktion

  1. それでは,表記の題目で奈良先端科学技術大学院大学 宮内が発表致します.
  2. 本日の発表内容はご覧の様になっています. まず,研究背景と関連研究について述べていきます.
  3. 近年,より臨場感あふれる映像の再生を目指し,3Dテレビが普及してきています. 立体映像技術では奥行き感等の映像の深さ,いわゆる「深度」を持った映像の呈示が可能になっています. その一方で,音像に深度を与えることができる音響システムはいまだ確立されていません. これには,2つの問題が存在します. まず1つ目の問題ですが,ディスプレイ前方に飛び出すような音像を作り出すことは,既存のサラウンドシステムなどでは困難です. 映像は深度を持っているのに対し,音像は深度を持っておらず、映像と音像の位置が一致しないため,知覚上の違和感が生じてしまいます. この問題を解決し,音像に深度を与える事が可能になったとしても,もう一つ問題が残っています. (問題2をさして)このようにボーカルだけが画面前方に飛び出てくるような映像を考えます. ボーカルだけに深度を持たせて音像を呈示したいのですが,一般的に配布されている音源では,各楽器音は混合されてしまっています. 右の図のように混合音に含まれる音源全てが同じように飛び出してしまい,映像と音像の位置が一致しないため,音源分離が必要となります. したがって,3D立体映像に適した音像深度を呈示可能かつ,混合音源にも使用できるような音響システムが求められています.
  4. それぞれの問題解決に応用可能な関連研究を以下に示します. まずは立体音響の問題についてです. 世界中で盛んに研究されている音の再生方式としてWave field synthesis,WFSがあります. WFSとは複数個のスピーカにより構成されるスピーカアレーによってディスプレイよりも受聴者寄りに音像を呈示する事が可能な技術です. この技術により,3D 映像に適した立体的な音像の呈示が可能になります. 次に音源分離問題についてです. 音源分離問題は数多くの研究が行われているホットな話題ですが,今回は方位クラスタリングに基づく音源分離を用います。 これはチャネル間のレベル差を用いて方位ごとに楽器音を分離する手法です. この技術により,方位毎に各楽器の分離が可能となります.
  5. 方位クラスタリングはチャネル間のレベル差を特徴量として用いる音源分離手法であり, 一般的に配布されているステレオ混合信号の方位毎の分離を行うことができます. 実際の処理としては,まずステレオ混合信号のフーリエ変換を行い振幅情報を特徴量とした二次元座標軸上にプロットし, それらを正規化して単位円上に揃えたあと,クラスタ数を与えてk-means法によりクラスタリングを行います. そして得られた各クラスタを取り出し逆フーリエ変換を行うことで,方位毎に分離された音源を取得します.
  6. では,音像の深度情報をどの様に取得するかということが問題となります. そもそも人間の聴覚における深度知覚は,方位知覚等に比べて未解明な部分が多く,これまで音像深度の推定手法も確立されてはいませんでした. この問題に対し,私は音の到来方向,direction of arrival を用いたステレオ音源中の音像深度推定手法を提案します.
  7. DOAとはdirection of arrival,すなわち音の到来方向を表すものです. このDOAを使って音像深度を推定することを考えます. 方位クラスタリングでは,左右チャネルのレベル差を方位情報として捉え音源分離に用いました. その方位情報を再度利用します.音の到来方向,すなわちDOAを頻度毎でプロットしたヒストグラムを作成します. これを,DOA ヒストグラムと呼ぶことにします.
  8. 音は,その伝搬過程において反射や減衰が生じます. すなわち音源が近い場合,ヒストグラムは急峻になり,ある方位の頻度値に強いピークが現れると考えられます. 逆に音源が遠い場合,ヒストグラムの裾野は拡がり,頻度値は全体的に小さくなると考えられます. よって,この DOA ヒストグラムの分散を考えると,音源が近ければ分散値が小さく,音源が遠ければ分散値が大きくなるという定義ができます. この考えに基づき,DOA ヒストグラムの分散値から音像深度の推定を行います.
  9. しかし,実際の信号処理において,ある問題が生じます. 前述の通り,左右チャネルの振幅は,クラスタリングの過程において正規化をされます. この際,本来はレベルの小さい成分である背景雑音や, デジタル信号処理を行った際に生まれる人工的なノイズまでもが目的音と同等に評価されてしまいます. これにより,目的音がノイズに埋もれてしまい,真の分散値を推定することが出来なくなってしまいます. この対策として,二つの改良手法を説明します.
  10. NMF とは,nonnegative matrix factorization の略で,非負値行列因子分解といいます. これは,非負行列を2つの非負行列の行列積で表現するという考え方です. F は基底行列と呼ばれ,スペクトログラム中で頻出するスペクトルパターンを表します. G はアクティベーション行列と呼ばれ,基底行列が現れるタイミングと音量を表現します. この二つの行列積により,スペクトログラム Y を表現します. NMF は,特徴的なパターンが基底となって現れる特徴を持ち,主要な成分を表現する方向に学習が行われます. この性質を利用すれば,レベルの大きい目的音のみを表現する方向に近似が行われ,有効なノイズ抑圧が行われると考えられます. しかし,従来の NMF はそのまま今回の事例には適用できません. 左右チャネル別々に NMF 処理を行うと,周波数ビン毎の振幅比が無相関になり,方位情報が失われてしまうという問題が生じてしまうからです.
  11. そこで,アクティベーション同期型マルチチャネル NMF を提案します. これは,本来別々に動作するチャネル毎の NMF を,アクティベーション行列 G のみを共有して学習を行う考え方です. これにより,方位情報を保ちつつもノイズの抑圧を行うことができ,目的音の真の分散値推定に近づくことが可能となります. コスト関数は以下の様になっています.
  12. そこで,アクティベーション同期型マルチチャネル NMF を提案します. これは,本来別々に動作するチャネル毎の NMF を,アクティベーション行列 G のみを共有して学習を行う考え方です. これにより,方位情報を保ちつつもノイズの抑圧を行うことができ,目的音の真の分散値推定に近づくことが可能となります. コスト関数は以下の様になっています.
  13. より一般化された距離関数としてbeta-ダイバージェンスが提案されている これはこの式で表され β=2の時にユークリッド距離, β=1の時に一般化KLダイバージェンス, β=0の時に板倉-斉藤擬距離とそれぞれ等価になる すなわち,Βの値が小さくなるほど,分解行列因子のスパース性が重視された距離尺度になる
  14. 更新式導出は,補助関数法を用います. これは,コスト関数を直接最小化するのが難しい為,コスト関数の上限を与える補助関数を定義して間接的に最小化する手法です. 先ほどのコスト関数をbetaダイバージェンスで書きなおすと,このようになります. Iωtはバイナリマスクのインデックスの要素であり,1か0の値です.
  15. このコスト関数の第一項は定数になります. また,第二項,第三項,第四項はbetaの値に応じて凸関数か凹関数になります. それぞれの項はbetaの値に応じて以下の表のようになります.
  16. これらの項の上限関数は,以下の不等式を用いて設計できます. まず凸関数に対してははイェンゼンの不等式を用いて上限を与え,凹関数に対しては接線不等式を用いて上限を与えることができます.
  17. このようにして補助関数を設計し,各変数で偏微分すると,更新式を得ることができます. 超解像に基づく教師ありNMFのBetaダイバージェンスでの更新式はこのようになります.
  18. ここで改めて提案法のフローをご説明します. まず既存コンテンツであるステレオ混合信号に対しSTFTを行い,DOAヒストグラムを作成します. 次に,DOAヒストグラムに重み付けを行い,クラスタ毎に分離を行った後,アクティベーション共有型 NMF 処理を行います. そうして得られたクラスタ毎の分離音に対してヒストグラムの分散値を評価し,音像深度を推定します.
  19. 実験条件は,二つの提案法について行います. 一つ目は重み付けのみを行ったもの,2つめは重みづけに加えてNMF処理を行ったものです. テストソースにはギター,ボーカル,ピアノの3種類の楽器を鳴らした混合音源を用います. 評価対象の目的音源は 0.5 m, 1.5 m, 2.5 m の3位置に配置します. 目的音の他には左右に干渉音を置き,その位置は1.5 m に固定します. 音源の作成には,図中の各位置でバイノーラル収録した室内インパルス応答を用いました. 背景雑音に対する頑健性を評価するため,ピンクノイズを混合したテスト音源についても評価を行いました. 3種類の試験音の方位の組み合わせ6通り,目的音の距離の違う3通り, ノイズ付加率の違いによる4通りを各々設定した,計72個のテストセットを評価しました.
  20. 結果です. グラフは楽器の方向組み合わせの平均値を表しており,灰色のものが提案法1, 黒が提案法2の結果となります. (a) は楽器音のみのもの,(b) から (d) は,信号対雑音比をそれぞれ30, 20, 10 dB で混合したものを載せています. グラフは3位置における目的音の分散値を表していますが,0.5 m の位置の値で正規化を行っています. すなわち,0,5 m の音源に対して 1.5 m, 2.5 m の音源がどれくらい遠くに推定されているかということを表しており, この3つの値の差が大きければ大きいほど良い結果だということになります. 図から分かる通り,全条件において,音源深度に従い分散も大きくなり,距離間で有意な推定が行われています. 全条件において提案法2の結果が若干優位になり,ノイズの強い音源に関しても頑健性が示唆されました. 以上から,DOA による音像深度の推定が可能であることが実証され,提案法の有効性が示されました.
  21. 読み上げる (時間が無い場合は)「まとめと今後の課題はこのようになっています.」 ご清聴ありがとうございました.