Suche senden
Hochladen
Saito18asj_s
•
1 gefällt mir
•
350 views
Y
Yuki Saito
Folgen
Talk at ASJ 2018 (spring meeting)
Weniger lesen
Mehr lesen
Wissenschaft
Melden
Teilen
Melden
Teilen
1 von 14
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
Empfohlen
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
Saito17asjA
Saito17asjA
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Weitere ähnliche Inhalte
Was ist angesagt?
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
Saito17asjA
Saito17asjA
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Was ist angesagt?
(20)
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Saito17asjA
Saito17asjA
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Kameoka2016 miru08
Kameoka2016 miru08
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
音情報処理における特徴表現
音情報処理における特徴表現
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Mehr von Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
Mehr von Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Nakai22sp03 presentation
Nakai22sp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Saito19asj_s
Saito19asj_s
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Saito18asj_s
1.
©Yuki Saito, 2018/03/15 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成 ◎
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2018年春季研究発表会 3-8-14
2.
/13 従来法1: ボコーダを用いた敵対的DNN音声合成
[Saito et al., 2018] – GAN* に基づく音響モデル学習により,過剰な平滑化を緩和 – ボコーダ由来の音声パラメータ化により音質が劣化 従来法2: STFTスペクトルを用いた音声合成 [Takaki et al., 2017] – 振幅スペクトルを直接生成し,ボコーダ処理を回避 – 過剰な平滑化 & 音響モデル学習の困難性により音質が劣化 本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度のスペクトルを用いた学習 • 元解像度での二乗誤差最小化: スペクトル全体の平均的な違いを補償 • 低解像度での分布間距離最小化: スペクトル包絡成分の違いを補償 結果: 提案法による合成音声の音質改善 1 本発表の概要 *Generative Adversarial Network [Goodfellow et al., 2014]
3.
/13 敵対的DNN音声合成の音響モデル学習 [Saito et
al., 2018] 2 STFTスペクトルを用いた音声合成 [Takaki et al., 2017] にも適用可能 音声パラメータの 分布間距離を最小化 𝐿MSE 𝒚, 𝒚 Linguistic feats. Natural speech params. 𝒚 ML-based parameter generation Generated speech params. 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 1: natural Discriminative models 音声パラメータの 二乗誤差を最小化 𝐿G 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚
4.
/133 STFTスペクトルを用いたDNN音声合成の問題点: スペクトルの過剰な平滑化 & 音響モデル学習の困難性 Frequencybin(e.g.,513dim.) Frame Natural (highly
random) MSE (over-smoothing) ADV* (discontinuous) 振幅スペクトルの音響モデルのための効率的な学習法を提案 *元周波数解像度の振幅スペクトルを用いた敵対的DNN音声合成
5.
/134 本発表: 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成
6.
/135 提案法の動機: スペクトル包絡成分を補償する学習 振幅スペクトル:
複雑な分布を持つ高次元特徴量 – スペクトル微細構造と包絡成分の両方によって構成 – 従来法 [Saito et al., 2018] は,包絡成分の補償で有効 本研究の仮定: 低周波数解像度のスペクトル ≒ 包絡成分 – スペクトルを低周波数解像度に圧縮し,分布間距離を補償 Average pooling Average pooling Natural Generated 分布間距離 最小化
7.
/13 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成の音響モデル学習 6 𝐿MSE 𝒚, 𝒚 Linguistic feats. + Log
F0 Natural amplitude spectra 𝒚 ML-based parameter generation Generated amplitude spectra 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 L 1: natural Low-res. discriminative models 𝐿G (Low) 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D L 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚 L Average pooling 𝝓 ⋅ 𝝓 ⋅𝒚 𝒚 L 𝒚 L Average pooling 幅の変更 → 低解像度スペクトルの次元数の変更
8.
/137 考察 提案法の損失関数: 元解像度のMSE
+ 低解像度のGAN – 元解像度のMSE: スペクトル全体の平均的な違いを補償 – 低解像度のGAN: スペクトル包絡成分の分布の違いを補償 Average pooling 幅: フィルタバンク抽出時の窓幅に対応 – Pooling 幅をより広く設定 → スペクトルをより低次元に圧縮 敵対的DNN音声合成の将来展望 – ボコーダ特徴量の音響モデル学習 [Saito et al., 2018] – STFT振幅スペクトルの音響モデル学習 (本発表) – 音声波形の音響モデル学習
9.
/138 提案法の効果: スペクトル包絡成分の違いを補償 Natural MSE
ADV ADV-Low (Proposed) スペクトル全体の構造を保持しつつ,ピークでの違いを補償!
10.
/139 実験的評価
11.
/13 実験条件 10 データセット 女性話者の日本語音声4,007文 (JSUTコーパス*の一部, 16 kHz
サンプリング) 学習/評価データ 3,808文/199文 STFT分析条件 フレーム長: 400 (25 ms) シフト長: 80 (5 ms) FFT長: 1,024 分析窓: Hamming Average pooling の パラメータ Zero-padding サイズ: 6 Pooling 幅 𝑤: 14/30/70 ストライド幅: pooling 幅の半分 敵対損失の重み 1.0 音響モデルへの入力 444次元 (コンテキストラベル, 継続長, 対数𝐹0, U/V) 識別モデルへの入力 元周波数解像度: 513次元 低周波数解像度: 74/34/14次元 DNNアーキテクチャ 全て Feed-Forward (詳細は原稿参照) *[Sonobe et al., 2017]
12.
/1311 元周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト) 比較手法 – MSE:
二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV: 元解像度を用いた敵対的DNN音声合成 [Saito et al., 2018] 元周波数解像度を用いた敵対的DNN音声合成による音質劣化を確認 ADVMSE 0.720 vs. 0.280 (𝑝 = 1.2 × 10−3 ) 評価者数25 (各評価者につき10サンプルを評価)
13.
/1312 低周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト) 比較手法 – MSE:
二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV-Low: 低解像度を用いた敵対的DNN音声合成 (提案法) 低周波数解像度を用いた敵対的DNN音声合成による音質改善を確認 ADV-Low (𝑤 = 14) ADV-Low (𝑤 = 30) ADV-Low (𝑤 = 70) MSE 0.432 vs. 0.568 (𝑝 = 2.3 × 10−3) 0.428 vs. 0.572 (𝑝 = 1.2 × 10−3 ) 0.472 vs. 0.528 (𝑝 = 2.1 × 10−1) 評価者数25 (各評価者につき10サンプルを評価)
14.
/1313 まとめ 従来法 – ボコーダを用いた敵対的DNN音声合成 •
音声パラメータの過剰な平滑化による音質劣化を改善 • ボコーダ由来のパラメータ化に起因して音質が劣化 – STFTスペクトルを用いたDNN音声合成 • ボコーダ由来のパラメータ化に起因する音質劣化を改善 • 過剰な平滑化 & 学習の困難性に起因して音質が劣化 本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度の利用による効率的な学習法 – 低周波数解像度 (≒スペクトル包絡成分) での分布の違いを補償 結果: 従来法と比較して合成音声の音質を改善 今後: 元周波数解像度の効果的な利用法を検討
Jetzt herunterladen