Submit Search
Upload
saito2017asj_tts
•
0 likes
•
520 views
Y
Yuki Saito
Follow
ASJ 2017 Text-to-Speech
Read less
Read more
Science
Report
Share
Report
Share
1 of 17
Download now
Download to read offline
Recommended
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
Recommended
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
Saito17asjA
Saito17asjA
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
Saito18asj_s
Saito18asj_s
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
Saito18sp03
Saito18sp03
Yuki Saito
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
Shinnosuke Takamichi
Eutrofización
Eutrofización
Montserrat Mendoza
Tema 4. ciencias sociales.
Tema 4. ciencias sociales.
Marcos Rodríguez Ucedo
More Related Content
What's hot
Saito17asjA
Saito17asjA
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
Saito18asj_s
Saito18asj_s
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
Saito18sp03
Saito18sp03
Yuki Saito
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
Shinnosuke Takamichi
What's hot
(20)
Saito17asjA
Saito17asjA
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
音情報処理における特徴表現
音情報処理における特徴表現
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Nakai22sp03 presentation
Nakai22sp03 presentation
Saito20asj_autumn
Saito20asj_autumn
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Saito19asj_s
Saito19asj_s
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
音声認識の基礎
音声認識の基礎
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Saito18asj_s
Saito18asj_s
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
Saito18sp03
Saito18sp03
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
Viewers also liked
Eutrofización
Eutrofización
Montserrat Mendoza
Tema 4. ciencias sociales.
Tema 4. ciencias sociales.
Marcos Rodríguez Ucedo
Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,
iankeneth12
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Richard Johnson
Dramaturgia
Dramaturgia
Romina Yépez Vásquez
Alfonso X el Sabio
Alfonso X el Sabio
Manu Pérez
ESCUELAS DEL FUTURO
ESCUELAS DEL FUTURO
claudiatdf
Visual scaffolding
Visual scaffolding
kalleykirkland
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Shinnosuke Takamichi
Autyzm pezentacja
Autyzm pezentacja
Mrtinez86
SENDERO ECOLIGICO
SENDERO ECOLIGICO
leidy tatiana sanchez cruz
Murat artsin storyboard
Murat artsin storyboard
Murat ARTSIN
Slp201702
Slp201702
Yuki Saito
Saito2017icassp
Saito2017icassp
Yuki Saito
Herramientas de la web 2.0
Herramientas de la web 2.0
Lisbeth García
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Damien Gatt
Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong
Robert Cole
конспект остп
конспект остп
Мельник Наталія Володимирівна
Nose job
Nose job
Health First
Viewers also liked
(19)
Eutrofización
Eutrofización
Tema 4. ciencias sociales.
Tema 4. ciencias sociales.
Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Dramaturgia
Dramaturgia
Alfonso X el Sabio
Alfonso X el Sabio
ESCUELAS DEL FUTURO
ESCUELAS DEL FUTURO
Visual scaffolding
Visual scaffolding
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Autyzm pezentacja
Autyzm pezentacja
SENDERO ECOLIGICO
SENDERO ECOLIGICO
Murat artsin storyboard
Murat artsin storyboard
Slp201702
Slp201702
Saito2017icassp
Saito2017icassp
Herramientas de la web 2.0
Herramientas de la web 2.0
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong
конспект остп
конспект остп
Nose job
Nose job
Similar to saito2017asj_tts
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
博三 太田
Similar to saito2017asj_tts
(8)
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
More from Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
More from Yuki Saito
(15)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Une18apsipa
Une18apsipa
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
saito2017asj_tts
1.
©Yuki Saito, 2017/03/16 敵対的DNN音声合成における
𝐹0・継続長の生成 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 2-6-6
2.
/16 問題点: 統計的パラメトリック音声合成の音質劣化 –
生成される音声特徴量系列の過剰な平滑化が一因 従来法: 敵対的DNN音声合成 [Saito et al., 2017.] – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを補償 – スペクトル特徴量のみに関して有効性を確認 本発表: 敵対的DNN音声合成による 𝐹0・継続長の生成 – スペクトル特徴量と 𝐹0 の同時分布を補償 – 言語依存の等時性を考慮した継続長の生成法を提案 結果: 𝐹0の生成に関して提案法による音質改善を確認 1 本発表の概要
3.
/16 Minimum Generation Error
(MGE) 学習 2 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech params. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech params.ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ Frame 𝑡 = 1 Static-dynamic mean vectors Frame 𝑡 = 𝑇 音素継続長も同様の枠組みで生成可能 [Zen et al., 2013.]
4.
/16 Anti-Spoofing: 声のなりすましを防ぐ識別器 3 [Wu et
al., 2016.] [Chen et al., 2015.] 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech params. 𝒚Natural speech params. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる
5.
/144 𝜔D: 重み, 𝐸
𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 敵対的DNN音声合成 [Saito et al., 2017.] 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural 𝒚 ML-based parameter generation Generated ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 合成音声を 自然音声と識別させる
6.
/145 敵対的学習 [Goodfellow et
al., 2014.] による 分布補償効果 21st mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed 分布の違いを補償し, 過剰な平滑化を緩和!
7.
/166 提案法: 敵対的DNN音声合成による スペクトル・𝐹0・継続長の生成 従来法: 敵対的DNN音声合成による スペクトル特徴量の生成
8.
/167 敵対的DNN音声合成によるスペクトル・𝐹0 の生成 従来法の予測パラメータ: –
メルケプストラムのみ 本発表の予測パラメータ: – メルケプストラム, 連続対数 𝐹0, 非周期成分, U/V – メルケプストラムと連続対数 𝐹0 を anti-spoofing に入力 Generated speech params. Mel-cepstral coefficients Continuous log 𝐹0 U/V Band aperiodicity Natural speech params. 𝒚ෝ𝒚 𝐿G 𝒚, ෝ𝒚 Input to anti-spoofing
9.
/16 言語依存の等時性を考慮した継続長生成 𝒅p ... sil a r a y u sil 𝒅p Generated phoneme durations 𝒅pNatural phoneme durations 𝐿G
𝒅p, 𝒅p 𝐿D,1 𝒅p 1: natural Anti-spoofing 8 音素継続長分布の補償 ⇏ モーラ継続長分布の補償
10.
/16 言語依存の等時性を考慮した継続長生成 sil a ra yu ... sil ... + + Language-dependent pooling 𝒅p ... sil a r a y u sil Generated mora durations𝒅m 𝒅p Generated phoneme durations 𝒅pNatural phoneme
durations 𝐿G 𝒅p, 𝒅p 𝐿D,1 𝒅m 1: natural Anti-spoofing 9
11.
/1610 考察 𝐹0 の生成: –
スペクトルと 𝐹0 の同時分布を補償可能 • 異なる特徴量の相関を考慮した学習 [Tanaka et al., 2014.] • 特徴量の次元数を考慮した学習 [Kang et al., 2014.] も可能 継続長の生成: – 多重解像度に基づく敵対的学習 [Zhang et al., 2016.] に類似 • 高い時間解像度における生成誤差最小化 • 低い時間解像度における敵対的学習 – スペクトル・ 𝐹0・継続長の同時分布も補償可能 • Un-pooling により音素継続長をフレームレベルに展開可能
12.
/1611 実験的評価
13.
/16 実験条件 データセット ATR 音素バランス503文
(16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 連続対数 𝐹0, 5帯域の非周期成分, U/V コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) DNNアーキテクチャ Feed-Forward, ReLU nonlinearity (詳細は原稿参照) 12 𝐹0 生成, 継続長生成それぞれに関して提案法の有効性を検証
14.
/1613 𝐹0 生成に関する主観評価結果 比較手法: –
MGE: 従来のMGE学習 – ADV (sp): 敵対的DNN音声合成 (スペクトルのみ) – ADV (sp+F0): 同上 (スペクトル & 𝐹0) ADV (SP+F0) ADV (SP) エラーバーは95%信頼区間 MGE 0.0 0.2 0.4 改善 プリファレンススコア (評価者数8名) 更に改善 0.6 0.8 1.0
15.
/1614 継続長生成に関する主観評価結果 エラーバーは95%信頼区間 比較手法: – MGE:
従来のMGE学習 – ADV (phoneme): 敵対的DNN音声合成 (音素継続長) – ADV (mora): 同上 (モーラ継続長) ADV (phoneme) ADV (mora) MGE 0.0 プリファレンススコア (評価者数8名) 有意差なし 0.2 0.4 0.6 0.8 1.0
16.
/16 MGE学習後の特徴量を用いて anti-spoofing
を構築 – Anti-spoofing に有効な特徴量 → 自然音声との違いが大きい • スペクトル & 𝐹0 → 有効 • 音素/モーラ継続長 → 有効でない 15 Anti-spoofing における特徴量の有効性 継続長を用いた anti-spoofing は困難 → 提案法の効果小 スペクトル & 𝐹0 音素継続長 モーラ継続長 0.0 Anti-spoofing の accuracy 0.2 0.4 0.6 0.8 1.0
17.
/1616 まとめ 目的: 統計的パラメトリック音声合成の音質改善
提案手法: – (1) 敵対的DNN音声合成によるスペクトル・ 𝐹0 の生成 • 主観評価により音質改善を確認 – (2) モーラ等時性を考慮した継続長生成 + 敵対的DNN音声合成 • 主観評価において有意差は確認できず • 継続長を用いた anti-spoofing の難しさに起因 今後の予定: • 他言語・オーディオブックのタスクへの適用
Download now