SlideShare a Scribd company logo
1 of 17
Download to read offline
©Yuki Saito, 2017/03/16
敵対的DNN音声合成における 𝐹0・継続長の生成
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2017年春季研究発表会
講演番号 2-6-6
/16
 問題点: 統計的パラメトリック音声合成の音質劣化
– 生成される音声特徴量系列の過剰な平滑化が一因
 従来法: 敵対的DNN音声合成 [Saito et al., 2017.]
– 声のなりすましを防ぐ anti-spoofing を詐称するように学習
– 自然 / 合成音声特徴量の分布の違いを補償
– スペクトル特徴量のみに関して有効性を確認
 本発表: 敵対的DNN音声合成による 𝐹0・継続長の生成
– スペクトル特徴量と 𝐹0 の同時分布を補償
– 言語依存の等時性を考慮した継続長の生成法を提案
 結果: 𝐹0の生成に関して提案法による音質改善を確認
1
本発表の概要
/16
Minimum Generation Error (MGE) 学習
2
Generation
error
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
[Wu et al., 2016.]
Natural
speech
params.
𝐿G 𝒚, ෝ𝒚 =
1
𝑇
ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize
𝒚
ML-based
parameter
generation
Generated
speech
params.ෝ𝒚
Acoustic models
⋯
⋯
⋯
Frame
𝑡 = 1
Static-dynamic
mean vectors
Frame
𝑡 = 𝑇
音素継続長も同様の枠組みで生成可能 [Zen et al., 2013.]
/16
Anti-Spoofing: 声のなりすましを防ぐ識別器
3
[Wu et al., 2016.] [Chen et al., 2015.]
𝐿D 𝒚, ෝ𝒚 = → Minimize−
1
𝑇
෍
𝑡=1
𝑇
log 𝐷 𝒚 𝑡 −
1
𝑇
෍
𝑡=1
𝑇
log 1 − 𝐷 ෝ𝒚 𝑡
ෝ𝒚
Cross entropy
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Generated
speech params.
𝒚Natural
speech params.
Feature
function
𝝓 ⋅
本発表では
𝝓 𝒚 𝑡 = 𝒚 𝑡
Anti-spoofing
𝐷 ⋅
or
𝐿D,1 𝒚 𝐿D,0 ෝ𝒚
合成音声を
合成音声と識別させる
自然音声を
自然音声と識別させる
/144
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D
𝐸 𝐿G
𝐸 𝐿D
𝐿D,1 ෝ𝒚 → Minimize
敵対的DNN音声合成 [Saito et al., 2017.]
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
𝒚
ML-based
parameter
generation
Generated
ෝ𝒚
Acoustic models
⋯
⋯
⋯
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Anti-spoofing
合成音声を
自然音声と識別させる
/145
敵対的学習 [Goodfellow et al., 2014.] による
分布補償効果
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE Proposed
分布の違いを補償し, 過剰な平滑化を緩和!
/166
提案法:
敵対的DNN音声合成による
スペクトル・𝐹0・継続長の生成
従来法:
敵対的DNN音声合成による
スペクトル特徴量の生成
/167
敵対的DNN音声合成によるスペクトル・𝐹0 の生成
 従来法の予測パラメータ:
– メルケプストラムのみ
 本発表の予測パラメータ:
– メルケプストラム, 連続対数 𝐹0, 非周期成分, U/V
– メルケプストラムと連続対数 𝐹0 を anti-spoofing に入力
Generated
speech params.
Mel-cepstral
coefficients
Continuous log 𝐹0
U/V
Band
aperiodicity
Natural
speech params.
𝒚ෝ𝒚
𝐿G 𝒚, ෝ𝒚
Input to anti-spoofing
/16
言語依存の等時性を考慮した継続長生成
෡𝒅p
...
sil
a
r
a
y
u
sil
෡𝒅p
Generated
phoneme durations
𝒅pNatural
phoneme durations
𝐿G 𝒅p, ෡𝒅p
𝐿D,1
෡𝒅p
1: natural
Anti-spoofing
8
音素継続長分布の補償 ⇏ モーラ継続長分布の補償
/16
言語依存の等時性を考慮した継続長生成
sil
a
ra
yu
...
sil
...
+
+
Language-dependent
pooling
෡𝒅p
...
sil
a
r
a
y
u
sil
Generated
mora durations෡𝒅m
෡𝒅p
Generated
phoneme durations
𝒅pNatural
phoneme durations
𝐿G 𝒅p, ෡𝒅p
𝐿D,1
෡𝒅m
1: natural
Anti-spoofing
9
/1610
考察
 𝐹0 の生成:
– スペクトルと 𝐹0 の同時分布を補償可能
• 異なる特徴量の相関を考慮した学習 [Tanaka et al., 2014.]
• 特徴量の次元数を考慮した学習 [Kang et al., 2014.] も可能
 継続長の生成:
– 多重解像度に基づく敵対的学習 [Zhang et al., 2016.] に類似
• 高い時間解像度における生成誤差最小化
• 低い時間解像度における敵対的学習
– スペクトル・ 𝐹0・継続長の同時分布も補償可能
• Un-pooling により音素継続長をフレームレベルに展開可能
/1611
実験的評価
/16
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ
25次元のメルケプストラム, 連続対数 𝐹0,
5帯域の非周期成分, U/V
コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
DNNアーキテクチャ
Feed-Forward, ReLU nonlinearity
(詳細は原稿参照)
12
𝐹0 生成, 継続長生成それぞれに関して提案法の有効性を検証
/1613
𝐹0 生成に関する主観評価結果
 比較手法:
– MGE: 従来のMGE学習
– ADV (sp): 敵対的DNN音声合成 (スペクトルのみ)
– ADV (sp+F0): 同上 (スペクトル & 𝐹0)
ADV (SP+F0)
ADV (SP)
エラーバーは95%信頼区間
MGE
0.0 0.2 0.4
改善
 プリファレンススコア (評価者数8名)
更に改善
0.6 0.8 1.0
/1614
継続長生成に関する主観評価結果
エラーバーは95%信頼区間
 比較手法:
– MGE: 従来のMGE学習
– ADV (phoneme): 敵対的DNN音声合成 (音素継続長)
– ADV (mora): 同上 (モーラ継続長)
ADV (phoneme)
ADV (mora)
MGE
0.0
 プリファレンススコア (評価者数8名)
有意差なし
0.2 0.4 0.6 0.8 1.0
/16
 MGE学習後の特徴量を用いて anti-spoofing を構築
– Anti-spoofing に有効な特徴量 → 自然音声との違いが大きい
• スペクトル & 𝐹0 → 有効
• 音素/モーラ継続長 → 有効でない
15
Anti-spoofing における特徴量の有効性
継続長を用いた anti-spoofing は困難 → 提案法の効果小
スペクトル & 𝐹0
音素継続長
モーラ継続長
0.0
Anti-spoofing の accuracy
0.2 0.4 0.6 0.8 1.0
/1616
まとめ
 目的: 統計的パラメトリック音声合成の音質改善
 提案手法:
– (1) 敵対的DNN音声合成によるスペクトル・ 𝐹0 の生成
• 主観評価により音質改善を確認
– (2) モーラ等時性を考慮した継続長生成 + 敵対的DNN音声合成
• 主観評価において有意差は確認できず
• 継続長を用いた anti-spoofing の難しさに起因
 今後の予定:
• 他言語・オーディオブックのタスクへの適用

More Related Content

What's hot

Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)Shinnosuke Takamichi
 

What's hot (20)

Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
 

Viewers also liked

Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,iankeneth12
 
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...Richard Johnson
 
Alfonso X el Sabio
Alfonso X el SabioAlfonso X el Sabio
Alfonso X el SabioManu Pérez
 
ESCUELAS DEL FUTURO
ESCUELAS DEL FUTUROESCUELAS DEL FUTURO
ESCUELAS DEL FUTUROclaudiatdf
 
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応Shinnosuke Takamichi
 
Autyzm pezentacja
Autyzm pezentacjaAutyzm pezentacja
Autyzm pezentacjaMrtinez86
 
Murat artsin storyboard
Murat artsin storyboardMurat artsin storyboard
Murat artsin storyboardMurat ARTSIN
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 
Herramientas de la web 2.0
Herramientas de la web 2.0 Herramientas de la web 2.0
Herramientas de la web 2.0 Lisbeth García
 
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...Damien Gatt
 
Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong Robert Cole
 

Viewers also liked (19)

Eutrofización
Eutrofización Eutrofización
Eutrofización
 
Tema 4. ciencias sociales.
Tema 4. ciencias sociales.Tema 4. ciencias sociales.
Tema 4. ciencias sociales.
 
Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,Informe sobre el diagnostico de seguridad industrial ,
Informe sobre el diagnostico de seguridad industrial ,
 
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
 
Dramaturgia
DramaturgiaDramaturgia
Dramaturgia
 
Alfonso X el Sabio
Alfonso X el SabioAlfonso X el Sabio
Alfonso X el Sabio
 
ESCUELAS DEL FUTURO
ESCUELAS DEL FUTUROESCUELAS DEL FUTURO
ESCUELAS DEL FUTURO
 
Visual scaffolding
Visual scaffoldingVisual scaffolding
Visual scaffolding
 
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
 
Autyzm pezentacja
Autyzm pezentacjaAutyzm pezentacja
Autyzm pezentacja
 
SENDERO ECOLIGICO
SENDERO ECOLIGICOSENDERO ECOLIGICO
SENDERO ECOLIGICO
 
Murat artsin storyboard
Murat artsin storyboardMurat artsin storyboard
Murat artsin storyboard
 
Slp201702
Slp201702Slp201702
Slp201702
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Herramientas de la web 2.0
Herramientas de la web 2.0 Herramientas de la web 2.0
Herramientas de la web 2.0
 
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
 
Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong Informed Refusal: you are doing it wrong
Informed Refusal: you are doing it wrong
 
конспект остп
конспект остпконспект остп
конспект остп
 
Nose job
Nose jobNose job
Nose job
 

Similar to saito2017asj_tts

分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」Hiroyuki Miyoshi
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチKosuke Sugai
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三博三 太田
 

Similar to saito2017asj_tts (8)

分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 

More from Yuki Saito (15)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 

saito2017asj_tts