Interspeech2019読み会音声生成

Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
Nov. 24, 2019
Kentaro Tachibana
AI System Dept.
DeNA Co., Ltd.
Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation

Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 名前：橘健太郎
 略歴：
● 2008〜17年東芝研究開発センター
● 音声合成の技術開発を担当
● 2014〜17年9月情報通信研究機構出向
● 音声翻訳アプリVoiceTraの音声合成を担当
● 2017年10月〜 DeNA入社
● 音声変換、音声合成の技術開発を担当
https://www.slideshare.net/KentaroTachibana1SlideShare

取り上げる論文
 Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation
 この論文の貢献を一言でいうなら
1. 音声から音声への波形直接変換
2. Many-to-one音声変換を高品質なレベルで実現
3. 従来の音声変換以外にも、他の用途に適用し、フレームワークの有用性を証
明

Parrotronの取り組んだタスク
1. Many-to-one 音声変換（Voice normalization）
• あらゆる話者が、どんな環境で話しても、目標話者の話速・アクセント・声
質となるように変換
2. 聴覚障がい者（hearing-impaired）の音声変換
• 目標話者音声に変換することで、音声明瞭化・自然性向上
3. ノイズ除去・音源分離
• 背景ノイズの除去、対象話者の音声だけの抽出
Parrotonは多様な用途に適用可能！

音声変換のその仕組み
 音声変換とは？
⁃ 発話内容を変えず、任意の話者・スタイルに変換するシステム
 音声変換の仕組み
音声分析音声再構成
声質
（スペクトル包絡）
声の高さ
（F0）
かすれ具合
（非周期性指標）
音響パラメータ変換処理
変換先話者
パラメータごとに目標
話者を変更可能
元話者変換先話者

従来の音声変換の技術課題とその対応

技術背景：従来の音声変換の技術課題（1/3）
1. 音響パラメータの変換
音声分析音声再構成
声質
（スペクトル包絡）
声の高さ
（F0）
かすれ具合
（非周期性指標）
音響パラメータ変換処理
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
1. 変換モデルが必要 2. 音声ペアから変換モデルを学習
変換モデル
課題：
1. 変換モデルはスペクトル包絡に限定
2. 韻律部分に含まれる話者性は無保証
3. かすれ具合は元話者のまま

2. Alignment問題
• 音声ペアから変換モデルを学習する際に元・目標話者間でalignmentを取る
おはよう
長さが異なる
音
声
分
析
各時刻の特徴量を
動的時間伸縮法で対応づけ
モ
デ
ル
学
習
変換モデル
課題：Alignment精度が変換モデルの精度に影響
音響特徴量系列
・・・
・・・

3. Many-to-oneへの対応
• 今回はone-to-one同様、元話者と変換先話者とで音声ペアを用いることを想定
• 話者多様性をカバーするために、非常に多数の元話者が必要
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
One-to-oneの場合
Many-to-oneへ拡張
Many-to-oneの場合
・・・
変換モデル
課題：多数話者で音声ペアを集めることは非常にコストがかかる

技術背景：従来の音声変換の技術課題のまとめ
1. 音響パラメータの変換が限定的
2. 音声ペアのalignment精度が変換品質に影響を与える
3. Many-to-oneへの対応が非常に高コスト

技術背景：音響パラメータ問題の対応
 近年、WaveNetをはじめとしたneural vocoderの登場
⁃ Mel spectrogramから直接波形生成することが可能に！
⁃ Mel spectrogramを直接変換する手法が登場 [Zhang+, 18]、[提案法]
変換処理
Mcep
F0
Bap
Mel spectrogram
で表現
Neural
vocoder

技術背景：Alignment問題の対応
 Alignment問題
⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に！
Seq-to-seqの導入に
よりalignmentを学習
Alignment error
Attention
アルゴリズム
音素アライメント
[Haque+, 18] Additive attention
[Tanaka+, 18] Additive attention
[Zhang+, 18] SCENT 入力に条件付け
提案法 Additive/location
sensitive attention
Multitask学習とし
て利用

技術背景：Many-to-oneへの対応
 大規模書き起こし音声コーパスにTTSを適用 [提案法]
⁃ 変換先話者をParallel WaveNetで生成
⁃ 大規模音声コーパス：30,000時間 24百万発話 voice search
⁃ 変換先話者にTTSを用いる利点
1. 変換先話者を事前に決めることができる・一定のアクセントになる
2. 背景ノイズや歪みを生じない
3. 大量の音声ペアを作成可能

技術背景: Parrotronの技術的位置付け
 他手法との比較
Attention
アルゴリズム
音素アライメントタスク入力/出力特徴量音声生成方式
[Haque+, 18] Additive attention Many-to-one Mel spectrogram Griffin-Lim方式
[Tanaka+, 18] Additive attention One-to-one WORLD特徴量 WORLD vocoder
[Zhang+, 18] SCENT 入力に条件付け One-to-one Mel spectrogram WaveNet vocoder
提案法 Additive/local
sensitive attention
Multi-task学習とし
て利用
Many-to-one Mel spectrogram WaveNet vocoder

アルゴリズム（1/4）
 全体のモデル構造
Source
Target
波形to波形の
直接変換
波形to波形の
直接変換
ASRをmultitask
学習で利用
Neural
vocoder

 Spectrogram encoder
⁃ Network構造
• CLSTM、biLSTMのlayerは実験的評価にて調整
CNN
BN
ReLU
CLSTM
BN
ReLU
BiLSTM
BN
ReLU
FC
Attention
downsample
d80
k3x3
s2x2 d512k1x3 d256

 Spectrogram decoder
⁃ Network構造
• Tacotron2のdecoderと同一構造
⁃ Attention
• Additive attention [Bahdanau+, 15] : Tacotron
• Location sensitive attention [Chorowski+, 15] : Tacotron2
Linear
projection
2 layer
Pre-Net
Linear
projection
2 LSTM
layers
Attention
5 Conv Layer
Post-Net
Neural
vocoder
Stop token

 ASR decoder
⁃ Attention layerの出力と1時刻前の音素予測結果を結合
⁃ 音素予測をmultitaskとして学習
⁃ Encoderがgrapheme or phonemeを保持するように
するのが狙い
Attention
LSTM
layer
d64 phonemes
softmax
このattention構造につ
いては詳細は記述なし
ConcatenationConcatenation

実験的評価1: Many-to-one 音声変換
 実験条件
⁃ データセット
• 元話者：30,000時間 24百万発話の書き起こし voice searchコーパス
• 変換先話者音声の生成
⁃ 書き起こし文からParallel WaveNet-based TTSで合成音声を生成
 評価実験
1. Parrotronの合成音声自体の性能評価
2. Many-to-one音声変換を主観評価

実験的評価1: Parrotronの性能評価（1/2）
 客観評価
⁃ Parrotronが生成した音声の明瞭性を確認するため、ASRのWERを測定
⁃ 評価で用いた音声のWER：8.3 % （upper bound）
⁃ 正解のtranscriptを用いた合成音のWER：7.4 %
ASRのmultitask学習
により改善
Grapheme→phoneme
により改善
以後、このモデルを用いる

実験的評価1: Parrotronの性能評価（2/2）
 主観・客観評価
⁃ Challengingな音声で評価
⁃ Challenging： heavily accented speech plus background noise
⁃ WERと自然性をMOS5段階評価
Real音声に匹敵する品質を達成！

実験的評価1: Many-to-one 音声変換
 実験条件
⁃ 被験者：Native speaker 8名
⁃ 評価データ数：ランダムに抽出した20文
 評価結果
高品質なスコアを達成
※ リアル音声を含め
た比較ではない
Demo: https://google.github.io/tacotron/ publications/parrotron

実験的評価2：聴覚障がい者（hearing-impaired）の音声変換
 目的
⁃ 聴覚障害者の音声を流暢にできるかを調査
 実験条件
⁃ データセット：英語non-native speakerロシア人男性1名 15.4時間
• 英語をロシア語音素に変換してデータ作成（e.g. cat → k a T）
• Finetuning用学習:90%、dev:5%、test:5%
原因調査中（原著）
Finetuningにより大幅に
改善

実験的評価3：ノイズ除去・音源分離
 問題設定
⁃ 音源分離（原信号＋背景ノイズ）タスク
 背景ノイズの作成
⁃ 1〜7名の話者（voice searchコーパス）を混合し、作成
 評価結果
Deletions (del) : 予測結果が発話より早めに切れてしまう
Insertion (ins) : 背景ノイズ話者を認識してしまう
subject (sub) ：目標話者の音声
Insertionで大幅な改善

まとめ
 End-to-end音声変換 Parrotronを提案
⁃ 直接、波形-to-波形の変換が可能に！
 高品質なmany-to-one 音声変換を実現
⁃ ASR multitask学習が有効
 音声変換以外で、Parrotronフレームの有効性を証明
⁃ 障害者音声の明瞭化・ノイズ除去

参考文献
[Haque+, 18] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” Proc. Interspeech, 2018.
[Zhang+, 19] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequence-to- sequence acoustic modeling for voice
conversion,” IEEE Transac- tions on Audio, Speech, and Language Processing, 2019.
[Tanaka+, 18] K. Tanaka, H. Kameoka, T. Kaneko, and N. Hojo, “AttS2S-VC: Sequence-to-sequence voice conversion with
attention and context preservation mechanisms,” arXiv:1811.04076, 2018.
[Bahdanau+, 15] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,”
Proc. ICLR, 2015.
[Chorowski+, 15] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio,
“Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems, 2015, pp. 577–585.

Interspeech2019読み会音声生成

Recommended

Recommended

More Related Content

Similar to Interspeech2019読み会音声生成

Similar to Interspeech2019読み会音声生成 (14)