SlideShare a Scribd company logo
1 of 28
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
Nov. 24, 2019
Kentaro Tachibana
AI System Dept.
DeNA Co., Ltd.
Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 名前:橘 健太郎
 略歴:
● 2008〜17年 東芝 研究開発センター
● 音声合成の技術開発を担当
● 2014〜17年9月 情報通信研究機構出向
● 音声翻訳アプリVoiceTraの音声合成を担当
● 2017年10月〜 DeNA入社
● 音声変換、音声合成の技術開発を担当
https://www.slideshare.net/KentaroTachibana1SlideShare
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
取り上げる論文
 Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation
 この論文の貢献を一言でいうなら
1. 音声から音声への波形直接変換
2. Many-to-one音声変換を高品質なレベルで実現
3. 従来の音声変換以外にも、他の用途に適用し、フレームワークの有用性を証
明
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
Parrotronの取り組んだタスク
1. Many-to-one 音声変換(Voice normalization)
• あらゆる話者が、どんな環境で話しても、目標話者の話速・アクセント・声
質となるように変換
2. 聴覚障がい者(hearing-impaired)の音声変換
• 目標話者音声に変換することで、音声明瞭化・自然性向上
3. ノイズ除去・音源分離
• 背景ノイズの除去、対象話者の音声だけの抽出
Parrotonは多様な用途に適用可能!
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
音声変換のその仕組み
 音声変換とは?
⁃ 発話内容を変えず、任意の話者・スタイルに変換するシステム
 音声変換の仕組み
音声分析 音声再構成
声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
音響パラメータ 変換処理
変換先話者
パラメータごとに目標
話者を変更可能
元話者 変換先話者
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
従来の音声変換の技術課題とその対応
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:従来の音声変換の技術課題(1/3)
1. 音響パラメータの変換
音声分析 音声再構成
声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
音響パラメータ 変換処理
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
1. 変換モデルが必要 2. 音声ペアから変換モデルを学習
変換モデル
課題:
1. 変換モデルはスペクトル包絡に限定
2. 韻律部分に含まれる話者性は無保証
3. かすれ具合は元話者のまま
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:従来の音声変換の技術課題(2/3)
2. Alignment問題
• 音声ペアから変換モデルを学習する際に元・目標話者間でalignmentを取る
おはよう
長さが異なる
音
声
分
析
各時刻の特徴量を
動的時間伸縮法で対応づけ
モ
デ
ル
学
習
変換モデル
課題:Alignment精度が変換モデルの精度に影響
音響特徴量系列
・・・
・・・
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
3. Many-to-oneへの対応
• 今回はone-to-one同様、元話者と変換先話者とで音声ペアを用いることを想定
• 話者多様性をカバーするために、非常に多数の元話者が必要
技術背景:従来の音声変換の技術課題(3/3)
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
One-to-oneの場合
Many-to-oneへ拡張
Many-to-oneの場合
・・・
変換モデル
課題:多数話者で音声ペアを集めることは非常にコストがかかる
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:従来の音声変換の技術課題のまとめ
1. 音響パラメータの変換が限定的
2. 音声ペアのalignment精度が変換品質に影響を与える
3. Many-to-oneへの対応が非常に高コスト
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:音響パラメータ問題の対応
 近年、WaveNetをはじめとしたneural vocoderの登場
⁃ Mel spectrogramから直接波形生成することが可能に!
⁃ Mel spectrogramを直接変換する手法が登場 [Zhang+, 18]、[提案法]
変換処理
Mcep
F0
Bap
Mel spectrogram
で表現
Neural
vocoder
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:Alignment問題の対応
 Alignment問題
⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に!
Seq-to-seqの導入に
よりalignmentを学習
Alignment error
Attention
アルゴリズム
音素アライメント
[Haque+, 18] Additive attention
[Tanaka+, 18] Additive attention
[Zhang+, 18] SCENT 入力に条件付け
提案法 Additive/location
sensitive attention
Multitask学習とし
て利用
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:Alignment問題の対応
 Alignment問題
⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に!
Seq-to-seqの導入に
よりalignmentを学習
Alignment error
Attention
アルゴリズム
音素アライメント
[Haque+, 18] Additive attention
[Tanaka+, 18] Additive attention
[Zhang+, 18] SCENT 入力に条件付け
提案法 Additive/location
sensitive attention
Multitask学習とし
て利用
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:Alignment問題の対応
 Alignment問題
⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に!
Seq-to-seqの導入に
よりalignmentを学習
Alignment error
Attention
アルゴリズム
音素アライメント
[Haque+, 18] Additive attention
[Tanaka+, 18] Additive attention
[Zhang+, 18] SCENT 入力に条件付け
提案法 Additive/location
sensitive attention
Multitask学習とし
て利用
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景:Many-to-oneへの対応
 大規模書き起こし音声コーパスにTTSを適用 [提案法]
⁃ 変換先話者をParallel WaveNetで生成
⁃ 大規模音声コーパス:30,000時間 24百万発話 voice search
⁃ 変換先話者にTTSを用いる利点
1. 変換先話者を事前に決めることができる・一定のアクセントになる
2. 背景ノイズや歪みを生じない
3. 大量の音声ペアを作成可能
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
技術背景: Parrotronの技術的位置付け
 他手法との比較
Attention
アルゴリズム
音素アライメント タスク 入力/出力特徴量 音声生成方式
[Haque+, 18] Additive attention Many-to-one Mel spectrogram Griffin-Lim方式
[Tanaka+, 18] Additive attention One-to-one WORLD特徴量 WORLD vocoder
[Zhang+, 18] SCENT 入力に条件付け One-to-one Mel spectrogram WaveNet vocoder
提案法 Additive/local
sensitive attention
Multi-task学習とし
て利用
Many-to-one Mel spectrogram WaveNet vocoder
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム(1/4)
 全体のモデル構造
Source
Target
波形to波形の
直接変換
波形to波形の
直接変換
ASRをmultitask
学習で利用
Neural
vocoder
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
 Spectrogram encoder
⁃ Network構造
• CLSTM、biLSTMのlayerは実験的評価にて調整
アルゴリズム(2/4)
CNN
BN
ReLU
CLSTM
BN
ReLU
BiLSTM
BN
ReLU
FC
Attention
downsample
d80
k3x3
s2x2 d512k1x3 d256
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム(3/4)
 Spectrogram decoder
⁃ Network構造
• Tacotron2のdecoderと同一構造
⁃ Attention
• Additive attention [Bahdanau+, 15] : Tacotron
• Location sensitive attention [Chorowski+, 15] : Tacotron2
Linear
projection
2 layer
Pre-Net
Linear
projection
2 LSTM
layers
Attention
5 Conv Layer
Post-Net
Neural
vocoder
Stop token
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム(4/4)
 ASR decoder
⁃ Attention layerの出力と1時刻前の音素予測結果を結合
⁃ 音素予測をmultitaskとして学習
⁃ Encoderがgrapheme or phonemeを保持するように
するのが狙い
Attention
LSTM
layer
d64 phonemes
softmax
このattention構造につ
いては詳細は記述なし
ConcatenationConcatenation
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価1: Many-to-one 音声変換
 実験条件
⁃ データセット
• 元話者:30,000時間 24百万発話の書き起こし voice searchコーパス
• 変換先話者音声の生成
⁃ 書き起こし文からParallel WaveNet-based TTSで合成音声を生成
 評価実験
1. Parrotronの合成音声自体の性能評価
2. Many-to-one音声変換を主観評価
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価1: Parrotronの性能評価(1/2)
 客観評価
⁃ Parrotronが生成した音声の明瞭性を確認するため、ASRのWERを測定
⁃ 評価で用いた音声のWER:8.3 % (upper bound)
⁃ 正解のtranscriptを用いた合成音のWER:7.4 %
ASRのmultitask学習
により改善
Grapheme→phoneme
により改善
以後、このモデルを用いる
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価1: Parrotronの性能評価(2/2)
 主観・客観評価
⁃ Challengingな音声で評価
⁃ Challenging: heavily accented speech plus background noise
⁃ WERと自然性をMOS5段階評価
Real音声に匹敵する品質を達成!
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価1: Many-to-one 音声変換
 実験条件
⁃ 被験者:Native speaker 8名
⁃ 評価データ数:ランダムに抽出した20文
 評価結果
高品質なスコアを達成
※ リアル音声を含め
た比較ではない
Demo: https://google.github.io/tacotron/ publications/parrotron
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価2:聴覚障がい者(hearing-impaired)の音声変換
 目的
⁃ 聴覚障害者の音声を流暢にできるかを調査
 実験条件
⁃ データセット:英語non-native speakerロシア人男性1名 15.4時間
• 英語をロシア語音素に変換してデータ作成(e.g. cat → k a T)
• Finetuning用学習:90%、dev:5%、test:5%
原因調査中(原著)
Finetuningにより大幅に
改善
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
実験的評価3:ノイズ除去・音源分離
 問題設定
⁃ 音源分離(原信号+背景ノイズ)タスク
 背景ノイズの作成
⁃ 1〜7名の話者(voice searchコーパス)を混合し、作成
 評価結果
Deletions (del) : 予測結果が発話より早めに切れてしまう
Insertion (ins) : 背景ノイズ話者を認識してしまう
subject (sub) :目標話者の音声
Insertionで大幅な改善
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
まとめ
 End-to-end音声変換 Parrotronを提案
⁃ 直接、波形-to-波形の変換が可能に!
 高品質なmany-to-one 音声変換を実現
⁃ ASR multitask学習が有効
 音声変換以外で、Parrotronフレームの有効性を証明
⁃ 障害者音声の明瞭化・ノイズ除去
Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
参考文献
[Haque+, 18] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” Proc. Interspeech, 2018.
[Zhang+, 19] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequence-to- sequence acoustic modeling for voice
conversion,” IEEE Transac- tions on Audio, Speech, and Language Processing, 2019.
[Tanaka+, 18] K. Tanaka, H. Kameoka, T. Kaneko, and N. Hojo, “AttS2S-VC: Sequence-to-sequence voice conversion with
attention and context preservation mechanisms,” arXiv:1811.04076, 2018.
[Bahdanau+, 15] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,”
Proc. ICLR, 2015.
[Chorowski+, 15] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio,
“Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems, 2015, pp. 577–585.

More Related Content

Similar to Interspeech2019読み会 音声生成

誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発Namito Satoyama
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
Serf という Orchestration ツール #immutableinfra
Serf という Orchestration ツール #immutableinfraSerf という Orchestration ツール #immutableinfra
Serf という Orchestration ツール #immutableinfraNaotoshi Seo
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Deno で始めるフロントエンド
Deno で始めるフロントエンドDeno で始めるフロントエンド
Deno で始めるフロントエンド虎の穴 開発室
 
翻訳VR作ってみた
翻訳VR作ってみた翻訳VR作ってみた
翻訳VR作ってみた尾上 兼透
 
ネイティブ機能を利用する Webアプリの実例 ~PhoneGap×Rails~
ネイティブ機能を利用するWebアプリの実例~PhoneGap×Rails~ネイティブ機能を利用するWebアプリの実例~PhoneGap×Rails~
ネイティブ機能を利用する Webアプリの実例 ~PhoneGap×Rails~Daisuke Futatsumori
 
新卒フロントエンドエンジニアが見たPairsフロントエンド
新卒フロントエンドエンジニアが見たPairsフロントエンド新卒フロントエンドエンジニアが見たPairsフロントエンド
新卒フロントエンドエンジニアが見たPairsフロントエンドKeitaro Takeuchi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Unityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconUnityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconDeNA
 
if-up 2019 | A2. クラウドにつながり始めたハードウェア
if-up 2019 | A2. クラウドにつながり始めたハードウェアif-up 2019 | A2. クラウドにつながり始めたハードウェア
if-up 2019 | A2. クラウドにつながり始めたハードウェアSORACOM,INC
 
ClojureScript+re-frameで社内アプリケーションを開発した話
ClojureScript+re-frameで社内アプリケーションを開発した話ClojureScript+re-frameで社内アプリケーションを開発した話
ClojureScript+re-frameで社内アプリケーションを開発した話Keitaro Takeuchi
 

Similar to Interspeech2019読み会 音声生成 (14)

誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
Serf という Orchestration ツール #immutableinfra
Serf という Orchestration ツール #immutableinfraSerf という Orchestration ツール #immutableinfra
Serf という Orchestration ツール #immutableinfra
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Deno で始めるフロントエンド
Deno で始めるフロントエンドDeno で始めるフロントエンド
Deno で始めるフロントエンド
 
翻訳VR作ってみた
翻訳VR作ってみた翻訳VR作ってみた
翻訳VR作ってみた
 
ネイティブ機能を利用する Webアプリの実例 ~PhoneGap×Rails~
ネイティブ機能を利用するWebアプリの実例~PhoneGap×Rails~ネイティブ機能を利用するWebアプリの実例~PhoneGap×Rails~
ネイティブ機能を利用する Webアプリの実例 ~PhoneGap×Rails~
 
新卒フロントエンドエンジニアが見たPairsフロントエンド
新卒フロントエンドエンジニアが見たPairsフロントエンド新卒フロントエンドエンジニアが見たPairsフロントエンド
新卒フロントエンドエンジニアが見たPairsフロントエンド
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Unityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechconUnityネイティブプラグインマニアクス #denatechcon
Unityネイティブプラグインマニアクス #denatechcon
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
UE4におけるレベル制作事例
UE4におけるレベル制作事例  UE4におけるレベル制作事例
UE4におけるレベル制作事例
 
if-up 2019 | A2. クラウドにつながり始めたハードウェア
if-up 2019 | A2. クラウドにつながり始めたハードウェアif-up 2019 | A2. クラウドにつながり始めたハードウェア
if-up 2019 | A2. クラウドにつながり始めたハードウェア
 
ClojureScript+re-frameで社内アプリケーションを開発した話
ClojureScript+re-frameで社内アプリケーションを開発した話ClojureScript+re-frameで社内アプリケーションを開発した話
ClojureScript+re-frameで社内アプリケーションを開発した話
 

Interspeech2019読み会 音声生成

  • 1. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. Nov. 24, 2019 Kentaro Tachibana AI System Dept. DeNA Co., Ltd. Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation
  • 2. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 自己紹介  名前:橘 健太郎  略歴: ● 2008〜17年 東芝 研究開発センター ● 音声合成の技術開発を担当 ● 2014〜17年9月 情報通信研究機構出向 ● 音声翻訳アプリVoiceTraの音声合成を担当 ● 2017年10月〜 DeNA入社 ● 音声変換、音声合成の技術開発を担当 https://www.slideshare.net/KentaroTachibana1SlideShare
  • 3. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 取り上げる論文  Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation  この論文の貢献を一言でいうなら 1. 音声から音声への波形直接変換 2. Many-to-one音声変換を高品質なレベルで実現 3. 従来の音声変換以外にも、他の用途に適用し、フレームワークの有用性を証 明
  • 4. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. Parrotronの取り組んだタスク 1. Many-to-one 音声変換(Voice normalization) • あらゆる話者が、どんな環境で話しても、目標話者の話速・アクセント・声 質となるように変換 2. 聴覚障がい者(hearing-impaired)の音声変換 • 目標話者音声に変換することで、音声明瞭化・自然性向上 3. ノイズ除去・音源分離 • 背景ノイズの除去、対象話者の音声だけの抽出 Parrotonは多様な用途に適用可能!
  • 5. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 音声変換のその仕組み  音声変換とは? ⁃ 発話内容を変えず、任意の話者・スタイルに変換するシステム  音声変換の仕組み 音声分析 音声再構成 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) 音響パラメータ 変換処理 変換先話者 パラメータごとに目標 話者を変更可能 元話者 変換先話者
  • 6. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 従来の音声変換の技術課題とその対応
  • 7. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題(1/3) 1. 音響パラメータの変換 音声分析 音声再構成 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) 音響パラメータ 変換処理 おはよう 行ってきます 暑いですね . . . おはよう 行ってきます 暑いですね . . . 変換モデル 1. 変換モデルが必要 2. 音声ペアから変換モデルを学習 変換モデル 課題: 1. 変換モデルはスペクトル包絡に限定 2. 韻律部分に含まれる話者性は無保証 3. かすれ具合は元話者のまま
  • 8. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題(2/3) 2. Alignment問題 • 音声ペアから変換モデルを学習する際に元・目標話者間でalignmentを取る おはよう 長さが異なる 音 声 分 析 各時刻の特徴量を 動的時間伸縮法で対応づけ モ デ ル 学 習 変換モデル 課題:Alignment精度が変換モデルの精度に影響 音響特徴量系列 ・・・ ・・・
  • 9. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 3. Many-to-oneへの対応 • 今回はone-to-one同様、元話者と変換先話者とで音声ペアを用いることを想定 • 話者多様性をカバーするために、非常に多数の元話者が必要 技術背景:従来の音声変換の技術課題(3/3) おはよう 行ってきます 暑いですね . . . おはよう 行ってきます 暑いですね . . . 変換モデル One-to-oneの場合 Many-to-oneへ拡張 Many-to-oneの場合 ・・・ 変換モデル 課題:多数話者で音声ペアを集めることは非常にコストがかかる
  • 10. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題のまとめ 1. 音響パラメータの変換が限定的 2. 音声ペアのalignment精度が変換品質に影響を与える 3. Many-to-oneへの対応が非常に高コスト
  • 11. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:音響パラメータ問題の対応  近年、WaveNetをはじめとしたneural vocoderの登場 ⁃ Mel spectrogramから直接波形生成することが可能に! ⁃ Mel spectrogramを直接変換する手法が登場 [Zhang+, 18]、[提案法] 変換処理 Mcep F0 Bap Mel spectrogram で表現 Neural vocoder
  • 12. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  • 13. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  • 14. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  • 15. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Many-to-oneへの対応  大規模書き起こし音声コーパスにTTSを適用 [提案法] ⁃ 変換先話者をParallel WaveNetで生成 ⁃ 大規模音声コーパス:30,000時間 24百万発話 voice search ⁃ 変換先話者にTTSを用いる利点 1. 変換先話者を事前に決めることができる・一定のアクセントになる 2. 背景ノイズや歪みを生じない 3. 大量の音声ペアを作成可能
  • 16. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景: Parrotronの技術的位置付け  他手法との比較 Attention アルゴリズム 音素アライメント タスク 入力/出力特徴量 音声生成方式 [Haque+, 18] Additive attention Many-to-one Mel spectrogram Griffin-Lim方式 [Tanaka+, 18] Additive attention One-to-one WORLD特徴量 WORLD vocoder [Zhang+, 18] SCENT 入力に条件付け One-to-one Mel spectrogram WaveNet vocoder 提案法 Additive/local sensitive attention Multi-task学習とし て利用 Many-to-one Mel spectrogram WaveNet vocoder
  • 17. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(1/4)  全体のモデル構造 Source Target 波形to波形の 直接変換 波形to波形の 直接変換 ASRをmultitask 学習で利用 Neural vocoder
  • 18. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.  Spectrogram encoder ⁃ Network構造 • CLSTM、biLSTMのlayerは実験的評価にて調整 アルゴリズム(2/4) CNN BN ReLU CLSTM BN ReLU BiLSTM BN ReLU FC Attention downsample d80 k3x3 s2x2 d512k1x3 d256
  • 19. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(3/4)  Spectrogram decoder ⁃ Network構造 • Tacotron2のdecoderと同一構造 ⁃ Attention • Additive attention [Bahdanau+, 15] : Tacotron • Location sensitive attention [Chorowski+, 15] : Tacotron2 Linear projection 2 layer Pre-Net Linear projection 2 LSTM layers Attention 5 Conv Layer Post-Net Neural vocoder Stop token
  • 20. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(4/4)  ASR decoder ⁃ Attention layerの出力と1時刻前の音素予測結果を結合 ⁃ 音素予測をmultitaskとして学習 ⁃ Encoderがgrapheme or phonemeを保持するように するのが狙い Attention LSTM layer d64 phonemes softmax このattention構造につ いては詳細は記述なし ConcatenationConcatenation
  • 21. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Many-to-one 音声変換  実験条件 ⁃ データセット • 元話者:30,000時間 24百万発話の書き起こし voice searchコーパス • 変換先話者音声の生成 ⁃ 書き起こし文からParallel WaveNet-based TTSで合成音声を生成  評価実験 1. Parrotronの合成音声自体の性能評価 2. Many-to-one音声変換を主観評価
  • 22. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Parrotronの性能評価(1/2)  客観評価 ⁃ Parrotronが生成した音声の明瞭性を確認するため、ASRのWERを測定 ⁃ 評価で用いた音声のWER:8.3 % (upper bound) ⁃ 正解のtranscriptを用いた合成音のWER:7.4 % ASRのmultitask学習 により改善 Grapheme→phoneme により改善 以後、このモデルを用いる
  • 23. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Parrotronの性能評価(2/2)  主観・客観評価 ⁃ Challengingな音声で評価 ⁃ Challenging: heavily accented speech plus background noise ⁃ WERと自然性をMOS5段階評価 Real音声に匹敵する品質を達成!
  • 24. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Many-to-one 音声変換  実験条件 ⁃ 被験者:Native speaker 8名 ⁃ 評価データ数:ランダムに抽出した20文  評価結果 高品質なスコアを達成 ※ リアル音声を含め た比較ではない Demo: https://google.github.io/tacotron/ publications/parrotron
  • 25. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価2:聴覚障がい者(hearing-impaired)の音声変換  目的 ⁃ 聴覚障害者の音声を流暢にできるかを調査  実験条件 ⁃ データセット:英語non-native speakerロシア人男性1名 15.4時間 • 英語をロシア語音素に変換してデータ作成(e.g. cat → k a T) • Finetuning用学習:90%、dev:5%、test:5% 原因調査中(原著) Finetuningにより大幅に 改善
  • 26. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価3:ノイズ除去・音源分離  問題設定 ⁃ 音源分離(原信号+背景ノイズ)タスク  背景ノイズの作成 ⁃ 1〜7名の話者(voice searchコーパス)を混合し、作成  評価結果 Deletions (del) : 予測結果が発話より早めに切れてしまう Insertion (ins) : 背景ノイズ話者を認識してしまう subject (sub) :目標話者の音声 Insertionで大幅な改善
  • 27. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. まとめ  End-to-end音声変換 Parrotronを提案 ⁃ 直接、波形-to-波形の変換が可能に!  高品質なmany-to-one 音声変換を実現 ⁃ ASR multitask学習が有効  音声変換以外で、Parrotronフレームの有効性を証明 ⁃ 障害者音声の明瞭化・ノイズ除去
  • 28. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 参考文献 [Haque+, 18] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” Proc. Interspeech, 2018. [Zhang+, 19] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequence-to- sequence acoustic modeling for voice conversion,” IEEE Transac- tions on Audio, Speech, and Language Processing, 2019. [Tanaka+, 18] K. Tanaka, H. Kameoka, T. Kaneko, and N. Hojo, “AttS2S-VC: Sequence-to-sequence voice conversion with attention and context preservation mechanisms,” arXiv:1811.04076, 2018. [Bahdanau+, 15] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” Proc. ICLR, 2015. [Chorowski+, 15] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems, 2015, pp. 577–585.