SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
by Shunji Kawabata
自己紹介
● 川端 俊司 @kwbt69
● 日立システムズという会社でIoTの研究やってます。
● 学生時代にカオスニューラルネット使って自動作曲とかやってました。
概要
● Raw Audioの波形の生成を行うDeep Neural Network
● 前のすべての波形から次の波形を予測する完全な確率的自己回帰モデル
● 1秒あたり数万の音声データで効果的に学習できた
● Text-to-Speechに適用するとState-of-the-artの性能を発揮し、英語と中国語の両
方において人間の評価では、ParametricとかConcatinativeと比較して、より自然
だとの顕著な評価を得た
● 単一のWaveNetは多くの異なる話者の特徴をとらえることができ、話者のアイデン
ティティで条件づけすることで話者を切り替えられる
● 音楽で学習するととてもリアルな音楽の断片を生成できることも発見した
● 識別にも利用でき、音声認識でも良好な結果を得た
はじめに
● 最近の画像やテキスト用ニューラル自己回帰生成モデルにインスパイア
● PixcelCNNやPixelRNNは良好な画像生成ができるが、例えばPixcelRNNは
64x64ピクセルの画像を対象にしている
● しかし音声だと最低でも16kHzの非常に細かい信号になるが、同様のアプローチで
やれるか?
WaveNet
● Raw Audioを直接扱う新しい生成モデルを提案
● 波形 x の条件付き確率は
● x_t はそれまでの時刻におけるすべての波形サンプルに条件づけられる
Causal Convolutions
● WaveNetではCausal Convolutionsを採用する
● こうすることでモデルが生成する波形は未来の波形に依存しない
● ただこれだと受容野を増やすためにはものすごい数のレイヤやフィルタが必要にな
る
Dilated Causal Convolutions
● そこで結合をとばして、受容野の数を稼ぐ
● 信号処理や画像分割等でよく利用されている手法
Softmax Distributions
● 画像だとSoftmaxを使って256個の多値分類でうまくいっているので採用
● 音声だと16bit=65,536個の多値分類になるので、μ-law companding
transformationを使って256個に量子化する
Gated Activation Units
● PixcelCNNで使われているGated Activation Unitsを使う
 ※σ はシグモイド関数
Residual and Skip Connections
● 収束を早めるため、またより深いモデルを学習させるため、Residual and Skip
Connectionsを採用する
Conditional WaveNets
● 話者の切り替え、Text-to-Speechでのテキスト入力を実現するため、WaveNetを
条件付きに拡張
● グローバル条件付けとローカル条件付けのため、活性化関数は
  ※V_*,k は学習可能な線形射影
Experiments: 複数の話者のスピーチ生成
● 自由形式のスピーチ生成
● VCTK(英語の複数の話者のコーパス)を使って、話者で条件付けしたWaveNetを
使った
● 109人の異なる複数の話者による44時間の波形データ
● テキストで条件付けされていないため、人間っぽいスムーズなイントネーションだけ
ど存在しない波形を生成
● これは受容野が300ms分しかないので、高々2〜3音節しか記憶できないため
● 109人の話者の特徴は獲得できていた
Experiments: Text to Speech
● GoogleのNorth American English and Mandarin Chinese TTS systemと同じ単
一話者のスピーチデータベースを使った
● 英語は24.6時間、中国語は34.8時間のデータ
● 入力されたテキストから出したlinguistic featuresとlog F_0で条件付け
● 人間に聞かせて5段階の平均化意見スコア(MOS)で比較
Experiments: Text to Speech 好きな方を選ぶ
Experiments: 音楽
● MagnaTagATuneのデータセットを使用、200時間分の音楽で29秒ごとに188のタ
グが付与されている e.g. ジャンル、楽器、テンポ、音量、ムード
● YouTubeのピアノデータセットを使用、60時間のソロピアノ
● 音楽を学習するには受容野を増やすことが重要だと発見した
● ただし、数秒の受容野を用意してもタグ情報は獲得できなかった
● 生成したサンプルはたいてい調和がとれていて、美しかった
Experiments: Speech Recognition
● TIMITデータセットを使った
● Dilated Convolutionの後にmean-poolingレイヤを追加
● 10msの荒いフレーム(160倍のダウンサンプリング)
● 汎化のため2つの損失関数を導入(次のサンプルの予測とクラス分類)
● 18.8 PER(音素エラー率) → 最高?

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingDDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
Py conkyushu2018
Py conkyushu2018Py conkyushu2018
Py conkyushu2018
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
 

Ähnlich wie WaveNet: A Generative Model for Raw Audio

Ähnlich wie WaveNet: A Generative Model for Raw Audio (6)

子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
音声ポストプロダクションの機械化
音声ポストプロダクションの機械化音声ポストプロダクションの機械化
音声ポストプロダクションの機械化
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 
JAWSUG 20180413
JAWSUG 20180413JAWSUG 20180413
JAWSUG 20180413
 

WaveNet: A Generative Model for Raw Audio