WaveNet: A Generative Model for Raw Audio

自己紹介
● 川端　俊司 @kwbt69
● 日立システムズという会社でIoTの研究やってます。
● 学生時代にカオスニューラルネット使って自動作曲とかやってました。

概要
● Raw Audioの波形の生成を行うDeep Neural Network
● 前のすべての波形から次の波形を予測する完全な確率的自己回帰モデル
● 1秒あたり数万の音声データで効果的に学習できた
● Text-to-Speechに適用するとState-of-the-artの性能を発揮し、英語と中国語の両
方において人間の評価では、ParametricとかConcatinativeと比較して、より自然
だとの顕著な評価を得た
● 単一のWaveNetは多くの異なる話者の特徴をとらえることができ、話者のアイデン
ティティで条件づけすることで話者を切り替えられる
● 音楽で学習するととてもリアルな音楽の断片を生成できることも発見した
● 識別にも利用でき、音声認識でも良好な結果を得た

はじめに
● 最近の画像やテキスト用ニューラル自己回帰生成モデルにインスパイア
● PixcelCNNやPixelRNNは良好な画像生成ができるが、例えばPixcelRNNは
64x64ピクセルの画像を対象にしている
● しかし音声だと最低でも16kHzの非常に細かい信号になるが、同様のアプローチで
やれるか？

WaveNet
● Raw Audioを直接扱う新しい生成モデルを提案
● 波形 x の条件付き確率は
● x_t はそれまでの時刻におけるすべての波形サンプルに条件づけられる

Causal Convolutions
● WaveNetではCausal Convolutionsを採用する
● こうすることでモデルが生成する波形は未来の波形に依存しない
● ただこれだと受容野を増やすためにはものすごい数のレイヤやフィルタが必要にな
る

Dilated Causal Convolutions
● そこで結合をとばして、受容野の数を稼ぐ
● 信号処理や画像分割等でよく利用されている手法

Softmax Distributions
● 画像だとSoftmaxを使って256個の多値分類でうまくいっているので採用
● 音声だと16bit＝65,536個の多値分類になるので、μ-law companding
transformationを使って256個に量子化する

Gated Activation Units
● PixcelCNNで使われているGated Activation Unitsを使う
　※σ はシグモイド関数

Residual and Skip Connections
● 収束を早めるため、またより深いモデルを学習させるため、Residual and Skip
Connectionsを採用する

Conditional WaveNets
● 話者の切り替え、Text-to-Speechでのテキスト入力を実現するため、WaveNetを
条件付きに拡張
● グローバル条件付けとローカル条件付けのため、活性化関数は
　　※V_*,k は学習可能な線形射影

Experiments: 複数の話者のスピーチ生成
● 自由形式のスピーチ生成
● VCTK(英語の複数の話者のコーパス)を使って、話者で条件付けしたWaveNetを
使った
● 109人の異なる複数の話者による44時間の波形データ
● テキストで条件付けされていないため、人間っぽいスムーズなイントネーションだけ
ど存在しない波形を生成
● これは受容野が300ms分しかないので、高々2〜3音節しか記憶できないため
● 109人の話者の特徴は獲得できていた

Experiments: Text to Speech
● GoogleのNorth American English and Mandarin Chinese TTS systemと同じ単
一話者のスピーチデータベースを使った
● 英語は24.6時間、中国語は34.8時間のデータ
● 入力されたテキストから出したlinguistic featuresとlog F_0で条件付け
● 人間に聞かせて5段階の平均化意見スコア(MOS)で比較

Experiments: Text to Speech 好きな方を選ぶ

Experiments: 音楽
● MagnaTagATuneのデータセットを使用、200時間分の音楽で29秒ごとに188のタ
グが付与されている e.g. ジャンル、楽器、テンポ、音量、ムード
● YouTubeのピアノデータセットを使用、60時間のソロピアノ
● 音楽を学習するには受容野を増やすことが重要だと発見した
● ただし、数秒の受容野を用意してもタグ情報は獲得できなかった
● 生成したサンプルはたいてい調和がとれていて、美しかった

Experiments: Speech Recognition
● TIMITデータセットを使った
● Dilated Convolutionの後にmean-poolingレイヤを追加
● 10msの荒いフレーム（160倍のダウンサンプリング）
● 汎化のため2つの損失関数を導入（次のサンプルの予測とクラス分類）
● 18.8 PER(音素エラー率)　→　最高？

WaveNet: A Generative Model for Raw Audio

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie WaveNet: A Generative Model for Raw Audio

Ähnlich wie WaveNet: A Generative Model for Raw Audio (6)

WaveNet: A Generative Model for Raw Audio