Weitere ähnliche Inhalte Ähnlich wie WaveNet: A Generative Model for Raw Audio (6) WaveNet: A Generative Model for Raw Audio3. 概要
● Raw Audioの波形の生成を行うDeep Neural Network
● 前のすべての波形から次の波形を予測する完全な確率的自己回帰モデル
● 1秒あたり数万の音声データで効果的に学習できた
● Text-to-Speechに適用するとState-of-the-artの性能を発揮し、英語と中国語の両
方において人間の評価では、ParametricとかConcatinativeと比較して、より自然
だとの顕著な評価を得た
● 単一のWaveNetは多くの異なる話者の特徴をとらえることができ、話者のアイデン
ティティで条件づけすることで話者を切り替えられる
● 音楽で学習するととてもリアルな音楽の断片を生成できることも発見した
● 識別にも利用でき、音声認識でも良好な結果を得た
10. Residual and Skip Connections
● 収束を早めるため、またより深いモデルを学習させるため、Residual and Skip
Connectionsを採用する
12. Experiments: 複数の話者のスピーチ生成
● 自由形式のスピーチ生成
● VCTK(英語の複数の話者のコーパス)を使って、話者で条件付けしたWaveNetを
使った
● 109人の異なる複数の話者による44時間の波形データ
● テキストで条件付けされていないため、人間っぽいスムーズなイントネーションだけ
ど存在しない波形を生成
● これは受容野が300ms分しかないので、高々2〜3音節しか記憶できないため
● 109人の話者の特徴は獲得できていた
13. Experiments: Text to Speech
● GoogleのNorth American English and Mandarin Chinese TTS systemと同じ単
一話者のスピーチデータベースを使った
● 英語は24.6時間、中国語は34.8時間のデータ
● 入力されたテキストから出したlinguistic featuresとlog F_0で条件付け
● 人間に聞かせて5段階の平均化意見スコア(MOS)で比較
16. Experiments: Speech Recognition
● TIMITデータセットを使った
● Dilated Convolutionの後にmean-poolingレイヤを追加
● 10msの荒いフレーム(160倍のダウンサンプリング)
● 汎化のため2つの損失関数を導入(次のサンプルの予測とクラス分類)
● 18.8 PER(音素エラー率) → 最高?