Tacotron
- 2. 语音合成
• 目标: 文字转语音
• 经典方法:
• 流程:前端提取文字特征、duration model、声学模型、vocoder
• 每个模块都需专业知识、错误叠加
• 端到端
• 输入:<文本、语音> 对
• 减少提特征过程
• 自定义条件容易加入,例如不同说话人、不同情感等
• 新数据自适应性强
• 单一模型比多阶段模型更健壮
- 4. 端到端
• 原始输入 -> 理想输出
• E.g 面粉、水、糖 -> 面包
• 文字 -> 语音(TTS),源语言 -> 目标语言 (MT),语音 -> 文字 (ASR),QA
• 方法:sequence to sequence model
- 8. Examples
seq2seq for MT
Encoder Decoder Model
编码:将输入表示为一个向量
解码:静态使用
次数:单次使用(理论上可以)
缺点:1) 单一一个向量可能不足以描述
完整原始输入 2) 原始信息损失
编码:将输入表示为一个向量
解码:静态使用
次数:多次使用(重复利用)
缺点:在产生输出时并不是都
依赖于这一全局向量,可能只
依赖局部信息
- 12. Tacotron Model
• 输入输出:character index -> 80-band mel-
scale spectrogram
• 编码
• 目标:文字转矩阵
• 模型:Pre-net (NN)、CBHG (CNN)
• 解码
• 目标:产生输出
• 模型:Pre-Net、RNN
• 注意力
• 目标:文字矩阵转向量(依据context)
- 14. Encoder
• Pre-net + HBCG
• Pre-net: 两个全连接层 [N, T, C] ->
[N, T, C] -> [N, T, C/2]
• HGCG: CNN bank + max pooling +
CNN + Highway Nets + Bi-GRU
• Highway Nets:
• 𝑦 = 𝑔 ∗ 𝑅𝑒𝐿𝑈 𝑊𝑥 + 𝑏 +
1 − 𝑔 ∗ 𝑥
• 𝑔 = 𝜎( 𝑤𝑥 + 𝑏 )