Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
USING CONTINUOUS LEXICAL EMBEDDINGS
To IMPROVE SYMBOLIC-PROSODY PREDICTION
IN A TEXT-TO-SPEECH FRONT-END
長岡技術科学大学 自然言語処理研究...
⚫ テキストから韻律情報を予測するタスク
◆ どのような特徴から特定できるのか判別が困難
⚫ 本稿では,
これまで使用されていた特徴量に,
単語埋め込みを加えることによる精度変化を調査
⚫ アクセント強調箇所の予測・アクセント句の予測を行い,
...
⚫ テキストから韻律情報を推定することは,
自然な音声を生成するために重要
✓ アクセント句の分割
✓ アクセントの強弱の割り当て
⚫ ATT(atext-to-speech)システムでは
初めに韻律情報を推定し,
その情報を用いて音声に変換す...
⚫ 現状の課題として
✓ 一つの単語に複数のアクセントが存在する
✓ アクセントを同定するために,
入力したテキスト以外の情報が必要となる場合がある
(例えば, 世界知識など)
⚫ より豊かな構文的・意味的表現の獲得が重要
高次元のベクトル表現...
⚫ 単語埋め込み手法
◆ Word-to-Vector[Mikilov ‘13]
◆ Gloval Vector[Pennington ‘14]
◆ 依存構造解析を利用した埋め込み[Bansal ’15, Levy ‘14]
⚫ 単語埋め込みを...
⚫ Bi-LSTM
いくつかのTTSシステムで最高性能
◆ 韻律モデリング[Fernandez ‘14, Fan ‘14, Zen ‘15]
◆ アクセント句境界推定[Rosenberg ‘12]
6
3. 実験環境 提案手法
⚫ Baseline
◼ 品詞タグ
◼ Uni-gramの出現確率(P(ω𝑖))
◼ 後ろに続く句読点の種類
◼ 大文字, 出現位置が先頭, 接続詞, 補助動詞, WH単語
か否か
◼ 木構造における 次の単語とのノード距離
◼ Pitch-A...
⚫ 実験コーパス
⚫ 英語を母国語とする女性の3730文のタグ付きコーパス
⚫ 訓練(80%), 開発(10%), テスト(10%)
⚫ それぞれ単語数 47.8k, 6.3k, 5.9k
⚫ Baselineに以下のベクトルを加えることによる...
⚫ BL : Baseline
⚫ LEX-xxx : baselineモデルをone-hotベクトルに変換
⚫ SG-xxx : skip-gramで学習(word2vec)
⚫ SSG-xxx : skip-gramで学習(wang2vec...
⚫ 単語埋め込みを用いた場合に
精度が0.1ポイント以上向上
⚫ 辞書情報のみで次元数を増やした場合と比較し,
精度の向上が大きい
10
4. Prominence Prediction 評価
⚫ 単語埋め込みを利用した場合でも
精度の向上が少ない
⚫ 次元数を増やすことによる精度の改善も見られない
11
4. アクセント句境界推定 評価
⚫ 韻律情報付与タスクにおける, 単語埋め込みの影響を調査
◆ 3つのWord-to-Vector形式と Gloveモデル
⚫ アクセント句境界推定においては,
単語埋め込み情報の寄与は小さい
⚫ 辞書の情報を特設埋め込む方法では,
データが希...
Nächste SlideShare
Wird geladen in …5
×

Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend

102 Aufrufe

Veröffentlicht am

Asaf Rendel, Raul Fernandez, Ron Hoory, Bhuvana Ramabhadran, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March.2016.

Veröffentlicht in: Ingenieurwesen
  • Login to see the comments

  • Gehören Sie zu den Ersten, denen das gefällt!

Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend

  1. 1. USING CONTINUOUS LEXICAL EMBEDDINGS To IMPROVE SYMBOLIC-PROSODY PREDICTION IN A TEXT-TO-SPEECH FRONT-END 長岡技術科学大学 自然言語処理研究室 修士2年 西山 浩気 Asaf Rendel, Raul Fernandez, Ron Hoory, Bhuvana Ramabhadran, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March.2016.
  2. 2. ⚫ テキストから韻律情報を予測するタスク ◆ どのような特徴から特定できるのか判別が困難 ⚫ 本稿では, これまで使用されていた特徴量に, 単語埋め込みを加えることによる精度変化を調査 ⚫ アクセント強調箇所の予測・アクセント句の予測を行い, いずれも単語埋め込みが精度向上に寄与することを示す 1. 概要 2
  3. 3. ⚫ テキストから韻律情報を推定することは, 自然な音声を生成するために重要 ✓ アクセント句の分割 ✓ アクセントの強弱の割り当て ⚫ ATT(atext-to-speech)システムでは 初めに韻律情報を推定し, その情報を用いて音声に変換する 2. テキストからのアクセント推定 はじめに 3
  4. 4. ⚫ 現状の課題として ✓ 一つの単語に複数のアクセントが存在する ✓ アクセントを同定するために, 入力したテキスト以外の情報が必要となる場合がある (例えば, 世界知識など) ⚫ より豊かな構文的・意味的表現の獲得が重要 高次元のベクトル表現はデータの希薄さを生み出すため、 代わりに低次元の連続的な表現(Bi-LSTM)を用いる 2. テキストからのアクセント推定 はじめに 4
  5. 5. ⚫ 単語埋め込み手法 ◆ Word-to-Vector[Mikilov ‘13] ◆ Gloval Vector[Pennington ‘14] ◆ 依存構造解析を利用した埋め込み[Bansal ’15, Levy ‘14] ⚫ 単語埋め込みを用いたアクセント句境界推定[Vadapalli ‘14] ⚫ 本手法では事前に教師ありで学習したモデルに, 単語埋め込みを加える点で異なる 5 2. 先行手法 はじめに
  6. 6. ⚫ Bi-LSTM いくつかのTTSシステムで最高性能 ◆ 韻律モデリング[Fernandez ‘14, Fan ‘14, Zen ‘15] ◆ アクセント句境界推定[Rosenberg ‘12] 6 3. 実験環境 提案手法
  7. 7. ⚫ Baseline ◼ 品詞タグ ◼ Uni-gramの出現確率(P(ω𝑖)) ◼ 後ろに続く句読点の種類 ◼ 大文字, 出現位置が先頭, 接続詞, 補助動詞, WH単語 か否か ◼ 木構造における 次の単語とのノード距離 ◼ Pitch-Accent Ratio(PAR) : 当該単語があるアクセント型で出現した割合 7 3. 実験環境 提案手法
  8. 8. ⚫ 実験コーパス ⚫ 英語を母国語とする女性の3730文のタグ付きコーパス ⚫ 訓練(80%), 開発(10%), テスト(10%) ⚫ それぞれ単語数 47.8k, 6.3k, 5.9k ⚫ Baselineに以下のベクトルを加えることによる精度向上を調査 (括弧内は学習させたコーパス) ⚫ Skip-gram (Gigaword corpus[Graff ‘03]) ⚫ CBOW (Google News corpus) ⚫ Glove (Wikipedia and Gigaword corpus) 8 3. 実験環境 提案手法
  9. 9. ⚫ BL : Baseline ⚫ LEX-xxx : baselineモデルをone-hotベクトルに変換 ⚫ SG-xxx : skip-gramで学習(word2vec) ⚫ SSG-xxx : skip-gramで学習(wang2vec) ⚫ CBOW-xxx : CBOWで学習 ⚫ Glove-xxx : Gloveで学習 xxx = 次元数 9 4. 評価
  10. 10. ⚫ 単語埋め込みを用いた場合に 精度が0.1ポイント以上向上 ⚫ 辞書情報のみで次元数を増やした場合と比較し, 精度の向上が大きい 10 4. Prominence Prediction 評価
  11. 11. ⚫ 単語埋め込みを利用した場合でも 精度の向上が少ない ⚫ 次元数を増やすことによる精度の改善も見られない 11 4. アクセント句境界推定 評価
  12. 12. ⚫ 韻律情報付与タスクにおける, 単語埋め込みの影響を調査 ◆ 3つのWord-to-Vector形式と Gloveモデル ⚫ アクセント句境界推定においては, 単語埋め込み情報の寄与は小さい ⚫ 辞書の情報を特設埋め込む方法では, データが希薄になり精度が低い ⚫ 埋め込み表現を用いることで改善 ⚫ 今後は 他の単語埋め込み方法, アクセント句境界推定への影響への調査を行う 12 まとめ

×