Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

統計的音声合成変換と近年の発展

966 Aufrufe

Veröffentlicht am

首都大学東京 トーク

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

統計的音声合成変換と近年の発展

  1. 1. 06/20/2019©Shinnosuke Takamichi, The University of Tokyo 統計的音声合成変換と近年の発展 高道 慎之介 (東京大学 大学院情報理工学系研究科) 首都大学東京 トーク
  2. 2. /46 自己紹介  名前 – 高道 慎之介 (たかみち しんのすけ)  経歴 – 2009年 熊本電波高専 電子工学科 卒業 … 半導体など – 2011年 長岡技科大 工学部 卒業 … 立体音響など – 2016年 奈良先端大 博士課程 修了 … 音声合成など – 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教)  専門 – 統計的音声合成・変換など 2
  3. 3. /46 猿渡・小山研究室 3  猿渡洋(教授)  専門分野 音メディアシステム 教師無し最適化 統計・機械学習論的 信号処理 協力教員 郡山知樹先生 特任研究員 高宗さん 秘書 丹治さん 専門分野 音響信号処理 音場再生・伝送 (音響ホログラフ) スパース信号処理 小山翔一(講師) 高道慎之介(助教) 専門分野 音声信号処理 統計的音声合成 声質変換 深層学習(DNN) 北村大地(客員研究員) 専門分野 音メディア信号処理 統計・機械学習論的 信号処理 音楽信号処理 博士課程学生4名 修士課程学生6+7名 柏野研学生1名 香川高専
  4. 4. /46 私の研究グループの目標 4 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して
  5. 5. /46 High-quality voice conversion 5 http://voicetext.jp/voiceactor/ SAYAKA HIKARI Conversion (Conven- tional)
  6. 6. /46 DNN-based real-time voice conversion 6 http://www.ytv.co.jp/conan /item/tai.html https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19]
  7. 7. /46 Neural double-tracking 7 [Tamaru19] NDT Random pitch modulation based on deep generative models 深層生成モデルを用いて「人間の音声はこう間違う」を学習
  8. 8. /46 本日の内容 8 音楽・歌声 音声知覚 言語教育 音声信号処理 音声コーパス
  9. 9. 一期一会音声・歌声合成 9 音楽・歌声
  10. 10. /46 Neural double-tracking 10 [Tamaru19] NDT Random pitch modulation based on deep generative models これをどうやって実現しているのかを話します!
  11. 11. /46 一期一会音声合成 11 「正しく喋る」から「正しく間違えて喋る」音声合成へ Human Noise Current TTS Noise Our approach [Takamichi17]
  12. 12. /46 観測できる音声 畳み込むと… Time 音声の生成過程 12 声帯を開閉させて 空気を振動させる! 音高の生成 音色の付与 口や舌を動かして 音色をつける!
  13. 13. /46 深層生成モデル: Generative Adversarial Network (GAN)  Generative adversarial network – 分布間の近似 Jensen-Shannon divergence を最小化 – 生成モデルと,学習/生成データを識別する識別モデルを敵対 – 音声合成に適用されだしたのは2016年 (我々のグループ) 13 𝒚 1: natural 0: synthesized Discriminator Natural [Goodfellow14] Generator Input
  14. 14. /46 別の生成モデル: Generative moment-matching network  Generative moment-matching network – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 • モーメントは音声処理との相性が良い – 実装上は,グラム行列のノルムの差を最小化 14 𝒚 Natural Generator Input [Li15]
  15. 15. /46 Neural double-tracking の手順 1515 波形 合成 スペクトル 有声/無声 F0 スペクトル 有声/無声 F0 条件付きGMMN (条件:F0包絡) 遅延 人間の DT歌声から 学習 [Tamaru19]
  16. 16. /46 変調したF0系列の例 16 う さ ぎ う さ ぎ Pitch(1が半音) Time [s] Non-filtered Post-filtered (4 lines) 童謡「うさぎ」の一節 72 71 70 69 68 67 66 65 64 63 62 0.0 0.5 1.0 1.5 2.0 2.5 [Tamaru19]
  17. 17. 自由に使える日本語音声コーパス 17 音声コーパス
  18. 18. /46 人文学 & 工学研究のための オープンな日本語音声コーパス 18 大学 研究所企業・非研究者 人文学系 工学系 人文学系 工学系工学系 ここは有ったここが無かった  人文学研究のための音声コーパスは豊富 – 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]  工学研究 (特に音声合成の研究) のための音声コーパスは? – 2015年頃から,専門知識不要の音声合成方式が加速 – 音声合成のコモディティ化が進み,研究分野・身分・国を超えた 技術・製品開発が加速すると予想 → 2016年時点で,それに適切な日本語音声コーパスが無かった
  19. 19. /46 JSUTコーパス 19 [Sonobe17]  スペック – 単一話者読み上げ音声,10時間 (約7,600発話),48 kHzサンプリング – 日本語常用漢字の音読み・訓読みを全てカバー • Wikipedia やクラウドソーシング作文を利用 • 日本語end-to-end音声合成をサポートするため – 身分などに依らず非商用なら無償利用可 (商用転換も可能)  成果 – 2017/10に公開して60か国以上からダウンロード (約75%は国内) – End-to-end 音声合成でも使用されるように [Ueno18] – 商用利用への転換の実績も有り 日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
  20. 20. /46 JSUT コレクション:テキスト・歌・環境音を 音声でつなげるコーパス 20 JSUT JSUT-songJSUT-vi Singing voice (0.5 hrs)Vocal imitation (0.4 hrs) Reading-style speech (10 hrs) Single Japanese speaker’s voice [new!] JSUT-book Audiobook [Future release] [Takamichi18] 音声による抽象化・具体化を利用した多元的情報の融合へ
  21. 21. /46 Mozilla Common Voice: パブリックデータとしての音声 21 https://voice.mozilla.org/en
  22. 22. 主観的類似度を考慮した話者埋め込み 22 音声知覚
  23. 23. /46 話者埋め込み (speaker embedding)  話者埋め込み … 発話者を何らかの数値で表現すること – 声色制御への応用 … ユーザの所望する声色で話す音声合成 – 言語横断への応用 … 言語を超えて同じ人の声で話す音声合成  従来法 … 客観値(音声特徴量間の距離)に基づく embedding – 識別器 (d-vector) や auto-encoder の中間層の値で潜在空間を張る – 話者性は「客観的に似ている = 主観的に似ている」ではない – 張られた潜在空間は,人間の知覚と対応しておらず,解釈しにくい 23 1 0 0 0 0 ⋯ Speaker codes Speech params. ⋯ Softmax cross-entropy 𝐿SCE 𝒄, 𝒄 𝑑-vector 𝒄 𝒄
  24. 24. /4624 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング  話者対の音声を提示し, その主観的な類似度を評価 – JNAS [Itou et al., 1999] の女性話者153名を利用 • 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価) – 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価 • 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数 • 1つの話者対を異なる10名以上が評価 提示話者対サンプル [Saito19]
  25. 25. /4625 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 話者の配置は類似度スコアを用いた多次元尺度構成法で決定 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19]
  26. 26. /46 DNNを用いた話者埋め込みへの応用 26 Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat ⋅ 𝑁s 𝑁s 1 1 ⋯ ⋯ 𝑁s1 ⋯1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix 𝐿SIM (mat) 𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹 2  音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング – DNNを用いた行列ノルム最小化で実現 – 話者性のユニークさも表現可能 [Saito19]
  27. 27. /4627 話者埋め込みと話者間類似度スコアの 散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 −1.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能 [Saito19]
  28. 28. ノンネイティブ音声合成 28 言語教育
  29. 29. /46 外国語スピーキング学習への挑戦  外国語学習の目的 – 対象の外国語 (例:英語) を用いた円滑な音声コミュニケーション  スピーキング学習では何を目標にすべきか? – 母語話者 (例:英語話者) を目指すべき? → No. – 外国語話者はある程度の発音逸脱を許容しているため,その許容 範囲に収まる発音であれば,訛った外国語でもOKなのでは?  ノンネイティブ音声合成 – 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成 29
  30. 30. /46 日本人英語音声合成 30 従来法で生成 提案法で生成 学習に使用した音声 (ERJデータベースに含まれる 男子大学生のうち,評定スコアが最低) “I can see that knife now.” [Oshima16]
  31. 31. /46 日本人英語の音声合成のための韻律補正  韻律の違い – 日本語:モーラ等時性・ピッチアクセント – 英語:ストレス等時性・ストレスアクセント  韻律補正法 – 英語母語話者の韻律を利用 – 同じ枠組みは別言語でも可能 31 [Oshima16] 英語母語話者の 音響モデル 英語母語話者の 英語音声 日本語母語話者の 英語音声 韻律を補正した 日本語母語話者の 音響モデル スペクトル 音源 パワー 継続長 スペクトル 音源 パワー 継続長 モデル 適応 パワーと継続長を 補正すればよい!
  32. 32. /46 中国人日本語の音声合成のための韻律補正 32 Conventional Ours Chinese-accented Japanese uttered by a Chinese student “私のテストの成績の悪さに, 母がカンカンに怒っています” Text Text-to-speech Voice building Make the voice fluent. [Sekizawa19]
  33. 33. 方向統計DNNを用いた 位相モデリング 33 音声信号処理
  34. 34. /46 周期変数とは 34 𝑥 𝑦 𝑦 = 𝜋 2 + 2𝜋𝑁 𝑦 = 𝜋 + 2𝜋𝑁 𝑦 = 3 2 𝜋 + 2𝜋𝑁 𝑦 = 2𝜋𝑁 𝑁 は任意の整数 音声信号処理では極座標を使う (例:フーリエ変換の振幅・位相) 一方で, 振幅 𝑥 のみが処理対象となる場合が多かった. 振幅 𝑥 から位相 𝑦を予測(復元)できるか?
  35. 35. /46 DNNを用いた位相推定  位相:2𝜋の周期をもつ周期変数 – 2𝜋の周期性を持つ周期変数 𝒚 𝑡 = 𝑦𝑡,0, ⋯ , 𝑦𝑡,𝑓, ⋯ , 𝑦𝑡,𝐹 ⊤ – 𝑦𝑡,𝑓 と 𝑦𝑡,𝑓 + 2𝜋𝑁 は等価(𝑁は整数)  DNN学習に通常の二乗誤差最小化規範 (MSE) を使えない – 二乗誤差最小化規範は等方性ガウス分布の尤度最大化に対応 – ガウス分布は変数の周期性に対応できない 35 argmax 𝑁 𝒚 𝑡; 𝒚 𝑡, 𝜎2 𝑰 → argmin 𝒚 𝑡 − 𝒚 𝑡 ⊤ 𝒚 𝑡 − 𝒚 𝑡 DNN MSE 𝒚 𝑡 ならば,周期変数に対応する確率分布を導入すれば良い! 振幅 𝒙 𝑡 位相 𝒚 𝑡
  36. 36. /46 von Mises 分布  von Mises 分布 … 周期変数のための確率分布 – 2次元の等方性ガウス分布から導出される対称周期分布 36 [Mardia99] 𝑃(vm) 𝑦; 𝜇, 𝜅 = exp 𝜅 cos 𝑦 − 𝜇 2𝜋𝐼0 𝜅 𝑦 𝜋 2𝜋 𝜇 𝜅 0 𝑃(vm)𝑦;𝜇,𝜅
  37. 37. /46 von Mises 分布 DNN を用いた 位相モデリング 37  von Mises 分布 DNN … 周期変数のための深層生成モデル – 集中度パラメータ固定の von Mises 分布を条件付き確率分布に持つ  von Mises 分布 DNN は,データ分布の対称性を暗に仮定 – ↓のような分布のモデル化精度は悪い.どうする? 𝜽 = argmin 𝐿(vm) 𝒚 𝑡, 𝜽 = argmin −cos 𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 DNN 𝜽 振幅 𝒙 𝑡 𝐿 vm ⋅ 位相 𝒚 𝑡 平均 𝝁 𝑡 𝑦 0 𝜋 2𝜋 Count [Takamichi18]
  38. 38. /46 正弦関数摂動 von Mises 分布  von Mises 分布𝑃 vm 𝑦, 𝜇, 𝜅 に摂動項をかけた非対称周期分布 38 [Abe11] 𝑃 ssvm 𝑦, 𝜇, 𝜅, 𝜆 = 𝑃 vm 𝑦, 𝜇, 𝜅 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇 𝑦 0 𝜋 2𝜋 𝑃ssvm 𝑦,𝜇,𝜅,𝜆 摂動パラメータ
  39. 39. /46 正弦関数摂動 von Mises分布DNNによる 位相推定 (正確には群遅延推定) 39 0 1 𝐹 𝑦𝑡,∗ 𝐿 vm ⋅ 𝜎 ⋅ × 𝛼 𝜅 (const.) 0 𝐹 𝜇 𝑡,∗ 𝜅 𝑡,∗ tanh ⋅ × 𝛼 𝜆 (const.) 𝜆 𝑡,∗ 𝐿 ss ⋅Mean Concentration Skew Freq. index 𝑥 𝑡,∗ DNN学習時の損失関数は 𝐿 vm ⋅ と 𝐿 ss ⋅ の和 (von Mises由来) (正弦関数摂動由来) 摂動項の 対数 [Takamichi18]
  40. 40. /46 負の対数尤度の box plot 40 0.80 0.85 0.90 0.95 1.00 1.05 1.10 Negativeloglikelihood Min Max Median 正弦関数摂動の導入により尤度が改善 [Takamichi18]
  41. 41. 次世代の音声合成に向けて 41
  42. 42. /46 総務省SCOPE:知覚モデルに基づくストレス フリーなリアルタイム広帯域音声変換 42 通常の遠隔コミュニケーション リアルタイム音声変換を介した遠隔コミュニケーション 言語情報 (音韻など) パラ言語情報 (感情など) 非言語情報 (話者性など) 自己聴取音による情報確認 言語 パラ言語 非言語 言語 パラ言語 非言語 音 声 変 換 意図しない情報変換が行われる恐れ エラーを含む音声のフィードバックでユーザに負荷 https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
  43. 43. /46 東大GAPプロジェクト:音声合成技術の研究開発・ 商用利用を加速させる音声コーパスの設計・構築 43 https://sites.google.com/site/shinnosuketakamichi/research-topics/gap2019 読み上げ音声 歌声 感情音声 多言語音声 ノンネイティブ 多数話者音声 方言音声 成果物 研究なら無償 商用なら有償提供 企業 音声関連企業 研究開発部門を 持つ企業 音声プラット フォームを 持つ企業 無償提供 ゆらぎ音声合成 (セコム) 方言音声合成 (若手研究) ~2018年度 音声翻訳 (基盤S) 省データ音声変換 (基盤A) リアルタイム変換 (SCOPE) 取引先候補 迅速なコーパス整備による 基盤研究の加速 大学 学習済みモデルを 含めた技術提供 コーパスを頒布 構築技術提供で 社内の音声から 新コーパスを作成 コーパス構築技術 その他の音声その他の競争的資金 災害支援 (セコム一般)
  44. 44. /46 2019/07 SP/SLP研究会 招待講演 44 https://sites.google.com/site/shinnosuketakamichi/tutorial/slp201907 概要 2019年1月施行の著作権法30条の4等の改正により,研究における著作物の 利用が拡大された.そこで,改正著作権法でどこまでが許されているのかに ついて明らかにすべく,弁護士による講演会を開く. 講演者 竹内 亮 先生 (鳥飼総合法律事務所) http://www.torikai.gr.jp/author/takeuchi
  45. 45. まとめ 45
  46. 46. /46 まとめ  我々の既発表研究を紹介 – 音楽・歌声 – 音声コーパス – 音声知覚 – 言語教育 – 音声信号処理  現在進行中のプロジェクトを紹介 – ストレスフリー音声変換 – 研究開発・商用利用を加速させる音声コーパスの設計・構築 – 著作物をコーパスとして使用するための講演会 46

×