テキスト音声合成技術と多様性への挑戦 (名古屋大学知能システム特論)

06/23/2019©Shinnosuke Takamichi,
The University of Tokyo
テキスト音声合成技術と多様性への挑戦
高道慎之介
(東京大学大学院情報理工学系研究科)
名古屋大学知能システム特論

/53
自己紹介
 名前
– 高道慎之介 (たかみちしんのすけ)
 経歴
– 2009年熊本電波高専電子工学科卒業 … 半導体など
– 2011年長岡技科大工学部卒業 … 立体音響など
– 2016年奈良先端大博士課程修了 … 音声合成など
– 2016年～東京大学助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2

/53
私の研究グループの目標
3
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して

/53
本日の内容
4
機械学習に基づくテキスト音声合成技術
多様性の表現・医療福祉のための適用例

/53
目次
 音声がもたらすもの
 音声生成過程
 発音・アクセント規則
 テキスト音声合成
 多様性・福祉への応用
5

/53
音声とは
 音波とは
– 物体の振動によって空気などの弾性体に生じる疎密波
 音声とは
– 人間が発声器官を通じて発する音
– 知能情報学 (人間の情報処理機構を解明・制御する学問) に近い
 “音声”と“音響”は違うことに注意！
– 音響信号とは，文字通り音の響きを含む
– 物理学に近い
7

/53
音声の持つ情報
8
言語情報
Linguistic info.
パラ言語情報
Para-linguistic info.
非言語情報
Non-linguistic info.
狭義の音声認識
(speech-to-text)
話者認識など
(speaker recognition)
感情認識など
(emotion recognition)
テキスト化できる情報
話し手が意図的に付与する，
テキスト化できない情報 (例：感情)
話し手の意図とは無関係に付与される，
テキスト化できない情報（例：話者性）

/53
音声によるコミュニケーション
9
意図
音声の生成
言葉の生成
感情などの生成
意図
音声の聴取
言葉の認識
感情などの認識
空気中を伝播

/53
コミュニケーションにおける障害・制約
10
音声言語の生成過程の制約音声言語の認知過程の制約
この後のスライドでは生成側に焦点をあて，
「テキスト音声合成で障害をどう乗り越えるのか，現在の身体に
制約されない音声表現をどう可能にするか」を解説します．
意図
音声の生成
言葉の生成
感情などの生成
意図
音声の聴取
言葉の認識
感情などの認識
空気中を伝播
雑音や
通信経路の
制約

/53
観測できる音声
畳み込むと…
Time
音声の生成過程
12
声帯を開閉させて
空気を振動させる！
音高の生成
音色の付与
口や舌を動かして
音色をつける！

/53
音声のスペクトル構造
13
Frequency
Power
Frequency
基本周波数 (F0)
微細構造
Power
Frequency
Power
包絡

/53
音源生成と，音響管としての声道
14
声帯側口唇側
声道 (音響管の連接)
有声音
(1/F0間隔のインパルス列)
無声音
(白色雑音)
音響管の形を変えて，声色を制御音源信号で，音高を制御
Vocal tract
Vocal chord Lip

/53
スペクトル構造の例
15Frequency
Power
/a/ (lower F0) /i/ (lower F0)
/a/ (higher F0)
包絡は変わらない
微細構造は変わる
包絡は変わる
微細構造は変わらない

/53
さっそくやってみよう
16
名城大坂野先生のリアルタイム音声分析合成ツール Herium
http://www-ie.meijo-u.ac.jp/~banno/software.html

/53
スペクトログラム
 短時間の波形に対するフーリエ変換
– 利点：比較的定常な部分の静的特徴を見られる
– 欠点：音声が定常とみなせるのは数十msec程度なので
音声波形全体がどう変化しているかを見られない
 スペクトログラム (spectrogram)
– 離散フーリエ変換による分析を時間軸方向に連続して実行し，
– 時間ー周波数領域における2次元表示
17
Time

/53
スペクトログラムの例 (濃いほどパワー大 )
18Time
Frequency
声道の共振 (フォルマント)

/53
ボコーダ：音声を分析・合成する技術
19
http://www.kki.yamanashi.ac.jp/~mmorise/world/introductions.html より図を引用
音源信号の
雑音成分

/53
さっそくやってみよう！
20
Google Colab を用いた音声分析・加工・再合成
https://colab.research.google.com/drive/1zEZeV-
d6yHKlUhH3wovnlF0tz3gq7UJH
自分で動かしたいときは
1. 自分のドライブにコピー (“ファイル”のタブから)
2. 全てを実行 (“ランタイム”のタブから)

発音・アクセント規則
21

/53
テキストと音声を結びつけるもの
 テキストを読み上げたい！
 どうやって読んだらいいの？
– テキストと音声を結びつける構成要素がいくつかある
– ①発音・音節 (pronunciation & syllable)
– ②アクセント・ストレス (accent & stress)
– ③リズム・等時性 (rhythm & isochrony)
22

/53
①発音・音節
 発音 (pronunciation)
– 発声の最小単位である音素 (phoneme) の違い
 音節 (syllable)
– 音節 … 言語依存の発声単位 (日本語ならほぼひらがな一つに対応)
• 開音節 (open syl.) … 母音で終わる音節. 日本語の/か(k a)/など
• 閉音節 (closed syl.) … 子音で終わる音節. 英語の/it (i t)/など
– 子音連結 (consonant cluster) … 同一音節中で連続する子音
• 日本語 (jp) … ほぼCV (C: consonant, 子音、V: vowel, 母音)
• 英語 (en) … CCCV、CCV、VCC、VCCCなどが頻出
– straight = stra + ight
23

/53
②アクセント・ストレス
 音声のアクセント・ストレス
– 言語に依存してスペクトルとF0に現れる
 例: 日本語 (アクセント)
 例: 中国語 (アクセント: 四声)
 例: 英語 (ストレス)
24
Low F0
High F0
I went to the library to study for the exam.
Stress
わたしはとしょかんへいきました。
我去图书馆
F0 changes

/53
③リズム・等時性
 音声の等時性 (isochrony)
– 言語に依存した音声的単位が、時間的に等間隔に現れる
 例1: 日本語 (モーラ等時性)
 例2: 中国語 (シラブル等時性)
 例3: 英語 (ストレス等時性)
25
わたしはとしょかんへいきました。
I went to the library to study for the exam.
各点は一定時間
周期で現れる
我去图书馆

/53
アクセントは誰が決めている?：アクセント辞典
26
2016年に改定！ (18年ぶり6回目．初版は1943年)

/53
前回から何が変わった？
 ” ついに「ク＼マ」が出た！”
– ”クマが出た” のアクセントは？
– 外来語は平板化
– 複合語 (歩み＋寄るなど) は平板から起伏化
– などなど
27
[太田他, 2016.]

/53
音声合成：音声を人工的に作り出す技術
 狭義の音声合成
– テキスト音声合成 (Text-To-Speech: TTS)
 広義の音声合成 (**-to-speech)
– テキスト音声合成
– 音声変換 (Voice Conversion: VC)
– 概念音声合成 (Concept-To-Speech: CTS)
• 概念 → 言語生成 → 音声合成
– 調音・音響間マッピング
• 調音機構特性と音声の変換
– マルチモーダル音声合成
• 動画像などを含む音声合成
29
Text TTS

/53
テキストから音声を予測する
30
Text
テキスト
解析
音響
モデリング
音声波形
生成
コンテ
キスト
音声
特徴量
音素・アクセント
などを推定
ボコーダ(など)で
波形を生成
音響モデルで
特徴量を予測
DNN (deep neural network) を用いた
音響モデリング → DNN音声合成 [Zen13]

/53
事前準備：時系列の対応付け
 通常，テキスト特徴量系列と音声特徴量系列の長さは異なる
– (音声認識などによる) アライメントを実施して揃える
31
あらゆる・・・
Accent phrase
a r a y u r uPhoneme
Low
High
Spectrum, F0
Text
…
Speech
あらゆる

/53
学習：DNNを用いた音響モデリング
32
コンテキスト音声特徴量
t=1
t=2
t=T
当該音素
Phoneme
アクセント
Accent
モーラ位置
Mora position
時間位置
Temporal position
などなど
a
i
u
…
1
2
3
…
0
1
0
1
0
スペクトル (声色)
spectrum
F0 (音高)
有声・無声
Voiced/unvoiced label
Text
DNN
DNNは自然音声特徴量との二乗誤差を最小化するように学習

/53
音声合成の手順
33
あらゆる・・・
Accent phrase
a r a y u r uPhoneme
Low
High
Spectrum, F0
Text
Speech
あらゆる
… …speech params.
prediction
Duration prediction
+ duration info.
Duration model (継続長モデル)を
別に用意して，継続長を予測

多様性・福祉への応用
音声合成はどんな多様性を生みだせるか？
34

/53
ALS（筋萎縮性側索硬化症）への挑戦
35
筋肉の萎縮による発話の困難さを音声合成で緩和
https://www.youtube.com/watch?v=Dcg0rKG5WlU

/53
平均声とモデル適応の利用
 音声合成システムを作るための音声データ量
– HMM音声合成 [Tokuda13] … 30分～
– DNN音声合成 [Zen13] … 数時間～
– End-to-end音声合成 … 数十時間～
→ ALS患者のようなケースでは，体力的な負担も大きい…
(経験的に，読み上げ音声収録に係る時間はデータ量の10倍以上)
 多数話者音声のモデル化とモデル適応
– 色んな人の声から“平均的な声”のモデルを作り，それを部分的に
適応することで，目標話者の少量のデータだけで音声合成を可能に
36
多数話者
データ
平均声
モデル目標話者
モデル
パラメータを適応

/53
人類の共通資源への挑戦
 研究者発の音声コーパスはいくつかあった
– CMU arctic [Kominek03] … 7 hrs, 7 spkrs
– CSTR VCTK [Veaux12] … 44 hrs, 109 spkrs
– Blizzard 2013 [King13] … 300 hrs, 1 spkr
– JSUT [Sonobe17] … 10 hrs, 1 spkr (Japanese)
 2015年頃からボランティア収録・パブリックドメインが増加
– Spoken Wikipedia Corpora [Baumann16]
– Librispeech [Panayotov15] / LibriTTS [Zen19]
– Mozilla Common Voice (後述)
– CMU Wilderness Multilingual Speech Dataset [Black19]
37

/53
Mozilla Common Voice：
パブリックデータとしての音声
38
声のボランティアを募って音声データを集める試み
https://voice.mozilla.org/en

/53
人間の話者知覚のモデル化への挑戦
 やみくもに音声を集めれば，あらゆる話者の声を再現できるか？
– 答えはNo.
– 音響モデルを適応させる場合に，目標話者に似ていない話者の
モデルを元にすると，音質と話者再現度が低くなる．
– 「どれくらい声が似ているか」を計算機で扱えるか？
 クラウドソーシングを用いた話者類似度に関するスコアリング
– 4,000名超の参加者による評価 [Saito19]
39
提示話者対サンプル

/5340
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]

/53
DNNを用いた話者埋め込みへの応用
41
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
𝐿SIM
(mat)
𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹
2
 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング
– DNNを用いた行列ノルム最小化で実現
– 話者性のユニークさも表現可能

/53
外国語スピーキング学習への挑戦
 外国語学習の目的
– 対象の外国語 (例：英語) を用いた円滑な音声コミュニケーション
 スピーキング学習では何を目標にすべきか？
– 母語話者 (例：英語話者) を目指すべき？ → No.
– 外国語話者はある程度の発音逸脱を許容しているため，その許容
範囲に収まる発音であれば，訛った外国語でもOKなのでは？
 ノンネイティブ音声合成
– 学習者の訛りを生かしつつ，外国語話者に伝わる音声を生成
42

/53
日本人英語音声合成
43
従来法で生成
提案法で生成
学習に使用した音声 (ERJデータベースに含まれる
男子大学生のうち，評定スコアが最低）
“I can see that knife now.”
[Oshima16]

/53
日本人英語の音声合成のための韻律補正
 韻律の違い
– 日本語：モーラ等時性・ピッチアクセント
– 英語：ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
– 同じ枠組みは別言語でも可能
44
[Oshima16]
英語母語話者の
音響モデル
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
音響モデル
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい！

/53
中国人日本語の音声合成のための韻律補正
45
Conventional
Ours
Chinese-accented Japanese
uttered by a Chinese student
“私のテストの成績の悪さに，
母がカンカンに怒っています”
Text Text-to-speech
Voice building
Make the voice fluent.
[Sekizawa19]

/53
一期一会音声合成：
人間らしい発話間変動への挑戦
46
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
[Takamichi17]

/53
Neural double-tracking
47
[Tamaru19]
深層生成モデルを用いて「人間の音声はこう間違う」を学習
NDT
Random pitch modulation
based on deep generative models
(e.g., GAN, GMMN)

/53
深層生成モデル：
Generative Adversarial Network (GAN)
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと，学習／生成データを識別する識別モデルを敵対
48
𝒚
1: natural
0: synthesized
⋯
⋯
⋯
⋯
Input
Discriminator
Generator
Natural
[Goodfellow14]

/53
別の生成モデル：
Generative moment-matching network
 Generative moment-matching network
– 分布のモーメント (平均，分散，…) 間の二乗距離を最小化
– 実装上は，グラム行列のノルムの差を最小化
49
𝒚
Natural speech
⋯
⋯
⋯
⋯
Generator
Input
[Takamichi18]

/53
多方言音声合成：方言への挑戦
50
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
Miyazaki-ben
コンテキストの教師なし獲得により
地域性・話者性を分離した音声合成へ
[Takamichi18][Akiyama18]

/53
方言情報を用いた韻律予測
51
文字列出るときに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“出ると”の韻律 “きに”の韻律ターゲット
方言情報ベクトル
 DNNを方言情報で条件付け
– One-hot ベクトル (離散表現)：各方言がベクトルの各要素に対応
– 地理情報 (連続表現)：各方言の中心地域の地理緯度・経度
• “Geographic embedding model”
[Takamichi18][Akiyama18]

/53
まとめ
 音声がもたらすもの
– 音声のもつ情報と音声コミュニケーション
 音声生成過程
– スペクトル包絡 (音色)・基本周波数 (音高)
 発音・アクセント規則
– 発音・音節・アクセント・ストレス・等時性
 テキスト音声合成
– DNN音声合成
 多様性・福祉への応用
– ALS・共通音声資源・可視化・発音教育・間違いへの挑戦
53

テキスト音声合成技術と多様性への挑戦 (名古屋大学知能システム特論)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学知能システム特論)

Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学知能システム特論) (20)

Mehr von Shinnosuke Takamichi

Mehr von Shinnosuke Takamichi (18)