音声コーパス設計と次世代音声研究に向けた提言

06/13/2019©Shinnosuke Takamichi,
The University of Tokyo
音声コーパス設計と
次世代音声研究に向けた提言
高道慎之介
(東京大学)
SP研究会＠東工大招待講演

/29
自己紹介
 名前
– 高道慎之介 (たかみちしんのすけ)
 経歴
– 2009年熊本電波高専電子工学科卒業 … 半導体など
– 2011年長岡技科大工学部卒業 … 立体音響など
– 2016年奈良先端大博士課程修了 … 音声合成など
– 2016年～東京大学猿渡研助教 (2018年まで特任助教)
• 現在，アカポス4年目
 専門
– 統計的音声合成・変換など
2

/29
私の研究グループの目標
3
Voice conversion
Speech synthesis
Communication
by all humans and AIs
with arbitrary speech
representation

/29
本日の内容
4
音声合成を取り巻くコーパス事情とは？
次の音声合成研究に必要なコーパス・技術は？

研究紹介
この1年で発表したもの
5

/29
High-quality voice conversion
6
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)

/29
DNN-based real-time voice conversion
7
[Arakawa19]
https://www.youtube.com/watch?v=P9rGqoYnfCg
Efficient analysis/conversion/synthesis
by speech signal processing and DNNs (w/o GPU)

/29
Neural double-tracking
8
[Tamaru19]
DNN-based modeling/sampling of inter-utterance variation
NDT
Random pitch modulation
based on deep generative models

最近作ったコーパスとその目的
9

/29
人文学 & 工学研究のための
オープンな日本語音声コーパス
10
大学研究所企業・非研究者
人文学系
工学系
人文学系
工学系工学系
ここは有ったここが無かった
 人文学研究のための音声コーパスは豊富
– 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]
 工学研究 (特に音声合成の研究) のための音声コーパスは？
– 2015年頃から，専門知識不要の音声合成方式が加速
– 音声合成のコモディティ化が進み，研究分野・身分・国を超えた
技術・製品開発が加速すると予想
→ 2016年時点で，それに適切な日本語音声コーパスが無かった
(あと，アカポス1年目で研究グループのプレゼンスを高めたかった)

/29
JSUTコーパス
11
[Sonobe17]
 スペック
– 単一話者読み上げ音声，10時間 (約7,600発話)，48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
– End-to-end 音声合成でも使用されるように [Ueno18]
– 商用利用への転換の実績も有り
日本語End-to-end音声合成のサンプル音声は，京都大学河原先生・上乃さまに提供して頂いた

/29
JSUT コレクション：テキスト・歌・環境音を
音声でつなげるコーパス
12
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[Future release]
[Takamichi18]
音声による抽象化・具体化を利用した多元的情報の融合へ

/29
CPJDコーパス：クラウドソーシングを
利用した音声コーパス収集
 音声合成に使えるのはクリーンな音声データだけか？
– 例えば，方言音声の収録は人的・金銭的コストが高い
– クラウドソーシングとWeb録音で方言音声を収録，音声合成に利用
→ 例：地理情報を利用した多方言音声合成 [Akiyama18]
13
[Takamichi18-2]
伊予・阿波・土佐
いわき，埼玉
出雲・広島・岡山
福岡・宮崎・諸県
金沢・福井・大阪・
奈良・京都・京言葉
北海道・津軽・秋田

/29
酒酔い歌声コーパス
 酒酔いによる歌声表現は，計算機で学習可能か？
– 歌声合成器に「酒酔い度」を導入？
– 酒酔い歌声は，声のランダム性が強く付与されたもの
• Neural double-tracking のようなランダム性のモデル化に応用？
14
[Takamichi19]
歌唱者A 歌唱者B 歌唱者C
曲1 夕焼けファルセット
／ 175R
Love so sweet
／嵐
Loser
／米津玄師
曲2 手紙
／ 175R
Lemon
／米津玄師
千本桜 feat. 初音ミク
／黒うさP

最近の音声コーパス事情
15

/29
この数年の音声コーパス事情 (特に英語)
 2014年以前も利用可能な音声コーパスはいくつかあった
– CMU arctic [Kominek03] … 7 hrs, 7 spkrs
– CSTR VCTK [Veaux12] … 44 hrs, 109 spkrs
– Blizzard 2013 [King13] … 300 hrs, 1 spkr
 2015年頃からボランティア収録・パブリックドメインが増加
– 元々は音声認識のために構築されたものもあるが，転じて
音声合成に使われだした
• ML研究者の参入，音質を気にしない合成研究の増加のため？
• In-the-wild なデータからの音声合成も増えだした
– Spoken Wikipedia Corpora [Baumann16] (後述)
– Librispeech [Panayotov15] / LibriTTS [Zen19] (後述)
– Mozilla Common Voice (後述)
– CMU Wilderness Multilingual Speech Dataset [Black19] (後述)
16

/29
Spoken Wikipedia Corpora
/Librispeech/LibriTTS
 Spoken Wikipedia Corpora (approx. 395 hrs, 1,300 spkrs)
– ボランティアによる Wikipedia 記事の読み上げ
– Text と音声のアライメント
 Librispeech (approx. 1,000 hrs, 2,500 spkrs)
– LibriVox (パブリックドメインの audiobook) を利用
• LibriVox 自体には日本語のデータもある (例)
– Text と音声のアライメント
– 音声合成用に data refinement したもの -> LibriTTS
17
[Baumann16][Panayotov15][Zen19]

/29
Mozilla Common Voice：
パブリックデータとしての音声
18
https://voice.mozilla.org/en

/29
CMU wilderness multilingual speech dataset
19
[Black19]
http://festvox.org/cmu_wilderness/map.html
多言語に翻訳される Christian Bible や Quran の音声データを整理．
驚異の700言語！

/29
Google dataset search
20
https://toolbox.google.com/datasetsearch

次の音声研究に
必要なコーパス設計
21

/29
音声資源を管理できるプラットフォーム
 現在
– NII音声資源コンソーシアムなど (少し前までは郵送手続きでコーパ
ス入手までに非常に手間だったが，最近オンライン配布になり非常
に手軽になった)
• しかし，増え続けるコーパスに追い付いていない
– 有志でリストアップされている方もいるが，それでも不足
• https://github.com/arXivTimes/arXivTimes/tree/master/datasets
 どうすべき？
– 音声のみならず，音楽・画像・動画・行動も含めた包括管理
– 著作権・利用規約も明確化
– コーパスに付随する研究成果の共有
• 最近，PyTorch で学習されたDNNをGoogle Colab で読み込める
サービスが追加
22

/29
アカデミック・研究所・企業を超えたコーパス
 国・研究所から：大規模データの頒布
– 政府・省庁系の(音声)データのオープン化
 大学から：希少データの頒布
– 倫理審査の通過
• 2017/05改正の個人情報保護法を踏まえた匿名化
– コーパスの著作権のありかの明確化
– パブリックドメインデータの利用
• クラウドソーシングを用いた文作成もあり [Sonobe17]
23

/29
東大GAPプロジェクト：音声合成技術の研究開発・
商用利用を加速させる音声コーパスの設計・構築
24
https://sites.google.com/site/shinnosuketakamichi/research-topics/gap2019
読み上げ音声公開
歌声
感情音声
多言語音声
ノンネイティブ音声
多数話者音声
方言音声
成果物
研究なら無償
商用なら有償提供
企業
音声関連企業
研究開発部門を
持つ企業
音声プラット
フォームを
持つ企業
無償提供
ゆらぎ音声合成 (セコム財団)
1年で60か国に提供
方言音声合成 (若手研究)
~2018年度
音声翻訳 (基盤S)
省データ音声変換 (基盤A)
リアルタイム音声変換 (SCOPE)
取引先候補
迅速なコーパス整備による
基盤研究の加速
大学
学習済みモデルを
含めた技術提供
コーパスを頒布
構築技術を提供して
社内の音声資源から
新音声コーパスを作成
コーパス構築技術
その他の音声その他の競争的資金
災害支援 (セコム一般)

/29
集合知の利用
 音声のアノテーション・評価
– End-to-end音声合成の隆盛である現代でも，アノテーションと
評価には人手が必要．
– 表層的なものから深層的なものまで
– 学習データ規模の増加に伴い，アノテータ・評価者のコストも増加
 ヒューマンコンピュテーション：人間を計算資源として捉える
– クラウドソーシングなどで大量の人間を少しずつ稼働
• 数千人規模も雇用可能 [Saito19]
• 上手く使えれば， GPUを買ったり人間の知覚を近似する手法を
考えるより安価かつ高速
– アノテータの匠の技を，どのようにマイクロタスク化して素人に
行わせる？
– 素人の結果をどうやって信頼する？
• 音像定位評価における参加者信頼度の導入 [Takamichi19] 25

/29
著作物・found dataの利用
 大学でのコーパス作成の利点・欠点
– 利点：多様な問題設定に基づいて，フットワークの軽い収録が可能
– 欠点：Simulated な環境(例：対話)になりがち
 Found data (in-the-wild なデータ) の整備・利用
– Spoken Wikipedia のように，日本語 found data を整備
 既存の著作物の利用
– 既存の音メディアのデータを研究に活用できないか？
26

/29
来月 (2019/07) SP/SLP研究会招待講演
27
https://sites.google.com/site/shinnosuketakamichi/tutorial/slp201907
概要
2019年1月施行の著作権法30条の4等の改正により，研究における著作物の
利用が拡大された．そこで，改正著作権法でどこまでが許されているのかに
ついて明らかにすべく，弁護士による講演会を開く．
講演者
竹内亮先生 (鳥飼総合法律事務所)
http://www.torikai.gr.jp/author/takeuchi

/29
まとめ
29
 我々の作ってきたコーパス
 世界のコーパス事情
 次の研究を見据えたコーパス設計論

音声コーパス設計と次世代音声研究に向けた提言

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 音声コーパス設計と次世代音声研究に向けた提言

Ähnlich wie 音声コーパス設計と次世代音声研究に向けた提言 (8)

Mehr von Shinnosuke Takamichi

Mehr von Shinnosuke Takamichi (18)

音声コーパス設計と次世代音声研究に向けた提言