manga2voice: マンガ画像からの音声合成に向けた音声分析

03/15/2019©Shinnosuke Takamichi,
The University of Tokyo
manga2voice:
マンガ画像からの音声合成に向けた音声分析
○高道慎之介，齋藤佑樹，中村友彦，郡山知樹，猿渡洋
(東大院・情報理工)
音響学会 2020春 2-10-2 (2019/03/15)

マンガに喋ってほしいですよね.
2
例：天使とアクト!! 第1話モーションコミック①
https://www.youtube.com/watch?v=qcyUS2UR4kc

/15
概要
 テキスト読み上げ技術の高品質化
– End-to-end型やニューラル波形生成が強く貢献
– モーダル間情報交換の研究が進む中，音声合成は何を入力にする？
 モーションコミック
– コミック画像に対して音声音響・モーション情報を付与したもの
– この自動化は可能か？
 Manga2voice
– コミック画像とその補助情報から音声(音響)情報を生成するタスク
3
本発表では，manga2voice の定義と応用を述べ
収集したコーパスの方法論を紹介 (音声分析はしてません…)

Manga2voice に必要な技術と
期待される応用展開
4

/15
作成したコーパス (方法論は後述)
5
Manga109の利用規約に基づき画像を表示．LoveHina@Ken Akamatsu．

/15
所用技術の整理
6
LoveHina@Ken Akamatsu
フレーム
キャラ
顔
効果
テキスト
吹き出し
認識理解
並び替え
言語
パラ言語
(感情)
非言語
(話者)
シーン
人間音声
音響
シーン
波形重畳
音響
イベント
動物音声
合成
次ページ以降で認識・理解・合成部を定義

/15
認識部：コミック画像 (フレーム等) の
インスタンスを認識
7
フレーム
キャラ
顔
効果
テキスト
吹き出し
認識理解
並び替え
言語
パラ言語
(感情)
非言語
(話者)
シーン
人間音声
音響
シーン
波形重畳
音響
イベント
動物音声
合成
 フレーム：ページ構成を司る単位の推定
 キャラなど：顔・体の画像位置やキャラクタ・表情の推定
 吹き出しなど：テキスト(サブ文字を含む)・書体情報などの推定

/15
理解部：認識結果に基づき
音合成に必定な情報を決定
8
フレーム
キャラ
顔
効果
テキスト
吹き出し
認識理解
並び替え
言語
パラ言語
(感情)
非言語
(話者)
シーン
人間音声
音響
シーン
波形重畳
音響
イベント
動物音声
合成
 言語・パラ言語・非言語：セリフ・感情・話者の推定＆対応付け
– 一対多 (例：1つのセリフを複数話者が話す) も取りうる
 音響シーン・イベント：音響信号の有無・ラベル・強度の推定
 並び替え：空間的配置の画像インスタンスから時間的配置を決定

/15
合成部：決定された情報から音波形を合成
9
フレーム
キャラ
顔
効果
テキスト
吹き出し
認識
人間音声
音響
シーン
波形重畳
音響
イベント
動物音声
合成
 音声合成：セリフのみならず，セリフとセリフの「間」も推定・合成
 音響合成：所望の強度による音響シーン・イベントの合成
 波形重畳：合成波形を時間的に重畳．
理解
並び替え
言語
パラ言語
(感情)
非言語
(話者)
シーン

/15
既存技術を踏まえた応用展開例
10
パーソナライズ多言語・多方言
マルチモーダル音声入力
多話者音声合成 [Hojo16] など
クロスリンガル音声合成 [Fan16]
多方言音声合成 [Akiyama18] など
画像-音響シーン変換 [Zhou18]
音声-モーション変換 [Lavageto95] など
音声変換 [Toda07] など
画像はLoveHina@Ken Akamatsu．

/15
コミック・演者・収録環境の選定
 コミック：ラブひな第1巻 [Akamatsu99]
– Manga109 (日本漫画の学術研究のためのコーパス) [Matsui17]に収録
– 当該コミックの演技参考資料が豊富
 演者：声による演技経験を持つ男性1名・女性2名
– 主要キャラクタは，男性1名・女性5名
– 男性演者は男性キャラ1名，女性演者は女性キャラ2名or3名を担当
 収録環境：プロ音響監督によるスタジオ収録
– 音響監督による嗜好が混在しないよう，音響監督は1名に固定
12

/15
音声収録
 基本進行
– 見開きページごとに掛け合い形式で実施
– 記号のみから成るセリフも，掛け合いとして自然なら収録
 例外
– 音響シーン・イベントは未収録
– 掛け合いが物理的に困難な場合には，別途収録
• 例：1人の演者の複数のキャラクタが同時に話す場合
 キャラ感情音声の別途収録
– 各キャラクタについてJTESコーパス [Takeishi16] の4感情(normal,
happy, joy, sad)各50文を収録
– 各感情について代表的な感情表現を決め，50文をその感情で演技
13

/15
アノテーションと
作成したデータベース
14
<text xmin="1560" ymin="539" …>
<voice
voiceid="000259"
normedtext="ようこそっ"
character="00035faa"
start="707.112381"
end="708.03362“/>
<voice …/>
ようこそっ
</text>
音声ID
正規化テキスト
キャラID
発話開始時刻
発話終了時刻
他音声の情報
当該音声の情報
テキスト
画像内テキスト
画像 (Manga109)
キャラ別音声
画像・音声のメタ情報

/15
まとめ
 Manga2voiceの要素技術を整理
– 認識部・理解部・合成部
– 応用展開も紹介
 コーパス設計論を紹介
– コミック・演者・収録環境の選定
– コーパスの中身
 今後の予定
– 音声合成法の検討
– アニメーションデータを用いた転移学習
15

manga2voice: マンガ画像からの音声合成に向けた音声分析

Recommended

Recommended

More Related Content

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (9)

manga2voice: マンガ画像からの音声合成に向けた音声分析