日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”

クラウドソーシングを利用した
対訳方言音声コーパスの構築
○高道慎之介，猿渡洋 (東大院・情報理工)
日本音響学会 2017年秋季研究発表会
1-8-4

/14
概要
 背景：機械学習技術の発達により音声言語研究が加速
– 次のステップの1つが (日本語)方言
– しかし，音声言語処理に使える方言コーパスは非常に限定的
 提案：クラウドソーシングを利用した対訳方言コーパス CPJD
– Crowdsourced Parallel corpora of Japanese Dialect
– クラウドソーシングを利用したオンラインのコーパス収集
– 標準語との対訳テキストとその読み上げ音声
 結果：
– 21の方言・計9時間分のコーパスを作成
2

/14
既存の日本語方言コーパス
 既存のコーパス
– 日本語危機方言データベース
– 甑島方言アクセントデータベース
– 「日本語方言の地域差」方言音声コーパスなど
– → 音声言語研究に利用できるデータは限定的…
 日本語対訳方言コーパス [Yoshino et al., 2016.]
– 8都道府県，話者毎に100文を理想的な環境で収録
– 標準語との対訳方言テキスト，その読み上げ音声
– → 音声合成のみならず，音声認識・言語処理にも応用可能
– → しかし，このような理想的な環境で収録できる方言は少数
3

/14
CPJDコーパスの狙い
 ①ウェブ音声収録・クラウドソーシングの利用
– 一般家庭環境における，読み上げ音声の収録
– 地理的・金銭的制約を緩和する，比較的安価なデータ収集方法
 ②多くの地域の方言の収集
– 地理情報・話者の年齢情報などを利用した混合方言モデル
– → (時)空間情報を利用した音声言語処理へ
4
音声収録依頼・依頼費
方言データ

/14
収集手順
 ①標準語テキストの構築
– 収録者に翻訳させる標準語テキスト [Yoshino et al., 2016.]
 ②ウェブ音声収録プラットフォームの構築
– ブラウザ上での音声収録
 ③収録者募集とデータ収集
– クラウドソーシングサービスで募集
– 収録者は，標準語を自らの方言に翻訳して朗読
 ④発話誤りとポーズ位置推定
– データ収集後に人手でアノテーション
6

/14
標準語テキストの作成と
ウェブ音声収録プラットフォーム
 標準語テキストの作成
– 以下の2コーパスから，ランダムに文を抽出
• 日本書き言葉均衡コーパス [Maekawa et al., 2014.] のブログエントリ
• KNBコーパス [Hashimoto et al., 2011.]
– 地域性のある固有名詞 (地名など) は除外
– 現代にそぐわない単語は置換 (携帯電話 → スマートフォン)
 ウェブ音声収録プラットフォーム
– Recorder.js*を用いて，以下の機能をもつWebページを作成
• 収録開始・停止ボタン
• パワースペクトル，時間波形の表示
– 発音誤り検出・音声区間検出・音量調整機能は非実装
7
*https://github.com/mattdiamond/ Recorderjs

/14
収録者募集とデータ収集
 収録者の募集
– クラウドソーシングサービス上で収録者を募集
– (収集データを研究資料とすることに承諾した人のみ)
 作業手順
– 作業は全て，各家庭のPCもしくはスマートフォンで実施
– 標準語テキストを自らの方言に翻訳
– 翻訳したテキストを朗読し，その音声を録音
• その方言テキストと音声ファイルを提出
 インストラクション
– 敬語表現を日常表現に置換すること
– 生活音の混入を出来る限り避けること
8

/14
収集条件と結果
10
サービスランサーズ (http://www.lancers.jp/)*
標準語テキスト各話者毎に250文
サンプリング周波数 44.1 kHz or 48 kHz
募集期間 2017/04~05のうち5日間
発話者選択都道府県と方言がかぶらない様に選択
話者数 22名（男性9名，女性13名）
平均発話分数 24分36秒/話者 (非音声区間を含む)
方言数 21
条件
結果
*研究グループで日常的に使用しているため，このサービスを利用した．

/14
収集地域と方言
11
北海道弁，津軽弁
秋田弁
金沢弁，福井弁，大阪弁
奈良弁，京都弁，京言葉
出雲弁，広島弁
岡山弁
伊予弁，阿波弁
土佐弁福岡弁，宮崎弁
諸県弁
いわき弁，埼玉弁
静岡弁
0 500

/14
収集データの例
12
標準語
できるだけスマートフォンひとつで身の回りのこと
全て片付けようとしているようだ．
宮崎弁
なるだけスマートフォンひとつで身んまわりんこと
全部片付けようとしちょるみたいやね．
津軽弁
でぎるだげスマートフォンばりで身の回りのこと
まるっととっけるんた．
標準語
これからこの機能が加わったからといって
特別ハッピーなわけでもない
京言葉*
これからこの機能が加わったからゆうて
特別ハッピーなわけでもあらへん．
阿波弁
これからほの機能が加わったからといって
特別ハッピーなわけやないし．
*収録者と相談して，京言葉(祇園言葉)と京都弁は別の方言としてカウント

/14
発話者毎のSN比
(decision directed法[Plapous et al., 2006.]を用いて計算)
13
Min -2.1
Max 57.8
Mean 15.1
Median 12.6

/14
まとめ
 日本語対訳方言コーパスCPJDを構築
– 標準語テキスト・方言テキスト・方言音声・地理データ
– 21の方言，計9時間の音声データ
 今後の予定
– 雑音環境下音声からの高品質音声合成
• 宇根他, “雑音環境下音声を用いた音声合成のための雑音生成モ
デルの敵対的学習,” SLP研究会10月で発表予定
– 地理データ(空間情報)を用いた方言音声合成
14

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Shinnosuke Takamichi

Mehr von Shinnosuke Takamichi (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”