CTCに基づく音響イベントからの擬音語表現への変換

CTCに基づく音響イベントからの
擬音語表現への変換
☆宮﨑晃一，林知樹，戸田智基，武田一哉（名大）
平成29年度秋季音響学会
音声A 1-10-7

はじめに
 研究背景
– さまざまな音を対象とした音環境理解
• 音環境認識，音響イベント検出
– 環境音は音声言語のような記号表現を持たない
• 応用先が限定的
• 統一的に扱うこと自体が困難
 研究目的
2018/3/27
2
擬音語に着目した共有可能な表現の獲得

なぜ擬音語を用いるか
 本研究で扱う擬音語
– もの自体が発している音の文字による書き起こし
 擬音語で表現することの利点
– 日常生活の中で頻繁に利用されており親密度が高い
– 擬音語を基に音源の情報や状態を推論できる
• 他者と共有可能
2018/3/27
3

本研究の概要
 CTCに基づいた音響イベントから擬音語への変換法を提案
– 既存の音声認識システムはそのまま適用できない
– 単一のネットワークを用いた変換
• 従来手法と比較して前処理の必要なし
 主観評価実験と客観評価実験により妥当性を評価
2018/3/27
4
既存の音声認識システム提案法
チヒヒウウウンシャララ
擬音語提案法

擬音語に関連した研究
 機械の異常音の擬音語表現 [Tanaka+1997]
– 故障の原因や兆候となる異常音を書き起こし
– シソーラス（擬音語類語辞書）としてまとめることで
工場内での意識の統一と作業の効率化
 環境音を対象とした擬音語自動認識 [Ishihara+2014]
– 波形を音節ごとに分割し，分割した音節ごとに音素単位での認識
– 認識結果を結合し，聴こえ方の個人差を許容する手法を提案
2018/3/27
5

従来手法 [Ishihara+2014]
1. 音響波形から音節に相当する区間を推定
2. 音節区間を単発音をみなし音素認識
3. 認識した音素を連結し擬音語とする
2018/3/27
6
sh a r a r a r a
sh a r a r a r a
音節の分割精度が変換する擬音語へ大きく影響

提案手法
 CTCに基づくEnd-to-End擬音語変換
– 音響波形から抽出した特徴量から擬音語へ変換
– 従来手法にあった音節分割の必要なし
– 明確な音節が表れない定常的な波形にも適用可能
 処理の流れ
1. 音響波形から特徴量列を抽出
2. CTCを出力層に適用したRNNへ入力
3. 出力を変換された擬音語とする
2018/3/27
7
擬音語

Connectionist Temporal Classification (CTC)
[Graves+2006]
 入力系列と出力系列の⾧さの違いを吸収する枠組み
 出力にブランクシンボル (_) を追加し，RNNの出力に適用
2018/3/27
8
音響波形
特徴抽出
出力系列
推定文字列
概観
RNNに入力
a _ _ _ b
(ab)

CTCによる系列の学習
 例．対象ラベル（ab），系列⾧5の場合
– 対象ラベルを表現する系列
• (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
9
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル𝑠
時刻での出力
系列の尤度
ラベルの尤度
有効な系列

2018/3/27
10
a
b
-
-
-
( )
∈ ( )
時刻
時刻での出力
系列の尤度
ラベルの尤度
有効な系列
各時刻で独立に
出力が生起

2018/3/27
11
a
b
-
-
-
( )
∈ ( )
時刻
時刻での出力
系列の尤度
ラベルの尤度
有効な系列
(ab)を表す系列
これを最大化

擬音語変換実験
2018/3/27
12

実験概要
 客観評価実験
– 変換された擬音語が所望の擬音語をどれだけ再現できているか
– 単語誤り率（WER）と音素誤り率（PER）で評価
 主観評価実験
– 擬音語は受聴者の感性によって聞こえ方が異なる
– 変換された擬音語の妥当性を評価するため，
被験者は音響信号と擬音語を提示し許容可能かどうかを判断する
2018/3/27
13

使用するデータベース
 RWCP実環境音声・音響データベース（RWCP-SSD）
– 100クラスの音響イベントが合計で9720サンプル存在
– 学習:9120サンプル，検証:500サンプル，テスト:100サンプル
 擬音語ラベルの付与
– RWCP-SSDに含まれる全ての音響イベントサンプルに対して
成人男性1名の主観による擬音語ラベルを付与
2018/3/27
14

ラベル付のルール
 聞こえたとおりに主観でカタカナに書き起こし
 歯切れのいい音は～ッ（促音）
 余韻がある音は～－（⾧音）
 キリよく終わる音は～ン（撥音）
 ⾧音の数はひとつで固定連続する音は適当に打ち止め
 音高の変化は考慮しない
2018/3/27
15

実験条件
 特徴量:Mel filter bank 40次元
 ネットワーク構成:3層BLSTM
– パラメータはグリッドサーチにより決定
2018/3/27
16
実験条件
フレームサイズ 40 [ms]
フレームシフト 20 [ms]
LSTM unit 512
学習率 0.0001
初期スケール 0.001
Time step 350
Batch size 128
Epochs 20

客観評価実験結果
 単語誤り率（WER）と音素誤り率（PER）
 CTCを用いた場合の実際の出力例
2018/3/27
17
WER[%] PER[%]
CTC 46.00 20.49
正解ラベル CTC
p i p o N p i p o N
sh a r a r a r a sh a r a r a
k a ch a: k o t a k a N
k o: N k o: N
ch i N ch i N
提案法により擬音語へと変換できることを確認

主観評価実験結果
 20代男女8名による50サンプルの評価
 実際の聞こえ方（1: 許容できる，2: 許容できない）
2018/3/27
18
許容できる許容できない
74.5 [%] 25.5 [%]
CTC 被験者A 被験者B 被験者C 被験者D
ピポンピンポーン, 1 ピポン, 1 テレン, 2 ピコーン, 1
シャラララシャラララ, 1 チリリリン, 1 チリンチリン, 2 リンリン, 2
変換結果の妥当性を確認
個人差の影響、一意に定まらない

おわりに
 まとめ
– CTCに基づく音響イベントからの擬音語表現への変換を提案
– 提案手法により許容可能な擬音語へ変換できることを確認
 今後の課題
– 幅広い音響イベントを対象とした擬音語変換や精度の向上
– 擬音語表現の曖昧性を考慮した変換処理の検討
• 代表的な擬音語への変換
• 聴取者の感性に沿った擬音語への変換
2018/3/27
19

CTCに基づく音響イベントからの擬音語表現への変換

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie CTCに基づく音響イベントからの擬音語表現への変換

Ähnlich wie CTCに基づく音響イベントからの擬音語表現への変換 (20)

Mehr von NU_I_TODALAB

Mehr von NU_I_TODALAB (18)

CTCに基づく音響イベントからの擬音語表現への変換