SlideShare ist ein Scribd-Unternehmen logo
1 von 19
CTCに基づく音響イベントからの
擬音語表現への変換
☆宮﨑晃一,林知樹,戸田智基,武田一哉(名大)
平成29年度秋季音響学会
音声A 1-10-7
はじめに
 研究背景
– さまざまな音を対象とした音環境理解
• 音環境認識,音響イベント検出
– 環境音は音声言語のような記号表現を持たない
• 応用先が限定的
• 統一的に扱うこと自体が困難
 研究目的
2018/3/27
2
擬音語に着目した共有可能な表現の獲得
なぜ擬音語を用いるか
 本研究で扱う擬音語
– もの自体が発している音の文字による書き起こし
 擬音語で表現することの利点
– 日常生活の中で頻繁に利用されており親密度が高い
– 擬音語を基に音源の情報や状態を推論できる
• 他者と共有可能
2018/3/27
3
本研究の概要
 CTCに基づいた音響イベントから擬音語への変換法を提案
– 既存の音声認識システムはそのまま適用できない
– 単一のネットワークを用いた変換
• 従来手法と比較して前処理の必要なし
 主観評価実験と客観評価実験により妥当性を評価
2018/3/27
4
既存の音声認識システム 提案法
チヒヒウウウン シャララ
擬音語提案法
擬音語に関連した研究
 機械の異常音の擬音語表現 [Tanaka+1997]
– 故障の原因や兆候となる異常音を書き起こし
– シソーラス(擬音語類語辞書)としてまとめることで
工場内での意識の統一と作業の効率化
 環境音を対象とした擬音語自動認識 [Ishihara+2014]
– 波形を音節ごとに分割し,分割した音節ごとに音素単位での認識
– 認識結果を結合し,聴こえ方の個人差を許容する手法を提案
2018/3/27
5
従来手法 [Ishihara+2014]
1. 音響波形から音節に相当する区間を推定
2. 音節区間を単発音をみなし音素認識
3. 認識した音素を連結し擬音語とする
2018/3/27
6
sh a r a r a r a
sh a r a r a r a
音節の分割精度が変換する擬音語へ大きく影響
提案手法
 CTCに基づくEnd-to-End擬音語変換
– 音響波形から抽出した特徴量から擬音語へ変換
– 従来手法にあった音節分割の必要なし
– 明確な音節が表れない定常的な波形にも適用可能
 処理の流れ
1. 音響波形から特徴量列を抽出
2. CTCを出力層に適用したRNNへ入力
3. 出力を変換された擬音語とする
2018/3/27
7
擬音語
Connectionist Temporal Classification (CTC)
[Graves+2006]
 入力系列と出力系列の⾧さの違いを吸収する枠組み
 出力にブランクシンボル (_) を追加し,RNNの出力に適用
2018/3/27
8
音響波形
特徴抽出
出力系列
推定文字列
概観
RNNに入力
a _ _ _ b
(ab)
CTCによる系列の学習
 例.対象ラベル(ab),系列⾧5の場合
– 対象ラベルを表現する系列
• (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
9
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル𝑠
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
CTCによる系列の学習
 例.対象ラベル(ab),系列⾧5の場合
– 対象ラベルを表現する系列
• (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
10
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル𝑠
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
各時刻で独立に
出力が生起
CTCによる系列の学習
 例.対象ラベル(ab),系列⾧5の場合
– 対象ラベルを表現する系列
• (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
11
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル𝑠
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
(ab)を表す系列
これを最大化
擬音語変換実験
2018/3/27
12
実験概要
 客観評価実験
– 変換された擬音語が所望の擬音語をどれだけ再現できているか
– 単語誤り率(WER)と音素誤り率(PER)で評価
 主観評価実験
– 擬音語は受聴者の感性によって聞こえ方が異なる
– 変換された擬音語の妥当性を評価するため,
被験者は音響信号と擬音語を提示し許容可能かどうかを判断する
2018/3/27
13
使用するデータベース
 RWCP実環境音声・音響データベース(RWCP-SSD)
– 100クラスの音響イベントが合計で9720サンプル存在
– 学習:9120サンプル,検証:500サンプル,テスト:100サンプル
 擬音語ラベルの付与
– RWCP-SSDに含まれる全ての音響イベントサンプルに対して
成人男性1名の主観による擬音語ラベルを付与
2018/3/27
14
ラベル付のルール
 聞こえたとおりに主観でカタカナに書き起こし
 歯切れのいい音は~ッ(促音)
 余韻がある音は~-(⾧音)
 キリよく終わる音は~ン(撥音)
 ⾧音の数はひとつで固定連続する音は適当に打ち止め
 音高の変化は考慮しない
2018/3/27
15
実験条件
 特徴量:Mel filter bank 40次元
 ネットワーク構成:3層BLSTM
– パラメータはグリッドサーチにより決定
2018/3/27
16
実験条件
フレームサイズ 40 [ms]
フレームシフト 20 [ms]
LSTM unit 512
学習率 0.0001
初期スケール 0.001
Time step 350
Batch size 128
Epochs 20
客観評価実験結果
 単語誤り率(WER)と音素誤り率(PER)
 CTCを用いた場合の実際の出力例
2018/3/27
17
WER[%] PER[%]
CTC 46.00 20.49
正解ラベル CTC
p i p o N p i p o N
sh a r a r a r a sh a r a r a
k a ch a: k o t a k a N
k o: N k o: N
ch i N ch i N
提案法により擬音語へと変換できることを確認
主観評価実験結果
 20代男女8名による50サンプルの評価
 実際の聞こえ方(1: 許容できる,2: 許容できない)
2018/3/27
18
許容できる 許容できない
74.5 [%] 25.5 [%]
CTC 被験者A 被験者B 被験者C 被験者D
ピポン ピンポーン, 1 ピポン, 1 テレン, 2 ピコーン, 1
シャラララ シャラララ, 1 チリリリン, 1 チリンチリン, 2 リンリン, 2
変換結果の妥当性を確認
個人差の影響、一意に定まらない
おわりに
 まとめ
– CTCに基づく音響イベントからの擬音語表現への変換を提案
– 提案手法により許容可能な擬音語へ変換できることを確認
 今後の課題
– 幅広い音響イベントを対象とした擬音語変換や精度の向上
– 擬音語表現の曖昧性を考慮した変換処理の検討
• 代表的な擬音語への変換
• 聴取者の感性に沿った擬音語への変換
2018/3/27
19

Weitere ähnliche Inhalte

Was ist angesagt?

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

Was ist angesagt? (20)

音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 

Ähnlich wie CTCに基づく音響イベントからの擬音語表現への変換

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 

Ähnlich wie CTCに基づく音響イベントからの擬音語表現への変換 (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
 
立体音響とインタラクション
立体音響とインタラクション立体音響とインタラクション
立体音響とインタラクション
 
Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 

Mehr von NU_I_TODALAB

Mehr von NU_I_TODALAB (18)

信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

CTCに基づく音響イベントからの擬音語表現への変換