SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Cambridge, Massachusetts
◎Tomoki Hayashi (Nagoya Univ.)
Shinji Watanabe (MERL), Takaaki Hori (MERL)
Suyoun Kim (CMU)
形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
⾳声認識システム
• 系列から系列への変換問題
物理的な信号系列を⾔語的なシンボル系列へとマッピング
2016 2
“出資者は無理難題を”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 3
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システムの問題点
• ⾔語的資源が必要
– 形態素解析 / 発⾳辞書
– 未知語を追加するなどのメンテナンスが必要
• ⼤量のモジュールで構成
– ⾮常に複雑
– 局所的に最適化
– それぞれのモジュール間の依存関係を考慮して調整するのが困難
2016 4
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 5
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 6
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
Neural Network
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/attention network
2016 7
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Connectionist temporal classification (CTC)
[Graves+(2006), Graves+(2014), Miao+(2015)]
2016 8
• ⽂字系列:
• 冗⻑表現⽂字系列:
• : HMMと同様の形式, forward-backward algorithm
• 発⾳辞書は不要
• 条件付き独⽴の仮定を利⽤
– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず
and
aab, abb, a_b,
ab_, _ab
条件付き独⽴の仮定 2
条件付き独⽴の仮定 3
条件付き独⽴の仮定 1
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attention ASR [Chorowski+(2014), Chan+(2015)]
2016 9
連鎖律
• 条件付き独⽴性の仮定が不要
• 発⾳辞書が不要
• Attention & Encoder: ⾳響モデル
• Decoder: ⾔語モデル
⾳響モデルと⾔語モデルを単⼀の
ネットワークで表現!しかし…
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attentionによるアライメントの問題
• Attentionモデルはアライメントに
対して⾮常に柔軟
– Attentionは⼊⼒と出⼒の順番
(因果関係)を保証しない
– Attention Encoderの役割が
⾳響モデルの役割を超えている
(機械翻訳の場合はこれは有効)
⇒ Encoderの正則化の導⼊
2016 10
HMM or CTC case
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 11
Multitask learning:
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 12
Multitask learning:
ブラックボックスな
ネットワークに
⾳声認識の知識を組み込み
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
実験条件 ⽇本語話し⾔葉コーパス (CSJ)
• ベースラインハイブリッドシステム
– Kaldiレシピバージョン
• fMLLR features, DNN-sMBR, 3-gram LM
• ⾳響モデル:academic lectures (236 hours) で学習
• ⾔語モデル:all transcriptions (581 hours) で学習
– Syllable-based CTC
• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM
• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤
• End-to-endシステム
– Joint CTC-Attention
• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),
1 layer LSTM decoder (#cell = 320)
• 漢字/ひらがな/カタカナを含む3315⽂字
• 発⾳辞書なし / ⾔語モデルなし
• Chainerにより実装
2016 13
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
学習データ量の影響の調査
2016 14
• MTL (CTC-attention) はどの設定でも性能の向上に貢献
• データが増えれば増えるほど性能が向上
Model(train) CER (task1) CER (task2) CER (task3)
Attention
100k-train (147h) 20.1 14.0 32.7
MTL
100k-train (147h) 16.9 12.7 28.9
Attention
academic-train (236h) 17.2 12.4 25.4
MTL,
academic-train (236h) 13.9 10.2 22.2
Attention
full-train (581h) 11.5 7.9 9.0
MTL
full-train (581h) 10.9 7.8 8.3
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来⼿法との⽐較
2016 15
• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の
認識結果からCERを計算
• MTL large model:
5-layer BLSTM encoder + 2-layer LSTM decoder
• ハイブリッドモデルに匹敵する性能を達成!
Model(train) CER (task1) CER (task2) CER (task3)
GMM-discr. (236h
for AM, 581h for LM) 11.2 9.2 12.1
DNN-hybrid (236h
for AM, 581h for LM) 9.0 7.2 9.6
CTC-syllable (581h)
9.4 7.3 7.5
MTL, large model
(581h) 9.5 7.0 7.8
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
End-to-end ⾳声認識の利点
• ⾔語的知識がほとんど不要
– 簡単に多⾔語ASRシステムを構築可能
• ⽂字レベルベースなら未知語の問題を回避
• ソースコードの総量を⼤幅に削減
16455 lines (Kaldiのメインソース抜き)
→ 2522 lines (Chianerのメインソース抜き)
• 学習時間
GMMの学習:多数のCPUを利⽤して2~3⽇
DNNの学習:多数のCPU+シングルGPUで3~4⽇
→ シングルGPU (Titan X) で7⽇
2016 16
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
まとめと今後の課題
2016 17
• Attentionを利⽤することで単⼀のネットワークで⾳響モデルと
⾔語モデルを表現
• マルチタスク学習によりAttention Encoderの役割を⾳響モデル
のみに絞る正則化
• ⾔語的資源なしに⽇本語⾳声認識を実現
現在の問題点
• 未だ⽂字レベルベースの⾳声認識システムであること
(⽇本語や中国語では問題ないが,アルファベットには不適当)
• ⼤量のテキストデータの活⽤⽅法

Weitere ähnliche Inhalte

Was ist angesagt?

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」西岡 賢一郎
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech SynthesisDeep Learning JP
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎Preferred Networks
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 

Was ist angesagt? (20)

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 

Andere mochten auch

ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03Daiki Maekawa
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstationYusuke HIDESHIMA
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 

Andere mochten auch (8)

ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Ähnlich wie 形態素解析も辞書も言語モデルもいらないend-to-end音声認識

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)広樹 本間
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 

Ähnlich wie 形態素解析も辞書も言語モデルもいらないend-to-end音声認識 (10)

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
 
Ibisml vhmm
Ibisml vhmmIbisml vhmm
Ibisml vhmm
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

  • 1. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Cambridge, Massachusetts ◎Tomoki Hayashi (Nagoya Univ.) Shinji Watanabe (MERL), Takaaki Hori (MERL) Suyoun Kim (CMU) 形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
  • 2. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES ⾳声認識システム • 系列から系列への変換問題 物理的な信号系列を⾔語的なシンボル系列へとマッピング 2016 2 “出資者は無理難題を”
  • 3. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 3 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 4. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システムの問題点 • ⾔語的資源が必要 – 形態素解析 / 発⾳辞書 – 未知語を追加するなどのメンテナンスが必要 • ⼤量のモジュールで構成 – ⾮常に複雑 – 局所的に最適化 – それぞれのモジュール間の依存関係を考慮して調整するのが困難 2016 4
  • 5. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 5 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 6. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 6 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” Neural Network
  • 7. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/attention network 2016 7
  • 8. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Connectionist temporal classification (CTC) [Graves+(2006), Graves+(2014), Miao+(2015)] 2016 8 • ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm • 発⾳辞書は不要 • 条件付き独⽴の仮定を利⽤ – 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず and aab, abb, a_b, ab_, _ab 条件付き独⽴の仮定 2 条件付き独⽴の仮定 3 条件付き独⽴の仮定 1
  • 9. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attention ASR [Chorowski+(2014), Chan+(2015)] 2016 9 連鎖律 • 条件付き独⽴性の仮定が不要 • 発⾳辞書が不要 • Attention & Encoder: ⾳響モデル • Decoder: ⾔語モデル ⾳響モデルと⾔語モデルを単⼀の ネットワークで表現!しかし…
  • 10. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attentionによるアライメントの問題 • Attentionモデルはアライメントに 対して⾮常に柔軟 – Attentionは⼊⼒と出⼒の順番 (因果関係)を保証しない – Attention Encoderの役割が ⾳響モデルの役割を超えている (機械翻訳の場合はこれは有効) ⇒ Encoderの正則化の導⼊ 2016 10 HMM or CTC case
  • 11. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 11 Multitask learning:
  • 12. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 12 Multitask learning: ブラックボックスな ネットワークに ⾳声認識の知識を組み込み
  • 13. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 実験条件 ⽇本語話し⾔葉コーパス (CSJ) • ベースラインハイブリッドシステム – Kaldiレシピバージョン • fMLLR features, DNN-sMBR, 3-gram LM • ⾳響モデル:academic lectures (236 hours) で学習 • ⾔語モデル:all transcriptions (581 hours) で学習 – Syllable-based CTC • fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM • 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤ • End-to-endシステム – Joint CTC-Attention • fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320), 1 layer LSTM decoder (#cell = 320) • 漢字/ひらがな/カタカナを含む3315⽂字 • 発⾳辞書なし / ⾔語モデルなし • Chainerにより実装 2016 13
  • 14. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 学習データ量の影響の調査 2016 14 • MTL (CTC-attention) はどの設定でも性能の向上に貢献 • データが増えれば増えるほど性能が向上 Model(train) CER (task1) CER (task2) CER (task3) Attention 100k-train (147h) 20.1 14.0 32.7 MTL 100k-train (147h) 16.9 12.7 28.9 Attention academic-train (236h) 17.2 12.4 25.4 MTL, academic-train (236h) 13.9 10.2 22.2 Attention full-train (581h) 11.5 7.9 9.0 MTL full-train (581h) 10.9 7.8 8.3
  • 15. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来⼿法との⽐較 2016 15 • GMM-HMM, DNN-HMM, CTC-syllableは単語単位の 認識結果からCERを計算 • MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder • ハイブリッドモデルに匹敵する性能を達成! Model(train) CER (task1) CER (task2) CER (task3) GMM-discr. (236h for AM, 581h for LM) 11.2 9.2 12.1 DNN-hybrid (236h for AM, 581h for LM) 9.0 7.2 9.6 CTC-syllable (581h) 9.4 7.3 7.5 MTL, large model (581h) 9.5 7.0 7.8
  • 16. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES End-to-end ⾳声認識の利点 • ⾔語的知識がほとんど不要 – 簡単に多⾔語ASRシステムを構築可能 • ⽂字レベルベースなら未知語の問題を回避 • ソースコードの総量を⼤幅に削減 16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き) • 学習時間 GMMの学習:多数のCPUを利⽤して2~3⽇ DNNの学習:多数のCPU+シングルGPUで3~4⽇ → シングルGPU (Titan X) で7⽇ 2016 16
  • 17. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES まとめと今後の課題 2016 17 • Attentionを利⽤することで単⼀のネットワークで⾳響モデルと ⾔語モデルを表現 • マルチタスク学習によりAttention Encoderの役割を⾳響モデル のみに絞る正則化 • ⾔語的資源なしに⽇本語⾳声認識を実現 現在の問題点 • 未だ⽂字レベルベースの⾳声認識システムであること (⽇本語や中国語では問題ないが,アルファベットには不適当) • ⼤量のテキストデータの活⽤⽅法