Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Acoustic Modeling usingDeep Belief Networks[IEEE TRANS. ON AUDIO, SPEECH,AND LANGUAGE PROCESSING 2010]Abdel-rahman Mohamed...
テーマ音声認識+Deep Learning(音素認識) (Deep Belief Net)1/10
目次• 音素認識– 推定– 学習• 隠れマルコフモデル• Deep Belief Net– 構造– 学習– 音素認識へ適用• 実験• まとめ 2/10
音素認識 推定音声信号 𝑠1 𝑠2 𝑠3𝑠4 𝑠5 𝑠6𝑠7 𝑠8 𝑠9HMM 「あ」HMM 「い」HMM 「う」学習しておいた確率分布モデル(HMM)から最尤の音素を探索特徴量抽出(MFCC )フレーム分割※本筋でないので説明略。ここでは、F...
音素認識 学習音声信号「い」 MFCC「い」の列𝑠4 𝑠5 𝑠6HMM特徴量抽出(MFCC)フレーム分割学習(Baum-Welchアルゴリズム)MFCC「い」の列が出力されそうになるように学習・・・・・・※本筋でないので説明略。動的計画法を使う...
隠れマルコフモデル(Hidden Markov Model, HMM)• HMM【定義】(状態,状態遷移確率,出力確率分布モデル)【特徴】一定でない長さの出力系列に対応した生成モデル音声認識において一般的な出力確率分布モデル:GMM(MFCCの...
Deep Belief Net(DBN) 構造• DBN– Restricted Boltzmann Machine(RBM)を多層化したもの𝑣𝑖ℎ𝑗※通常のRBM:可視素子:2値{0,1},隠れ素子:2値{0,1}Gaussian-Berno...
DBN 学習1. Pre-training(教師なし学習)– 第n層で重み𝑤𝑖𝑗をSGD with mini-batch– 十分に学習できたら第n+1層へ2. Fine-tuning(教師あり学習)– ラベルをもとにBack Propagati...
DBN 音素認識へ適用𝑠4 𝑠5 𝑠60.81.0 0.2 0.5 0.40.60.5HMM+GMMMFCCにラベル付け0.70.3⋮0.70.1⋮0.50.3⋮,0.30.2⋮0.20.1⋮0.30.1⋮0.50.1⋮,0.30.1⋮0.70...
実験• 条件– 実験データ:TIMIT corpus• 学習用:50話者,テスト用:24話者– パラメータ• 可視素子に割り当てるフレーム数n:11フレーム(1フレームあたり12次MFCC+パワー)• 隠れ層数K:5層(1層あたり2048素子)...
まとめ• テーマ– 音素認識+Deep Belief Net(DBN)• ポイント– HMMの出力確率分布モデル:GMM→DBN• DBN– Restricted Boltzmann Machine(RBM)を多層化したもの– Contrast...
Nächste SlideShare
Wird geladen in …5
×

Acoustic Modeling using Deep Belief Networks

論文紹介です。

  • Als Erste(r) kommentieren

Acoustic Modeling using Deep Belief Networks

  1. 1. Acoustic Modeling usingDeep Belief Networks[IEEE TRANS. ON AUDIO, SPEECH,AND LANGUAGE PROCESSING 2010]Abdel-rahman Mohamed, George E. Dahl,and Geoffrey Hinton (University of Toronto)斎藤 淳哉間違い等ありましたらご連絡くださいjunya【あっと】fugaga.info論文紹介2013/06/01
  2. 2. テーマ音声認識+Deep Learning(音素認識) (Deep Belief Net)1/10
  3. 3. 目次• 音素認識– 推定– 学習• 隠れマルコフモデル• Deep Belief Net– 構造– 学習– 音素認識へ適用• 実験• まとめ 2/10
  4. 4. 音素認識 推定音声信号 𝑠1 𝑠2 𝑠3𝑠4 𝑠5 𝑠6𝑠7 𝑠8 𝑠9HMM 「あ」HMM 「い」HMM 「う」学習しておいた確率分布モデル(HMM)から最尤の音素を探索特徴量抽出(MFCC )フレーム分割※本筋でないので説明略。ここでは、FFTなどを使って計算される特徴量と理解してください。※MFCCの列0.60.1⋮,0.70.2⋮,0.30.1⋮,0.50.3⋮3/10
  5. 5. 音素認識 学習音声信号「い」 MFCC「い」の列𝑠4 𝑠5 𝑠6HMM特徴量抽出(MFCC)フレーム分割学習(Baum-Welchアルゴリズム)MFCC「い」の列が出力されそうになるように学習・・・・・・※本筋でないので説明略。動的計画法を使う。※0.70.3⋮,0.70.2⋮,0.50.3⋮,0.30.2⋮,0.20.1⋮0.50.1⋮,0.30.1⋮,0.30.1⋮,0.50.3⋮0.70.2⋮,0.70.1⋮,0.40.2⋮4/10
  6. 6. 隠れマルコフモデル(Hidden Markov Model, HMM)• HMM【定義】(状態,状態遷移確率,出力確率分布モデル)【特徴】一定でない長さの出力系列に対応した生成モデル音声認識において一般的な出力確率分布モデル:GMM(MFCCの列)𝑠4 𝑠5 𝑠60.81.0 0.2 0.5 0.40.60.5状態遷移確率出力確率分布モデル状態0.6,0.1, … ⊤0.5,0.3, … ⊤0.7,0.2, … ⊤0.3,0.1, … ⊤本論文のポイント:GMM→DBNMFCCの列5/10
  7. 7. Deep Belief Net(DBN) 構造• DBN– Restricted Boltzmann Machine(RBM)を多層化したもの𝑣𝑖ℎ𝑗※通常のRBM:可視素子:2値{0,1},隠れ素子:2値{0,1}Gaussian-Bernoulli RBM(本論文で採用):可視素子:連続値, 隠れ素子:2値{0,1}RBM𝑣ℎ(1)ℎ(2)ℎ(𝐾)DBN𝑤𝑖𝑗可視素子隠れ素子・・・重み可視層隠れ層隠れ層隠れ層
  8. 8. DBN 学習1. Pre-training(教師なし学習)– 第n層で重み𝑤𝑖𝑗をSGD with mini-batch– 十分に学習できたら第n+1層へ2. Fine-tuning(教師あり学習)– ラベルをもとにBack Propagation𝑣ℎ(1)ℎ(2)ℎ(𝐾)・・・1 2 𝑚𝑙・・・ ・・・ラベル𝑙 : 0,0, … , 1, … 0 ⊤𝑙番目∆𝑤𝑖𝑗 ∝ ℎ𝑖𝑛 𝑎ℎ𝑗𝑛+1− ℎ𝑖𝑛 𝑎ℎ𝑗𝑛+1Contrastive Divergence:データから求めた値サンプリングして求めた値
  9. 9. DBN 音素認識へ適用𝑠4 𝑠5 𝑠60.81.0 0.2 0.5 0.40.60.5HMM+GMMMFCCにラベル付け0.70.3⋮0.70.1⋮0.50.3⋮,0.30.2⋮0.20.1⋮0.30.1⋮0.50.1⋮,0.30.1⋮0.70.2⋮,0.70.1⋮0.40.2⋮0.70.2⋮MFCC「𝑠4」 MFCC「𝑠5」 MFCC「𝑠6」𝑠4 𝑠5 𝑠60.81.0 0.2 0.5 0.40.60.5HMM+DBN𝑣ℎ(1)ℎ(𝐾)・・・1 2 𝑚𝑙・・・ ・・・nフレームまとめて可視素子とする(ラベルは中央のフレームのもの)0.70.3⋮0.70.2⋮0.70.1⋮0.50.3⋮,0.30.2⋮MFCCの列各状態の尤度をソフトマックス関数で定義DBN学習・Pre-traning・Fine-tuning引き継ぐ
  10. 10. 実験• 条件– 実験データ:TIMIT corpus• 学習用:50話者,テスト用:24話者– パラメータ• 可視素子に割り当てるフレーム数n:11フレーム(1フレームあたり12次MFCC+パワー)• 隠れ層数K:5層(1層あたり2048素子)• ラベル数(HMM状態数)m:183(61音素×3状態)• 結果 音素認識誤り率9/10
  11. 11. まとめ• テーマ– 音素認識+Deep Belief Net(DBN)• ポイント– HMMの出力確率分布モデル:GMM→DBN• DBN– Restricted Boltzmann Machine(RBM)を多層化したもの– Contrastive Divergenceを使って学習• 実験結果– 音素認識誤り率20%で既存手法より高精度10/10

×