SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
PRML復々習レーン#9
 前回までのあらすじ
    2013-03-10
  Yoshihiko Suhara
   @sleepy_yoshi

                     v.1.0
前回のおさらい
• 復々習レーンの復習を15分程度でやります
 – 得られた結論にポイントを絞る
 – 「よーするに」な内容
                             ポイントだよ



   • 好きなところをたくさん喋る
   • よくわからないところは誤魔化す
   • まちがってたら指摘してください         ポイントだよ




• 目的                   今回からポイント小僧の向きが変わります

 – 前回の復習
 – 不参加の方に流れを伝えるため
 – 自分自身の勉強のため

                                         2
前回の範囲
5章
• 5.1 フィードフォワードネットワーク関数
• 5.2 ネットワーク訓練
• 5.3 誤差逆伝播
• 5.4 ヘッセ行列                             量が多いのでいつもより適当に
    –   5.4.1 対角近似
    –   5.4.2外積による近似
    –   5.4.3 ヘッセ行列の逆行列
    –   5.4.4 有限幅の差分による近似
    –   5.4.5 ヘッセ行列の厳密な評価
    –   5.4.6 ヘッセ行列の積の高速な計算
•   5.5 ニューラルネットワークの正則化
    –   5.5.1 無矛盾なガウス事前分布
    –   5.5.2 早期終了
    –   5.5.3 不変性
    –   5.5.4 接線伝播法
    –   5.5.5 変換されたデータを用いた訓練
    –   5.5.6 たたみ込みニューラルネットワーク
    –   5.5.7 ソフト重み共有
•   5.6 混合密度ネットワーク
•   5.7 ベイズニューラルネットワーク
    –   5.7.1 パラメータの事後分布
    –   5.7.2 超パラメータの最適化
    –   5.7.3 クラス分類のためのベイズニューラルネットワーク
                                                         3
5.4 ヘッセ行列



            4
5.4 ヘッセ行列
ポイントだよ




         誤差関数のパラメータによる2階微分を
          要素とする行列をヘッセ行列と呼ぶ

• 誤差逆伝播では1階微分に基づく勾配法を用
  いてパラメータの最適化を行ってきた
• ヘッセ行列を用いることにより,より効率的に
  最適化を行うことができる

   でもどうやって? ということに答えるのが本節
                              5
5.4.1 対角近似
 ポイントだよ




          対角行列でヘッセ行列を近似する


• 欲しいのはヘッセ行列の逆行列
   – じゃあヘッセ行列が対角行列だったら逆行列求めるの楽

• 誤差逆伝播法を用いて求めることができる (5.81)

• ただし,ヘッセ行列は通常非対角であるため,この近
  似は注意が必要
                                 6
5.4.2 外積による近似
 ポイントだよ




          二乗誤差最小化の場合,外積によって
           (=ヤコビ行列の積で)近似できる

• Levenberg-Marquardt近似
   – ガウス・ニュートン近似とも呼ばれる
   – 二乗誤差の場合,解の近くでは誤差が1階微分
     の積に近似できる (後述)

• これを利用してヘッセ行列を求める
                              7
補足: ガウス・ニュートン近似の導出
                 1
• 誤差関数𝐸(𝒙) =         𝑘   𝒆2 を𝑥 𝑖 で微分
                           𝑘
                 2
                         𝜕𝐸              𝜕𝒆 𝑘
                              =       𝒆𝑘
                         𝜕𝑥 𝑖            𝜕𝑥 𝑖
                                  𝑘
• さらに𝑥 𝑗 で微分
            𝜕𝐸                𝜕𝒆 𝑘 𝜕𝒆 𝑘       𝜕2 𝒆 𝑘
                    =                   +𝒆 𝑘
          𝜕𝑥 𝑖 𝜕𝑥 𝑗           𝜕𝑥 𝑖 𝜕𝑥 𝑗      𝜕𝑥 𝑖 𝜕𝑥 𝑗
                          𝑘


•   𝒙が解に近いと 𝒆 𝑘 ≈ 0 ∀𝑘 より
                𝜕𝐸        𝜕𝒆 𝑘 𝜕𝒆 𝑘
                       ≈
             𝜕𝑥 𝑖 𝜕𝑥 𝑗    𝜕𝑥 𝑖 𝜕𝑥 𝑗
                                  𝑘

                                                         8
5.4.3 ヘッセ行列の逆行列
ポイントだよ




         外積による近似を用いると,
     ヘッセ行列の逆行列を効率的に求められる

• 最初の𝐿個のデータを用いてヘッセ行列の逆行
  列を求める
  – 𝐿 + 1からの寄与分に対して,それまでの値を利用し
    て逆行列を更新する (5.89式)

• 準ニュートン法のアルゴリズムも同じようにヘッ
  セ行列の逆行列の近似を徐々に構築する

                                 9
5.4.4 有限幅の差分による近似
ポイントだよ




         有限幅の差分による近似を用いて
             2階微分を求める

• パラメータに摂動を与えて,差分に基づいてヘッセ行
  列を求める (5.91式)




                             10
5.4.5 ヘッセ行列の厳密な評価
ポイントだよ




         ヘッセ行列を近似ではなく,厳密に求める


• 多層ニューラルネットの場合,重みパラメータが層ごと
  に用意されているため,層をまたいだ2階微分が必要
  – 三層ニューラルネットの場合は5.93式,5.94式,5.95式

• 層を飛び越えた結合を含める場合も容易に計算でき
  る (演習5.23)


                                      11
5.4.6 ヘッセ行列の高速な計算
 ポイントだよ




          𝒗 𝑇 𝑯を効率的に計算する方法


• 必要なのは𝑯そのものではなく𝑯と何かの積

• 𝒗 𝑇 𝑯を効率的に計算する方法 (5.110式,5.111式)
   – 順向き伝播+逆向き伝播の計算をそのまま利用可能




                                     12
5.5 ニューラルネットワークの正則化




                      13
5.5 ニューラルネットワークの正則化
 ポイントだよ




          過学習を避けて汎化性能を向上する


• 1. 隠れユニットの数を調整する



• 2. 重みパラメータに対して正則化項を導入する.たとえば
             𝐸 𝒘 = 𝐸 𝒘 + 𝜆𝒘 𝑇 𝒘

• 3. 訓練の早期終了
                                  14
5.5.1 無矛盾なガウス事前分布
 ポイントだよ




 スケーリング不変に無矛盾な正則化項を導出する


• 多層ニューラルネットワークでは,線形変換されたデータ
  に対して,パラメータを線形変換することで同じ出力を得る
   – 無矛盾なネットワーク

• (5.112)式の正則化項は無矛盾でないため,無矛盾な正則
  化項を導出する
   – (5.121式)



                              15
5.5.2 早期終了
ポイントだよ




         ネットワーク訓練を早期終了することで
           ネットワークの複雑さを制御する

• 学習を早期終了することで正則化と同様の効果を得る




           訓練誤差      検証用誤差
                              16
5.5.3 不変性
 ポイントだよ




             入力変数がある変換を受けても
            予測が変化しない不変性を持たせる

• 不変性
   – 入力変数がある変換を受けても予測が変化しないこと

• モデルに不変性を持たせる4つのアプローチ
   – 1. 求められる不変性に応じて訓練パターンを変換して複製を作成する
          • 5.5.5 変換されたデータを用いた訓練
   – 2. 正則化項を誤差関数に加える
          • 5.5.4 接線伝播法
   – 3. ある変換の下で不変であるような特徴抽出を行う
   – 4. モデルに不変性を構築する性質を持たせる
          • 5.5.6 たたみ込みニューラルネットワーク
                                     17
5.5.4 接線伝播法
ポイントだよ




     変換に基づく誤差を許容する正則化関数を
      導入することにより,不変性を持たせる

• 変換に基づく誤差を許容する正則化関数を導入すること
  により,不変性を持たせる (5.128式)
  – 正則化関数は,各パターンベクトルの近傍において,変換の下
    で不変であればゼロとなる




• 回転や平行移動など,変換が複数のパラメータに支配さ
  れるなら,それぞれに対応する正則化関数の和で表現     18
5.5.5 変換されたデータを用いた訓練
ポイントだよ




もとの入力パターンを変換して訓練集合を拡大する


• 訓練データに対する変換に基づく学習が,接線
  伝播法と関係があることを解説

• 特に,入力データに対して乱数ノイズ付加という
  場合の正則化項はティホノフ正則化と呼ばれる
  – 汎化性能を向上させる効果があるらしい


                          19
5.5.6 たたみ込みニューラルネットワーク
 ポイントだよ




          入力の変換に対して不変性を持つ
            ニューラルネットワーク

• 入力の変換に対して不変性を持つモデル
   – (i) 局所的受容野
   – (ii) 重み共有
   – (iii) 部分サンプリング

                                           出力層は
                                           完全結合




                                    ...



                                                  20
             入力画像     たたみ込み層   部分サンプリング層
5.5.7 ソフト重み共有
ポイントだよ




     一定のグループに属する重みを等しくする
     ことにより,ネットワークの複雑さを制限する

• 重みが等しいという制限を,ソフト重み共有という正則化
  項の導入に置き換える
• 混合ガウス分布による正則化項により導出
                            𝑀

         Ω 𝑤 =−       ln         𝜋 𝑗 𝒩 𝑤 𝑖 𝜇 𝑗 , 𝜎𝑗2
                  𝑖        𝑗=1




                                                       21
5.6 混合密度ネットワーク




                 22
5.6 混合密度ネットワーク
 ポイントだよ




      出力分布が多峰性を持ちうる問題における
         ニューラルネットワークの利用

• 順問題 vs. 逆問題


                                       角度→位置 (順問題)        位置→角度 (逆問題)
• 混合密度ネットワーク
                           𝐾

                𝑝 𝑡 𝒙 =         𝜋 𝑘 𝒩(𝑡|𝜇 𝑘 𝒙 , 𝜎 2 𝒙 )
                                                  𝑘
                          𝑘=1




                                                                        23
           通常のネットワーク                   混合密度ネットワーク
5.7 ベイズニューラルネットワーク




                     24
5.7 ベイズニューラルネットワーク
ポイントだよ




         最尤推定→MAP推定と来たら,
             ベイズ推定

• PRMLにおける様式美.導出が複雑になるため,
  幾人も挫折する
  – 別に知らなくてもいいし


• そして実用面でもそこまで使えるわけではない
  のでなおさらモチベーションが上がら(ry

                           25
5.7.1 パラメータの事後分布
 ポイントだよ




            パラメータの事後分布に対して
          ラプラス近似を用いて予測分布を得る

• 尤度関数 𝒩 𝑡 𝑛 𝑦 𝒙 𝑛 , 𝒘 , 𝛽−1 が𝒘に非線形に依存
  するため,パラメータの事後分布がガウス分布になら
  ない

• ラプラス近似を用いて予測分布𝑝(𝑡|𝒙, 𝑫)を得る




                                     26
5.7.1 超パラメータ最適化
ポイントだよ




               事前分布の超パラメータ𝛼,
              事後分布の超パラメータ𝛽を選ぶ

• 以下の式で推定できる
          𝛾                 1    𝑁                             2
𝛼=                  ,𝛽 =         𝑛=1   𝑦 𝒙 𝑛, 𝒘   𝑀𝐴𝑃   − 𝑡𝑛
     𝒘 𝑇𝑀𝐴𝑃 𝒘 𝑀𝐴𝑃          𝑁−𝛾


• ただし,事後分布に依存しているため,超パラメータ
  の推定と事後分布の推定を交互に行う必要がある


                                                                   27
5.7.3 クラス分類のための
ポイントだよ   ベイズニューラルネットワーク

     クラス分類についてもベイズの枠組みで扱う


• ベイズロジスティック回帰と同じ方法で導出
  – ガウス分布のたたみ込み近似など
                              あんまりいけていない




          MAP推定       ベイズ推定         28
さぁ今日も一日
つづく    がんばるぞ




            29

Weitere ähnliche Inhalte

Was ist angesagt?

PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...Akihiro Nitta
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247Tomoki Hayashi
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13matsuolab
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Taikai Takeda
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14matsuolab
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1Len Matsuyama
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 

Was ist angesagt? (20)

PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 

Ähnlich wie PRML復々習レーン#9 前回までのあらすじ

PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじsleepy_yoshi
 
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料Taro Masuda
 
DeepLearningBook勉強会 6.2章
DeepLearningBook勉強会 6.2章DeepLearningBook勉強会 6.2章
DeepLearningBook勉強会 6.2章Masafumi Tsuyuki
 
PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)Shogo Nakamura
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter halfNarihira Takuya
 
Prml5 6
Prml5 6Prml5 6
Prml5 6K5_sem
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
2007 IEEE ICDM DMC task1 result
2007 IEEE ICDM DMC task1 result2007 IEEE ICDM DMC task1 result
2007 IEEE ICDM DMC task1 resultTaiga Nomi
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Wataru Kishimoto
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデルlogics-of-blue
 

Ähnlich wie PRML復々習レーン#9 前回までのあらすじ (20)

PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
 
DeepLearningBook勉強会 6.2章
DeepLearningBook勉強会 6.2章DeepLearningBook勉強会 6.2章
DeepLearningBook勉強会 6.2章
 
PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
画像認識4
画像認識4画像認識4
画像認識4
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
1章前半
1章前半1章前半
1章前半
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
2007 IEEE ICDM DMC task1 result
2007 IEEE ICDM DMC task1 result2007 IEEE ICDM DMC task1 result
2007 IEEE ICDM DMC task1 result
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
 

Mehr von sleepy_yoshi

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelssleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Searchsleepy_yoshi
 

Mehr von sleepy_yoshi (20)

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
 

Kürzlich hochgeladen

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Kürzlich hochgeladen (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

PRML復々習レーン#9 前回までのあらすじ

  • 1. PRML復々習レーン#9 前回までのあらすじ 2013-03-10 Yoshihiko Suhara @sleepy_yoshi v.1.0
  • 2. 前回のおさらい • 復々習レーンの復習を15分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容 ポイントだよ • 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください ポイントだよ • 目的 今回からポイント小僧の向きが変わります – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため 2
  • 3. 前回の範囲 5章 • 5.1 フィードフォワードネットワーク関数 • 5.2 ネットワーク訓練 • 5.3 誤差逆伝播 • 5.4 ヘッセ行列 量が多いのでいつもより適当に – 5.4.1 対角近似 – 5.4.2外積による近似 – 5.4.3 ヘッセ行列の逆行列 – 5.4.4 有限幅の差分による近似 – 5.4.5 ヘッセ行列の厳密な評価 – 5.4.6 ヘッセ行列の積の高速な計算 • 5.5 ニューラルネットワークの正則化 – 5.5.1 無矛盾なガウス事前分布 – 5.5.2 早期終了 – 5.5.3 不変性 – 5.5.4 接線伝播法 – 5.5.5 変換されたデータを用いた訓練 – 5.5.6 たたみ込みニューラルネットワーク – 5.5.7 ソフト重み共有 • 5.6 混合密度ネットワーク • 5.7 ベイズニューラルネットワーク – 5.7.1 パラメータの事後分布 – 5.7.2 超パラメータの最適化 – 5.7.3 クラス分類のためのベイズニューラルネットワーク 3
  • 5. 5.4 ヘッセ行列 ポイントだよ 誤差関数のパラメータによる2階微分を 要素とする行列をヘッセ行列と呼ぶ • 誤差逆伝播では1階微分に基づく勾配法を用 いてパラメータの最適化を行ってきた • ヘッセ行列を用いることにより,より効率的に 最適化を行うことができる でもどうやって? ということに答えるのが本節 5
  • 6. 5.4.1 対角近似 ポイントだよ 対角行列でヘッセ行列を近似する • 欲しいのはヘッセ行列の逆行列 – じゃあヘッセ行列が対角行列だったら逆行列求めるの楽 • 誤差逆伝播法を用いて求めることができる (5.81) • ただし,ヘッセ行列は通常非対角であるため,この近 似は注意が必要 6
  • 7. 5.4.2 外積による近似 ポイントだよ 二乗誤差最小化の場合,外積によって (=ヤコビ行列の積で)近似できる • Levenberg-Marquardt近似 – ガウス・ニュートン近似とも呼ばれる – 二乗誤差の場合,解の近くでは誤差が1階微分 の積に近似できる (後述) • これを利用してヘッセ行列を求める 7
  • 8. 補足: ガウス・ニュートン近似の導出 1 • 誤差関数𝐸(𝒙) = 𝑘 𝒆2 を𝑥 𝑖 で微分 𝑘 2 𝜕𝐸 𝜕𝒆 𝑘 = 𝒆𝑘 𝜕𝑥 𝑖 𝜕𝑥 𝑖 𝑘 • さらに𝑥 𝑗 で微分 𝜕𝐸 𝜕𝒆 𝑘 𝜕𝒆 𝑘 𝜕2 𝒆 𝑘 = +𝒆 𝑘 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝑘 • 𝒙が解に近いと 𝒆 𝑘 ≈ 0 ∀𝑘 より 𝜕𝐸 𝜕𝒆 𝑘 𝜕𝒆 𝑘 ≈ 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝑘 8
  • 9. 5.4.3 ヘッセ行列の逆行列 ポイントだよ 外積による近似を用いると, ヘッセ行列の逆行列を効率的に求められる • 最初の𝐿個のデータを用いてヘッセ行列の逆行 列を求める – 𝐿 + 1からの寄与分に対して,それまでの値を利用し て逆行列を更新する (5.89式) • 準ニュートン法のアルゴリズムも同じようにヘッ セ行列の逆行列の近似を徐々に構築する 9
  • 10. 5.4.4 有限幅の差分による近似 ポイントだよ 有限幅の差分による近似を用いて 2階微分を求める • パラメータに摂動を与えて,差分に基づいてヘッセ行 列を求める (5.91式) 10
  • 11. 5.4.5 ヘッセ行列の厳密な評価 ポイントだよ ヘッセ行列を近似ではなく,厳密に求める • 多層ニューラルネットの場合,重みパラメータが層ごと に用意されているため,層をまたいだ2階微分が必要 – 三層ニューラルネットの場合は5.93式,5.94式,5.95式 • 層を飛び越えた結合を含める場合も容易に計算でき る (演習5.23) 11
  • 12. 5.4.6 ヘッセ行列の高速な計算 ポイントだよ 𝒗 𝑇 𝑯を効率的に計算する方法 • 必要なのは𝑯そのものではなく𝑯と何かの積 • 𝒗 𝑇 𝑯を効率的に計算する方法 (5.110式,5.111式) – 順向き伝播+逆向き伝播の計算をそのまま利用可能 12
  • 14. 5.5 ニューラルネットワークの正則化 ポイントだよ 過学習を避けて汎化性能を向上する • 1. 隠れユニットの数を調整する • 2. 重みパラメータに対して正則化項を導入する.たとえば 𝐸 𝒘 = 𝐸 𝒘 + 𝜆𝒘 𝑇 𝒘 • 3. 訓練の早期終了 14
  • 15. 5.5.1 無矛盾なガウス事前分布 ポイントだよ スケーリング不変に無矛盾な正則化項を導出する • 多層ニューラルネットワークでは,線形変換されたデータ に対して,パラメータを線形変換することで同じ出力を得る – 無矛盾なネットワーク • (5.112)式の正則化項は無矛盾でないため,無矛盾な正則 化項を導出する – (5.121式) 15
  • 16. 5.5.2 早期終了 ポイントだよ ネットワーク訓練を早期終了することで ネットワークの複雑さを制御する • 学習を早期終了することで正則化と同様の効果を得る 訓練誤差 検証用誤差 16
  • 17. 5.5.3 不変性 ポイントだよ 入力変数がある変換を受けても 予測が変化しない不変性を持たせる • 不変性 – 入力変数がある変換を受けても予測が変化しないこと • モデルに不変性を持たせる4つのアプローチ – 1. 求められる不変性に応じて訓練パターンを変換して複製を作成する • 5.5.5 変換されたデータを用いた訓練 – 2. 正則化項を誤差関数に加える • 5.5.4 接線伝播法 – 3. ある変換の下で不変であるような特徴抽出を行う – 4. モデルに不変性を構築する性質を持たせる • 5.5.6 たたみ込みニューラルネットワーク 17
  • 18. 5.5.4 接線伝播法 ポイントだよ 変換に基づく誤差を許容する正則化関数を 導入することにより,不変性を持たせる • 変換に基づく誤差を許容する正則化関数を導入すること により,不変性を持たせる (5.128式) – 正則化関数は,各パターンベクトルの近傍において,変換の下 で不変であればゼロとなる • 回転や平行移動など,変換が複数のパラメータに支配さ れるなら,それぞれに対応する正則化関数の和で表現 18
  • 19. 5.5.5 変換されたデータを用いた訓練 ポイントだよ もとの入力パターンを変換して訓練集合を拡大する • 訓練データに対する変換に基づく学習が,接線 伝播法と関係があることを解説 • 特に,入力データに対して乱数ノイズ付加という 場合の正則化項はティホノフ正則化と呼ばれる – 汎化性能を向上させる効果があるらしい 19
  • 20. 5.5.6 たたみ込みニューラルネットワーク ポイントだよ 入力の変換に対して不変性を持つ ニューラルネットワーク • 入力の変換に対して不変性を持つモデル – (i) 局所的受容野 – (ii) 重み共有 – (iii) 部分サンプリング 出力層は 完全結合 ... 20 入力画像 たたみ込み層 部分サンプリング層
  • 21. 5.5.7 ソフト重み共有 ポイントだよ 一定のグループに属する重みを等しくする ことにより,ネットワークの複雑さを制限する • 重みが等しいという制限を,ソフト重み共有という正則化 項の導入に置き換える • 混合ガウス分布による正則化項により導出 𝑀 Ω 𝑤 =− ln 𝜋 𝑗 𝒩 𝑤 𝑖 𝜇 𝑗 , 𝜎𝑗2 𝑖 𝑗=1 21
  • 23. 5.6 混合密度ネットワーク ポイントだよ 出力分布が多峰性を持ちうる問題における ニューラルネットワークの利用 • 順問題 vs. 逆問題 角度→位置 (順問題) 位置→角度 (逆問題) • 混合密度ネットワーク 𝐾 𝑝 𝑡 𝒙 = 𝜋 𝑘 𝒩(𝑡|𝜇 𝑘 𝒙 , 𝜎 2 𝒙 ) 𝑘 𝑘=1 23 通常のネットワーク 混合密度ネットワーク
  • 25. 5.7 ベイズニューラルネットワーク ポイントだよ 最尤推定→MAP推定と来たら, ベイズ推定 • PRMLにおける様式美.導出が複雑になるため, 幾人も挫折する – 別に知らなくてもいいし • そして実用面でもそこまで使えるわけではない のでなおさらモチベーションが上がら(ry 25
  • 26. 5.7.1 パラメータの事後分布 ポイントだよ パラメータの事後分布に対して ラプラス近似を用いて予測分布を得る • 尤度関数 𝒩 𝑡 𝑛 𝑦 𝒙 𝑛 , 𝒘 , 𝛽−1 が𝒘に非線形に依存 するため,パラメータの事後分布がガウス分布になら ない • ラプラス近似を用いて予測分布𝑝(𝑡|𝒙, 𝑫)を得る 26
  • 27. 5.7.1 超パラメータ最適化 ポイントだよ 事前分布の超パラメータ𝛼, 事後分布の超パラメータ𝛽を選ぶ • 以下の式で推定できる 𝛾 1 𝑁 2 𝛼= ,𝛽 = 𝑛=1 𝑦 𝒙 𝑛, 𝒘 𝑀𝐴𝑃 − 𝑡𝑛 𝒘 𝑇𝑀𝐴𝑃 𝒘 𝑀𝐴𝑃 𝑁−𝛾 • ただし,事後分布に依存しているため,超パラメータ の推定と事後分布の推定を交互に行う必要がある 27
  • 28. 5.7.3 クラス分類のための ポイントだよ ベイズニューラルネットワーク クラス分類についてもベイズの枠組みで扱う • ベイズロジスティック回帰と同じ方法で導出 – ガウス分布のたたみ込み近似など あんまりいけていない MAP推定 ベイズ推定 28
  • 29. さぁ今日も一日 つづく がんばるぞ 29