SlideShare ist ein Scribd-Unternehmen logo
1 von 17
PRML
3.5.2, 3.5.3, 3.6
    2012/8/5
    @tomity
3.5.2 エビデンス関数の最大化
• 概要
 – エビデンス関数 P(t|α, β) を最大化するαを求め
   る
 – エビデンス関数 P(t|α, β) を最大化するβを求め
   る
3.5.2 エビデンス関数の最大化
           (1/6)
• エビデンス関数 P(t|α, β) を最大化するαを求め
  る
   • α: 事前分布の精度パラメータ
   • β: ガウスノイズの精度パラメータ
   • t: 訓練データの目標値からなるベクトル              (3.86)

                      : 正則化最小二乗和誤差関数   (3.79)

               : 事後分布の平均               (3.84)

               :E(w)のヘッセ行列             (3.81)




   • Φ: 計画行列
3.5.2 エビデンス関数の最大化
           (2/6)
• エビデンス関数 P(t|α, β) を最大化するαを求
  める
                                      (3.86)

                                 下線: αに関連する項


                                      (3.79)
                                      (3.84)
                                      (3.81)



         を求めた後 P(t|α, β)を最大化する
3.5.2 エビデンス関数の最大化
             (3/6)
•        を求める
                                      (3.81)

    – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
      を持ち、(3.87)が成立する
                                      (3.87)




      • Aは固有値α + λ_i を持つ
3.5.2 エビデンス関数の最大化
           (4/6)
• Aは固有値λ_i+αを持つ



           より



       ,        より



                     (3.88)
3.5.2 エビデンス関数の最大化
              (5/6)
                                      をαで微分

                                       (3.89)

      m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの?

                                       (3.90)

                                       (3.91)

                                       (3.92)

•   γはαの関数, m_Nは陰にαに依存
•   繰り返し法で求める
    – M_N, γを求め, αを再推定。これを繰り返す
•   γの解釈は3.5.3節で
3.5.2 エビデンス関数の最大化
             (6/6)
•           を求める
                                                    (3.87)

• (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β


                                        = γ /β      (3.93)


                                                    (3.95)

• βも繰り返し法で解を求める
• βの解釈も3.5.3節で
3.5.3 有効パラメータ数
• 概要
 – γの解釈
 – βの解釈
 – 実例を用いてγ, α, w_iの関係を確認する
 – N >> M のケースについて
3.5.3 有効パラメータ数
                 (1/7)
• γの解釈について考える



• そもそもλ_iってなんぞや
  – βΦ^TΦの固有値
  – βΦ^TΦ: – ln p(t|w) のヘッセ行列
  – 尤度関数のu_iに対応する軸に対
    する曲率 <= ???


                                図3.15
                                    赤:尤度関数の等高線
                                    緑: 事前分布の等高線
                                    u_iとw_iが重なるように
                                    座標変換済み
                                    図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
                     (2/7)
• γの解釈について考える



•   wML_iが鋭く尖っている場合
    – λ_i / (α + λ_i) -> 1 (ex. i=2)
    – wMAP_iがwML_iに近い
    – 値がデータによって強く制
      約される
      = well-determinedパラメータ
• wML_iがなだらか                           図3.15
    – λ_i / (α + λ_i) -> 0 (ex. i=1)       赤:尤度関数の等高線
    – wMAP_iがwML_iから遠い                     緑: 事前分布の等高線
• γ = well-determinedパラメー                  u_iとw_iが重なるように
  タの有効数                                    座標変換済み
                                           図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
               (3/7)
• βの解釈
• 不定推定量に酷似
 – 最尤推定値:
                          (3.96)

 – 不偏推定量:
                          (3.97)

 – β
                          (3.95)

• 不偏推定量は自由度の一つを平均フィッティングと最尤推定
  用のバイアスを取り除くのに用いている。
• βを同様の考え方で解釈してみよう…
3.5.3 有効パラメータ数
             (4/7)
• 最尤推定によりβを推定(3.1.1節)
 – 事前分布を導入していない

                                   (3.21)

• γ個のパラメータが有効, 残りが無効
 • 有効パラメータ:
     データにより決定される
 • 有効パラメータでない:
     データによらず事前分布により小さい値に設定される
 • パラメータの決定のために自由度γを使用 => 自由度N-γ
 • m_N = w_MAP
                                   (3.95)
3.5.3 有効パラメータ数
               (5/7)
• 三角関数の例(1.1節)を9個の基底関数から
  なるガウス規定関すモデルによって近似
• M=10                  ln 尤度関数
• β=11.1   2αE_w(m_N)
                              テスト集合に対する誤差
           = α m_N *m_N
• αの決定
           γ




          図3.16
3.5.3 有効パラメータ数
             (6/7)
• 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
  化を見る
 – α -> ∞
   => γ -> 0
   => w_i -> 0
 – α -> 0
   => γ -> M
   => w_iは大きくなる

                  図 3.17
3.5.3 有効パラメータ数
             (7/7)
• N >> M
  => 尤度関数があらゆるパラメータで鋭く
  尖る
  => λ_i が大きい
  => 全てのパラメータがwell-determined
  => γ = M
 γ = Mを代入
                          (3.98)

                          (3.99)
3.6 固定された基底関数の限界
• 線形モデルの致命的な欠点がいくつか
 – 次元の呪い(1.4節)
   • 次元数が増える => 基底関数は指数的に増える
     – D次元のM次の多項式での係数の数は: D^M
   • 軽減するために役立つ2つの性質
     – 本質的な次元数が入力空間の次元数よりも小さい
        » 局所的な基底関数を用いる(12章)
           • RBFネットワーク, SVM, RVMでも用いられる
           • ニューラルネットワークでは基底関数をデータ多
             様体に対応するようにパラメータを調整
     – 目標変数がほんの尐数の可能な方向にしか強く依存しない
        » ニューラルネットワークでもこの性質を活用

Weitere ähnliche Inhalte

Was ist angesagt?

PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)Ryosuke Sasaki
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)Itaru Otomaru
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論Akihiro Nitta
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布Akihiro Nitta
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6Hiroyuki Kato
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似KokiTakamiya
 

Was ist angesagt? (20)

PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 

Ähnlich wie PRML 3.5.2, 3.5.3, 3.6

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)Lintaro Ina
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章Shoichi Taguchi
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
Sized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルSized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルAkinori Abe
 
Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ Yuta Koga
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回ke beck
 
Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料Yuya Takashina
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータMiki Katsuragi
 

Ähnlich wie PRML 3.5.2, 3.5.3, 3.6 (13)

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Sized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルSized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアル
 
Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ 
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
 
Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料
 
Pad入門その3
Pad入門その3Pad入門その3
Pad入門その3
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 

PRML 3.5.2, 3.5.3, 3.6

  • 1. PRML 3.5.2, 3.5.3, 3.6 2012/8/5 @tomity
  • 2. 3.5.2 エビデンス関数の最大化 • 概要 – エビデンス関数 P(t|α, β) を最大化するαを求め る – エビデンス関数 P(t|α, β) を最大化するβを求め る
  • 3. 3.5.2 エビデンス関数の最大化 (1/6) • エビデンス関数 P(t|α, β) を最大化するαを求め る • α: 事前分布の精度パラメータ • β: ガウスノイズの精度パラメータ • t: 訓練データの目標値からなるベクトル (3.86) : 正則化最小二乗和誤差関数 (3.79) : 事後分布の平均 (3.84) :E(w)のヘッセ行列 (3.81) • Φ: 計画行列
  • 4. 3.5.2 エビデンス関数の最大化 (2/6) • エビデンス関数 P(t|α, β) を最大化するαを求 める (3.86) 下線: αに関連する項 (3.79) (3.84) (3.81) を求めた後 P(t|α, β)を最大化する
  • 5. 3.5.2 エビデンス関数の最大化 (3/6) • を求める (3.81) – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i を持ち、(3.87)が成立する (3.87) • Aは固有値α + λ_i を持つ
  • 6. 3.5.2 エビデンス関数の最大化 (4/6) • Aは固有値λ_i+αを持つ より , より (3.88)
  • 7. 3.5.2 エビデンス関数の最大化 (5/6) をαで微分 (3.89) m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの? (3.90) (3.91) (3.92) • γはαの関数, m_Nは陰にαに依存 • 繰り返し法で求める – M_N, γを求め, αを再推定。これを繰り返す • γの解釈は3.5.3節で
  • 8. 3.5.2 エビデンス関数の最大化 (6/6) • を求める (3.87) • (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β = γ /β (3.93) (3.95) • βも繰り返し法で解を求める • βの解釈も3.5.3節で
  • 9. 3.5.3 有効パラメータ数 • 概要 – γの解釈 – βの解釈 – 実例を用いてγ, α, w_iの関係を確認する – N >> M のケースについて
  • 10. 3.5.3 有効パラメータ数 (1/7) • γの解釈について考える • そもそもλ_iってなんぞや – βΦ^TΦの固有値 – βΦ^TΦ: – ln p(t|w) のヘッセ行列 – 尤度関数のu_iに対応する軸に対 する曲率 <= ??? 図3.15 赤:尤度関数の等高線 緑: 事前分布の等高線 u_iとw_iが重なるように 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 11. 3.5.3 有効パラメータ数 (2/7) • γの解釈について考える • wML_iが鋭く尖っている場合 – λ_i / (α + λ_i) -> 1 (ex. i=2) – wMAP_iがwML_iに近い – 値がデータによって強く制 約される = well-determinedパラメータ • wML_iがなだらか 図3.15 – λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線 – wMAP_iがwML_iから遠い 緑: 事前分布の等高線 • γ = well-determinedパラメー u_iとw_iが重なるように タの有効数 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 12. 3.5.3 有効パラメータ数 (3/7) • βの解釈 • 不定推定量に酷似 – 最尤推定値: (3.96) – 不偏推定量: (3.97) – β (3.95) • 不偏推定量は自由度の一つを平均フィッティングと最尤推定 用のバイアスを取り除くのに用いている。 • βを同様の考え方で解釈してみよう…
  • 13. 3.5.3 有効パラメータ数 (4/7) • 最尤推定によりβを推定(3.1.1節) – 事前分布を導入していない (3.21) • γ個のパラメータが有効, 残りが無効 • 有効パラメータ: データにより決定される • 有効パラメータでない: データによらず事前分布により小さい値に設定される • パラメータの決定のために自由度γを使用 => 自由度N-γ • m_N = w_MAP (3.95)
  • 14. 3.5.3 有効パラメータ数 (5/7) • 三角関数の例(1.1節)を9個の基底関数から なるガウス規定関すモデルによって近似 • M=10 ln 尤度関数 • β=11.1 2αE_w(m_N) テスト集合に対する誤差 = α m_N *m_N • αの決定 γ 図3.16
  • 15. 3.5.3 有効パラメータ数 (6/7) • 0<= α <= ∞の範囲で変化させ γ, w_i, αの変 化を見る – α -> ∞ => γ -> 0 => w_i -> 0 – α -> 0 => γ -> M => w_iは大きくなる 図 3.17
  • 16. 3.5.3 有効パラメータ数 (7/7) • N >> M => 尤度関数があらゆるパラメータで鋭く 尖る => λ_i が大きい => 全てのパラメータがwell-determined => γ = M γ = Mを代入 (3.98) (3.99)
  • 17. 3.6 固定された基底関数の限界 • 線形モデルの致命的な欠点がいくつか – 次元の呪い(1.4節) • 次元数が増える => 基底関数は指数的に増える – D次元のM次の多項式での係数の数は: D^M • 軽減するために役立つ2つの性質 – 本質的な次元数が入力空間の次元数よりも小さい » 局所的な基底関数を用いる(12章) • RBFネットワーク, SVM, RVMでも用いられる • ニューラルネットワークでは基底関数をデータ多 様体に対応するようにパラメータを調整 – 目標変数がほんの尐数の可能な方向にしか強く依存しない » ニューラルネットワークでもこの性質を活用