学習係数

7.1 学習係数
2017/06/18
@hoxo_m
1

Watanabe理論勉強会 #14
•  本資料は
•  Sumio Watanabe, Algebraic Geometry
and Statistical Learning Theory,
Cambridge University Press, 2009.
•  第14回読書会資料です。
2

これまでの流れ
•  1章：イントロダクション (全体像)
•  2章：特異点理論 (特異点解消定理)
•  3章：代数幾何 (ブローアップ)
•  4章：ゼータ関数と特異点積分
•  5章：経験過程 (確率分布の収束)
•  6章：特異学習理論 (メイン定理の証明)
•  7章：特異モデル (具体例)
3

7章序⽂
•  特異モデルは⼈⼯知能、パターン認識、
ロボット制御などで使われている
•  特異モデルの学習プロセスを理解するに
は、特異点の影響を明らかにする必要が
ある
•  本章では、いくつかの具体的な学習モデ
ルにおいて、特異点が引き起こす現象に
ついて学ぶ
4

7章 Singular Learning Machines
•  7.1 Learning Coefficient
(学習係数)
•  7.2 Three-Layered Neural Networks
(3層ニューラルネットワーク)
•  7.3 Mixture Models
(混合モデル)
•  7.4 Bayesian Network
•  7.5 Hidden Markov Model, …
5

7.1 学習係数
•  6章において、確率的複雑さと汎化誤差の
漸近挙動について調べた
•  これらの漸近挙動においてゼータ関数の
最⼤の極 −λ とその位数 m が重要である
•  この λ を学習係数と呼ぶ
•  本節では λ の性質を調べ、具体的な学習
モデルに対して λ を計算する
6

学習係数
•  学習モデルの良さを評価する指標
•  Fn：確率的複雑さ(⾃由エネルギー)
•  Bg：汎化誤差
•  これらの漸近挙動
•  主要項の係数 λ を学習係数と呼ぶ
7

学習係数
8
•  真の分布 q(x) 学習モデル p(x|w) 事前分布 φ(w)
•  カルバック・ライブラ距離
•  ゼータ関数
の最⼤の極が −λ のとき、λ が学習係数

学習係数
•  学習係数 λ は確率的複雑さと汎化誤差の
主要項の係数
•  本節では学習係数の性質を調べる
•  パラメータ空間の次元 d に対して
①  φ(w0) > 0 ならば λ ≦ d/2
②  Jeffreys 事前分布は λ > d/2 の場合がある
③  具体的な学習モデルについて計算してみる
9

＜⽬次＞
•  具体的な学習モデルの学習係数の算出
例 7.1 (p.225)
•  学習係数の性質 (p.217)
•  Jeffreysの事前分布 (p.221)
10

例 7.1 (p.225)
•  具体的な学習モデルについて学習係数 λ
とその位数 m を算出してみる
•  3層ニューラルネットワーク
•  Y = aσ(bX) + cσ(dX) + N
•  σ(x) = exp(x) – 1
11

例 7.1 (p.225)
http://rpubs.com/hoxo_m/284258
12

＜⽬次＞
•  学習係数の性質
–  定理 7.1 ⑴ ⑵ ⑶ ⑷
–  定理 7.2
–  定理 7.3
•  Jeffreysの事前分布
13

定理 7.1 ⑴⑵⑶⑷
•  例 7.1 ではゼータ関数の最⼤極として学習
係数を算出したが、別の表現もできる
•  特に⑷は特異点解消が難しい場合に数値
計算で学習係数を求めるのに使える
14

定理 7.1 ⑴
•  次を満たす定数 c1 > 0 が存在する
•  定理 6.7 (P.173) より明らか
•  定理 7.2 の証明に使う
•  Remark 7.2 の証明に使う
15

定理 7.1 ⑵
•  次が成り⽴つ
•  メイン定理 6.2 (p.174) より明らか
•  Remark 7.2 の証明に使う
16

定理 7.1 ⑶
•  次を満たす定数 c2 >0 が存在する
•  定理 7.1 ⑷ の証明に使う
17

定理 7.1 ⑷
•  V(t) を volume function とする
•  任意の a > 0 (a ≠ 1) に対して
18

定理 7.1 ⑷ 証明
19

＜⽬次＞
–  定理 7.1 ⑴ ⑵ ⑶ ⑷
–  定理 7.2
–  定理 7.3
20

定理 7.2 (p.220)
•  W ⊂ Rd：パラメータの集合
•  もし開集合 U ⊂ W が存在して
{ w ∈ U; K(w) = 0, φ(w) > 0 }
が空でないならば
λ ≦ d / 2
※ 例 7.1 の学習モデルでは、
λ = 3/4 ≦ d/2 = 4/2 = 2
21

定理 7.2 証明
22

＜⽬次＞
–  定理 7.1 ⑴ ⑵ ⑶ ⑷
–  定理 7.2
–  定理 7.3
23

定理 7.3 (p.221)
•  パラメータが
w = (u, v) ∈ W (u ∈ Rd1, v ∈ Rd2)
で表されるとき
①  任意の v に対して K(u0, v) = 0
②  任意の v ∈ V に対して φ(u0, v) > 0 となる開
集合 V ⊂ Rd が存在する
ならば
λ ≦ d1 / 2
24

定理 7.3 証明
25

Remark 7.3
①  定理7.3の仮定を満たすとき
λ ≦ d1/2 = (d – d2)/2
は学習係数のタイトバウンドでないことに注意
②  (d1, d2) と (d’1, d’2) の2つ取れるパターン
λ ≦ min(d1, d’1)/2
③  定理7.3の仮定を満たす
⇒ {w; K(w) = 0} は d2次元多様体を含む
⇒ λ ≦ (d – d2)/2
26

＜⽬次＞
–  定義 7.1
–  Remark 7.4
–  Remark 7.2
–  定理 7.4
27

定義 7.1 Jeffreysの事前分布
•  Fisher 情報⾏列を次で定義する
•  ただし
•  Jeffreysの事前分布とは
28

Remark 7.4 (1)
•  特異点では det I(w) = 0
•  したがって Jeffreys の事前分布は 0
29

Remark 7.4 (2)
•  Jeffreys事前分布は coordinate-free
•  証明：
30

Remark 7.4 (3)
•  統計モデルは (p(x|w), φ(w)) である
•  統計的推定では、与えられたサンプルに
対して最適な統計モデルを推定する
•  p(x|w) が固定され φ(w) が coordinate-
free であるような統計モデルは、⼀般的
には統計的推定に適さない
31

＜⽬次＞
–  定義 7.1
–  Remark 7.4
–  Remark 7.2
–  定理 7.4
32

Remark 7.2 (2)
•  (K1(w), φ1(w)) と (K2(w), φ2(w)) に対して
K1(w) ≦ K2(w)
φ1(w) ≧ φ2(w)
が成り⽴つとき
λ1 > λ2
または
λ1 = λ2 かつ m1 ≦ m2
33

Remark 7.2 (2) 証明
34

＜⽬次＞
–  定義 7.1
–  Remark 7.4
–  Remark 7.2
–  定理 7.4
35

定理 7.4 (p.222)
•  Jeffreysの事前分布を採⽤したとき
1.  λ = d/2 , m = 1
2.  λ > d/2
のいずれかが成り⽴つ
36

定理 7.4 証明
37

Remark 7.5 (1)
•  Jeffreys事前分布を採⽤すると λ > d/2 に
なる具体例
•  このモデルは d = 2 だが λ = 3/2 となる
•  c = ab, d = a2b3 と変換すると λ = 1
38

まとめ
•  学習係数 λ は確率的複雑さと汎化誤差の
主要項の係数
•  学習係数の性質として以下を⽰した
•  パラメータ空間の次元 d に対して
①  φ(w0) > 0 ならば λ ≦ d/2
②  Jeffreys 事前分布は λ > d/2 の場合がある
③  具体的な学習モデルの学習係数
39

学習係数

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 学習係数

Ähnlich wie 学習係数 (8)

Mehr von hoxo_m

Mehr von hoxo_m (20)

学習係数