SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Downloaden Sie, um offline zu lesen
1




PRML 8章 1節	
発表者 松田
2




Agenda	
•  グラフィカルモデル概論
•  ベイジアンネットワーク
  •  グラフィカルモデル記述のルールについて
 •  多項式曲線フィッティング
    •  1章でみた多項式フィッティングをグラフィカルモデルで表
       してみる
    •  (ここまで分かればたぶんOKです)
 •  生成モデル
 •  離散変数
    •  複雑なモデルにおけるパラメータ数について
 •  線形ガウスモデル
    •  今日は省略
3




グラフィカルモデル概論	
•  確率モデルをグラフで表すことは有用
   •  構造を可視化できる
   •  グラフの構造から、モデルの性質を調べることができ
      る
   •  (HMMなどの)複雑なモデルにおける学習や推論を、
      グラフ上の操作として表現できる
•  グラフとは?
   •  ノード(node, vertex)
  •  確率変数 もしくは確率変数の集合
 •  リンク(link, edge, arc)
    •  確率変数間の関係
 •  の組
4




グラフィカルモデル	
• ベイジアンネットワーク
•  有向グラフ
•  確率変数同士の因果関係
• マルコフ確率場
•  無向グラフ
•  確率変数同士のゆるい束縛関係
 •  具体的には・・・
    •  「となりあったノード同士は近い値をとりやすい」など
5




ベイジアンネットワーク	

 p(a, b, c) = p(c | a, b)p(a, b)
            = p(c | a, b)p(b | a)p(a)!(8.2)


K個の確率変数の上の同時分布は、確率の乗法定理より、以下のように書ける	
p(x1,!, xK ) = p(xK | x1,!, xK!1 )! p(x2 | x1 )p(x1 ) !(8.3)

                     すべてのノードの組がリンクを持つ(全結合)の場合	
                     乗法定理をどの順番で適用するかは任意
6




全結合ではない場合	
             p(x1, x2 ,…x7 ) =
             p(x1 )p(x2 )p(x3 )p(x4 | x1, x2 , x3 )p(x5 | x1, x3 )p(x6 | x4 )p(x7 | x4 , x5 ) !(8.4)
             一般形としては、次の形で表される	
                            K
              p(x) = ∏ p( xk | pak )  (8.5)
                           k =1

   図 8.2	
                            ただしpak:xkの親ノードの集合

ここで考えているのは有向閉路を持たないグラフ(DAG; directed acyclic graph)	


             大きい番号のノードから小さい番号のノードへリンクが存在しない
             ようにノードに番号をふることが可能	
                                   (トポロジカルソートというらしいです:演習8.2)
7




演習 8.1	
          K
p(x) = ! p(xk | pak ) !(8.5)
          k=1
個々の条件付き分布が規格化されていると仮定して、(8.5)が規格化されている
ことを示す。つまり、	
                              K

!...! p(x) = !...!" p(x                  k   | pak ) = 1   を示したい。まずxkについて周辺化	
x1   xK             x1   xK k=1
                                                K"1

!...! p(x) = !...! p(x              K   | paK )# p(xk | pak )
x1   xK             x1   xK                      k=1
                              K"1                          周辺化を
                = !...! # p(xk | pak )                     繰り返していくと最後にx1が残るので、	
                    x1   xK"1 k=1
                              K"2                          ! p(x ) = 1
                                                                 1

                = !... ! # p(xk | pak )                     x1

                    x1   xK"2 k=1                           よって(8.5)は規格化されている。	
                !
8


                                                   a	
         b	
         c	
     p(a,b,c)	
演習 8.3 (1)	
                                       0	
         0	
         0	
      0.192	
                                                   0	
         0	
         1	
      0.144	
p(a, b) ! p(a)p(b) を示す	
                           0	
         1	
         0	
      0.048	
p(a = 1) = 0.192 + 0.064 + 0.048 + 0.096 = 0.4
                                                   0	
         1	
         1	
      0.216	
p(a = 0) = 0.6
                                                   1	
         0	
         0	
      0.192	
p(b = 1) = 0.048 + 0.216 + 0.048 + 0.096 = 0.408
                                                   1	
         0	
         1	
      0.064	
p(b = 0) = 0.592
                                                   1	
         1	
         0	
      0.048	
p(a = 0)p(b = 0) = 0.6 * 0.592 = 0.3552
p(a = 0)p(b = 1) = 0.6 * 0.408 = 0.2448            1	
         1	
      1	
         0.096	
p(a = 1)p(b = 0) = 0.4 * 0.592 = 0.2368                                表 8.2	
p(a = 1)p(b = 1) = 0.4 * 0.408 = 0.1632                  a	
         b	
         p(a,b)	
p(a,b,c)をcに対して周辺化したものと合わないので	
                           0	
         0	
         0.336	
p(a, b) ! p(a)p(b)                                       0	
         1	
         0.264	
                                                         1	
         0	
         0.256	
                                                         1	
         1	
         0.144	

                                                     表 8.2をcに対して周辺化
9


                                                      a	
    b	
     c	
       p(a,b,c)	
 演習 8.3 (2)	
                                         0	
    0	
     0	
        0.192	
                                                      0	
    0	
     1	
        0.144	
p(a, b | c) = p(a | c)p(b | c) を示す	
                                                      0	
    1	
     0	
        0.048	
 a	
   b	
   c	
   p(a,b|c)	
 p(a|c)p(b|c)	
          0	
    1	
     1	
        0.216	
 0	
   0	
   0	
     0.4	
        0.4                 1	
    0	
     0	
        0.192	
 0	
   0	
   1	
   0.2768	
     0.2768	
              1	
    0	
     1	
        0.064	
 0	
   1	
   0	
     0.1	
        0.1	
               1	
    1	
     0	
        0.048	
 0	
   1	
   1	
   0.4152	
     0.4152	
              1	
    1	
     1	
        0.096	
 1	
   0	
   0	
     0.4	
        0.4	
                             表 8.2	
 1	
   0	
   1	
   0.1228	
     0.1228	
 1	
   1	
   0	
     0.1	
        0.1	
        b	
   c	
 p(b|c)	
     a	
     c	
 p(a|c)	

 1	
   1	
   1	
   0.1842	
     0.1842	
       0	
   0	
    0.8	
     0	
     0	
        0.5	
                                               0	
   1	
    0.4	
     0	
     1	
       0.692	
       p(a=1)=0.4, p(a=0)=0.6                  1	
   0	
    0.2	
     1	
     0	
        0.5	
       p(b=1)=0.4, p(b=0)=0.6
                                               1	
   1	
    0.6	
     1	
     1	
       0.307	
       p(c=1)=0.52, p(c=0)=0.48	
                                                       cのもとでの条件付き確率
10


                                                          a	
   b	
    c	
      p(a,b,c)	
 演習 8.4	
                                                 0	
   0	
    0	
       0.192	
                                                          0	
   0	
    1	
       0.144	
p(a, b, c) = p(a)p(c | a)p(b | c)         を計算	
                                                          0	
   1	
    0	
       0.048	
p(a=1)=0.4, p(a=0)=0.6                                    0	
   1	
    1	
       0.216	
 b	
   c	
 p(b|c)	
    a	
   c	
 p(c|a)	
                 1	
   0	
    0	
       0.192	
 0	
   0	
   0.8	
     0	
   0	
         0.4	
            1	
   0	
    1	
       0.064	
 0	
   1	
   0.4	
     0	
   1	
         0.6	
            1	
   1	
    0	
       0.048	
 1	
   0	
   0.2	
     1	
   0	
         0.4	
            1	
   1	
    1	
       0.096	
                       1	
   1	
         0.6	
                        表 8.2	
 1	
   1	
   0.6	


                                   a	
                  c	


                                                       aとbは独立ではないが、
                                                       cで条件付けられることにより独立になる
                                                 b	
   (head-to-tail) => 8章2節で議論
11




8.1.1 多項式曲線フィッティング	
• 観測データtは重みベクトルwに依存する
•  と、ひとまず簡略化
•  多数のノードを陽に書き下すのは不便	
                          N
          p(t, w ) = p(w )∏ p(t n | w )  (8.6)
      w                  n =1

                       プレートの導入	
 t1               tN

                                          ↑プレート
                                          (N個のtがある)

 簡単に書けるようになったので、モデルのパラメータも書きこんでみましょう
12




8.1.1 多項式曲線フィッティング	
モデルのパラメータを書きこむと次のように表せる	
                                N
p(t, w | x, α , σ ) = p(w | α )∏ p(t n | w, xn , σ 2 )
                2

                                n =1
                                            x : 入力データ
                                            σ2 : ノイズの分散
                                            α : wのガウス事前分布のパラメータ	
                                        値が決定しているパラメータ	

                                        隠れ変数(観測されていないが、tが
                                        与えられれば事後分布を求めることができる)	
                                                         N
                                        p(w | t ) ∝ p(w )∏ p(t n | w )  (8.7)
                                                         n =1
                                        観測されたパラメータ
13




8.1.1 多項式曲線フィッティング	
• 最終目的は新しい入力値に対する予測
を行うこと
•  t,xから学習したw
 •  新しい入力x’に対するt’を予測する	

   ˆ                          ⎡ N                    ⎤             ˆ ˆ
 p(t , t, w | x, x, α , σ ) = ⎢∏ p(tn | xn , w, σ 2 )⎥ p(w | α ) p(t | x, w, σ 2 )
              ˆ        2

                              ⎣ n=1                  ⎦
                                                                               ・・・(8.8)	
 実際にベイズ予測を行うには、wを積分消去して	
   ˆ ˆ                          ˆ
 p(t | x, x, t, α , σ 2 ) ∝ ∫ p(t , t, w | x, x,α ,σ 2 )dw
                                           ˆ
                                                            でt’の予測分布が求められる
14




演習 8.5	
• RVMの有向グラフィカルモデル
 •  RVMとは何ぞや、というのはおいておいて・・・	
                   N
 p(t | X, w, ! ) = ! p(tn | x n , w, ! )!(7.79)
                   n=1

             M
 p(w | !) = # ! (wi | 0, " i"1 )!(7.80)
             i=1

X: 入力ベクトルXの行列(N個)
t:対応する出力値
w:パラメータベクトル
α:ガウス事前分布の精度ベクトル(M個)
β:ノイズの分散の逆数(精度)
ただし M = N + 1
15




8.1.2 生成モデル	
•  伝承サンプリング(ancestral sampling)
   •  同時分布に従うサンプルを生成する方法
   •  番号の小さいノードから順番にサンプルを生成
   •  詳しくは後の章で

•  画像が生成される過程を表すグラフィカルモデル
   •  Image(ベクトル)は、Object(離散), Position(連続),
      Orientation(連続)に依存した分布をもつ
   •  Imageが与えられた状態でPositionとOrientationについて積分消
    去することで、Objectに関する事後分布が得られる
 •  物体認識
16




8.1.2 生成モデル	
•  観測データと同じ分布に従う架空のデータを発
生させることができるモデル
 •  架空のデータ:モデルの性質を理解する上で有用
 •  ほんとかな・・・?
•  NLP的には・・・
   •  言語モデル : p(w1,w2,….,wn)に対する生成モデル :
      日本語っぽい文章を生成できる
   •  文書モデル:文書は特定のトピックについて述べられ
      ている、という仮定のもとでの生成モデル
•  Generative-model vs Discriminative-model
   •  このへんにまつわる話は面白いので、研究に支障が
      出ない範囲で調べてみると良いかも
17




8.1.2 生成モデル	
• p77
 •  グラフの末端ノードに対応する大きい番号が
    ふられた変数が観測値を表し、小さい番号
    がふられたノードが潜在変数に対応する
 •  観測された値から、潜在変数の分布を推測
    する問題に落とすことが多い
  •  pLSI(Probabilistic Latent Semantic Indexing)
     •  Hofmann 1999

        M個のドキュメントそれぞれからN個の隠れ変数、といった感じ
18




8.1.3 離散変数	
• パラメータ数について議論	
K個の状態をとりうる離散変数xの確率分布
                        K
           p( x | µ) = ∏ µ kxk  (8.9)
                        k =1                  K-1個のパラメータ	
2つのK状態離散変数x1及びx2がある場合
                               K     K
           p( x1 , x2 | µ) = ∏∏ µ kl1k x2 k
                                  x

                               k =1 l =1      K2-1個のパラメータ	

        変数M個の時:KM-1個のパラメータ→指数的に増大
19




8.1.3 離散変数	

             a) 全結合 パラメータは K2-1個	



             a) 独立と仮定 パラメータは 2(K-1)個	

リンクを除去することによって、パラメータの数を減らすことが可能
ただし、独立と仮定してしまうので、モデルの表現力は減少	




全結合だとパラメータが多すぎる。独立性を仮定しすぎると表現力が失われる。
折衷案として、例えば上のような連鎖を考えると
K-1+(M-1)K(K-1)個のパラメータ ・・・・ O(K2M)
20




8.1.3 離散変数	
• パラメータを減らす別の方法: 共有
•  parameter sharing, parameter tying 	
     p(x i | x i-1 ) が同じパラメータを共有するという考え方	

たとえば、ディリクレ事前分布をそれぞれのノードパラメータに対して導入
それぞれのノードが別々の事前分布を持つモデルはパラメータが多すぎる場合
事前分布を共有することでパラメータ数が削減できる	




                     tying!
21




8.1.4 線形ガウスモデル	
•  省略・・・ (最後のほうだけちょっと読みましょう)	
 ガウス変数xの平均µに関する共役事前分布はガウス分布
 xおよびµ上の同時分布もガウス分布になる

  µ上の分布の平均は事前分布を制御するパラメータなので,
                  超パラメータとみなされる.


超パラメータの値自体が未知なので,超パラメータにも事前分布を導入する.
                            (超事前分布)


   これもガウス分布とすれば,ベイズ的取り扱いが可能
                   →階層ベイズモデルの一例
22




次いってみよう

Weitere ähnliche Inhalte

Was ist angesagt?

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
 

Was ist angesagt? (20)

クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
 

Ähnlich wie 研究室内PRML勉強会 8章1節

Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523
Wataru Kishimoto
 

Ähnlich wie 研究室内PRML勉強会 8章1節 (8)

Stochastic complexities of reduced rank regression証明概略
 Stochastic complexities of reduced rank regression証明概略 Stochastic complexities of reduced rank regression証明概略
Stochastic complexities of reduced rank regression証明概略
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523
 
Image interpolation
Image interpolationImage interpolation
Image interpolation
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
Binary indexed tree
Binary indexed treeBinary indexed tree
Binary indexed tree
 
Ssaw08 0916
Ssaw08 0916Ssaw08 0916
Ssaw08 0916
 
CG2013 06
CG2013 06CG2013 06
CG2013 06
 

Mehr von Koji Matsuda

Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Koji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
Koji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
Koji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 

Mehr von Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

研究室内PRML勉強会 8章1節

  • 2. 2 Agenda •  グラフィカルモデル概論 •  ベイジアンネットワーク •  グラフィカルモデル記述のルールについて •  多項式曲線フィッティング •  1章でみた多項式フィッティングをグラフィカルモデルで表 してみる •  (ここまで分かればたぶんOKです) •  生成モデル •  離散変数 •  複雑なモデルにおけるパラメータ数について •  線形ガウスモデル •  今日は省略
  • 3. 3 グラフィカルモデル概論 •  確率モデルをグラフで表すことは有用 •  構造を可視化できる •  グラフの構造から、モデルの性質を調べることができ る •  (HMMなどの)複雑なモデルにおける学習や推論を、 グラフ上の操作として表現できる •  グラフとは? •  ノード(node, vertex) •  確率変数 もしくは確率変数の集合 •  リンク(link, edge, arc) •  確率変数間の関係 •  の組
  • 4. 4 グラフィカルモデル • ベイジアンネットワーク •  有向グラフ •  確率変数同士の因果関係 • マルコフ確率場 •  無向グラフ •  確率変数同士のゆるい束縛関係 •  具体的には・・・ •  「となりあったノード同士は近い値をとりやすい」など
  • 5. 5 ベイジアンネットワーク p(a, b, c) = p(c | a, b)p(a, b) = p(c | a, b)p(b | a)p(a)!(8.2) K個の確率変数の上の同時分布は、確率の乗法定理より、以下のように書ける p(x1,!, xK ) = p(xK | x1,!, xK!1 )! p(x2 | x1 )p(x1 ) !(8.3) すべてのノードの組がリンクを持つ(全結合)の場合 乗法定理をどの順番で適用するかは任意
  • 6. 6 全結合ではない場合 p(x1, x2 ,…x7 ) = p(x1 )p(x2 )p(x3 )p(x4 | x1, x2 , x3 )p(x5 | x1, x3 )p(x6 | x4 )p(x7 | x4 , x5 ) !(8.4) 一般形としては、次の形で表される K p(x) = ∏ p( xk | pak )  (8.5) k =1 図 8.2 ただしpak:xkの親ノードの集合 ここで考えているのは有向閉路を持たないグラフ(DAG; directed acyclic graph) 大きい番号のノードから小さい番号のノードへリンクが存在しない ようにノードに番号をふることが可能 (トポロジカルソートというらしいです:演習8.2)
  • 7. 7 演習 8.1 K p(x) = ! p(xk | pak ) !(8.5) k=1 個々の条件付き分布が規格化されていると仮定して、(8.5)が規格化されている ことを示す。つまり、 K !...! p(x) = !...!" p(x k | pak ) = 1 を示したい。まずxkについて周辺化 x1 xK x1 xK k=1 K"1 !...! p(x) = !...! p(x K | paK )# p(xk | pak ) x1 xK x1 xK k=1 K"1 周辺化を = !...! # p(xk | pak ) 繰り返していくと最後にx1が残るので、 x1 xK"1 k=1 K"2 ! p(x ) = 1 1 = !... ! # p(xk | pak ) x1 x1 xK"2 k=1 よって(8.5)は規格化されている。 !
  • 8. 8 a b c p(a,b,c) 演習 8.3 (1) 0 0 0 0.192 0 0 1 0.144 p(a, b) ! p(a)p(b) を示す 0 1 0 0.048 p(a = 1) = 0.192 + 0.064 + 0.048 + 0.096 = 0.4 0 1 1 0.216 p(a = 0) = 0.6 1 0 0 0.192 p(b = 1) = 0.048 + 0.216 + 0.048 + 0.096 = 0.408 1 0 1 0.064 p(b = 0) = 0.592 1 1 0 0.048 p(a = 0)p(b = 0) = 0.6 * 0.592 = 0.3552 p(a = 0)p(b = 1) = 0.6 * 0.408 = 0.2448 1 1 1 0.096 p(a = 1)p(b = 0) = 0.4 * 0.592 = 0.2368 表 8.2 p(a = 1)p(b = 1) = 0.4 * 0.408 = 0.1632 a b p(a,b) p(a,b,c)をcに対して周辺化したものと合わないので 0 0 0.336 p(a, b) ! p(a)p(b) 0 1 0.264 1 0 0.256 1 1 0.144 表 8.2をcに対して周辺化
  • 9. 9 a b c p(a,b,c) 演習 8.3 (2) 0 0 0 0.192 0 0 1 0.144 p(a, b | c) = p(a | c)p(b | c) を示す 0 1 0 0.048 a b c p(a,b|c) p(a|c)p(b|c) 0 1 1 0.216 0 0 0 0.4 0.4 1 0 0 0.192 0 0 1 0.2768 0.2768 1 0 1 0.064 0 1 0 0.1 0.1 1 1 0 0.048 0 1 1 0.4152 0.4152 1 1 1 0.096 1 0 0 0.4 0.4 表 8.2 1 0 1 0.1228 0.1228 1 1 0 0.1 0.1 b c p(b|c) a c p(a|c) 1 1 1 0.1842 0.1842 0 0 0.8 0 0 0.5 0 1 0.4 0 1 0.692 p(a=1)=0.4, p(a=0)=0.6 1 0 0.2 1 0 0.5 p(b=1)=0.4, p(b=0)=0.6 1 1 0.6 1 1 0.307 p(c=1)=0.52, p(c=0)=0.48 cのもとでの条件付き確率
  • 10. 10 a b c p(a,b,c) 演習 8.4 0 0 0 0.192 0 0 1 0.144 p(a, b, c) = p(a)p(c | a)p(b | c) を計算 0 1 0 0.048 p(a=1)=0.4, p(a=0)=0.6 0 1 1 0.216 b c p(b|c) a c p(c|a) 1 0 0 0.192 0 0 0.8 0 0 0.4 1 0 1 0.064 0 1 0.4 0 1 0.6 1 1 0 0.048 1 0 0.2 1 0 0.4 1 1 1 0.096 1 1 0.6 表 8.2 1 1 0.6 a c aとbは独立ではないが、 cで条件付けられることにより独立になる b (head-to-tail) => 8章2節で議論
  • 11. 11 8.1.1 多項式曲線フィッティング • 観測データtは重みベクトルwに依存する •  と、ひとまず簡略化 •  多数のノードを陽に書き下すのは不便 N p(t, w ) = p(w )∏ p(t n | w )  (8.6) w n =1 プレートの導入 t1 tN ↑プレート (N個のtがある) 簡単に書けるようになったので、モデルのパラメータも書きこんでみましょう
  • 12. 12 8.1.1 多項式曲線フィッティング モデルのパラメータを書きこむと次のように表せる N p(t, w | x, α , σ ) = p(w | α )∏ p(t n | w, xn , σ 2 ) 2 n =1 x : 入力データ σ2 : ノイズの分散 α : wのガウス事前分布のパラメータ 値が決定しているパラメータ 隠れ変数(観測されていないが、tが 与えられれば事後分布を求めることができる) N p(w | t ) ∝ p(w )∏ p(t n | w )  (8.7) n =1 観測されたパラメータ
  • 13. 13 8.1.1 多項式曲線フィッティング • 最終目的は新しい入力値に対する予測 を行うこと •  t,xから学習したw •  新しい入力x’に対するt’を予測する ˆ ⎡ N ⎤ ˆ ˆ p(t , t, w | x, x, α , σ ) = ⎢∏ p(tn | xn , w, σ 2 )⎥ p(w | α ) p(t | x, w, σ 2 ) ˆ 2 ⎣ n=1 ⎦ ・・・(8.8) 実際にベイズ予測を行うには、wを積分消去して ˆ ˆ ˆ p(t | x, x, t, α , σ 2 ) ∝ ∫ p(t , t, w | x, x,α ,σ 2 )dw ˆ でt’の予測分布が求められる
  • 14. 14 演習 8.5 • RVMの有向グラフィカルモデル •  RVMとは何ぞや、というのはおいておいて・・・ N p(t | X, w, ! ) = ! p(tn | x n , w, ! )!(7.79) n=1 M p(w | !) = # ! (wi | 0, " i"1 )!(7.80) i=1 X: 入力ベクトルXの行列(N個) t:対応する出力値 w:パラメータベクトル α:ガウス事前分布の精度ベクトル(M個) β:ノイズの分散の逆数(精度) ただし M = N + 1
  • 15. 15 8.1.2 生成モデル •  伝承サンプリング(ancestral sampling) •  同時分布に従うサンプルを生成する方法 •  番号の小さいノードから順番にサンプルを生成 •  詳しくは後の章で •  画像が生成される過程を表すグラフィカルモデル •  Image(ベクトル)は、Object(離散), Position(連続), Orientation(連続)に依存した分布をもつ •  Imageが与えられた状態でPositionとOrientationについて積分消 去することで、Objectに関する事後分布が得られる •  物体認識
  • 16. 16 8.1.2 生成モデル •  観測データと同じ分布に従う架空のデータを発 生させることができるモデル •  架空のデータ:モデルの性質を理解する上で有用 •  ほんとかな・・・? •  NLP的には・・・ •  言語モデル : p(w1,w2,….,wn)に対する生成モデル : 日本語っぽい文章を生成できる •  文書モデル:文書は特定のトピックについて述べられ ている、という仮定のもとでの生成モデル •  Generative-model vs Discriminative-model •  このへんにまつわる話は面白いので、研究に支障が 出ない範囲で調べてみると良いかも
  • 17. 17 8.1.2 生成モデル • p77 •  グラフの末端ノードに対応する大きい番号が ふられた変数が観測値を表し、小さい番号 がふられたノードが潜在変数に対応する •  観測された値から、潜在変数の分布を推測 する問題に落とすことが多い •  pLSI(Probabilistic Latent Semantic Indexing) •  Hofmann 1999 M個のドキュメントそれぞれからN個の隠れ変数、といった感じ
  • 18. 18 8.1.3 離散変数 • パラメータ数について議論 K個の状態をとりうる離散変数xの確率分布 K p( x | µ) = ∏ µ kxk  (8.9) k =1 K-1個のパラメータ 2つのK状態離散変数x1及びx2がある場合 K K p( x1 , x2 | µ) = ∏∏ µ kl1k x2 k x k =1 l =1 K2-1個のパラメータ 変数M個の時:KM-1個のパラメータ→指数的に増大
  • 19. 19 8.1.3 離散変数 a) 全結合 パラメータは K2-1個 a) 独立と仮定 パラメータは 2(K-1)個 リンクを除去することによって、パラメータの数を減らすことが可能 ただし、独立と仮定してしまうので、モデルの表現力は減少 全結合だとパラメータが多すぎる。独立性を仮定しすぎると表現力が失われる。 折衷案として、例えば上のような連鎖を考えると K-1+(M-1)K(K-1)個のパラメータ ・・・・ O(K2M)
  • 20. 20 8.1.3 離散変数 • パラメータを減らす別の方法: 共有 •  parameter sharing, parameter tying p(x i | x i-1 ) が同じパラメータを共有するという考え方 たとえば、ディリクレ事前分布をそれぞれのノードパラメータに対して導入 それぞれのノードが別々の事前分布を持つモデルはパラメータが多すぎる場合 事前分布を共有することでパラメータ数が削減できる tying!
  • 21. 21 8.1.4 線形ガウスモデル •  省略・・・ (最後のほうだけちょっと読みましょう) ガウス変数xの平均µに関する共役事前分布はガウス分布 xおよびµ上の同時分布もガウス分布になる µ上の分布の平均は事前分布を制御するパラメータなので, 超パラメータとみなされる. 超パラメータの値自体が未知なので,超パラメータにも事前分布を導入する. (超事前分布) これもガウス分布とすれば,ベイズ的取り扱いが可能 →階層ベイズモデルの一例