SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
PRML読書会第1回
       1.6

     2010-05-01
 SUHARA YOSHIHIKO
   id:sleepy_yoshi
目次
• 1.6 情報
  – 1.6.1 相対エントロピーと情報




                        1
1.6




      2
情報 の定義
• p(x) の情報       h(x)
  – (1) h(x) は p(x) の単調減少関数
     •   しい出 事の方が「 きの 合い」が大きい
  – (2) h(x,y) = h(x) + h(y)
     • 情報の加法性


上記を満たす関数 ⇒ 対数のみ (演習1.28)

           h( x) = − log 2 p( x)      (1.92)


           ここでいう情報 はあくまで
    情報      (information theory) における約束事
                                               3
に対数を




       4
ンの   を んで た




              5
[Shannon 1948]より




                   6
___
      /       \
     /ノ \     u. \ !?
   / (●) (●)      \
   |  (__人__)     u. |
   \ u.` ⌒´       /
   ノ             \
/´                  ヽ

        ____
      /        \!??
     / u     ノ \
   /      u (●) \
   |          (__人__)|
   \    u     .` ⌒/
   ノ              \
/´                  ヽ


                         7
naoya_tさんに答えを
   教えてもらった



                8
演習1.28
• h(p2) = h(p p) = h(p) + h(p) = 2h(p)

• h(pk+1) = h(pk p) = h(pk) + h(p)
= k h(p) + h(p) = (k + 1) h(p)

• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)
= n/m h(pm/m) = n/m h(p)

ここでp=qx
           h( p ) h( q x )   xh(q) h(q)
                 =     x
                           =      =
           ln( p) ln(q ) x ln(q) ln(q)

  h( p) : h(q) = ln( p) : ln(q)      ∴ h( p) ∝ ln( p)   9
よって
             対数で表現される!
              ____
            / \ /\ キリッ
.         / (ー) (ー)\
       /     ⌒(__人__)⌒ \
       |        |r┬-|    |
         \       `ー’´   /
       ノ                 \
    /´                     ヽ
  |       l                  \
  ヽ       -一””””~~``’ー?、    -一”””’ー-、.
    ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒))




                                         10
ポイント:
   における



          11
エントロピー




         12
エントロピーの定義
• エントロピー: 情報の平均
 – 情報 (1.92)の期待値

      H[ x] = −∑ p ( x) log 2 p( x)       (1.93)
                x


    ただし,lim p →0    p ln p = 0 より

     p ( x) = 0 のとき p ( x) ln p( x) = 0



                                                   13
エントロピーの
•      1)
     – 8個の状態を等           で取る        変数xの場合
                              1     1
                  H[ x] = −8 × log 2 = 3bit
                              8     8
•      2)
     – 8個の状態 {a,b,c,d,e,f,g,h}
     –   は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)
             1     1 1     1 1     1 1      1 4      4
    H[ x] = − log 2 − log 2 − log 2 − log 2 − log 2    = 2bit
             2     2 4     4 8     8 16    16 64    64

             非一様な分布のエントロピーは,
            一様な分布のエントロピーより小さい                             14
符号化におけるエントロピーの解釈
• 変数がどの状態にあるかを受信者に伝えたい
     – (非一様の分布の場合) よく起きる事象に短い符号を,
         ま 起きない事象に い符号を使うことで,符号
       の平均を短くできる

•     2)の場合
    – {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110,
      111100, 11101, 111110, 11111) を割り当てる

           1    1     1      1        1
    平均符号長 = ×1 + × 2 + × 3 + × 4 + 4 × × 6 = 2bit
           2    4     8     16        64
              変数のエントロピーと同じ
     ⇒   イ なし符号化   (noiseless coding theorem)   15
ポイント:
エントロピー 最短符号



              16
エントロピーの別の解釈 (1/2)
• 同じ物体を箱に分けて入れる問題
 –   N個の物体をたくさんの箱に分けて入れる
 –   i番目の箱にはni個の物体が存在
 –   N個の物体を箱に入れる方法: N!通り
 –   i番目の箱に物体を入れた順番: ni!通り ←区別しない


⇒ N個の物体の箱への入れ方の総数 (            ) は,
                   !
             W=            (1.94)
                ∏i ni !
                                    17
エントロピーの別の解釈 (2/2)
• エントロピーを多                     の対数を適当に定数                                   し
  たものと定義
            1            1           1
       H=       ln W =       ln !−        ∑ ln n !
                                           i
                                                   i                (1.95)


スターリングの近似式 ln                !≅      ln        −       と   ∑n
                                                            i   i   =     より

                  ni   ni 
       H = lim ∑   ln  = −∑ pi ln pi                            (1.97)
               i       
            →∞
                               i


箱は 偶      変数Xの状態xiと解釈でき,p(X=xi) = piとすると

            H [ p] = −∑ p( xi ) ln p( xi )                              (1.98)18
                         i
分布とエントロピーの関係
• 鋭いピークを持つ分布 ⇒ エントロピー小
• 多くの値に広がる分布 ⇒ エントロピー大




                         19
エントロピーの最大化




             20
エントロピーの最大化 (1/2)
• ラグランジュ乗数法を使って最大値を求める
 –        の総和は1という制約を入れる

     ~                                             
     H = −∑ p ( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1                   (1.99)
          i                           i            
          ∂                                                 
                  − ∑ p( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1  = 0
       ∂p ( xk )  i
                                               i            
                                                                

                                         − (ln p ( xk ) + 1) + λ = 0

       p(xi) が全て等しいとき (p(xi) = 1/M) 最大化
                 最大値はln M                                                  21
エントロピーの最大化 (2/2)
• エントロピーの2階微分を計算
                           ~
                        ∂H                     1
                                      = − I ij      (1.100)
                  ∂p ( xi )∂p ( x j )          pi

参考 (1階微分): − (ln p ( xi ) + 1) + λ


• 負定値のため,凹関数であることがわかり,停
   点が最大値であることが示された


                                                              22
補足: ラグランジュ乗数法
• 制約付き非線形最適化の常套手段 (詳しくは付録E)

• g(x) = 0 の制約において f(x) を最適化
⇒ 以下で定義されるラグランジュ関数の停 点を求める

     L ( x, λ ) ≡ f ( x ) + λ g ( x )
 すなわち
        ∇f ( x ) + λ ∇g ( x ) = 0

                                        23
演習1.29
• エントロピー最大化をJensenの 等式から   く
• 解)
 – あ・と・で




                           24
エントロピーの連続値への拡張




             25
連続値への拡張
• 基本的にΣが∫に変わるだけ




                  26
連続値への拡張
   (終)



          27
もとい




      28
連続値への拡張 (1/2)
• xを等間隔の区間Δに分ける
• p(x)が連続であると仮定すれば 値の  よ
  り,各区間に対して以下を満たすxiが存在する
         ( i +1) ∆
     ∫
     i∆
                     p( x)dx = p ( xi )∆   (1.101)


     p(x)

                p(xi)




                     iΔ (i+1)Δ                       29
                                      x
連続値への拡張 (2/2)
• Σp(xi)Δ=1 が り               つので
   H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆)
            i

       = −∑ p ( xi )∆ ln p ( xi ) − ∑ p ( xi )∆ ln ∆
            i                       i

       = −∑ p ( xi )∆ ln p ( xi ) − ln ∆               (1.102)
            i


• 第2項のlnΔを無視してΔ→0の極限を考える
  – 第1項はp(x)ln p(x) に収束
                              
   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
   ∆ →0
         i                                 微分エントロピー
                                                             30
連続値への拡張 (2/2)
• Σp(xi)Δ=1 が り               つので
   H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆)       連続変数を厳密に規
            i                               定するために無限
       = −∑ p ( xi )∆ ln p ( xi ) − ∑   p (ビット数が必要であ
                                           xi )∆ ln ∆
                                               ることを反映
            i                       i

       = −∑ p ( xi )∆ ln p ( xi ) − ln ∆                (1.102)
            i


• 第2項のlnΔを無視してΔ→0の極限を考える
  – 第1項はp(x)ln p(x) に収束
                              
   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
   ∆ →0
         i                                 微分エントロピー
                                                              31
微分エントロピーの最大化 (1/2)
          H[x] = − ∫ p (x) ln p (x)dx                               (1.104)

 連続変数の場合のエントロピー最大化を考える.
 以下の3つの制約のもとで最大化
                                     ∞
           規格化                 ∫         p ( x ) dx = 1              (1.105)
                                 −∞
                                 ∞
      分布の平均                   ∫          xp( x)dx = µ                (1.106)
                                 −∞
                                 ∞
   分布の広がり                    ∫       ( x − µ ) 2 p ( x ) dx = σ 2    (1.107)
                              −∞

ラグランジュ関数=
      ∞
                               ∞ p ( x)dx − 1
   − ∫ p ( x) ln p ( x)dx +λ1  ∫             
      −∞                        −∞           
                ∞ xp( x)dx − µ  + λ  ∞ ( x − µ ) 2 p ( x)dx − σ 2 
          + λ2  ∫               3  ∫−∞                                     32
                 −∞                                               
微分して0とおきます




             33
微分エントロピーの最大化 (2/2)
• 以下の結果が得られる (演習1.34)
⇒ 微分エントロピーを最大化する分布はガウス分布
                      1             ( x − µ )2 
       p( x) =                  exp−              (1.109)
                 (2πσ 2 )1/ 2          2σ 
                                           2



非負制約を設けなかったけれど,結果オーライ
ガウス分布の微分エントロピーは以下になる (演習1.35)

             H [ x] =
                          1
                          2
                           {1 + ln(2πσ 2 ) }        (1.110)

σ2が増えて分布が幅広くなるにつれて大きくなる
   > 2πσ 2 のとき,H[x] < 0 となる
 1
 e                                                        34
条件付きエントロピー
• 同時分布 p(x,y) を考える
• xの値が既知とすれば,対応するyの値を特定す
  るために必要な情報は- ln p(y|x)
• したがって,yを特定するために必要な情報の平
  均は,

   H[y | x] = − ∫∫ p(y, x) ln p(y | x)dydx   (1.111)




 これをxに対するyの条件付きエントロピーと呼ぶ
                                                 35
演習1.37
• H[x,y] = H[y|x] + H[x] を証明せよ
⇒ ホワイトボード




                                 36
1.6.1
相対エントロピーと相



              37
相対エントロピー
• 未知の分布 p(x) を近似的に q(x) でモデル化
   – q(x) を用いて
   – xの値を特定するために必要な 加情報 の平均は

                                     (
KL( p || q) = − ∫ p(x) ln q (x)dx − − ∫ p(x) ln p(x)dx   )
                          q ( x) 
           = − ∫ p(x) ln         dx             (1.113)
                          p ( x) 

この値は,カルバック-ライブラーダイバージェンス (KLd)
     または 相対エントロピーと呼ばれる

               注意: KL( p || q) ≠ KL(q || p)                  38
やや唐突ですが
凸関数の話をします



            39
凸関数
f (λa + (1 − λ )b) ≤ λf (a) + (1 − λ ) f (b)   (1.114)




                                                    40
演習1.36
• 関数が真に凸であることと,2階微分が正である
  ことと等価であることを示せ

• 直感的な解
 – 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加




                               41
イ ンセンの 等式
• (1.114)を任意の点集合へ拡張した(1.115)は,
  イェン ンの      と呼ばれる (演習1.38)
           M         M
         f  ∑ λi xi  ≤ ∑ λi f ( xi )                (1.115)
            i =1     i =1
                          ここで λi ≥ 0        ∑λ
                                             i   i   =1

λi を   変数x上の          分布と なすと
               f (E[ x]) ≤ E[ f ( x)]                 (1.116)

連続変数に対しては,
         f   (∫ xp(x)dx) ≤ ∫ f (x) p(x)dx             (1.117)
                                                                42
KLdの解釈
 • イ ンセンの 等式をKLdへ適用
   – ln(x) が凸関数であることを 用

                              q ( x) 
  KL( p || q) = − ∫ p (x) ln         dx ≥ − ln ∫ q(x)dx = 0
                              p ( x)                   (1.118)




   等号は全てのxについてq(x) = p(x) のとき り つので
KLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる

                                                            43
KLdの最小化 ⇒ ?!
• 未知の       分布のモデル化の問題
 – データが未知の分布 p(x) からサンプルされる
 – 可変なパラメータθを持つ分布 q(x|θ) を用いて近似
 – θを決める方法
 ⇒ p(x) と p(x|θ) のKLdをθについて最小化
   • p(x) はわからないので,xnの有限和で近似 ((1.35)式)


                   1
  KL( p || q ) ≈       ∑ {− ln q(x
                       n =1
                                     n   | θ ) + ln p (x n )}


          KLdの最小化 ⇒              の最大化
                                                                44
再掲: 演習1.29
• エントロピー最大化をJensenの 等式から                             く
• 解)
                M
                                1
       H [ x] = ∑ p ( xi ) ln
                i             p ( xi )

 ln(x)は凹関数なので,Jensenの               等式より


                    M             1 
         H [ x] ≤ ln ∑ p ( xi )
                                          = ln M
                     i          p ( xi ) 
                                          

                                                     45
相




    46
相僆情報
• 同時分布 p(x, y) を考える
• たつの     変数が     の場合 p(x,y)=p(x)p(y)
• 変数同士の「近さ」を測るために,同時分布と周
  辺分布の積のKLdを考える

     I[x, y ] ≡ KL( p (x, y ) || p (x) p (y ))

                                p ( x) p ( y ) 
             = − ∫∫ p(x, y ) ln
                                p(x, y ) dxdy 
                                               
       これを変数x,yの間の相                         と呼ぶ
                                                    47
相僆情報 とエントロピーの関係
•     の加法・乗法定 を用いて以下のとおりに
    表すことができる (演習1.41)

     I[x, y ] = H[x] − H[x | y ] = H[y ] − H[y | x]

• ベイズの観点からp(x) をxの事前分布,p(x|y)
  を新たなデータyを観測した後の事後分布と考え
  られる
⇒ 相僆情報 は,新たなyを観測した結果として,
  xに関する  実性が減少した 合いを表す

                                                      48
演習1.41
• I[x,y] = H[x] – H[x|y] を証明
                        p ( x) p ( y ) 
      − ∫∫ p (x, y ) ln
                        p (x, y ) dxdy
                                       
                    p ( x) p ( y ) 
 = − ∫∫ p(x, y ) ln
                    p (x | y ) p (y ) dxdy
                                       
                                      

 = − ∫∫ p(x, y ) ln p(x)dxdy + ∫∫ p (x, y ) ln p (x | y )dxdy

 = − ∫ p (x) ln p(x)dx + ∫∫ p(x, y ) ln p(x | y )dxdy

 = H[x] − H[x | y ]                                             49
xxエントロピー/xx
でおなかいっぱいのアナタに



                50
補足: 各種エントロピーの関係
• ベン で     るとわかり すい


           H[X]
                             H[Y]

  H[X|Y]          I[X,Y]            H[Y|X]


                    H[X,Y]

                                             51
まとめ




      52
まとめ
情報      の基 を   しました
• 情報
 – 情報    における定義
• エントロピー
 – 条件付きエントロピー
 – 相対エントロピー
• カルバック・ライブラーダイバージェンス
• 相僆情報


           おまけあり・・・
                        53
おまけ




      54
相僆情報 の応用
• pointwise mutual information (PMI)
  – a.k.a. self mutual information (SMI)
  – 関連語抽出などに用いられる

                                p( x) p ( y ) 
      PMI(x = x, y = y ) = − ln
                                p ( x, y )   
                                              
• expected mutual information
  – PMIは,  語に っ張られる問題があるので,期
    待値を取ってあげる
                                         p( x) p( y ) 
    EMI(x = x, y = y ) = − p ( x, y ) ln
                                         p ( x, y )  
                                                         55
実験




     56
実験: 相僆情報 による関連語の抽
         出
• データセット
 – 20newsgroups
    • 公開データセット
    • http://people.csail.mit.edu/jrennie/20Newsgroups/
 – ニュースグループの20カテゴリに投稿された記事1000文書ずつ
• 実験
 – PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる

           alt.atheism                sci.crypt
           comp.graphics              sci.electronics
           comp.os.ms-windows.misc    sci.med
           comp.sys.ibm.pc.hardware   sci.space
           comp.sys.mac.hardware      soc.religion.christian
           comp.windows.x             talk.politics.guns
           misc.forsale               talk.politics.mideast
           rec.autos                  talk.politics.misc
           rec.motorcycles            talk.religion.misc
           rec.sport.baseball
                                                               57
           rec.sport.hockey
結果




     58
実験結果
• 別紙参照




                59
おしまい


       60

Weitere ähnliche Inhalte

Was ist angesagt?

PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布Yuki Soma
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料Hiromasa Ohashi
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28kurotaki_weblab
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Yuki Matsubara
 
PRML復々習レーン2.3.2
PRML復々習レーン2.3.2PRML復々習レーン2.3.2
PRML復々習レーン2.3.2sukoyakarizumu
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 

Was ist angesagt? (20)

PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
PRML復々習レーン2.3.2
PRML復々習レーン2.3.2PRML復々習レーン2.3.2
PRML復々習レーン2.3.2
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
PRML chapter5
PRML chapter5PRML chapter5
PRML chapter5
 

Ähnlich wie PRML 1.6 情報理論

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notationKenta Oono
 
若手研究者のための招待講演会
若手研究者のための招待講演会若手研究者のための招待講演会
若手研究者のための招待講演会Joe Suzuki
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタToshihisa Tanaka
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke HoriiSuurist
 
PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1marugari
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門Tatsuki SHIMIZU
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布kunihikokaneko1
 
aeで0である関数の証明
aeで0である関数の証明aeで0である関数の証明
aeで0である関数の証明政孝 鍋島
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Masahiro Sakai
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Yuya Takashina
 
様々な全域木問題
様々な全域木問題様々な全域木問題
様々な全域木問題tmaehara
 

Ähnlich wie PRML 1.6 情報理論 (20)

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
若手研究者のための招待講演会
若手研究者のための招待講演会若手研究者のための招待講演会
若手研究者のための招待講演会
 
Prml 4.3.5
Prml 4.3.5Prml 4.3.5
Prml 4.3.5
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布
 
aeで0である関数の証明
aeで0である関数の証明aeで0である関数の証明
aeで0である関数の証明
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
 
様々な全域木問題
様々な全域木問題様々な全域木問題
様々な全域木問題
 
Prml 4.3.6
Prml 4.3.6Prml 4.3.6
Prml 4.3.6
 

Mehr von sleepy_yoshi

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelssleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじsleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 

Mehr von sleepy_yoshi (20)

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 

PRML 1.6 情報理論

  • 1. PRML読書会第1回 1.6 2010-05-01 SUHARA YOSHIHIKO id:sleepy_yoshi
  • 2. 目次 • 1.6 情報 – 1.6.1 相対エントロピーと情報 1
  • 3. 1.6 2
  • 4. 情報 の定義 • p(x) の情報 h(x) – (1) h(x) は p(x) の単調減少関数 • しい出 事の方が「 きの 合い」が大きい – (2) h(x,y) = h(x) + h(y) • 情報の加法性 上記を満たす関数 ⇒ 対数のみ (演習1.28) h( x) = − log 2 p( x) (1.92) ここでいう情報 はあくまで 情報 (information theory) における約束事 3
  • 6. ンの を んで た 5
  • 8. ___ / \ /ノ \ u. \ !? / (●) (●) \ | (__人__) u. | \ u.` ⌒´ / ノ \ /´ ヽ ____ / \!?? / u ノ \ / u (●) \ | (__人__)| \ u .` ⌒/ ノ \ /´ ヽ 7
  • 9. naoya_tさんに答えを 教えてもらった 8
  • 10. 演習1.28 • h(p2) = h(p p) = h(p) + h(p) = 2h(p) • h(pk+1) = h(pk p) = h(pk) + h(p) = k h(p) + h(p) = (k + 1) h(p) • h(pn/m) = n h(p1/m) = m・n/m h(p1/m) = n/m h(pm/m) = n/m h(p) ここでp=qx h( p ) h( q x ) xh(q) h(q) = x = = ln( p) ln(q ) x ln(q) ln(q) h( p) : h(q) = ln( p) : ln(q) ∴ h( p) ∝ ln( p) 9
  • 11. よって 対数で表現される! ____ / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー’´ / ノ \ /´ ヽ | l \ ヽ -一””””~~``’ー?、 -一”””’ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 10
  • 12. ポイント: における 11
  • 14. エントロピーの定義 • エントロピー: 情報の平均 – 情報 (1.92)の期待値 H[ x] = −∑ p ( x) log 2 p( x) (1.93) x ただし,lim p →0 p ln p = 0 より p ( x) = 0 のとき p ( x) ln p( x) = 0 13
  • 15. エントロピーの • 1) – 8個の状態を等 で取る 変数xの場合 1 1 H[ x] = −8 × log 2 = 3bit 8 8 • 2) – 8個の状態 {a,b,c,d,e,f,g,h} – は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64) 1 1 1 1 1 1 1 1 4 4 H[ x] = − log 2 − log 2 − log 2 − log 2 − log 2 = 2bit 2 2 4 4 8 8 16 16 64 64 非一様な分布のエントロピーは, 一様な分布のエントロピーより小さい 14
  • 16. 符号化におけるエントロピーの解釈 • 変数がどの状態にあるかを受信者に伝えたい – (非一様の分布の場合) よく起きる事象に短い符号を, ま 起きない事象に い符号を使うことで,符号 の平均を短くできる • 2)の場合 – {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110, 111100, 11101, 111110, 11111) を割り当てる 1 1 1 1 1 平均符号長 = ×1 + × 2 + × 3 + × 4 + 4 × × 6 = 2bit 2 4 8 16 64 変数のエントロピーと同じ ⇒ イ なし符号化 (noiseless coding theorem) 15
  • 18. エントロピーの別の解釈 (1/2) • 同じ物体を箱に分けて入れる問題 – N個の物体をたくさんの箱に分けて入れる – i番目の箱にはni個の物体が存在 – N個の物体を箱に入れる方法: N!通り – i番目の箱に物体を入れた順番: ni!通り ←区別しない ⇒ N個の物体の箱への入れ方の総数 ( ) は, ! W= (1.94) ∏i ni ! 17
  • 19. エントロピーの別の解釈 (2/2) • エントロピーを多 の対数を適当に定数 し たものと定義 1 1 1 H= ln W = ln !− ∑ ln n ! i i (1.95) スターリングの近似式 ln !≅ ln − と ∑n i i = より  ni   ni  H = lim ∑   ln  = −∑ pi ln pi (1.97) i     →∞ i 箱は 偶 変数Xの状態xiと解釈でき,p(X=xi) = piとすると H [ p] = −∑ p( xi ) ln p( xi ) (1.98)18 i
  • 20. 分布とエントロピーの関係 • 鋭いピークを持つ分布 ⇒ エントロピー小 • 多くの値に広がる分布 ⇒ エントロピー大 19
  • 22. エントロピーの最大化 (1/2) • ラグランジュ乗数法を使って最大値を求める – の総和は1という制約を入れる ~   H = −∑ p ( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1 (1.99) i  i  ∂     − ∑ p( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1  = 0 ∂p ( xk )  i   i   − (ln p ( xk ) + 1) + λ = 0 p(xi) が全て等しいとき (p(xi) = 1/M) 最大化 最大値はln M 21
  • 23. エントロピーの最大化 (2/2) • エントロピーの2階微分を計算 ~ ∂H 1 = − I ij (1.100) ∂p ( xi )∂p ( x j ) pi 参考 (1階微分): − (ln p ( xi ) + 1) + λ • 負定値のため,凹関数であることがわかり,停 点が最大値であることが示された 22
  • 24. 補足: ラグランジュ乗数法 • 制約付き非線形最適化の常套手段 (詳しくは付録E) • g(x) = 0 の制約において f(x) を最適化 ⇒ 以下で定義されるラグランジュ関数の停 点を求める L ( x, λ ) ≡ f ( x ) + λ g ( x ) すなわち ∇f ( x ) + λ ∇g ( x ) = 0 23
  • 29. もとい 28
  • 30. 連続値への拡張 (1/2) • xを等間隔の区間Δに分ける • p(x)が連続であると仮定すれば 値の よ り,各区間に対して以下を満たすxiが存在する ( i +1) ∆ ∫ i∆ p( x)dx = p ( xi )∆ (1.101) p(x) p(xi) iΔ (i+1)Δ 29 x
  • 31. 連続値への拡張 (2/2) • Σp(xi)Δ=1 が り つので H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆) i = −∑ p ( xi )∆ ln p ( xi ) − ∑ p ( xi )∆ ln ∆ i i = −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102) i • 第2項のlnΔを無視してΔ→0の極限を考える – 第1項はp(x)ln p(x) に収束   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103) ∆ →0  i  微分エントロピー 30
  • 32. 連続値への拡張 (2/2) • Σp(xi)Δ=1 が り つので H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆) 連続変数を厳密に規 i 定するために無限 = −∑ p ( xi )∆ ln p ( xi ) − ∑ p (ビット数が必要であ xi )∆ ln ∆ ることを反映 i i = −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102) i • 第2項のlnΔを無視してΔ→0の極限を考える – 第1項はp(x)ln p(x) に収束   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103) ∆ →0  i  微分エントロピー 31
  • 33. 微分エントロピーの最大化 (1/2) H[x] = − ∫ p (x) ln p (x)dx (1.104) 連続変数の場合のエントロピー最大化を考える. 以下の3つの制約のもとで最大化 ∞ 規格化 ∫ p ( x ) dx = 1 (1.105) −∞ ∞ 分布の平均 ∫ xp( x)dx = µ (1.106) −∞ ∞ 分布の広がり ∫ ( x − µ ) 2 p ( x ) dx = σ 2 (1.107) −∞ ラグランジュ関数= ∞  ∞ p ( x)dx − 1 − ∫ p ( x) ln p ( x)dx +λ1  ∫  −∞  −∞   ∞ xp( x)dx − µ  + λ  ∞ ( x − µ ) 2 p ( x)dx − σ 2  + λ2  ∫  3  ∫−∞  32  −∞   
  • 35. 微分エントロピーの最大化 (2/2) • 以下の結果が得られる (演習1.34) ⇒ 微分エントロピーを最大化する分布はガウス分布 1  ( x − µ )2  p( x) = exp−  (1.109) (2πσ 2 )1/ 2  2σ  2 非負制約を設けなかったけれど,結果オーライ ガウス分布の微分エントロピーは以下になる (演習1.35) H [ x] = 1 2 {1 + ln(2πσ 2 ) } (1.110) σ2が増えて分布が幅広くなるにつれて大きくなる > 2πσ 2 のとき,H[x] < 0 となる 1 e 34
  • 36. 条件付きエントロピー • 同時分布 p(x,y) を考える • xの値が既知とすれば,対応するyの値を特定す るために必要な情報は- ln p(y|x) • したがって,yを特定するために必要な情報の平 均は, H[y | x] = − ∫∫ p(y, x) ln p(y | x)dydx (1.111) これをxに対するyの条件付きエントロピーと呼ぶ 35
  • 37. 演習1.37 • H[x,y] = H[y|x] + H[x] を証明せよ ⇒ ホワイトボード 36
  • 39. 相対エントロピー • 未知の分布 p(x) を近似的に q(x) でモデル化 – q(x) を用いて – xの値を特定するために必要な 加情報 の平均は ( KL( p || q) = − ∫ p(x) ln q (x)dx − − ∫ p(x) ln p(x)dx )  q ( x)  = − ∫ p(x) ln  dx (1.113)  p ( x)  この値は,カルバック-ライブラーダイバージェンス (KLd) または 相対エントロピーと呼ばれる 注意: KL( p || q) ≠ KL(q || p) 38
  • 41. 凸関数 f (λa + (1 − λ )b) ≤ λf (a) + (1 − λ ) f (b) (1.114) 40
  • 42. 演習1.36 • 関数が真に凸であることと,2階微分が正である ことと等価であることを示せ • 直感的な解 – 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加 41
  • 43. イ ンセンの 等式 • (1.114)を任意の点集合へ拡張した(1.115)は, イェン ンの と呼ばれる (演習1.38) M  M f  ∑ λi xi  ≤ ∑ λi f ( xi ) (1.115)  i =1  i =1 ここで λi ≥ 0 ∑λ i i =1 λi を 変数x上の 分布と なすと f (E[ x]) ≤ E[ f ( x)] (1.116) 連続変数に対しては, f (∫ xp(x)dx) ≤ ∫ f (x) p(x)dx (1.117) 42
  • 44. KLdの解釈 • イ ンセンの 等式をKLdへ適用 – ln(x) が凸関数であることを 用  q ( x)  KL( p || q) = − ∫ p (x) ln  dx ≥ − ln ∫ q(x)dx = 0  p ( x)  (1.118) 等号は全てのxについてq(x) = p(x) のとき り つので KLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる 43
  • 45. KLdの最小化 ⇒ ?! • 未知の 分布のモデル化の問題 – データが未知の分布 p(x) からサンプルされる – 可変なパラメータθを持つ分布 q(x|θ) を用いて近似 – θを決める方法 ⇒ p(x) と p(x|θ) のKLdをθについて最小化 • p(x) はわからないので,xnの有限和で近似 ((1.35)式) 1 KL( p || q ) ≈ ∑ {− ln q(x n =1 n | θ ) + ln p (x n )} KLdの最小化 ⇒ の最大化 44
  • 46. 再掲: 演習1.29 • エントロピー最大化をJensenの 等式から く • 解) M 1 H [ x] = ∑ p ( xi ) ln i p ( xi ) ln(x)は凹関数なので,Jensenの 等式より M 1  H [ x] ≤ ln ∑ p ( xi )   = ln M  i p ( xi )   45
  • 47. 46
  • 48. 相僆情報 • 同時分布 p(x, y) を考える • たつの 変数が の場合 p(x,y)=p(x)p(y) • 変数同士の「近さ」を測るために,同時分布と周 辺分布の積のKLdを考える I[x, y ] ≡ KL( p (x, y ) || p (x) p (y ))  p ( x) p ( y )  = − ∫∫ p(x, y ) ln  p(x, y ) dxdy    これを変数x,yの間の相 と呼ぶ 47
  • 49. 相僆情報 とエントロピーの関係 • の加法・乗法定 を用いて以下のとおりに 表すことができる (演習1.41) I[x, y ] = H[x] − H[x | y ] = H[y ] − H[y | x] • ベイズの観点からp(x) をxの事前分布,p(x|y) を新たなデータyを観測した後の事後分布と考え られる ⇒ 相僆情報 は,新たなyを観測した結果として, xに関する 実性が減少した 合いを表す 48
  • 50. 演習1.41 • I[x,y] = H[x] – H[x|y] を証明  p ( x) p ( y )  − ∫∫ p (x, y ) ln  p (x, y ) dxdy    p ( x) p ( y )  = − ∫∫ p(x, y ) ln  p (x | y ) p (y ) dxdy    = − ∫∫ p(x, y ) ln p(x)dxdy + ∫∫ p (x, y ) ln p (x | y )dxdy = − ∫ p (x) ln p(x)dx + ∫∫ p(x, y ) ln p(x | y )dxdy = H[x] − H[x | y ] 49
  • 52. 補足: 各種エントロピーの関係 • ベン で るとわかり すい H[X] H[Y] H[X|Y] I[X,Y] H[Y|X] H[X,Y] 51
  • 53. まとめ 52
  • 54. まとめ 情報 の基 を しました • 情報 – 情報 における定義 • エントロピー – 条件付きエントロピー – 相対エントロピー • カルバック・ライブラーダイバージェンス • 相僆情報 おまけあり・・・ 53
  • 55. おまけ 54
  • 56. 相僆情報 の応用 • pointwise mutual information (PMI) – a.k.a. self mutual information (SMI) – 関連語抽出などに用いられる  p( x) p ( y )  PMI(x = x, y = y ) = − ln  p ( x, y )     • expected mutual information – PMIは, 語に っ張られる問題があるので,期 待値を取ってあげる  p( x) p( y )  EMI(x = x, y = y ) = − p ( x, y ) ln  p ( x, y )     55
  • 57. 実験 56
  • 58. 実験: 相僆情報 による関連語の抽 出 • データセット – 20newsgroups • 公開データセット • http://people.csail.mit.edu/jrennie/20Newsgroups/ – ニュースグループの20カテゴリに投稿された記事1000文書ずつ • 実験 – PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる alt.atheism sci.crypt comp.graphics sci.electronics comp.os.ms-windows.misc sci.med comp.sys.ibm.pc.hardware sci.space comp.sys.mac.hardware soc.religion.christian comp.windows.x talk.politics.guns misc.forsale talk.politics.mideast rec.autos talk.politics.misc rec.motorcycles talk.religion.misc rec.sport.baseball 57 rec.sport.hockey
  • 59. 結果 58