PRML読書会#4資料+補足

1章
読書会#4 資料 + 補足
twitter: @wrist

facebook: hiromasa.ohashi

自己紹介
•
•
•
•

大橋宏正(@wrist)

某メーカで働く音響信号処理屋(入社2年目)

学生時代は音声言語処理を専攻

最近Haskellの読書会に参加し始めました

•

http://iseebi.github.io/sugoih/

唐突にJuliusの紹介
• 音声認識エンジンJulius v4.3.1

• DNN(Deep Neural Network)に対応

• dictation kitにはDNN音響モデルが付属

第1章目次(1)
1.

序論

1.1. 例:多項式フィッティング

1.2. 確率論

1.2.1.確率密度

1.2.2.期待値と分散

1.2.3.ベイズ確率

1.2.4.ガウス分布

1.2.5.曲線フィッテイング再訪

1.2.6.ベイズ曲線フィッティング

第1章目次(2)
1.

序論

1.3. モデル選択

1.4. 次元の呪い

1.5. 決定理論

1.5.1.誤識別率の最小化

1.5.2.期待損失の最小化

1.5.3.棄却オプション

1.5.4.推論と決定

1.5.5.回帰のための損失関数

第一章目次(3)
1. 序論

1.6.情報理論

1.6.1.相対エントロピーと相互情報量

前回
•

モデル選択の話

•
•

AICとかBICとか

次元の呪い

•
•
•

高次次元に伴う困難のこと

D次元の球体では体積は表皮に集中

ガフの扉が開く…！(開きません)

1.5 決定理論(decision theory)

•
•

不確かさを含む状況における最適な意思決定

入力ベクトルx, 目標変数t

•
•

xの新しい値に対しtを予測することが目的

実際の応用(決定理論で扱う)

•
•

tの特定の値を予測

tの取る値に応じて特定の行動

医療診断問題の例
• X線画像から癌の判定

• 入力ベクトルxが画像、出力変数が癌で
あるC1 (t=0) かそうでないC2 (t=1)

• 同時分布p(x,C)(=p(x,t))の推定により決
定

決定(decision)に対する確率の役割

•
•
•

p(C1) 人間が癌である事前確率

p(C1|x) 画像データを得た時に癌である事後確率

誤ったクラスに判別する可能性を最小にするため
には事後確率が最大となるクラスを選べば良い

1.5.1 誤識別率の最小化
←決定境界

決定領域R1

•

決定領域R2

誤りを最小化するためには積分値を最小と
するようにクラスを割り振る

一般のKクラスの場合

•

p(x, Ck)=p(Ck|x)p(x)

•
•

p(x)はクラスに依らない共通因子

入力xに対するクラスはp(Ck|x)を最大化
するものを選べば良い

1.5.2 期待損失の最小化
• 健康な人を癌と判断

• 不安をる

• 要再検査

• 癌患者を健康であると判断

• いずれ死ぬ

• こちらの誤りを減らすべき

損失関数(Loss Function)
• 損失関数、コスト関数(Cost Function)

• 最小化することで目標を達成

• 代わりに効用関数(ユーティリティ関数)を 
考えることも

• この場合は最大化

• 本書では損失関数を用いる

損失行列(loss matrix)
• xの新たな値に対する真のクラスがC で
k

あるときにCjに当てはめた時の損失を
Lkjとした時、それを成分とする行列

• 癌の損失関数

• 癌を正常と間違えるのはまずい

損失の最小化
• 損失関数は未知である真のクラスに依存

• xに対して真のクラスの不確実性はp(x,C )で表現

• 損失関数を最小化するのではなく損失の平均を最小化
k

平均損失の変形

• 決定領域R を適切に選ぶことが目標

• jに関するsumは全決定領域に対する値を足すという意味
j

なので、kに関する総和のみを考えれば良い

• 乗法定理p(x,C )=p(C |x)p(x)でp(x)は共通因子なので無視

• 事後クラス確率が分かれば良い
k

k

1.5.3 棄却オプション
• xとC の事後確率(=同時確率)が小さく拮抗して
k

いる時はクラスを決定するのが難しい

• 難しい場合は決定を避けるのが適当な場合も

• 医療画像の例

• はっきりしたX線画像は自動分類

• そうでないものは医者に任せる

しきい値の導入
• 棄却オプション(reject option)

• しきい値θ(threshold)を導入

• θ以下の入力xは棄却

• 1にすると全て棄却

• クラスがK個の場合1/Kにすると 
棄却されない

• これを考慮した損失行列を与えれば棄却の基準を一般化可能

1.5.4 推論と決定
• これまでのクラス分類問題は2段階

• 事後確率を求める推論段階(inference stage)

• クラスを割り当てる決定段階(decision stage)

• 推論、決定を入力xから同時に行う 
識別関数(discriminant function)

• 決定問題を解く異なる3つのアプローチ

アプローチ(a)

• クラスの条件付き確率p(x|C )とp(C )を 
k

k

別々に求めることでp(Ck|x)を求める

• 同時確率p(x,C )を求めてから規格化することと等価

• 入出力を同時にモデル化→生成モデル(generative model)

• サンプリングにより人口データ点を生成可能
k

アプローチ(b)
• 直接事後確率p(C |x)をモデル化

• 識別モデル(判別モデル, discriminative
k

model)という

アプローチ(c)
• 識別関数という入力xから直接クラスラ
ベルに写像するf(x)を求める

• 識別関数(discriminative function)

• 確率は出てこない

アプローチ(a)の特徴
• xは高次元なのでp(x,C )を求めるのに多くの訓練集合が必要

• 事前確率p(C )はクラスに属するサンプルの比率で推定

• 同時確率を周辺化してp(x)を求めることで 
k

k

モデルの下で低い確率を取るデータ点を発見

• 外れ値検出(outliner detection)、新規性検出(novelty
detection)

• クラスを決定したいだけなら計算資源の無駄

アプローチ(b)の特徴
• 必要なものが事後確率ならばアプローチ(b)

• 実際にクラス条件付き分布は事後確率に 
あまり影響を及ぼさない

• 機械学習の分野では生成か識別かが議論される

事前分布

事後分布

アプローチ(c)の特徴
• f(x)を求めるだけの更に単純なアプローチ

• 緑の縦線を求めることに相当

• 事後確率に接近不可能

• 近づきたいでも近付けない

事後確率の良いところ(P.44)

• リスク最小化

• 棄却オプション(θの導入)

• クラス事前確率の補正

• モデルの結合

リスク最小化
• 損失行列が時間変化するような場合、
事後確率が分かっていれば上式を変更
するだけで済む

• 識別関数だと訓練し直す必要有

クラス事前確率の補正
• X線画像には癌画像は少ないので学習に使うと困難に当たる

• 正常分類器における自明な解は避けにくい

• 癌を汎化できない

• 事後確率は事前確率に比例するため事前確率で補正可能

• (訓練集合の事後確率) ×  
{(適用集合のクラス比率)/(訓練集合のクラス比率)}

• 識別関数ではこれは無理

モデルの結合
• X線画像x に加えて血液データx も使いたい

• 条件付き独立とみなして別々にモデルを立てる

• ナイーブベイズの例

• このモデルは同時分布が必ずしも分離できる訳ではない
I

xIとxBは条件付独立
xIとxBが得られた時の 
事後確率(要規格化)

B

1.5.5 回帰のための損失関数

• 曲線フィッティングのような 
回帰問題においても損失関数を導入

• 回帰問題の場合によく使われる損失
関数は最小二乗誤差

損失の最小化
• 平均損失を最小化することが目標

• 平均損失をy(x)に対する汎関数として変分法を適用し、 
y(x)について解く

• 条件付き期待値である回帰関数(regression function)を得る

変分法をどのように適用したのか？

• 二重積分の中身(tに関する積分)を(D.8)におけるGとみなす

• この場合Gはy’(x)の関数でないため(D.8)の左辺2項は0

• 結局dG/dy =d(tに関する積分)/dy= 0の解が 
汎関数E[L]に対する停留点を表す

• 間違っているかもしれない

異なる導出法
損失関数に代入してtで積分を取るとクロス項は消える

• E[L]の第一項にのみy(x)が入っており 
これが条件付き期待値に一致する時に最小

• 第二項はノイズでありこれ以上減らせない最小値

回帰問題におけるアプローチ
• (a)同時分布p(x,t)を求め、条件付き密度p(t|x)を求
め、最後に(1.89)の条件付き平均を求める

• (b)まず条件付き密度を推定する問題を解いてから
(1.89)を求める

• (c)回帰関数y(x)を直接データから計算

様々な損失関数
• 二乗誤差は最適とは限らない

• 一般化したミンコフスキー損失 
(Minkowski Loss)

1.6 情報理論
• 情報量h(x)

• 情報を得た時の驚きの度合いの尺度

• p(x)に依存(pが小さいと驚き大)

• 異なる事象を同時に観測した時の情報は 
和の形 h(x,y) = h(x) + h(y)

• この時独立なのでp(x,y)=p(x)p(y)

• 対数しかない！！！１１１(底は2, 単位はbit)

平均情報量エントロピー

• p(x)=0の時はlim

(p→0)p×log2(p)

= 0なので0

エントロピーの例
• 入力変数xに対し8個の状態を取る

• 等確率の時のエントロピー

• H[x] = - 8 × (1/8) log (1/8) = 3 [bit]

• 状態{a,b,c,d,e,f,g,h}に対する確率が
2

{1/2,1/4,1/8,1/16,1/64,1/64,1/64,1/64}の時

• H[x] = -(1/2)log (1/2) - (1/4)log (1/4) - (1/8)log (1/8)  
2

2

-(1/16)log2(1/16) - 4×(1/64)log2(1/64) 
=1/2 + 1/2 + 6/16 + 4/16 + 6/16 = 2 [bit]

2

通信における符号長
• 変数がどの状態にあるかを伝えることを考える

• 起こりやすい事象には短い符号長を割り当てると良い

• {a,b,c,d,e,f,g,h}に対し
{0,10,110,1110,111100,111101,111110,111111}を 
割り当てると平均符号長は 
(1/2)×1 + (1/4)×2 + (1/8)×3 + (1/16)×4 + 4×(1/64)×6 = 2 [bit]
となりエントロピーと一致

• これ以上細かい符号を使うと連続して送れない 
(ノイズ無し符号化定理; noiseless coding theorem)

自然対数による定義
• これ以降は他との整合性のために 
エントロピーの定義に自然対数を利用

• 単位はnat

• ln2だけ底が2の時と値が違う

統計力学的な見方
• N個の同じ物質が沢山の箱に分けられている状況

• i番目の箱にn 個の物体が存在

• 物体を箱に入れる場合の数(多重度; multiplicity)

i

!
!

N個の物体を並べる場合の数
i番目の箱においてni個の物体を並べる 
場合の数の箱iに対する総乗

• エントロピーは多重度の対数として定義

近似
• スターリングの近似式を使ってエントロピーを変形し、N→∞
の極限を取ると情報理論におけるエントロピーとみなせる

• 箱の中の特定の物体の状態はミクロ状態、 
ni/Nの比はマクロ状態、多重度Wはマクロ状態の重み

エントロピーの性質
• 箱を離散確率変数Xの状態x と解釈

i

• p(X=x )=p とするとエントロピーは

i

i

• 鋭いピークを持つ分布ではHは小さく広い分布の場合は大きい

• 0≦p ≦1よりHは非負

i

• どこかのiでpi=1となりi≠jでp =0となる分布で最小値を取る
j

最大のエントロピーを持つ確率分布

• Hの最大化によって求まる

• 確率の総和が1になる制約付き 
→ラグランジュの未定乗数法

!

• p(x )が1/M(等確率)になる時に最大

• この時H=lnM

• イェンセンの不等式からも導ける
i

停留点が実際に最大であることの確認

• エントロピーの2階微分

連続変数の分布への拡張
• xを等間隔の区間Δに分ける

• p(x)が連続であると仮定すれば平均値の
定理より

• i番目の区間に入る任意の値xに値x を割
i

り当てることによって量子化すると 
xiを観測する確率はp(xi)Δ

続き

• Σp(x )Δ=1が成り立つので離散分布のエ
i

ントロピーは上式

• 第二項を無視してΔ→0の極限を取ると
右辺が導かれる(微分エントロピー)

微分エントロピーと制約

制約付き最大化

• 結果はガウス分布となる

ガウス分布の微分エントロピー

条件付きエントロピー

• 同時分布のエントロピーは 
条件付きエントロピーと 
条件の分布のエントロピーの和となる

KLダイバージェンス

• KL情報量などとも言われる

KL情報量のサンプル平均による近似

PRML読書会#4資料+補足

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

PRML読書会#4資料+補足