Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

逐次ベイズ学習 - サンプリング近似法の場合 -

12.258 Aufrufe

Veröffentlicht am

第 5 回『トピックモデルによる統計的潜在意味解析』読書会での発表資料です。

スライド 41 ページの説明は誤っていると思われるので取り消します。

Veröffentlicht in: Technologie
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

逐次ベイズ学習 - サンプリング近似法の場合 -

  1. 1. 3.5 逐次ベイズ学習 -サンプリング近似法の場合- 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 2015/08/27
  2. 2. 自己紹介 名前 ◦ 内山 雄司 職業 ◦ エンジニア(プログラマ) アカウント ◦ ツイッター @y__uti ◦ ブログ http://y-uti.hatenablog.jp 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 2
  3. 3. 発表の構成 復習:周辺化ギブスサンプリング ◦ 周辺化ギブスサンプリング ◦ 逐次学習のイメージ 3.5.1 粒子フィルタ ◦ 粒子フィルタの概要 ◦ 逐次更新式の導出 ◦ リサンプリング 3.5.2 LDA の粒子フィルタ ◦ モデルの説明 ◦ 逐次更新式の導出 ◦ LDA のリサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 3
  4. 4. 復習:周辺化ギブスサンプリング 教科書 57 ページの図 3.2 (右側) 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 4
  5. 5. 周辺化ギブスサンプリング ◦ 入力 = 文書の集合 (コーパス) ◦ パラメータ α, β の初期化 ◦ 適当に決めて固定する ◦ パラメータ更新は教科書 3.6 節で 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 5 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。
  6. 6. 周辺化ギブスサンプリング ◦ トピックの割り当ての初期化 ◦ ランダムに割り当てる ◦ トピック数は事前に決めておく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 6 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。
  7. 7. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 7 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 3 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 nd,k nk,v
  8. 8. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 8 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 zd,i
  9. 9. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 9 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 nd,k d,i nk,v d,i 式 (3.38) の確率で zd,i を決め直す zd,i
  10. 10. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 10 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i
  11. 11. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 11 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 0 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i
  12. 12. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 12 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 0 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i 以下省略
  13. 13. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 13 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 1 3 4 3 0 2 1 2 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 2 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0 2 0 0 1 1 1 1 0 1 0 1 2 1 0 0 0 0 zd,i
  14. 14. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 14 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 1 3 4 3 0 2 1 2 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 2 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0 2 0 0 1 1 1 1 0 1 0 1 2 1 0 0 0 0 zd,i これで s のループ一回分
  15. 15. 周辺化ギブスサンプリング 一括 (バッチ) 学習 ◦ 最初に全文書を読み込む ◦ 学習中は全文書の情報を保持する ◦ 最後にまとめて全文書のトピック分布が得られる ⇔ 逐次学習 ◦ 一文書ずつ順番に読み込まれる ◦ その文書のトピック分布を学習する ◦ 学習が終わったら文書は捨てる ◦ 統計量のみを保持する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 15
  16. 16. 逐次学習のイメージ 文書を一つずつ読み込んで学習 ◦ これまでの学習で蓄積された nk,v を保持 ◦ 文書そのものは学習が済んだら捨ててしまう 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 16 。 ある うち で なり の は も 我輩 晴天 猫 本日 18 30 4 74 20 80 93 28 7 0 28 0 25 2 9 60 0 101 80 58 1 9 0 18 20 3 0 48 3 20 74 31 0 2 4 2 nk,v
  17. 17. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 17 。 ある うち で なり の は も 我輩 晴天 猫 本日 18 30 4 74 20 80 93 28 7 0 28 0 25 2 9 60 0 101 80 58 1 9 0 18 20 3 0 48 3 20 74 31 0 2 4 2 も 桃 も 桃 の うち 。すもも 0 0 0 zd,i
  18. 18. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 18 桃 も 桃 の うち 。すもも も 0 1 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 18 30 4 74 20 80 93 28 7 0 28 0 0 25 2 9 60 0 101 80 58 1 9 0 18 1 20 3 0 48 3 20 74 31 0 2 4 2 0
  19. 19. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 19 も 桃 の うち 。すもも も 桃 0 2 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 18 30 4 74 20 80 93 28 7 0 28 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 20 3 0 48 3 20 74 31 0 2 4 2 0
  20. 20. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 20 桃 の うち 。すもも も 桃 も 0 3 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 1 20 3 0 48 3 20 74 31 0 2 4 2 0 0
  21. 21. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 21 の うち 。すもも も 桃 も 桃 0 3 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 1 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  22. 22. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 22 うち 。すもも も 桃 も 桃 の 0 4 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  23. 23. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 23 。すもも も 桃 も 桃 の うち 1 4 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  24. 24. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 24 すもも も 桃 も 桃 の うち 。 1 5 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  25. 25. 逐次学習のイメージ 学習結果が得られる ◦ 学習が終われば文書をそれ以上保持する必要はない 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 25 すもも も 桃 も 桃 の うち 。 1 6 1 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 26 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  26. 26. 逐次学習のイメージ こんな安直な方法でまともに学習できるのか? ◦ できない ◦ では、どうすればよいか? = 今日の話 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 26 すもも も 桃 も 桃 の うち 。 1 6 1 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 26 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  27. 27. 3.5.1 粒子フィルタ 教科書 100 ~ 105 ページ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 27
  28. 28. 粒子フィルタとは? 動的システムにおいて潜在変数を逐次的にサンプリングする手法 動的システムのモデル例(状態空間モデル or 隠れマルコフモデル) 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 28 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt) ◦ x1:t を観測したもとで潜在変数 z1:t ~ p(z1:t|x1:t) をサンプリングしたい 図 3.7 (a) より
  29. 29. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ 時刻 t-1 で事後分布 p(z1:t-1|x1:t-1) からサンプルが得られているとする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 29 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  30. 30. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ zt ~ p(zt|zt-1) により時刻 t での事前分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 30 zt zt+1 xtxt-1 xt+1 zt-1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  31. 31. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ p(xt|zt) で重み付けして時刻 t での事後分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 31 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  32. 32. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ zt+1 ~ p(zt+1|zt) により時刻 t+1 での事前分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 32 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt) ◦ 以下繰り返し
  33. 33. 重点サンプリング 積分計算が困難な確率分布 p(x) からのサンプリング手法 ◦ サンプリングが容易な提案分布 q(x) から x ~ q(x) をサンプリング ◦ 得られたサンプル x を w(x) = p(x) / q(x) で重み付け 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 33 p(x) q(x) q(x) からのサンプルでは少ない ⇒ w(x) = p(x)/q(x) > 1 で調整 q(x) からのサンプルが多い ⇒ w(x) = p(x)/q(x) < 1 で調整
  34. 34. 逐次更新式の導出 時刻 t での事後分布 p(z1:t|x1:t) が次式で近似されているとする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 34 ◦ ただし 式 (3.161), 式 (3.162) より 式 (3.162) より
  35. 35. 逐次更新式の導出 時刻 t+1 での潜在変数 zt+1 の事前分布を近似する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 35 式 (3.165) より
  36. 36. 逐次更新式の導出 提案分布を次式のようにおく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 36 ◦ 次式を仮定したことに相当する ◦ 確率の乗法の定理からは次式が成り立つので 式 (3.167) より 103 ページ本文より 103 ページ本文より
  37. 37. 逐次更新式の導出 時刻 t+1 での事後分布 p(z1:t+1|x1:t+1) を次式で近似したい 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 37 ◦ ただし 式 (3.161), 式 (3.162) より; 時刻を t+1 に進めたもの
  38. 38. 逐次更新式の導出 重みの更新式の計算 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 38 ◦ ここで分母を次式のようにおけば ◦ 重みの更新式は次式のように簡単な形で求められる 式 (3.168) より 式 (3.169) より 103 ページ本文より
  39. 39. リサンプリング 時刻 t が進むにつれて一部の粒子に重みが集中する ◦ 有限の S 個の粒子で p(z1:t|x1:t) をうまく近似できなくなってくる 重みが集中したら ω(z1:t) の確率で S 個の粒子をサンプリングする ◦ イメージ:重い粒子を分割することで各粒子の重みを 1/S に揃える Effective Sample Size (ESS) : 重みの集中の度合い 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 39 (s) ◦ 適当な閾値を定めて ESS が閾値を下回ったらリサンプリングする 式 (3.170) より
  40. 40. 3.5.2 LDA の粒子フィルタ 教科書 105 ~ 110 ページ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 40
  41. 41. 粒子フィルタのための文書モデル 文書の集合を隠れマルコフモデルと仮定する ◦ トピック = 潜在変数 ◦ 単語 = 観測データ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 41 w1,1 我輩 z1,1 z1,2 z1,3 w1,2 は w1,3 猫 w1,4 で w1,5 ある w1,6 。 w2,1 本日 w2,2 は z1,4 z1,5 z1,6 z2,1 z2,2 z(1,4), w(1,4) z(2,2), w(2,2) 図 3.9 + 図 3.7 (a) に対応 このスライドは恐らくいろいろと間違っています
  42. 42. LDA の逐次更新式 次式よりトピック zd,i を S 個サンプリングする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 42 ◦ LDA では wd,i = v 観測後の分布(事後分布)からサンプリング可能 式 (3.172) より; 56 ページの式 (3.38) と比較
  43. 43. LDA の逐次更新式 重みの更新 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 43 式 (3.175), 式 (3.176) より zd,i のサンプリングのために式 (3.172) で計算済み
  44. 44. トピック分布 重み付きサンプルでトピック分布を近似する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 44 式 (3.177) より
  45. 45. LDA のリサンプリング "Rejuvenates old topic assignments in light of new data" ◦ 過去の観測列から R 個の wl,m を選ぶ ◦ トピック zl,m を次式でリサンプリングする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 45 文献 15) Canini et al., (2009) より 式 (3.179) より; 56 ページの式 (3.38) と比較 ◦ 過去の観測列に対して少しだけギブスサンプリングするイメージ
  46. 46. 近似精度と実行速度 LDA の粒子フィルタの超パラメータ ◦ S 粒子数 ◦ R 活性化サンプル数 値が大きいほど ◦ 近似精度 高 ◦ 実行時間 大 ◦ 1 単語あたりの計算量は O(SR) R 個の活性化サンプルをどの範囲からサンプリングするか ◦ 範囲が広いほどメモリ使用量が増える 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 46

×