Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
devianceと尤度比検定
1
2
一般化線形モデルをマスターしよう
予測と確率分布
尤度と最尤法
一般化線形モデル基礎
devianceと尤度比検定
一般化線形モデル色々
是非!!
ゼロ切断・過剰モデル、 一般化線形混合モデル
3
検定 やります
尤度比検定
4
今回やること
1.正規線形モデルの復習
• GLMにおける正規線形モデル
• 最小二乗法と最尤法
• 分散分析の復習
2.GLMで分散分析
• GLMにおける残差→deviance
• t検定とWald検定
• F比と尤度比
3.AICの導出
5
今回やること
1.正規線形モデルの復習
• GLMにおける正規線形モデル
• 最小二乗法と最尤法
• 分散分析の復習
6
GLMの構成要素
1.線形予測子
2.リンク関数
3.誤差構造
𝑌 = 𝑎𝑋 + 𝑏のような方程式
log 𝑌 = 𝑎𝑋 + 𝑏のような変換
正規・ポアソン分布のような確率分布
7
復習
正規線形モデルとは?
線形予測子=任意
リンク関数=そのまま(identity)
誤差構造=正規分布(gaussian)
であるGLMのこと
8
正規線形モデルとは
「期待値Yの正規分布」に従う結果の変動のモデル化
線形予測子
𝑌 = 𝑎𝑋 + 𝑏
例)
ビールの売り上げ=a×気温+b
ビールの売り上げ=a×晴れ+b
→晴れなら1、雨なら0
9
正規線形モデルのパラメタの計算方法
例)
ビールの売り上げ=a×気温+b
(Data-予測された期待値)
2
を最小化するa,bを計算
最小二乗法
この時の結果は最尤法の結果と一致する
(証明略)
10
正規線形モデルな最尤法
最小二乗法
(Data-予測された期待値)
2
を最小化
「正規分布を仮定できるなら」
最小二乗法の推定結果は最尤法の結果と一致する
(証明略)
正規分布が仮定できない時、どうなる?
11
正規線形モデルな予測残差
同じ距離だけ離れてる
→同じ残差
→同じ「はずれ度合」
予測された期待値
に対して左右対称
12
正規分布じゃない時
予測された期待値
に対して左右非対称
よくあるズレ
滅多にないズレ
→ずれが大きい
→予測された期待値より実際が大きくなることはよくある
→小さくなることはめったにない
正規線形モデルな最尤法
最小二乗法
(Data-予測された期待値)
2
を最小化
これが使えるのは正規分布の時だけ
もっと残差を一般化したい
deviance(尤離度・逸脱度)
→devianceは「残差」ではないが、少しいじれば残差っぽくなる
14
deviance
……その前に、
予測残差を使って検定する方法の復習
15
正規線形モデル
正規分布の期待値をidentityな線形予測子で表す
ある変数により予測値が有意に変わるかを検定
予測値の変化が大きい
予測値が比較に使える(予測残差小)
サンプルサイズが大きい
ナイーブ予測との比較ともみなせる
正規線形...
16
ナイーブ予測との比較
コイツがナイーブ予測!
17
=
ナイーブ予測の予測残差 ー 予測値変化モデルの残差
予測値変化モデルの予測残差の大きさ
F比
正規線形モデル
正規分布の期待値をidentityな線形予測子で表す
ある変数により予測値が有意に変わるかを検定
正規線形モデルにおける検定...
18
① 絶対に予測誤差がナイーブ予測と有意に
異ならないとわかっているデータをたくさん集める
F比が12.79を超えた回数が、100回中5回以内だった
→偶然でt値が12.79を超える確率は小さい
→有意差あり
② そのデータのF比を計算する...
19
F比の大小の判別方法(F比が12.79の時)
100回中、F比が12.79を超えた回数を算出
=
12.79を超えた回数
100
p値
p値≦0.05なら有意とみなす
=偶然で今回計算された
統計量( F比)を超える確率
20
今回やること
2.GLMで分散分析
• GLMにおける残差→deviance
• t検定とWald検定
• F比と尤度比
21
deviance
一般化線形モデルにおける
「予測残差の平方和」のようなもの
22
残差平方和
残差
=「データをカンペキに予測できた時」との差のこと
23
線形な予測・カンペキな予測
線形な予測
カンペキな予測
24
線形な予測・カンペキな予測
カンペキな予測
データをカンペキに予測できたら、残差は0になる
残差
=「データをカンペキに予測できた時」との差
25
残差平方和
残差
=「データをカンペキに予測できた時」との差のこと
尤度を使って、これを表す
26
ポアソン回帰
データが4セットあります(サンプルサイズ4)
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
カンペキな「予測された期待値 λ」
= 5, 7, 10, 15
27
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
カンペキパラメタλは5だ!
データ 「5」 が出る確率は?
𝑒−5
55
5!
≒ 0.18
λ=5
y=5
Y : 5, 7, 10, 15
28
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
カンペキパラメタλは7だ!
データ 「7」 が出る確率は?
𝑒−7
77
7!
≒ 0.15
λ=7
y=7
Y : 5, 7, 10, 15
29
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
対数尤度
≒ log(0.18 × 0.15 × 0.12 × 0.10)
≒ -8.006734
線形モデルの最大化対数尤度
カンペキ予測のカンペキ対数尤度
対数尤度
≒ log(0.18 × 0.1...
30
カンペキ予測のカンペキ対数尤度
線形モデルの最大化対数尤度
-8.001173
-8.006734
Deviance
(Residual)Deviance
=2×{-8.001173ー(-8.006734)}
=0.01112324
31
deviance(残差平方和の代わり)
カンペキ予測のカンペキ対数尤度
線形モデルの最大化対数尤度
差をとって2倍する
→2倍するのは尤度比検定の都合上
まとめ 質問どうぞ!
Residual.devianceと呼ぶことも
devianc...
32
deviance残差
≒ log 0.18 + log 0.15 + log 0.12 + log(0.10)
線形モデルの最大化対数尤度
カンペキ予測のカンペキ対数尤度
≒ log 0.18 + log 0.15 + log 0.13 ...
33
≒ log 0.18 + log 0.15 + log 0.12 + log(0.10)
線形モデルの最大化対数尤度
カンペキ予測のカンペキ対数尤度
≒ log 0.18 + log 0.15 + log 0.13 + log(0.10)...
34
deviance残差
=各々差をとって、2倍して、平方根をとったもの
正負は予測された期待値と実データとの差を見て判断
→deviance残差を2乗して合計するとdevianceになる
→devianceを「残差平方和」とみなした時の残差...
35
検定 やります
Wald検定(適当に…)
尤度比検定
Wald検定
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.2144 0.4870 2.493 0.0127 *
x 0.3704 0.1556 2.380 0...
37
尤度比検定
尤度比検定
deviance(ナイーブ) ー deviance(線形モデル)
→この値が大きければ
「有意に」予測残差が減ったとみなせる
マイナス
38
一般化線形モデル
確率分布のパラメタ(期待値など)を
リンク関数で変換した線形予測子で表す
ある変数により予測値が有意に変わるかを検定
一般化線形モデルにおける分散分析
devianceの変化が大きいかどうかを見る
(devianceの差...
39
尤度比検定
Type II ANOVAを理解しよう
40
モデル|Y ~ X1 + X2 + Option1 + Option2
予測残差は“有意に”増えたか? を検定
Type II ANOVA
モデル|Y ~ + X2 + Option1 + Option2
X1を抜くことによって「有意に」...
41
モデル|Y ~ X1 + X2 + Option1 + Option2
予測残差は“有意に”増えたか? を検定
Type II ANOVA
モデル|Y ~ X1 + + Option1 + Option2
モデル|Y ~ X1 + X2 ...
42
普通のANOVA、Type II ANOVA
モデル|Y ~ X1
ナイーブ予測(Null.Model)
普通のANOVA
Type II ANOVA
モデル|Y ~ X1 + X2 + Option1 + Option2
モデル|Y ~...
43
GLMなType II ANOVA
Type II ANOVA
モデル|Y ~ X1 + X2 + Option1 + Option2
モデル|Y ~ + X2 + Option1 + Option2
変数を減らすと予測残差は“有意に”増...
44
モデル|Y ~ X1 + X2 + Option1 + Option2
devianceは“有意に”増えたか? を検定
Type II ANOVA
モデル|Y ~ + X2 + Option1 + Option2
X1を抜くことによって「...
45
尤度比検定あれこれ
deviance
= 2×(カンペキ対数尤度 - 最大化対数尤度)
二つのモデルの比較( ②の方が複雑なモデル)
deviance① ー deviance②
=2×「カンペキ対数尤度 - 最大化対数尤度①」
- 2× ...
46
尤度比検定あれこれ
2×(最大化対数尤度② - 最大化対数尤度① )
devianceの差
=最大化対数尤度の差の2倍
=尤度の比をとってから対数をとってから2倍
=2× log 尤度② − log 尤度①
=2×log
尤度②
尤度①
...
47
実演
48
AICの復習
AICはどのように計算され、どのような意味を持つか
49
AICとは
未知のデータへの予測誤差が
小さくなるモデルが良いモデル
AIC
50
予測 とは何か?
統計モデルにおける
確率分布を予測すること
51
AICとは
未知のデータへの予測誤差が
小さくなるモデルが良いモデル
AIC
カルバック・ライブラー情報量
(KL情報量・相対エントロピー)
52
未知のデータへの予測のズレは
カルバック・ライブラー情報量で表せる
カルバック・ライブラー情報量
(やや適当な説明ですが)
「log(真の確率分布)ーlog(予測された確率分布)」の期待値
→ずれの大きさの期待値だと思ってください
53
ln 𝑔 𝑦 − ln 𝑓 𝑦
+∞
−∞
𝑔 𝑦 𝑑𝑦
注意! 別にわからなくてもいいです
真の
確率密度関数
予測された
確率密度関数
確率をかけてから積分(合計)している
→期待値!
54
カルバック・ライブラー情報量
確率
確率
ずれが大きい
→KL情報量大
ずれが小さい
→KL情報量小
正しい確率分布
正しい確率分布
推定分布
こっちの方がよい
55
未知のデータへの予測のズレは
カルバック・ライブラー情報量で表せる
カルバック・ライブラー情報量
こいつが小さくなるように最適化すればよい
56
注意! 別にわからなくてもいいです
= ln 𝑔 𝑦
+∞
−∞
𝑔 𝑦 𝑑𝑦 − ln 𝑓 𝑦 𝑔 𝑦 𝑑𝑦
+∞
−∞
f(y)が入ってない
→予測された確率分布関係なし!
こいつだけ使う
→こいつが大きければ
KL情報量は小さくなる...
57
ln 𝑓 𝑦 𝑔 𝑦 𝑑𝑦
+∞
−∞
注意! 別にわからなくてもいいです
コイツ→
を大きくしたい
予測された
確率密度関数
確率をかけてから積分(合計)している!
「データが得られる確率の対数」の期待値をとっている
対数尤度の期待値=...
58
未知のデータへの予測のズレは
カルバック・ライブラー情報量で表せる
AICへの道のり
こいつが小さくなるように最適化すればよい
「平均対数尤度」が最大になればいい
「対数尤度」が最大になればいい?
59
AIC
= 最大化対数尤度……?
データから得られた最大化対数尤度と
平均対数尤度はズレていて、偏りがある
この偏りは、もっとも単純には
「パラメタ数」で近似できる(証明略)
60
AIC
-2×(最大化対数尤度-パラメタ数)
本来なら、これが大きければ
予測のズレは小さいとみなせる
コイツで、バイアスを排除する
歴史的な理由(尤度比検定に合わせた)
61
AIC
-2×(最大化対数尤度-パラメタ数)
バイアスを排除した、予測のズレの大きさの指標
まとめ
数式は分からなくていいですが、
AICは「予測のズレ」を最小化する規準だということは
覚えておいてください
質問どうぞ!
Nächste SlideShare
Wird geladen in …5
×

von

2 4.devianceと尤度比検定 Slide 1 2 4.devianceと尤度比検定 Slide 2 2 4.devianceと尤度比検定 Slide 3 2 4.devianceと尤度比検定 Slide 4 2 4.devianceと尤度比検定 Slide 5 2 4.devianceと尤度比検定 Slide 6 2 4.devianceと尤度比検定 Slide 7 2 4.devianceと尤度比検定 Slide 8 2 4.devianceと尤度比検定 Slide 9 2 4.devianceと尤度比検定 Slide 10 2 4.devianceと尤度比検定 Slide 11 2 4.devianceと尤度比検定 Slide 12 2 4.devianceと尤度比検定 Slide 13 2 4.devianceと尤度比検定 Slide 14 2 4.devianceと尤度比検定 Slide 15 2 4.devianceと尤度比検定 Slide 16 2 4.devianceと尤度比検定 Slide 17 2 4.devianceと尤度比検定 Slide 18 2 4.devianceと尤度比検定 Slide 19 2 4.devianceと尤度比検定 Slide 20 2 4.devianceと尤度比検定 Slide 21 2 4.devianceと尤度比検定 Slide 22 2 4.devianceと尤度比検定 Slide 23 2 4.devianceと尤度比検定 Slide 24 2 4.devianceと尤度比検定 Slide 25 2 4.devianceと尤度比検定 Slide 26 2 4.devianceと尤度比検定 Slide 27 2 4.devianceと尤度比検定 Slide 28 2 4.devianceと尤度比検定 Slide 29 2 4.devianceと尤度比検定 Slide 30 2 4.devianceと尤度比検定 Slide 31 2 4.devianceと尤度比検定 Slide 32 2 4.devianceと尤度比検定 Slide 33 2 4.devianceと尤度比検定 Slide 34 2 4.devianceと尤度比検定 Slide 35 2 4.devianceと尤度比検定 Slide 36 2 4.devianceと尤度比検定 Slide 37 2 4.devianceと尤度比検定 Slide 38 2 4.devianceと尤度比検定 Slide 39 2 4.devianceと尤度比検定 Slide 40 2 4.devianceと尤度比検定 Slide 41 2 4.devianceと尤度比検定 Slide 42 2 4.devianceと尤度比検定 Slide 43 2 4.devianceと尤度比検定 Slide 44 2 4.devianceと尤度比検定 Slide 45 2 4.devianceと尤度比検定 Slide 46 2 4.devianceと尤度比検定 Slide 47 2 4.devianceと尤度比検定 Slide 48 2 4.devianceと尤度比検定 Slide 49 2 4.devianceと尤度比検定 Slide 50 2 4.devianceと尤度比検定 Slide 51 2 4.devianceと尤度比検定 Slide 52 2 4.devianceと尤度比検定 Slide 53 2 4.devianceと尤度比検定 Slide 54 2 4.devianceと尤度比検定 Slide 55 2 4.devianceと尤度比検定 Slide 56 2 4.devianceと尤度比検定 Slide 57 2 4.devianceと尤度比検定 Slide 58 2 4.devianceと尤度比検定 Slide 59 2 4.devianceと尤度比検定 Slide 60 2 4.devianceと尤度比検定 Slide 61
Nächste SlideShare
2 1.予測と確率分布
Weiter

48 Gefällt mir

Teilen

2 4.devianceと尤度比検定

2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。

2日目
2-4.devianceと尤度比検定
正規分布以外の確率分布では残差の考え方が変わってきます。そこでdevianceという概念を導入したうえで、GLMにおいて分散分析を実行する方法を解説します。

サイト作ってます
http://logics-of-blue.com/

Ähnliche Bücher

Kostenlos mit einer 30-tägigen Testversion von Scribd

Alle anzeigen

Ähnliche Hörbücher

Kostenlos mit einer 30-tägigen Testversion von Scribd

Alle anzeigen

2 4.devianceと尤度比検定

  1. 1. devianceと尤度比検定 1
  2. 2. 2 一般化線形モデルをマスターしよう 予測と確率分布 尤度と最尤法 一般化線形モデル基礎 devianceと尤度比検定 一般化線形モデル色々 是非!! ゼロ切断・過剰モデル、 一般化線形混合モデル
  3. 3. 3 検定 やります 尤度比検定
  4. 4. 4 今回やること 1.正規線形モデルの復習 • GLMにおける正規線形モデル • 最小二乗法と最尤法 • 分散分析の復習 2.GLMで分散分析 • GLMにおける残差→deviance • t検定とWald検定 • F比と尤度比 3.AICの導出
  5. 5. 5 今回やること 1.正規線形モデルの復習 • GLMにおける正規線形モデル • 最小二乗法と最尤法 • 分散分析の復習
  6. 6. 6 GLMの構成要素 1.線形予測子 2.リンク関数 3.誤差構造 𝑌 = 𝑎𝑋 + 𝑏のような方程式 log 𝑌 = 𝑎𝑋 + 𝑏のような変換 正規・ポアソン分布のような確率分布
  7. 7. 7 復習 正規線形モデルとは? 線形予測子=任意 リンク関数=そのまま(identity) 誤差構造=正規分布(gaussian) であるGLMのこと
  8. 8. 8 正規線形モデルとは 「期待値Yの正規分布」に従う結果の変動のモデル化 線形予測子 𝑌 = 𝑎𝑋 + 𝑏 例) ビールの売り上げ=a×気温+b ビールの売り上げ=a×晴れ+b →晴れなら1、雨なら0
  9. 9. 9 正規線形モデルのパラメタの計算方法 例) ビールの売り上げ=a×気温+b (Data-予測された期待値) 2 を最小化するa,bを計算 最小二乗法 この時の結果は最尤法の結果と一致する (証明略)
  10. 10. 10 正規線形モデルな最尤法 最小二乗法 (Data-予測された期待値) 2 を最小化 「正規分布を仮定できるなら」 最小二乗法の推定結果は最尤法の結果と一致する (証明略) 正規分布が仮定できない時、どうなる?
  11. 11. 11 正規線形モデルな予測残差 同じ距離だけ離れてる →同じ残差 →同じ「はずれ度合」 予測された期待値 に対して左右対称
  12. 12. 12 正規分布じゃない時 予測された期待値 に対して左右非対称 よくあるズレ 滅多にないズレ →ずれが大きい →予測された期待値より実際が大きくなることはよくある →小さくなることはめったにない
  13. 13. 正規線形モデルな最尤法 最小二乗法 (Data-予測された期待値) 2 を最小化 これが使えるのは正規分布の時だけ もっと残差を一般化したい deviance(尤離度・逸脱度) →devianceは「残差」ではないが、少しいじれば残差っぽくなる
  14. 14. 14 deviance ……その前に、 予測残差を使って検定する方法の復習
  15. 15. 15 正規線形モデル 正規分布の期待値をidentityな線形予測子で表す ある変数により予測値が有意に変わるかを検定 予測値の変化が大きい 予測値が比較に使える(予測残差小) サンプルサイズが大きい ナイーブ予測との比較ともみなせる 正規線形モデルにおける検定
  16. 16. 16 ナイーブ予測との比較 コイツがナイーブ予測!
  17. 17. 17 = ナイーブ予測の予測残差 ー 予測値変化モデルの残差 予測値変化モデルの予測残差の大きさ F比 正規線形モデル 正規分布の期待値をidentityな線形予測子で表す ある変数により予測値が有意に変わるかを検定 正規線形モデルにおける検定 =ナイーブ予測と比べてどれだけ予測残差が減ったか 分散分析とは「予測残差の比較」である
  18. 18. 18 ① 絶対に予測誤差がナイーブ予測と有意に 異ならないとわかっているデータをたくさん集める F比が12.79を超えた回数が、100回中5回以内だった →偶然でt値が12.79を超える確率は小さい →有意差あり ② そのデータのF比を計算する ③ 0とは有意に異ならないデータにおける F比を例えば100回計算する。 ④ 100回中、F比が12.79を超えた回数を記録 F比の大小の判別方法(F比が12.79の時)
  19. 19. 19 F比の大小の判別方法(F比が12.79の時) 100回中、F比が12.79を超えた回数を算出 = 12.79を超えた回数 100 p値 p値≦0.05なら有意とみなす =偶然で今回計算された 統計量( F比)を超える確率
  20. 20. 20 今回やること 2.GLMで分散分析 • GLMにおける残差→deviance • t検定とWald検定 • F比と尤度比
  21. 21. 21 deviance 一般化線形モデルにおける 「予測残差の平方和」のようなもの
  22. 22. 22 残差平方和 残差 =「データをカンペキに予測できた時」との差のこと
  23. 23. 23 線形な予測・カンペキな予測 線形な予測 カンペキな予測
  24. 24. 24 線形な予測・カンペキな予測 カンペキな予測 データをカンペキに予測できたら、残差は0になる 残差 =「データをカンペキに予測できた時」との差
  25. 25. 25 残差平方和 残差 =「データをカンペキに予測できた時」との差のこと 尤度を使って、これを表す
  26. 26. 26 ポアソン回帰 データが4セットあります(サンプルサイズ4) Y : 5, 7, 10, 15 X : 1, 2, 3, 4 カンペキな「予測された期待値 λ」 = 5, 7, 10, 15
  27. 27. 27 ポアソン回帰 𝑒−𝜆 𝜆 𝑦 𝑦! カンペキパラメタλは5だ! データ 「5」 が出る確率は? 𝑒−5 55 5! ≒ 0.18 λ=5 y=5 Y : 5, 7, 10, 15
  28. 28. 28 ポアソン回帰 𝑒−𝜆 𝜆 𝑦 𝑦! カンペキパラメタλは7だ! データ 「7」 が出る確率は? 𝑒−7 77 7! ≒ 0.15 λ=7 y=7 Y : 5, 7, 10, 15
  29. 29. 29 ポアソン回帰 𝑒−𝜆 𝜆 𝑦 𝑦! 対数尤度 ≒ log(0.18 × 0.15 × 0.12 × 0.10) ≒ -8.006734 線形モデルの最大化対数尤度 カンペキ予測のカンペキ対数尤度 対数尤度 ≒ log(0.18 × 0.15 × 0.13 × 0.10) ≒ -8.001173 完璧予測の方が大きい この差分が大事 Y : 5, 7, 10, 15
  30. 30. 30 カンペキ予測のカンペキ対数尤度 線形モデルの最大化対数尤度 -8.001173 -8.006734 Deviance (Residual)Deviance =2×{-8.001173ー(-8.006734)} =0.01112324
  31. 31. 31 deviance(残差平方和の代わり) カンペキ予測のカンペキ対数尤度 線形モデルの最大化対数尤度 差をとって2倍する →2倍するのは尤度比検定の都合上 まとめ 質問どうぞ! Residual.devianceと呼ぶことも deviance=最大化対数尤度×(-2)とする本もある Rのdeviance()関数で計算されるのはこれ
  32. 32. 32 deviance残差 ≒ log 0.18 + log 0.15 + log 0.12 + log(0.10) 線形モデルの最大化対数尤度 カンペキ予測のカンペキ対数尤度 ≒ log 0.18 + log 0.15 + log 0.13 + log(0.10) つねに「カンペキ対数尤度」の方が大きい →このままだと、残差は常に正になってしまう 差
  33. 33. 33 ≒ log 0.18 + log 0.15 + log 0.12 + log(0.10) 線形モデルの最大化対数尤度 カンペキ予測のカンペキ対数尤度 ≒ log 0.18 + log 0.15 + log 0.13 + log(0.10) 予測より 小さかった 予測より 大きかった 予測された期待値 λ 過少予測なら +の残差 過大に予測していれば ーの残差
  34. 34. 34 deviance残差 =各々差をとって、2倍して、平方根をとったもの 正負は予測された期待値と実データとの差を見て判断 →deviance残差を2乗して合計するとdevianceになる →devianceを「残差平方和」とみなした時の残差 →GLMにおける残差といれば普通これ ≒ log 0.18 + log 0.15 + log 0.12 + log(0.10) 線形モデルの最大化対数尤度 カンペキ予測のカンペキ対数尤度 ≒ log 0.18 + log 0.15 + log 0.13 + log(0.10) 予測より 小さかった 予測より 大きかった 質問どうぞ!
  35. 35. 35 検定 やります Wald検定(適当に…) 尤度比検定
  36. 36. Wald検定 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2144 0.4870 2.493 0.0127 * x 0.3704 0.1556 2.380 0.0173 * --- summary(glm.model)の結果 コレのこと 今までt検定で「パラメタが0かどうか」検定してきた GLMではWald検定を使う →パラメタが正規分布していることを利用 →検定の意味付けはt検定とほとんど同じなので省略
  37. 37. 37 尤度比検定 尤度比検定 deviance(ナイーブ) ー deviance(線形モデル) →この値が大きければ 「有意に」予測残差が減ったとみなせる マイナス
  38. 38. 38 一般化線形モデル 確率分布のパラメタ(期待値など)を リンク関数で変換した線形予測子で表す ある変数により予測値が有意に変わるかを検定 一般化線形モデルにおける分散分析 devianceの変化が大きいかどうかを見る (devianceの差は𝝌 𝟐分布という名の確率分布に従うので p値も簡単に出せる。ただし、サンプルサイズが大きい時のみ。 もちろんパラメトリックブートストラップ検定でもOK) 質問どうぞ!
  39. 39. 39 尤度比検定 Type II ANOVAを理解しよう
  40. 40. 40 モデル|Y ~ X1 + X2 + Option1 + Option2 予測残差は“有意に”増えたか? を検定 Type II ANOVA モデル|Y ~ + X2 + Option1 + Option2 X1を抜くことによって「有意に」予測残差が増えた →X1はYを予測するモデルに必要不可欠な存在である →ほかの変数(Option1等)があったとしても、 それでもX1という変数が必要なのかどうか検定
  41. 41. 41 モデル|Y ~ X1 + X2 + Option1 + Option2 予測残差は“有意に”増えたか? を検定 Type II ANOVA モデル|Y ~ X1 + + Option1 + Option2 モデル|Y ~ X1 + X2 + + Option2 モデル|Y ~ X1 + X2 + Option1 + モデル|Y ~ + X2 + Option1 + Option2
  42. 42. 42 普通のANOVA、Type II ANOVA モデル|Y ~ X1 ナイーブ予測(Null.Model) 普通のANOVA Type II ANOVA モデル|Y ~ X1 + X2 + Option1 + Option2 モデル|Y ~ + X2 + Option1 + Option2 変数を増やすと予測残差は“有意に”減ったか? 変数を減らすと予測残差は“有意に”増えたか?
  43. 43. 43 GLMなType II ANOVA Type II ANOVA モデル|Y ~ X1 + X2 + Option1 + Option2 モデル|Y ~ + X2 + Option1 + Option2 変数を減らすと予測残差は“有意に”増えたか? 残差をdevianceに置き換える
  44. 44. 44 モデル|Y ~ X1 + X2 + Option1 + Option2 devianceは“有意に”増えたか? を検定 Type II ANOVA モデル|Y ~ + X2 + Option1 + Option2 X1を抜くことによって「有意に」 devianceが増えた →X1はYを予測するモデルに必要不可欠な存在である →ほかの変数(Option1等)があったとしても、 それでもX1という変数が必要なのかどうか検定 質問どうぞ!
  45. 45. 45 尤度比検定あれこれ deviance = 2×(カンペキ対数尤度 - 最大化対数尤度) 二つのモデルの比較( ②の方が複雑なモデル) deviance① ー deviance② =2×「カンペキ対数尤度 - 最大化対数尤度①」 - 2× 「カンペキ対数尤度 - 最大化対数尤度② 」 =2×(最大化対数尤度② - 最大化対数尤度① ) devianceの差=最大化対数尤度の差の2倍
  46. 46. 46 尤度比検定あれこれ 2×(最大化対数尤度② - 最大化対数尤度① ) devianceの差 =最大化対数尤度の差の2倍 =尤度の比をとってから対数をとってから2倍 =2× log 尤度② − log 尤度① =2×log 尤度② 尤度① 質問どうぞ!
  47. 47. 47 実演
  48. 48. 48 AICの復習 AICはどのように計算され、どのような意味を持つか
  49. 49. 49 AICとは 未知のデータへの予測誤差が 小さくなるモデルが良いモデル AIC
  50. 50. 50 予測 とは何か? 統計モデルにおける 確率分布を予測すること
  51. 51. 51 AICとは 未知のデータへの予測誤差が 小さくなるモデルが良いモデル AIC カルバック・ライブラー情報量 (KL情報量・相対エントロピー)
  52. 52. 52 未知のデータへの予測のズレは カルバック・ライブラー情報量で表せる カルバック・ライブラー情報量 (やや適当な説明ですが) 「log(真の確率分布)ーlog(予測された確率分布)」の期待値 →ずれの大きさの期待値だと思ってください
  53. 53. 53 ln 𝑔 𝑦 − ln 𝑓 𝑦 +∞ −∞ 𝑔 𝑦 𝑑𝑦 注意! 別にわからなくてもいいです 真の 確率密度関数 予測された 確率密度関数 確率をかけてから積分(合計)している →期待値!
  54. 54. 54 カルバック・ライブラー情報量 確率 確率 ずれが大きい →KL情報量大 ずれが小さい →KL情報量小 正しい確率分布 正しい確率分布 推定分布 こっちの方がよい
  55. 55. 55 未知のデータへの予測のズレは カルバック・ライブラー情報量で表せる カルバック・ライブラー情報量 こいつが小さくなるように最適化すればよい
  56. 56. 56 注意! 別にわからなくてもいいです = ln 𝑔 𝑦 +∞ −∞ 𝑔 𝑦 𝑑𝑦 − ln 𝑓 𝑦 𝑔 𝑦 𝑑𝑦 +∞ −∞ f(y)が入ってない →予測された確率分布関係なし! こいつだけ使う →こいつが大きければ KL情報量は小さくなる ln 𝑔 𝑦 − ln 𝑓 𝑦 +∞ −∞ 𝑔 𝑦 𝑑𝑦 真の 確率密度関数 予測された 確率密度関数
  57. 57. 57 ln 𝑓 𝑦 𝑔 𝑦 𝑑𝑦 +∞ −∞ 注意! 別にわからなくてもいいです コイツ→ を大きくしたい 予測された 確率密度関数 確率をかけてから積分(合計)している! 「データが得られる確率の対数」の期待値をとっている 対数尤度の期待値=平均対数尤度
  58. 58. 58 未知のデータへの予測のズレは カルバック・ライブラー情報量で表せる AICへの道のり こいつが小さくなるように最適化すればよい 「平均対数尤度」が最大になればいい 「対数尤度」が最大になればいい?
  59. 59. 59 AIC = 最大化対数尤度……? データから得られた最大化対数尤度と 平均対数尤度はズレていて、偏りがある この偏りは、もっとも単純には 「パラメタ数」で近似できる(証明略)
  60. 60. 60 AIC -2×(最大化対数尤度-パラメタ数) 本来なら、これが大きければ 予測のズレは小さいとみなせる コイツで、バイアスを排除する 歴史的な理由(尤度比検定に合わせた)
  61. 61. 61 AIC -2×(最大化対数尤度-パラメタ数) バイアスを排除した、予測のズレの大きさの指標 まとめ 数式は分からなくていいですが、 AICは「予測のズレ」を最小化する規準だということは 覚えておいてください 質問どうぞ!
  • heavenzdoor

    Sep. 2, 2021
  • kojisekiya

    Feb. 20, 2021
  • SatoshiAshida

    Nov. 1, 2020
  • asakotoyama1

    Jun. 22, 2020
  • ssuser230f9c

    Jun. 20, 2020
  • DaikiKanazawa

    Jan. 31, 2020
  • kmorihiro

    Nov. 12, 2019
  • HanaHomma

    Sep. 20, 2019
  • Dnksn

    Dec. 9, 2018
  • MasatomoOmiya

    Oct. 24, 2018
  • TakayukiKawabuchi

    Aug. 10, 2018
  • helmenov

    Aug. 3, 2018
  • isoisolab

    Jul. 2, 2018
  • ReiKikuchi1

    Jun. 4, 2018
  • ShunArahata

    May. 31, 2018
  • shirai

    May. 29, 2018
  • yokuneko

    Mar. 28, 2018
  • ShuheiNishida2

    Sep. 15, 2017
  • kenichixaki

    Mar. 15, 2017
  • JongChanPark2

    Feb. 9, 2017

2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。 2日目 2-4.devianceと尤度比検定 正規分布以外の確率分布では残差の考え方が変わってきます。そこでdevianceという概念を導入したうえで、GLMにおいて分散分析を実行する方法を解説します。 サイト作ってます http://logics-of-blue.com/

Aufrufe

Aufrufe insgesamt

72.386

Auf Slideshare

0

Aus Einbettungen

0

Anzahl der Einbettungen

42.376

Befehle

Downloads

0

Geteilt

0

Kommentare

0

Likes

48

×