検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】

1/44
導入 NP検定力 BFDA まとめ
固定n SBF SBF+maxN
検定力分析と
ベイズファクターデザイン分析による
サンプルサイズ設計
2022年3月7日
ベイズ統計学勉強会 2022年春合宿 (ベイズ塾春合宿2022)
武藤拓之 (Hiroyuki Muto)
京都大学こころの未来研究センター

2/44
もくじ
1. 導入
2. ネイマン・ピアソン (NP) の枠組みにおける検定力分析
3. ベイズファクターデザイン分析 (BFDA) の考え方
4. 固定nデザイン
5. オープンエンドの逐次ベイズファクターデザイン (SBF)
6. 上限nの逐次BFデザイン (SBF+maxN)
7. まとめ

3/44
導入

4/44
なぜサンプルサイズ設計が必要か
少なくとも以下の2つが理由として挙げられる。
1. 適切性：統計的推測の前提を満たすために必要だから
⚫ 頻度主義的な検定の場合，データの情報を使ってサンプルサイズを決めてしまうと
標本分布 (サンプリング分布) が歪むため，分析結果を信用できなくなる。
→ 事前に決めておけば問題なし
⚫ 特にネイマン・ピアソン (NP) の枠組みでは事前の検定力分析が必須。
⚫ ベイズでもサンプリングの停止規則と仮説の評価法を事前に決めておくことは大事。
2. 効率性：研究の実施コストと潜在的利益のバランスをとるため
⚫ 他の条件が同じなら，サンプルサイズが大きいほど統計的推測は正確になる。
⚫ 一方，サンプルサイズが大きいほど研究の実施コストは増加する。
→ 現実的・倫理的に無理のない範囲内で利益を最大化したい！
(あるいは，コストが割に合わないことが分かったら研究の実施を中止する。)
※サンプルサイズが大きすぎると何でもかんでも有意 (significant) になるから大きすぎるサンプルサイズはよくない，という意見もあるが，この主張が成
り立つのは，「効果の大きさを一切考慮せず，有意か否かのみに基づいて判断を下す」という不適切かつ非現実的な前提を受け入れた場合だけで
ある。例えば，100万人に調査しないと検出できないほど小さな効果であっても，それを調査することで得られる潜在的利益がコストを本当に上回
り，かつ他にもっと効率の良い方法がないのであれば，100万人という大サンプルの調査を行うことには意味がある。

5/44
デザイン分析とBFDA
– デザイン分析 (design analysis; Gelman & Carlin, 2014)
⚫ 研究デザインの設定や得られた結果の解釈に役立てるために，
仮想的な研究を繰り返したときに何が起こるかを計算すること。
◼ 研究の実施前 (前向き) だけでなく実施後 (後ろ向き) にも適用できる。
◼ Type-S error (有意となったときに符号が逆になるエラー) と誇張比 (有意と
なったときの効果量の期待値が真の効果量の何倍になるか) も計算できる。
※本発表はこれらの点には触れないので興味のある人は原著を読んでください。
⚫ 検定力分析はデザイン分析の特殊なケース。
◼ 有意水準と効果量とサンプルサイズを固定して何度も検定を行ったときに，
正しく有意になる割合 (検定力) を計算することで，
望ましい検定力が得られるようなサンプルサイズを決定する。
⚫ これをベイズファクターに拡張したものがベイズファクターデザイン分析
(Schönbrodt & Wagenmakers, 2018)

6/44
この発表の目的と方針
– デザイン分析によるサンプルサイズ設計の方法を解説する。
⚫ まずはNPの枠組みにおける検定力分析の復習から。
⚫ ベイズファクターを使ったBFDAも3つ紹介。
– 例として，独立な2群の平均値に差があるかを知りたい場合のみ考える。
⚫ 対応のないt検定の両側検定に相当 (i.e., 𝐻0: 𝜇𝐴 − 𝜇𝐵 = 0)
⚫ e.g., 介入群は統制群よりも認知課題の平均得点が高いか？
⚫ もちろん他のケースにも適用可能。
– 主に以下の2本の文献を参考にした。
⚫ Schönbrodt & Wagenmakers (2018) Psychonomic Bulletin and Review
◼ ベイズファクターデザイン分析と，具体的な3つの手続きを提案している。
⚫ Kovacs et al. (2022) Advances in Methods and Practices in Psychological Science
◼ サンプルサイズ設計を行うためのツールを提供 (Rパッケージとブラウザで使えるShinyAppがある)
ShinyApp: https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/
◼ 頻度論的なequivalence testなどについても解説されているが，本発表では触れない。

7/44
NPの枠組みにおける検定力分析

8/44
起こり得る結果
– 実際に対立仮説 (H1) が正しいとき (＝本当は差がある！)
⚫ 正しく対立仮説が採択される確率 = 真陽性率 (true positive rate)
◼ NPの枠組みでは検定力 (power) すなわち1 − 𝛽のこと。(臨床検査で言う「感度」)
⚫ 誤って帰無仮説が採択される確率 = 偽陰性率 (false negative rate)
◼ NPの枠組みでは第二種の過誤 (type-Ⅱ error) の確率すなわち𝛽のこと。
⚫ どちらも採択されない確率
◼ NPの枠組みではゼロ。
– 実際に帰無仮説 (H0) が正しいとき (＝本当は差がない！)
⚫ 正しく帰無仮説が採択される確率 = 真陰性率 (true negative rate)
◼ NPの枠組みでは1 − 𝛼のこと。(臨床検査で言う「特異度」)
⚫ 誤って対立仮説が採択される確率 = 偽陽性率 (false positive rate)
◼ NPの枠組みでは第一種の過誤 (type-Ⅰ error) の確率すなわち有意水準𝛼のこと。
⚫ どちらも採択されない確率
◼ NPの枠組みではゼロ。

9/44
NPの枠組みで起こり得る結果
– 行 (横方向) の合計は必ず1になる。(つまり，各セルの値は観測できない真実で条件付けた確率)
– 𝛼と𝛽を小さくするほど誤りのリスクを回避できるが一般にはデータ収集コストが増える。
→ NPの枠組みでは，𝛼と𝛽をきちんと制御した上で分析を行うことが肝要
→ そのためにはサンプルサイズ設計が不可欠
𝐻1を採択
(e.g., 𝑝 < .05)
𝐻0を採択
(e.g., 𝑝 > .05)
どちらも採択しない
𝐻1が真 1 − 𝛽
(真陽性, 検定力)
𝛽
(偽陰性, 第二種の過誤)
0
𝐻0が真 𝛼
(偽陽性, 第一種の過誤)
1 − 𝛼
(真陰性)
0
観測できない
真実
観測できる
結果
※実際には結果が陰性(n.s.)の場合は「𝐻0を採択」せずに「保留」とすることが多い。(フィッシャー流とのハイブリッド)

10/44
NP流のサンプルサイズ設計に必要なパラメータ
– 4つのパラメータのうち3つが決まれば残り1つは自動的に決まる。
1. 第一種の過誤率𝛼 (i.e., 有意水準)
◼ 慣例的には𝛼 = .05とする場合が多い。
2. 第二種の過誤率𝛽または検定力1 − 𝛽
◼ 1 − 𝛽 = .80や1 − 𝛽 = .95あたりにすることが多いか。
◼ 厳密にいえば，想定している母効果量を所与としたときの条件付き検定力である。
∴「想定している母効果量≠真の母効果量」の場合は実際の検定力と一致しない。
3. 想定している𝐻1のもとでの母集団における標準化効果量 (e.g., Cohen’s d)
◼ 期待される効果量あるいはminimally interestingな母効果量を設定する。
◼ 先行研究の知見などのドメイン知識やパイロット研究の結果に基づいて決めるのが理想。
(報告された効果量の点推定値は必ずしも不偏推定量ではないし出版バイアスもあるので注意。)
◼ 1つに決められない場合には複数試してみてサンプルサイズとの関係を調べるとよい。(感度分析)
→ 検定力曲線 (power curve) を描くのも有効
◼ 真の効果量より大きな値を設定しがちなので検定力が想定より小さくなりやすいとの指摘もある。
4. サンプルサイズ𝑛
◼ 上記の3つのパラメータ (と統計モデル) を決めれば求められる。

11/44
シミュレーションしてみよう
– サンプルサイズ設計の理屈を理解するのにシミュレーションが便利。
⚫ シミュレーションする場合は， 𝛼と効果量と𝑛を与えたときの検定力を求めるのが楽。
⚫ 𝑛を変化させて，望ましい𝛽が得られるような𝑛を見つける。
⚫ ここでは𝛼 = .05，𝑑 = 0.5を固定した状態で各群の𝑛を適当に決めて
5万回シミュレーションし，𝛽 = .20 (i.e., 1 − 𝛽 = .80) となるような𝑛を探す。
シミュレーションの流れ (具体例)
50,000回
繰り返す
1. 有意水準と想定する効果量を設定：𝛼 = .05, 𝑑 = 0.5
2. サンプルサイズ𝑛を適当に設定
3. 帰無仮説𝐻0が真の場合 (i.e., 𝑑 = 0.0) のデータを生成
⚫ 統制群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成
⚫ 介入群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成
4. 対立仮説𝐻1が真の場合 (i.e., 𝑑 = 0.5) のデータを生成
⚫ 介入群：Normal(𝜇 = 0.5, 𝜎 = 1)から𝑛個の乱数を生成
5. それぞれのデータに対して対応のないt検定を行い結果を記録。
6. データから， 𝐻0の下での𝛼と𝐻1の下での1 − 𝛽を計算する。
(i.e., 50,000回のうち何割が有意になったかを仮説ごとにカウントする。)
7. このときの𝑛を採用する。
1 − 𝛽 = .80に
十分近づくまで
繰り返す

12/44
Rコード
– N_parを変えたときに
検出力がどう変わるかを
確認する。
– Settingsをいじって
遊んでみるとよい。
– 可読性を優先して
for文で書いているため
ちょっと時間がかかるかも。

13/44
各群50人ずつのときの結果
⚫ 𝑛 = 50のとき，1 − 𝛽 = .693で，目標 (1 − 𝛽 = .80) よりもちょっと小さい
→ このサンプルサイズでは足りない
⚫ ちなみに，G*PowerでPost hoc分析を選んで
計算すると同じ結果になる。
5万回分のt値の分布 5万回分のp値のヒストグラム
青い矢印で示した範囲が棄却域濃い部分が陽性 (有意)
𝛼 = .050 1 − 𝛽 = .695

14/44
⚫ 𝑛 = 64のとき，1 − 𝛽 = .804で，目標 (1 − 𝛽 = .80) とほぼ一致
→ これでOK！
⚫ G*Powerともほぼ一致
𝛼 = .051 1 − 𝛽 = .804

15/44
⚫ 𝑛 = 100のとき，1 − 𝛽 = .941で，目標 (1 − 𝛽 = .80) よりも大きい
→ これでもよいが，もっとコストを減らせる。
⚫ G*PowerのPost hoc分析の結果ともちゃんと一致。
𝛼 = .051 1 − 𝛽 = .941

16/44
検定力曲線
– 検定力曲線 (power curve)
⚫ 𝛼と𝛽を固定したときの効果量と𝑛の関係をプロットしたもの。
⚫ 効果量にあたりを付けたいときに便利かも (一種の感度分析)。
Kovacs et al. (2022) のFig.2.

17/44
BFDAの考え方

18/44
ベイズファクターの復習
◼ ベイズファクター (Bayes factor)
– 事後モデルオッズと事前モデルオッズの比 (= 周辺尤度の比)
𝐵𝐹10 =
𝑝 ℳ1 𝒚 /𝑝 ℳ0 𝒚
𝑝 ℳ1 /𝑝(ℳ0)
=
𝑝 𝒚 ℳ1
𝑝 𝒚 ℳ0
– 2つのモデルを比較するときに使える。
– 帰無仮説𝐻0と対立仮説𝐻1のそれぞれをモデルだと考えて比較する。
𝐻0: 帰無仮説 (point null model)
𝑌𝑐𝑜𝑛𝑡𝑟𝑜𝑙 ~ Normal 𝜇, 𝜎
𝑌𝑡𝑟𝑒𝑎𝑡𝑚𝑒𝑛𝑡 ~ Normal 𝜇 + 𝛿𝜎, 𝜎
𝛿 = 0
𝑝 𝜎 ∝ 1/𝜎2
𝐻1: 対立仮説 (alternative model)
𝑌𝑐𝑜𝑛𝑡𝑟𝑜𝑙 ~ Normal 𝜇, 𝜎
𝑌𝑡𝑟𝑒𝑎𝑡𝑚𝑒𝑛𝑡 ~ Normal 𝜇 + 𝛿𝜎, 𝜎
𝛿 ~ Cauchy 0,1
𝑝 𝜎 ∝ 1/𝜎2
事前分布
𝛿
𝛿
𝛿 = 0
𝛿 ~ Cauchy 0,1
事前分布

19/44
（参考）ベイズファクターの基準
Lee & Wagenmakers (2013/2017) より
• あくまでも参考程度に。
• 元々では3ではなく100.5(≃ 3.2)，30ではなく101.5(≃ 32)

20/44
BFDA
– ベイズファクターデザイン分析 (BFDA; Schönbrodt & Wagenmakers, 2018)
⚫ ベイズファクターに基づく仮説評価にデザイン分析を適用したもの。
⚫ 比較したい2つの仮説をモデルで表して，
それらのモデルのもとで研究のシミュレーションを繰り返し行い，
起こり得る結果の割合 (long-term probability) を調べる。
→ サンプルサイズ設計に使える
⚫ 3通りのデザインが提案されている。
1. 固定nデザイン
2. オープンエンドの逐次ベイズファクターデザイン (SBF)
3. 上限nの逐次ベイズファクターデザイン (SBF+maxN)
1→3の順に，必要な平均サンプルサイズは小さくなる (i.e., 効率的)

21/44
BFDAで起こり得る結果
– 真陽性・偽陰性・偽陽性・真陰性の4つを考える。
(オープンエンドの逐次BFデザインの場合のみ，曖昧な証拠の確率は0になる。)
– シミュレーションにより，各セルの事象が生じる割合を調べることができる。
– 頻度主義的な分析の場合とは異なり，𝐻1と𝐻0は必ずしも排反ではない。
𝐻1の証拠
(e.g., 𝐵𝐹10 > 10)
𝐻0の証拠
(e.g., 𝐵𝐹10 <
1
10
)
曖昧な証拠
(e.g.,
1
10
< 𝐵𝐹10 < 10)
𝐻1が真真陽性偽陰性 1－(真陽性+偽陰性)
𝐻0が真偽陽性真陰性 1－(偽陽性+真陰性)
観測できない
真実
観測できる
結果

22/44
効果量の事前分布
– BFDAでは効果量の事前分布として以下の2種類を区別することが重要。
⚫ デザインのための事前分布 (design priors)
◼ データ収集の前に使用する事前分布。
◼ ドメイン知識を活用することで，
説得力のある証拠を得やすく，誤った証拠を得にくくするように設定する。
例えば 𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1)
古典的な検定力分析のように「点」で設定すると，真の効果量との差が大きいとき
に非効率になる (検定力過剰) or 結論が下せない (検定力不足)
広すぎる事前分布を用いると必要サンプルサイズが大きくなる。
⚫ 分析のための事前分布 (analysis priors)
◼ 実際にデータを分析するときに使用する事前分布。
◼ 情報の少ない事前分布を用いるのが望ましい。
例えば 𝛿 ~ Cauchy(0,
1
2
) のようなdefault priorを使う。
科学研究においては懐疑的な読者をも納得させる証拠を示すことが大切。
design prior
analysis prior

23/44
固定nデザイン

24/44
固定nデザインの考え方
– 固定nデザイン (fixed-n design)
⚫ サンプルサイズを事前に決定してデータを収集し，
ベイズファクターを使って仮説の評価を行うデザイン。
⚫ 真陽性・偽陰性・偽陽性・真陰性の率をコントロールできる。
⚫ 検定力分析の発想に近い。

25/44
固定nデザインで必要なパラメータ
– シミュレーションに必要な4つのパラメータ
1. 想定している𝐻1のもとでの効果量の事前分布
◼ デザインのための事前分布 (design prior) をドメイン知識から決定。
◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1)
2. 実際のデータ分析で使用する事前分布
◼ 分析のための事前分布 (analysis prior) を決めておく。
◼ 例えば𝑑 ~ Cauchy(0,
1
2
) のようなdefault prior。
3. ベイズファクターの閾値
◼ 例えば，𝐵𝐹10 > 10なら対立仮説の証拠， 𝐵𝐹10 <
1
10
なら帰無仮説の証拠とする。
◼ 帰無仮説と対立仮説の閾値は必ずしも対称的でなくてもよい。
(研究の目的や計算コストを考慮して柔軟に設定する。偽陰性より偽陽性を減らしたい，など。)
4. サンプルサイズ𝑛
◼ 様々な値を入れてみる。
– これらを決めてシミュレーションを行えば，
期待されるBFの分布や真陽性・真陰性・偽陽性・偽陰性の率を計算することができる。
design prior
analysis prior

26/44
シミュレーションの方法
– 以下の設定でシミュレーションを実行 (Schönbrodt & Wagenmakers, 2018)
⚫ 効果量𝛿 = 0.5 (design prior) ※分布でもよいがここでは点としている (退化分布という確率分布とみなせる)
⚫ 分析のための事前分布は𝑑 ~ Cauchy(0,
1
2
)
⚫ BFの閾値は6と1/6
⚫ シミュレーション回数は1万回
10,000回
繰り返す
1. 効果量の事前分布×2とBFの閾値を設定
⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 = .05, 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 6
2. サンプルサイズ𝑛を適当に設定
3. 帰無仮説𝐻0が真の場合のデータを生成
⚫ 介入群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成
4. 対立仮説𝐻1が真の場合のデータを生成
⚫ 介入群：Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛, 𝜎 = 1)から𝑛個の乱数を生成
※ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。
5. それぞれのデータに対してBayesian t-testを行いBFを記録。
⚫ このときに分析のための事前分布𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠を使う。
6. BFの分布・真陽性率・真陰性率・偽陽性率・偽陰性率を計算。
(i.e., 10,000回のうち何割が該当するかを仮説ごとに計算する。)
7. このときの𝑛およびパラメータを採用する。
目標が達成できる
まで設定を変えて
繰り返す

27/44
シミュレーションの結果
Schönbrodt & Wagenmakers (2018)のFig.3.を改変
•真陽性率 = 21.1%
•偽陰性率 = 0.3%
•曖昧 = 78.5%
•真陰性率 = 13.7%
•偽陽性率 = 0.9%
•曖昧 = 85.5%
•真陽性率 = 84.0%
•偽陰性率 ≃ 0.0%
•曖昧 = 16.0%
•真陰性率 = 53.4%
•偽陽性率 = 0.6%
•曖昧 = 46.0%

28/44
アプリを使って計算
https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/
達成したい真陽性率
想定する効果量 (点のみ)
サンプルサイズの上限
BFの閾値 (対称な場合のみ)
分析のための事前分布(Cauchy)のスケールパラメータ
必要サンプルサイズとそのときの真陽性率

29/44
オープンエンドの逐次BFデザイン
(SBF)

30/44
SBFデザインの考え方
– オープンエンドの逐次BFデザイン (open-ended sequential BF design; SBF)
⚫ BFがいずれかの閾値に達するまでデータを取り続けるデザイン。
◼ 1人ずつではなく10人ずつ増やす，といったことも可能 (その方がより効率的)
⚫ 必ず𝐻0か𝐻1の証拠が得られる。(弱い証拠で終わることがない)
⚫ データ収集がいつ終わるかが事前に決まっていないという意味で「オープンエンド」
◼ とはいえBFは究極的には0か∞のいずれかに向かってドリフトするのでいつかは必ず終わる。
⚫ シミュレーションにより，真陽性・真陰性・偽陽性・偽陰性の率に加えて，
期待されるサンプルサイズの分布も事前に推測することができる。
⚫ 固定nデザインよりも効率がよい。(平均サンプルサイズが小さい)

31/44
SBFデザインで必要なパラメータ
◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1)
1
2
1
10
4. サンプルサイズの下限𝑛𝑚𝑖𝑛
◼ このデザインでは偽陽性・偽陰性はサンプルサイズが小さいときに生じやすいので，
小さすぎない最小値を設定する。
◼ 例えば𝑛𝑚𝑖𝑛 = 20
◼ 実際にシミュレーションをしてみて調整するのがよい。
期待されるサンプルサイズの分布や真陽性・真陰性・偽陽性・偽陰性の率を計算できる。

32/44
⚫ 効果量𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) (design prior)
1
2
)
⚫ BFの閾値は6と1/6
⚫ 𝑛𝑚𝑖𝑛 = 20
10,000回
繰り返す
1. 効果量の事前分布×2とBFの閾値と最小サンプルサイズを設定
⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 ~ Normal(0.5, 0.1), 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 6, 𝑛𝑚𝑖𝑛 = 20
⚫ 統制群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛個の乱数を生成
⚫ 介入群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛個の乱数を生成
⚫ 介入群：Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛, 𝜎 = 1)から𝑛𝑚𝑖𝑛個の乱数を生成
※𝛿𝑑𝑒𝑠𝑖𝑔𝑛が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。
5. BFがどちらの閾値にも達していなければ各群1人ずつ乱数を追加。
6. このときのサンプルサイズとBFを記録。
7. サンプルサイズの分布・真陽性率...などを計算。
(i.e., 10,000回分のデータを集計する。)
8. このときのパラメータを採用する。
目標が達成できる
まで設定を変えて
繰り返す
BFが閾値に
達するまで
繰り返す

33/44
真陽性率 = 97.2%
真陰性率 = 93.8%
偽陽性率 = 6.2%
偽陰性率 = 2.8%
偽陰性・偽陽性は初期段階で生じやすい
H1が真のときのサンプルサイズ (両側合算)
• 平均 = 53
• 中央値 = 36
• 80%の研究でn<74
H0が真のときのサンプルサイズ (両側合算)
• 平均 = 93
• 中央値 = 46
• 80%の研究でn<115

34/44
アプリを使って計算
https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/
達成したい真陽性率
想定する効果量 (点のみ)
※帰無仮説が真の場合を計算したいときは0にする。
BFの閾値 (対称な場合のみ)
分析のための事前分布(Cauchy)のスケールパラメータ
• 平均サンプルサイズ
• 真陽性率
• H1の証拠が得られる確率
• H0の証拠が得られる確率
※少なくとも現時点ではサンプルサイズの下限は設定できな

35/44
上限nの逐次BFデザイン
(SBF+maxN)

36/44
SBF+maxNデザインの考え方
– 上限nの逐次BFデザイン (sequential BF design with maximal n; SBF+maxN)
⚫ SBFデザインに，サンプルサイズの上限を加えたもの。
⚫ サンプルサイズが上限に到達しても閾値に達しなかった場合のみ弱い証拠で終わる。
◼ ただし，その場合でも証拠の方向やBFの値の大きさは解釈可能。
◼ 遅くともいつデータを集め終えるか見通しが立てられるのでメンタルに優しい（？）
⚫ シミュレーションにより，真陽性・真陰性・偽陽性・偽陰性の率や，
期待されるサンプルサイズの分布，弱い証拠で終わる確率を
事前に推測することができる。
⚫ SBFデザインよりも効率がよい。(平均サンプルサイズが小さい)
⚫ 現時点ではアプリは対応していない。

37/44
SBF+maxNデザインで必要なパラメータ
◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1)
1
2
1
10
4. サンプルサイズの下限𝑛𝑚𝑖𝑛
◼ 例えば𝑛𝑚𝑖𝑛 = 20
5. サンプルサイズの上限𝑛𝑚𝑎𝑥
◼ 予算や研究協力者に関する制約などを根拠に決めてよい。
◼ 例えば𝑛𝑚𝑎𝑥 = 100
期待されるサンプルサイズの分布や真陽性・真陰性・偽陽性・偽陰性の率，
弱い証拠で終わる確率を計算できる。

38/44
⚫ 効果量𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) (design prior)
⚫ BFの閾値は30と1/6 (偽陽性を減らしたいが，1/30 にするとサンプルサイズが軽く数千を越えるため)
⚫ 𝑛𝑚𝑖𝑛 = 40, 𝑛𝑚𝑎𝑥 = 100
1
2
)
10,000回
繰り返す
BFが閾値に
達するか，𝑛が
上限に達する
まで繰り返す
1. 効果量の事前分布×2とBFの閾値と最小・最大サンプルサイズを設定
⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 ~ Normal(0.5, 0.1), 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 30, 𝑛𝑚𝑖𝑛 = 40 , 𝑛𝑚𝑎𝑥 = 100
⚫ 介入群：Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛個の乱数を生成
⚫ 介入群：Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛, 𝜎 = 1)から𝑛𝑚𝑖𝑛個の乱数を生成
※𝛿𝑑𝑒𝑠𝑖𝑔𝑛が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。
5. BFがどちらの閾値にも達していなければ各群1人ずつ乱数を追加。
6. このときのサンプルサイズとBFを記録。
7. サンプルサイズの分布・真陽性率...などを計算。
(i.e., 10,000回分のデータを集計する。)
8. このときのパラメータを採用する。
目標が達成
できるまで
設定を変えて
繰り返す

39/44
(H1が真の場合のみを示す)
真陽性率 = 70.6%
偽陰性率 = 1.6%
弱い証拠で終わる率 = 27.8%
H1が真のときのサンプルサイズ (合算)
• 平均 = 69
• 中央値 = 65
上限に達したときのBFの分布も
計算できる。

40/44
まとめ

41/44
まとめ
– デザイン分析の特徴
⚫ 起こり得る結果の割合 (i.e., long-term probability) を基準にすることに
合意するのであれば，様々な研究デザインに適用可能。
⚫ 検定力分析の中身を理解するのにも有効。
◼ どんなときに結果が信用できなくなるのかも調べられる。
(e.g., n増しによるType-I errorの増加，検定力不足によるType-SおよびType-M error)
⚫ ベイズファクターを使った研究デザインにも適用可能。
◼ 想定する効果量の不確実性を考慮できる (i.e., design priors)
◼ より効率的な逐次デザインにも対応
適切かつ効率的な研究デザインを考えよう！

42/44
おまけ：SPARKing
– SPARKing (Sampling planning after the results are known; Sasaki & Yamada, 2022)
⚫ 結果を見てからサンプルサイズの根拠をでっちあげること＝QRPs (疑わしい研究行為) の一種
⚫ 特に，αを補正せず有意になるまでデータを増やしてから検定力分析をしたことにするのは×
⚫ 潔白を積極的に示したければ事前登録するほかないか。 (それも完璧ではないが)

43/44
おまけ：探索フェーズと確証フェーズの分離
– 二段階ベイズ逐次評価 (two-stage Bayesian sequential assessment; Stefan et al., 2022)
⚫ 探索フェーズでは柔軟にデータ収集・分析をし，
有望な結果が得られたら，手続きと分析法を固定して
確証フェーズに進む。
⚫ 探索フェーズの情報を確証フェーズに活用することができる
ので無駄が少ない。
⚫ 手続きと分析法が確定するのでプレレジも容易。
⚫ 柔軟に研究を進められるので生産性を損なわない。
◼ 研究の初期段階では厳密なサンプルサイズ設計や事前登録をしなくてもよいため，「お作法」を窮屈に感じにくくなる？
⚫ 探索と確証を明確に区別できるので，探索的研究の正当な評価に繋がると期待。
⚫ BFDAと組み合わせるととても効率がよさそう。
⚫ 一方で，伝統的な「予備実験→validation」と何が違うのかはきちんと考えたほうがよさそう。
◼ 少なくとも，小サンプルの予備実験に基づいて検定力分析するよりはこちらのほうがよさそう。
◼ 結局は追試が大事だよねってことで落ち着きそう。
私見
Stefan et al. (2022) のFigure 1

44/44
引用文献
Gelman, A., & Carlin, J. (2014). Beyond power calculations: Assessing Type S (sign) and
Type M (magnitude) errors. Perspectives on Psychological Science, 9(6), 641–651.
https://doi.org/10.1177/1745691614551642
Jeffreys, H. (1961). The theory of probability (3rd ed.). Oxford University Press.
Kovacs, M., van Ravenzwaaij, D., Hoekstra, R., & Aczel, B. (2022). SampleSizePlanner: A
tool to estimate and justify sample size for two-group studies. Advances in Methods
and Practices in Psychological Science, 5(1), 251524592110540.
https://doi.org/10.1177/25152459211054059
Lee, M. D., & Wagenmakers, E.-J. (2013). Bayesian cognitive modeling: A practical
course. Cambridge, England: Cambridge University Press. (リー，M. D.・ワーゲンメイ
カーズ，E.-J. 井関龍太 (訳) (2017)．ベイズ統計で実践モデリング――認知モデルのトレーニング―― 北
大路書房)
Sasaki, K., & Yamada, Y. (2022, February 28). SPARKing: Sampling planning after the
results are known. https://doi.org/10.31234/osf.io/ngz8k
Schönbrodt, F. D., & Wagenmakers, E. J. (2018). Bayes factor design analysis: Planning for
compelling evidence. Psychonomic Bulletin and Review, 25(1), 128–142.
https://doi.org/10.3758/s13423-017-1230-y
Stefan, A., Lengersdorff, L., & Wagenmakers, E. (2022, March 3). A two-stage Bayesian
sequential assessment of exploratory hypotheses.
https://doi.org/10.31234/osf.io/qwuyf

検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】