P値を使わないフィットネステストの評価法

TID Journal Club @ 31 Jul 13
P値を使わないフィットネステ
ストの評価法
衣笠　泰介, PhD
タレント発掘コーディネーター
日本スポーツ振興センター

スポーツ科学支援のマネジメント
ニーズ分析科学支援
（測定）
アスリートファースト
ドライバーとしてのコーチ
スポーツ科学の支援
フィード評価
バック

統計分析
統計的有意差（仮説）検定＊
P値（有意差の有無）：仮説のシロ・クロを判定する確率
P値のみでは、その傾向や効果の程度、サンプリング変動の
前提となる、真の値の範囲までは分からない (Batterham and
Hopkins, 2006)
差の程度（マグニチュード）に基づく推量
スプレッドシートを用いた90％信頼区間の算出（Hopkins,
2007）
90％信頼区間がゼロをまたいで（実質的な正の値と負の値ま
で両方に及ぶ）と、その効果は「あいまい」と判断する
効果量の評価基準：< 0.2, 極小; 0.2-0.59, 小; 0.6-
1.19, 中; 1.2-1.9, 大; > 2.0, 極大（Hopkins, 2002 ）
有効な変化の尤度（正、変化なし、負）(Batterham and
Hopkins, 2006)
<1%、ほぼ確実に可能性のない； 1–5%、非常に可能性の低
い；5–25%、可能性の低い；25–75%、可能性のある；75–95%、
可能性の高い；95– 99、非常に可能性の高い； >99%、ほぼ確実

＊統計的仮説検定
• 反証法（背理法）ロジックとして純粋数学の観点から反証することはできるが、
実生活で証明することはできない
• 0.05は任意の値である
– P < 0.05 の場合、統計的有意で、帰無仮説を棄却し、真の効果があったと
している
– P > 0.05 の場合、統計的有意ではなく、帰無仮説を採択し、効果がないと
している
→帰無仮説を棄却できるほどのエビデンスがないだけ
• P値は実際には何の確率でもない
– いくつかの有効な効果は統計的有意でない
– いくつかの統計的有意は有効ではない
– 統計的有意でないと論文に投稿できないと判断してしまう
• メタ分析により良質なデータは埋もれてしまい、出版バイアスはますます蔓延し
ている
• 帰無仮説を棄却できないことが、　帰無仮説を採択することにつながらない
• いずれにしても真の効果は常に「リアル」であり、無ではない
• 帰無仮説は常に、真ではない！
• 反証できるまで効果はゼロであると仮定すると、非論理的、時には非現実的また
は非倫理的である

自信を持ってフィードバックするためのプロセス:
1. データを収集する
2. 測定のノイズを探る
3. 最小有効変化を明らかにする
4. 測定の有用性を確かめる
5. 測定を反復する
6. 真の変化を自信を持って解釈する
7. 結果をフィードバックする
8. フォローアップする

測定データ
測定値＝近似値＝
真値(signal) + 誤差 (noise)
反復測定
真の変化や違い
（ SWC）
典型的な誤差
測定誤差
(TE)
（測定器具など）
生物学的変動
（成長など）

＊測定誤差か典型的な誤差か
？測定誤差（ Technical Error,
TEM)
典型的な誤差（ Typical Error,
TE)
ISAK は1996年からTEMを使用Will Hopkins 博士(AUT)やAIS
の研究者はTEを使用
= Ö [Σd2 / 2(n)] = SD / Ö 2
 正確性と精度を確認する ２つの試技の僅かな差も扱
える
 サンプル数が少ないと誤差
を過大評価
 実際には差がほとんどない

個人における典型的な誤差の算出法
信頼性検定を通して
測定の再現性は？
個人内変動のモニタリングに重要
1人のアスリートを何回も測定する事例で考えると分かりや
名す前
い
試技1
試技2
試技3
試技4
試技5
試技6
あきら
72
76
74
79
79
77
平均 ± SD
76.2 ± 2.8
典型的な誤差（TE）は、2.8
このアスリートの真の値と測定値との差
測定評価のノイズとして捉える

グループにおける典型的な誤差の算
出法
信頼性検定は、１グループのアスリートを２回
以上の反復測定で行う
名前
試技1試技2
こうへい
72 76
△試技2-1
4
5
たろう53 58
あいこ60 60
かおり84 82
ゆりえ67 73
0
-2
6
平均 ± SD 2.6 ± 3.4
典型的な誤差（TE）は、3.4を 2で割る（=
2.4…）
2.6は、平均値の変化

3.最小有効変化を明らかにする

最小有効変化（ SWC、
Smallest Worthwhile Change)とは?
最小可検変化量ともいう
測定しようとしているのは、Signal（真の値、真の変化）
一般的にSWCとは、アスリートの実生活や測定結果の解釈
に、違いを生み出す変化
一流アスリートの観点から見ると、アスリートが主要大会
で実質的なメダル獲得率を高めるために必要なパフォー
マンス向上率
この問いに答えることができなければ、辞職すべき(Will
Hopkins)

SWCの算出法
専門家の経験則によることが多いので難しい
一流アスリートの観点から見ると、~0.3%のパフォーマン
ス向上率でメダル獲得率が上昇する
http://www.nytimes.com/interactive/2010/02/26/sports/olympics/20100226-olysymphony.個人スポーツの一流アスリートにおけるSWCのデフォルト
は、0.3 x 大会ごとのパフォーマンスの個人内変動を
変動係数 (CV)で表した値
＊従来は、0.5 x CVであった(Bonetti and Hopkins,
2010)
向上率をCVとすると、以下のように解釈できる：
極小0.3 小0.9 中1.6 大2.5 やや大4.0 極大

算出されたSWC
個人スポーツの競技ごとのCV (Hopkins, 2004):
1,500ｍまでの競走、ハードル走0.8%
10kmまでの競走、障害競走runs 1.1%
マラソン（一流でない）
3.0%
高跳び1.7%
棒高跳び、幅跳び
2.3%
円盤投げ、やり投げ、砲丸投げ 2.5%
競泳（一流） 0.8%
競泳（ジュニア）
1.4%
1-40 kmのサイクリング 1.3%
X 0.3

SWCの算出法
チームスポーツの一流アスリートにおけるSWCのデフォル
トは、0.2 x 個人間変動を標準誤差 (SD)で表した値
Cohenの効果量
0.2 小0.5 中0.8 大
Hopkinsの効果量
極小0.2 小0.6 中1.2 大2.0 やや大4.0 極大

効果量
2変量や2グループの関係性のマグニチュード
と傾向　
算出法はいくつもある
Cohenのd = 2変量や2グループの平均値の
差／標準偏差（SD）
Excel: = ((Average (A…) – (Average
(B…))/STDEV (A…, B…)
極小0.2 小0.6 中1.2 大2.0 やや大4.0 極大

4.測定の有用性を確かめる

測定項目の有用性
些細な変化を検知するために、その測定項目が有用であるか？
もしTE （ノイズ） < SWC（シグナル）...
皮脂厚和： TE = 2%、SWC = 4%（TE/SWC比 0.50）
この測定の有用性：高い（比 < 0.75）
この測定は、効果的でノイズのないもの
この測定項目を何の問題もなく採用
もしTE > SWC...
皮脂厚和：TE = 10%、SWC = 5% (TE/SWC比 2.00)
この測定の有用性：低い（比 > 1.25）
この測定がノイズが大きな変化や差など全てをかき消してしま
う　
別の測定項目を探す

測定項目の有用性
もしnoise » signal...
皮脂厚和： TE = 5%、SWC = 5% (TE/SWC比 1.00)
多くのラボテストやフィールドテスト
この測定の有用性：OK （S/T比 0.75-1.25）
この測定項目を用心して採用

皮脂厚和の有用性
女子競泳選手のTEデータ(N = 20)
TE SWC
絶対値
（mm）
相対値
（%）
絶対値
（mm）
相対値
（%）
1.3 2.5 3.1 5.6
測定項目の有用性：高い（TE/SWC比 0.45）
皮脂厚和を何の問題もなく採用できる

AIS生理学ラボにおけるTEと
SWC
Pyne, 2003

測定項目の有用性を高める方法
1. 幾つかの試技を平均する
2. 信頼区間を使う
3.有効な変化の尤度を使う

1.幾つかの試技を平均する
試技1 試技2 試技3 (もしΔ 試技2-1 > ±4%)
2値の平均値か3値の中央値 (Slater et al,
2006)
Excel: = Average (…) or = Median (…)

2.信頼区間（confidence limit or interval）を
使って、ある測定項目におけるアスリートの真の
値を明確にする
信頼区間は、推量の精度に関連
90％（95%）信頼区間：90％（95％）の確率で真
の値がその範囲内に入る
90％信頼区間＝測定値 ± 2 (1.96) x TE
(90%の確率で次の値がTEの2倍の範囲以内にな
る)
皮脂厚和の測定項目では、95％信頼区間の使用を
薦めている (Woolford and Gore, 2004)

95%信頼区間を使った場合
TE (mm) = 1.3, SWC (mm) = 3.1
変化量が4.8の場合,
 “ 負の変
化??"
 “ 変化なし??"
-3.1 3.1
-3 0 3 6
変化量
正の
変化
負の変化
-6
真の変化は95%の確率で
2.3 から7.4の範囲に入
る.
変化量が3.2の場合,
心の変化は95%の確率
で 0.8から5.7の範囲
に入る.
12
変化なし

3. 真の値がSWCより大きいか／小さいかの（有
効な）変化の尤度を使う
信頼区間より正確だが、スプレッドシートを使用する必
要がある

＊なぜログ変換が必要か？
誤差の不均一性を減らすため、自然対数に変換する
Excel: = 100*LN (…)
数十名における測定誤差のバラツキを考慮するため
　残差と予測値をプロットして誤差の不均一性を調べる
（Bland-Altmanプロット）
一般的に生理学的指標の多くは、ログ変換が必要である
(Hopkins et al, 2011)
SD > 平均: ログ変換の必要性が高い (Hopkins et al,
2011)

事例：競泳選手Aの皮脂厚和

6.真の変化を自信を持って解釈す
る

尤度を使った場合
皮脂厚和: TE (mm) = 1.3, SWC (mm) = 3.1
91% 真の変化が負になる確率;
0% 真の変化が正になる確率0%. 91%
9% 真の変化が些細な確
率; 9%
 “ 負の変化"
変化量が3.2の場合...
0% 53% 真の変化が負になる確
 “ 変化なし?"
確率-3.1 3.1
正変化なし負
-3 0 3 6
変化量
-6
率;
47% 真の変化が些細な確率
;
0% 真の変化が正になる
42% 53%
2

真の変化のマグニチュードの解釈
分かりやすくフィードバックするために、口語体(質的言語)
で結果を説明する
そのため、正、変化なし、負の変化の確率（可能性、マグニ
チュード）を記述する必要がある
確率その効果は…正、変化なし、負
<1%
ほぼ確実に可能性のない…
1–5% 非常に可能性の低い…
5–25% 可能性の低い…

尤度を使った場合
皮脂厚和: TE (mm) = 1.3, SWC (mm) = 3.1
91% 真の変化が負になる確率;
0% 真の変化が正になる確率0%. 91%
9% 真の変化が些細な確
率; 9%
“ 負の変化の可能性が高い
変！”
化量が3.2の場合...
-3.1 3.1
正変化なし負
-3 0 3 6
0% 53% 真の変化が負になる確
確率 “ 変化なしの可能性がある！”
変化量
-6
率;
47% 真の変化が些細な確率
;
0% 真の変化が正になる
42% 53%
2

利益・些細・リスクの範囲に信頼区間を置き、現場的に有意であ
るか、統計的有意であるかを判断する
リスク些細利益
負0
正
変化量の値
現場的に有意？統計的に有意？
Yes: 使える. Yes
Yes: 使える. Yes
Yes: 使える. No
Yes: 時と場合. No
Yes: 使えない. Yes
Yes: 使えない. No
Yes: 使えない. No
No: 要検討. No
P値がいかに不正
で現場的でない
か！！

マグニチュードに基づいた利益かリスクかのより詳し
い解釈　
この変化がリスク・些細・利益
である確率 (%)
0.01/0.3/99.7 ほぼ確実に利益がある
リスク些細利益
負0
正
変化量の値
0.1/7/93 利益の可能性が高い
2/33/65
利益の可能性がある
1/59/40
現場的にあいま現い場的に利益
の可能性があ
る
0.2/97/3
非常に些細な可能性の高い
2/94/4
些細な可能性が高い
28/70/2
リスクの可能性がある
74/26/0.2 リスクの可能性がある
97/3/0.01 非常にリスクの可能性が高い
9/60/31 現場的にも臨床的にもあいま利益の確率が十分に高くないと、リ
スクが>0.5%は許容できない

評価システム
個人内の評価基準
%変化
統計的
有意差
現場的
有意差Pyne, 2003
向上
変化なし
低下
> SWC 真の正の変化の確率 > 75%
≈ SWC
< SWC 真の負の変化の確率 > 75%
現場的に有意に
現場的に有意に
✗

評価システム
個人間の評価基準
（チーム間、グループ間)
パーセンタイル値
（内的基準）
> 95th
秀
90th-95th 優
75th-90th 良
50th-75th 可
< 50th
不可

7.結果をフィードバックする

自信を持ってフィードバックするためのプロセス:
1. データを収集する
2. 測定のノイズを探る
3. 最小有効変化を明らかにする
4. 測定の有用性を確かめる
5. 測定を反復する
6. 真の変化を自信を持って解釈する
7. 結果をフィードバックする
8. フォローアップする
実際のアスリートや測定機器を用い
て、自身で信頼性検定をすることか
ら始めよう

P値を使わないフィットネステストの評価法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to P値を使わないフィットネステストの評価法

Similar to P値を使わないフィットネステストの評価法 (20)

More from Taisuke Kinugasa

More from Taisuke Kinugasa (19)

P値を使わないフィットネステストの評価法

Editor's Notes