Net effectより確実性:
動画:https://youtu.be/34sJ8h29hcg より
診療ガイドライン作成のためのシステマティックレビューにおける 各アウトカムのエビデンスの確実性から エビデンス全体の確実性を評価する方法を何度も読んで理解して欲しい解説:EBM の実践にも役立つよ編
EBM中級編:Precisionのいろいろな考え方を学んで、信頼区間を見直すことで、imprecisionを理解しよう https://youtu.be/l7E5s4NQKsg も必見です。
Step4:シナリオにおける正味の効果推定値の精確さの分類のスライドで、相原先生のブログの図(右上)では、-3.5とあるが、3.5の誤りと思われる。
内科医のエビデンスに基づく医療情報 http://aihara.la.coocan.jp/
メイン論文:Alper BS, Oettgen P, Kunnamo I, et al. Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445.
https://bmjopen.bmj.com/content/9/6/e027445
参考:Monica Hultcrantz, David Rind, Elie A. Akl, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6542664/
相原守夫.診療ガイドラインのためのGRADEシステム第3版・内科医のエビデンスに基づく医療情報
7. すなわち、診療ガイドラインの推奨や EBMの実践の場面で、いくらシステマティックレ
ビューの質が高くても、エビデンス(SRのまとめた結果)に基づいて、その治療を行なうか
行なわないかの臨床決断する場合に、
そのエビデンスの確実性(certainty of evidence)が低ければ、推奨や決断は弱いものとな
るのは言うまでもない。
参考文献:Andrews JC , Schünemann HJ , Oxman AD , et al . GRADE guidelines: 15. Going from evidence to recommendation-
determinants of a recommendation’s direction and strength. J Clin Epidemiol 2013;66:726–35.doi:10.1016/j.jclinepi.2013.02.003
そのためエビデンスの確実性が重要な要因となる。そして、そのエビデンスの確実性には、先
ほどの5要因の中でも「不精確さ」が、重要な要因、かつ、診療ガイドラインとシステマ
ティックレビューでは評価が異なっているので注意が必要である。
よって、本スライドでは、まず、従来からGRADEアプローチで採用されている「エビデンス
の確実性」と「不精確さ」について説明する。その後に、Alperらが提案している完全コンテ
キスト化アプローチを説明する。
ポイント:エビデンスの確実性と不精確さは、同じような意味なので混乱しやすいという指摘(これに対してSchünemann
は反論)もあることより、理解は難しいと思ってもよい( Anttila. Conclusiveness resolves the conflict between
quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology
75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext )
18. 付録2より:信頼区間と確実性の範囲の概念
先の概念を、よりわかりや
すく図示したものが、
「Schünemann JH.
Interpreting GRADE‘s
levels of certainty or
quality of the evidence:
GRADE for statisticians,
considering review
information size or less
emphasis on imprecision?
Journal of Clinical
Epidemiology 2016;75:6-
15.」の図である。
実際は、上図のような釣り
鐘でなく、下図のような、
いびつに変形している可能
性が高い。
18
Y: GRADE guidelines 32より
相原守夫.診療ガイドラインのためのGRADEシステム第3版
20. Neymanの定義・信頼区間・ precision・ accuracy
• WikiPediaなどによると、「一連の測定では、 accuracyは測定値が特定の値に近いことであり(系統的誤
差・観察誤差)、precisionは測定値が互いに近いこと(ランダムエラー)。」、「精度accuracyとは、信
頼区間に真の母集団のパラメータが含まれているかどうかという点で定義。precisionとは、信頼区間の幅
のことである。」とある。
• Anttilaらによると、GRADEのimprecisionは、このように、統計的検出力、信頼区間、指定された限界(言
い換えれば、クリティカルマージン)の複数の側面の組み合わせである。
In statistics , “accuracy” is a familiar concept expressing closeness between a parameter value and
an estimate; it encompasses both bias and sample precision.統計学において「精度」とは,パラメー
タ値と推定値の近さを表す身近な概念であり,バイアスと標本精度の両方を含んでいる。
• Moreyらの解説:推定値の精度(precision)と信頼区間の大きさには、必ずしも関連性はない。信頼区間
にはいろいろな計算方法があり、ノンパラメトリック法や一様分布法などでは、パラメータが推定される不
確実性(尤度で表現か?)が増すと、信頼区間の幅が小さくなる場合もある。よって、関連性がないとなる。
• そのため、Msaouelらは、論文内に「本記事では、信頼区間が狭いと精度が高くなるという一般的な仮定を
置き、興味のある方には、頻出主義の信頼区間とベイズの信頼区間の詳細な概要を参照して、関連するニュ
アンスについて議論しています。」として議論を展開していた。
20
https://en.wikipedia.org/wiki/Accuracy_and_precision
http://researchhubs.com/post/ai/data-analysis-and-statistical-inference/accuracy-vs-precision.html
https://theebmproject.wordpress.com/fundamentals/hypothesis-testing/confidence-intervals/
Anttila. Conclusiveness resolves the conflict between quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology
75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext
https://link.springer.com/article/10.3758/s13423-015-0947-8
https://www.mdpi.com/2072-6694/13/11/2741
Y:信頼区間とは
⇒このような誤解2について、他の統計学者による考えを次のスライドで紹介する。
22. Gordon H. Guyattらの説明
信頼区間は、ランダムな誤差がエビデンスの確実性に与える影響を示すものであることが多い。ベイズ派とは
異なり頻出派(frequentist)の枠組みでは信頼区間は、実験を何度も繰り返し、実験ごとに信頼区間を再計算
した場合に、信頼区間の特定の割合(通常95%)が真の基礎値を含む結果の範囲を表します。
この定義よりも概念的に簡単なのは、信頼区間を「真実がもっともらしく存在する範囲」と考えることです。
95%信頼区間は、真の効果があることを95%確信できる範囲を示していると解釈されることが多い(A 95%
confidence interval is often interpreted as indicating a range within which we can be 95% certain that
the true effect lies.*)。この表現は緩い解釈ですが、大まかな目安としては有効である。
メタアナリシスの信頼区間の幅は、個々の研究の推定値の精度と、組み合わせた研究の数に依存する。
また、ランダム効果モデルでは、異質性の増加に伴い精度が低下し、それに応じて信頼区間も広がる。
なお、固定効果モデルとランダム効果モデルでは、信頼区間と点推定値の解釈が異なる。固定効果の推定値と
その信頼区間は「効果の最良の(単一の)推定値は何か」という問いに対応しているが、ランダム効果の推定
値は効果の分布があることを仮定しており、「平均効果の最良の推定値は何か」という問いに対応している。
22
https://libraryguides.neomed.edu/c.php?g=324183&p=2172309
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC516199/
https://www.jclinepi.com/article/S0895-4356(11)00206-X/fulltext
https://libraryguides.neomed.edu/c.php?g=324183&p=2172309
https://www.researchgate.net/publication/15378007_Basic_statistics_for_clinicians_2_Interpreting_study_results_Confidence_intervals
*https://training.cochrane.org/handbook/archive/v6.1/chapter-15
#https://ultrabem-branch3.com/statistics/basics/confidence_interval・ https://www.healthknowledge.org.uk/e-learning/statistical-
methods/practitioners/standard-error-confidence-intervals・https://www.youtube.com/watch?v=s4SRdaTycaw
Y:信頼区間とは
さすがに*の文章は、誤解を増やす(#の議論もあるが)。ともかく、定義ではなく、概念として、信頼区間を「真実が
もっともらしく存在する範囲」と考えることで議論している。そのため、不精確さの評価では、サンプルサイズ・イベン
ト数・閾値で評価しており、単純に95%信頼区間の幅が大きいとか小さいとかでは評価していない事に注意されたい
(このような評価は、散見されるが、JCEの解説論文のGRADE guidelines 6には記載されていない)。
注意:これらのスライドの解説文は、論旨展開に都合良く論文を選んでおり、系統的に選択しておりません。
23. 不精確さの検討は、本当に混乱するので、理由・概念を中心に解説
不精確さ⇒確実性なので、GRADE guidelines 32の前に解説するか悩んだが、あえて、後にした。
不精確さ(imprecision):
1. もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。
2. 基本的にランダム化比較試験は、2つの治療に臨床的に差があると判断できる最小の値を利用して
必要な症例数を計算して行っているはず。しかし、たとえ、閾値をまたいでなくても、そもそも、
メタ分析として複数の研究を統合した全体の症例数が、必要な症例数に満たなければ、不精確と言
える(1つでも、症例数を適確に計算してある論文が含まれていれば、必要な症例数以上になるが、
残念ながら、そうでないことが多い)。または、症例数・イベント数そのものも評価も検討(後で
説明)
用語:GRADE guidelines 32よりで述べたように、閾値(Clinical Decision Threshold)としては、そ
の診療ガイドラインのパネリストが、大きい・中等度・ 小さい効果の閾値を決めて、それに対して確実
性があるかを評価する。その中で、小さい効果の閾値は、minimally important difference(MID)と
同じと考えて良い。そして、多くが、MID( small effect)で評価することが多い(後のスライドで
MIDの注意点を解説)。
追加説明:1.2.を逆に考えても同じ。
必要な症例数がなければ、そもそも不精確。これは、感覚的にも納得できる。
必要な症例数があっても、臨床判断の閾値をまたいでいたら、不精確である。
23
3.7. Clinical decision threshold and minimally important difference
https://processbook.kce.fgov.be/node/134
Minimal clinically important difference: The basics
https://www.medwave.cl/link.cgi/English/Reviews/MethodlogicalNotes/8150.act?ver=sindiseno
*GRADE guidelines 6. Rating the quality of evidenced imprecision.
Y:CPGにおける不精確さ GRADE guidelines 6より
30. 30
Y:CPGにおける不精確さ GRADE guidelines 20より
GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences—inconsistency, imprecision,
and other domains
5. フローチャート
31. 31
Y:CPGにおける不精確さ GRADE guidelines20より
GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences—inconsistency, imprecision,
and other domains https://www.jclinepi.com/article/S0895-4356(17)31061-2/fulltext
信頼区間の確認
5. フローチャート
信頼区間が、推奨と推奨しな
いの間の決断閾値をまたいで
ないか?
不精確さダウン
不精確さダウン
サンプルサイズの確認
サンプルサイズは、レビュー
の情報に対して充分なサイズ
か?
不精確さダウンしない
40. Alperらの、完全コンテキスト化アプローチの解説の前に
このアプローチは、以下の3つの仮定に基づいているが、ここでは、そうなんだという程度で解説をすすめる。
1.効果推定値は正規分布に準拠したデータを表す。
2.統合される効果推定値は独立しており、互いに相関していない。
3.統合される効果推定値に、換算係数を掛けて、一貫した測定単位を使用する。
40
本解説では、「正味の効果・net effect」、「正味の利益・net benefit」など用語がでてくる。厳密な区分がないが、原文に以下の記載がある。少し細かいが、
たぶんエビデンスの確実性の定義の本質的な問題のため説明する。
「Consistent with the recent clarification of ‘certainty of evidence’—the certainty that a true effect lies within a specified range or on one side of a
specified threshold3 — one can express the certainty of the net effect (or balance of benefits and harms) in terms of a range or in relation to a
threshold. The situation when benefits and harms are perfectly balanced (net benefit or harm=0) represents a natural threshold for certainty of the
net effect. Using this threshold, the certainty of net benefit is the certainty that the overall or net effect lies on the side of benefit. The certainty of
net harm is the certainty that the net effect lies on the side of harm.」
このポイントは、以下であるが、これは先に「「エビデンスの確実性」の定義」で解説した内容でもある。
・エビデンスの確実性は、正味の効果が特定の範囲または特定の閾値の片側にあることの確実性と明確化された。
・正味の効果・net effect(利益と害のバランス・balance of benefits and harms)の確実性は、範囲または閾値に関連して表現することができる。
・利益と害が完全にバランスをとれている(正味の利益または害が0)の状況は、正味の効果の確実性の自然な閾値(閾値0)とも言える。
・この閾値0を用いると、正味の利益の確実性(certainty of net benefit)とは、全体または正味の効果が利益の側にあるという確実性であり、正味の害の確実性
(certainty of net harm)とは、正味の効果が害の側にあるという確実性である。
この文章より、メタ分析の各アウトカムの値を利用して 「正味の効果」を算出した場合や、一般的なエビデンス全体に対して「正味の効果」 という用語と使用し
ている。そして、その「正味の効果」に対して、利益・害のどちらかを、自然の閾値であるゼロを起点に分類したものを、「正味の利益」・「正味の害」と表記
して区別していると推察される。すなわち、「正味の効果」が0.5 (0.6-0.4)と明らかに「利益」であっても、閾値を考慮する前は、あくまでも「正味の効果」と
して表現している。さらに、閾値を考慮した後でも、一般的なエビデンス全体として用語を使用する時は、「正味の利益」でなく「正味の効果」としている。
利益と害が完全にバランスをとれている閾値0
正味の効果
正味の効果
利益
利益
害
正味の利益
正味の効果 正味の害
利益 害
正味の効果
52. Step4:シナリオにおける正味の効果推定値の精確さの分類
Classify the precision of the net effect estimate
シナリオの場合に、全原因死亡が参照単位であ
ることからMID=2%(20/1000)と設定した
と仮定。また、大きな利益と大きな害として、
閾値=10%と設定したと仮定。
正味の効果推定値の点推定値(3.5%)は、こ
のMID(害の閾値)(2%)に近く、信頼区間
は大きな利益と大きな害(10%・100人)の閾
値を超えてる。
つまり「精確さ」の評価は、“possible no net effect or harm”となる。
注意:Alperらは、imprecisionではなくprecision of effect estimateという言葉を使用。
よって、正味の効果推定値の「精確さ」は、非常に低い確実性(very low certainty)とな
る。
しかし現実的なパネルの判断としては、”95%CIが非常に広く真の効果がどこにあるのか全
くわからないほどの「不精確さ」なので、そもそもエビデンスの確実性のレベルを評価す
る意味が全くない”と判断するパネルもあると思われる。 52
53. Step5:正味の利益の可能性に重大なアウトカムの効果推定値の確実性を検討する
Consider the certainty of effect estimates for outcomes that are critical to the likelihood of net benefit.
採用したシナリオでは、エビデンスの確実性が、正味の効果推定値の精確さが3段階ダウンするので、すでに「very low」が決定してしまうため、
このStep5は不要だが、一般的なコンテキスト化アプローチにおけるプロセスのためにさらに解説する。
まず、不精確さ(imprecision)は95%信頼区間を調べることにより(確実性の程度として)定量化できるにも関わらず、各アウトカムの他の4要
因(RoB・非一貫性・非直接性・出版バイアス)に懸念があると、95%信頼区間の範囲の推定値の確率分布の幅と形状を知ることができなくなる
(すなわち、他の4要因で既にエビデンスの確実性が非常に低ならば、信頼区間を利用したここまでのアプローチそのものができないことになる)。
そのため、以下のような手順で考えると良いだろう。
(1)正味の効果推定値( net effect estimate)の精度( precision)の分類・評価を変える可能性のあるアウトカムを(差別化要因・
differentiator)探す。
〇あるアウトカムを除外した場合、正味の効果推定値の精度が変わるようなアウトカム
〇(確実性の低い効果推定値に対して)効果推定値への妥当な増加を追加した場合、分類が変わるようなアウトカム
(2)(1)で探した重大なアウトカムの中でエビデンスの最も低い確実性を決定するには、各アウトカムの他の4要因(RoB・非一貫性・非直接
性・出版バイアス)を導く必要がある。個々のアウトカムの不精確さは、これまでの正味の効果推定値の検討ですでに検討されているので、ここ
では扱わない。
(3)(1)で探した重大なアウトカムに対する確実性等級付けと、Step4の正味の効果推定値の精確さ( precision)と一致する確実性等級付け
のうち、最も低いものが正味利益の確実性を表す。
(4)評価者は、全体的なフレームワークを考慮し、単一のアウトカムの限られた確実性が正味の利益の全体的な確実性を下げるのに十分かどう
かを判断する必要がある。たとえば、 net benefitの計算に入れた個々のアウトカムの中で3つが確実性高、1つが非常に低だった際に、この1つの
アウトカムをもって非常に低まで確実性を落とすべきか?ということを判断しなければならない。
これは、正味の効果の推定値の信頼区間が0に近い時は、 1つのアウトカムをもって確実性を下げないという判断もありうる(この判断は、理論的
な根拠ではなく、慣例に基づいて使用される)。下図は概念の把握に有効な図であるので、しっかりと理解して欲しい。
53