SlideShare ist ein Scribd-Unternehmen logo
1 von 27
東京大学 医学系研究科 倉橋一成 データ解析
データはあるけどどうやって解析したら良いの? 東京大学 医学系研究科 倉橋一成 2 解析方法 データの形による解析 データの形が決まれば解析もある程度決まる 研究デザインによる解析 研究、実験のデザインに沿った解析 推定、検定 方法は数えきれない程ある よく使われる検定はそんなに多くない 現在得ているデータを記述する 予測 推定の延長 将来得られる観測値を推定する 欠測 一部のデータが欠測している場合の推定、補完方法 変数の要約 調査票の解析、遺伝子データの解析など 多くの変数を要約する変数に縮小する 変数間の構造 因果関係とは? ベイズ統計
データの形による解析 東京大学 医学系研究科 倉橋一成 3 変数 順序(数値データ) 連続 体重、身長、血圧など 離散 調査票の回答など 名義(クラスデータ) 性別、世代など 生存時間 特殊な解析 結果変数×説明変数
解析をする際はどのような視点を持てば良いか? 東京大学 医学系研究科 倉橋一成 4 説明変数と結果変数 変数を説明変数と結果変数に分類 各変数の型 数値 正規性(正規性を仮定した漸近的なモデルを利用) 非正規性(ノンパラメトリックな解析) クラス 群の数 各変数の数 1つ:単変量 2つ以上:多変量 変数の型と数によって分析方法がほぼ決まる
結果変数×説明変数の分類例 5 各変数の型(種類)での分類例 各変数の数での分類例 大部分のデータでは結果変数は単変量である 以降結果変数が単変量、多変量である場合に分けて説明 東京大学 医学系研究科 倉橋一成
数値×数値 東京大学 医学系研究科 倉橋一成 6 単変数 記述 相関係数 Searsonの積率相関係数 Spearmanの順位相関係数 Kendallの順位相関係数 予測 単回帰 多変数 重回帰 線形回帰 非線形回帰 移動平均 Spline Locally Weighted Scatterplot Smoother(LOESS) 結果変数:単変量
数値×クラス 東京大学 医学系研究科 倉橋一成 7 単変量 2群比較 検定 t検定 等分散性を仮定したt検定 Welchの検定 符号検定 Wilcoxsonの符号付順位和検定(Mann-WhitenyのU検定) 並べ替え検定 多群比較 検定 分散分析 Kluskal-Wallis検定 推定 線形回帰 多変量 重回帰 多変量分散分析(MANOVA) 結果変数:単変量
等分散性の検定 東京大学 医学系研究科 倉橋一成 8 クラス間の等分散性 Levene検定 Bartlett検定 Harley検定 結果変数:単変量 等分散性 の検定
検定の多重性は常に気に留めておく 東京大学 医学系研究科 倉橋一成 9 多重性の問題 検定を何度も行うとαerrorが増大する 個々の検定のαerrorが5%であるから、何度も行うと全体のαerror(Family-wise type I error)が増える 古典的な調整 実験データで多用 Bonferroni Tukey Dunnet Williams False Discovery Rate(Benjamini, 1995, JRSS) 遺伝子データの分野 Closed testing(Marcus, 1976, Biometrika) Gatekeeping procedure(Bauer, 1998, Stat Med) 臨床試験の分野
クラス×数値 東京大学 医学系研究科 倉橋一成 10 判別 Fisherの線形判別分析 Nearest Neighbor NeuralNetwork Support Vector Machine Bagging 決定木 回帰 ロジスティック回帰 ポアソン回帰 Spline回帰 Locally Weighted Scatterplot Smoother(LOESS) 結果変数:単変量
クラス×クラス(分割表) 東京大学 医学系研究科 倉橋一成 11 単変量 χ2検定 Fisherの正確検定 Cochran-Armitage傾向検定 多変量 Chocran-Mantel-Haenszel検定(交絡の調整) リスク差 リスク比 オッズ比 Breslow-Day検定(オッズ比の均一性の検定) 条件付きロジスティック回帰 結果変数:単変量
結果変数:単変量 東京大学 医学系研究科 倉橋一成 12 以上を統一するモデル Generalized Linear Model(GLIM、一般化線形モデル) Generalized Estimating Equation(GEE、一般化推定方程式)で解く Generalized Additive model(GAM、一般化加法モデル) モデルの構造 サンプリングモデル 結果変数の従う分布族の指定 指数型分布族 正規分布、二項分布、ポアソン分布など 平均構造のモデル 説明変数と結果変数の関係 リンク関数によって結果変数を変換 Identical link, log link, logit link
生存時間解析は少し特殊 東京大学 医学系研究科 倉橋一成 13 記述 Kaplan-Meier法 Log-log plot Proportional Hazard(比例ハザード)性の確認 検定 Logrank検定 一般化Wilcoxson検定 推定 Cox回帰
変数間の構造を見たい(多変量×多変量) 東京大学 医学系研究科 倉橋一成 14 パス解析 Structural equation model(SEM、構造方程式モデル、共分散構造分析) 結果変数:多変量
経時データはどのように考える? 東京大学 医学系研究科 倉橋一成 15 結果変数は単変量か多変量か? 単変量 時間変数を説明変数に加える GLIM, GAM等で解析 経済時系列解析 Autoregressivemoving average model(ARMA、自己回帰移動平均モデル) 自己回帰(AR)と移動平均(MA)を組み合わせたモデル NARMA:非線形~ ARIMA:自己回帰和分移動平均モデル(integrated) 多変量 それぞれの時点での結果変数は相関した別々の変数 SEM等で解析
時間依存性共変量 東京大学 医学系研究科 倉橋一成 16 属性(説明変数、共変量)が時間と共に変化する
変数の縮約(変数が多すぎる!!) 東京大学 医学系研究科 倉橋一成 17 説明変数、結果変数の数を減らしたい 変数選択 Stepwise法 Least Angle Resression(LARS,Efron andHastie.2004. Annals of Stat.) 縮約、縮小 Principal Component Analysis(主成分分析) FactorAnalysis(因子分析) Partial Least Squares(PLS) グループ分け(Clustering) 階層型 Ward法 凝集法 非階層型 K-means法 Self Organization Map(SOM)
予測 東京大学 医学系研究科 倉橋一成 18 正解率(感度、特異度)を評価する 検定? 推定 Cross-Validation Leave-one-outCV N-fold CV Bootstrap Adaptivebootstrap ABC法 .632 bootstrap .632+ bootstrap 閾値を変化させた際の挙動を見たい Receiver Operating Characteristic(ROC)曲線 IDI
欠測 東京大学 医学系研究科 倉橋一成 19 欠測の過程 Missing Completely at Random Missing at Random Missing not at Random 補完 Multiple Imputation Propensity Score Markov Chain Monte Carlo(MCMC)法 推定 補完はしない Propensity Score法 Inverse Probability of Censoring Weight(IPCW)法 Doubly Robust法
研究デザインによる解析 東京大学 医学系研究科 倉橋一成 20 実験研究 Factorial design(要因実験) Randomized block design(乱塊法) 臨床試験 デザイン 並行群間 Cross-over研究 層別ランダム化 中間解析 疫学研究 Cohort Case control Nested case control Case cohort 2-stage case control Case specula Case only
実験研究 東京大学 医学系研究科 倉橋一成 21 Fisherの3原則 繰り返し ランダム化 局所管理 要因実験 総組み合わせ法 乱塊法 ブロックに分けてランダム化する 1~3全て満たすことが出来る
臨床試験 東京大学 医学系研究科 倉橋一成 22 デザイン 並行群間 単純に2群比較を行う Cross-over研究 対象者の節約が可能 食品や生活習慣に係わる要因は避けたほうが良い Wash-out期間が長いと思われる 層別ランダム化 実験研究での乱塊法と同じ 中間解析 試験途中でも以下の場合はそれ以上の試験は中止 十分な結果が得られた 続けても効果が見られない 有害事象が多くみられる
疫学研究 東京大学 医学系研究科 倉橋一成 23 Cohort 全ての疫学研究の理想形 時間、予算、患者数などの問題で種々のデザイン Case control Nested case control Case cohort 2-stage case control Case specula Case only
因果関係とは? 東京大学 医学系研究科 倉橋一成 24 因果関係 正しく制御されたランダム化試験 得られた結果は因果関係を表す それ以外の全ての研究 Hillの必要条件を満たさないと因果関係と言えない 時間的順序 唯一完全に分かる可能性がある 交絡を受けている可能性が高い Directed Acyclic Graph(DAG) 因果関係を有向グラフ(矢線)で表現 交絡を解析によって除去できる
DAGによる表現 東京大学 医学系研究科 倉橋一成 25 Z W Z Y Y X X Z: collider Closed pass Unconditional d-separation Z: confounder Open pass conditional d-separation DAGからopen passを消すとX-Y間の交絡が無くなる 交絡変数を説明変数に加えて調整する 因果推論的な解析を行う(直接効果の推定)
ベイズ統計 東京大学 医学系研究科 倉橋一成 26 確率には2種類ある 頻度論(客観確率) 確率論の公理(AndreyKolmogorov, 『確率論の基礎概念』) 全ての事象の確率は0以上1以下である 全ての事象の確率を足すと1である 排反事象の和集合が起こる確率は、個々の事象の確率の和である これまでのスライドの内容ほとんど全て ベイズ統計(主観確率) 確率論が定式化される以前にThomas Bayesが考えていた(1764, Essay toward solving a problem in the doctrine of chances) 事後確率は事前確率に尤度(データの情報)をかけたもの 実生活での知識、情報の更新に近い 頻度論の解析手法はベイズ流の手法に修正可能 事前確率の設定について客観的な基準は無い
以上の内容をSASとRで解析していこう 東京大学 医学系研究科 倉橋一成 27 SAS Statistical Analysis System 世界的に信頼されている解析ソフト プログラミング技術が無くても解析は容易 多くの論文で利用されている 幅広い解析に対応できる パッケージ 行列計算をプログラミング 高価なため個人的な利用は難しい R インターネット上で無料配布 ダウンロードしてすぐ利用できる! 世界中の統計家が常に新しいパッケージを開発、公開 最新の論文で提案された手法も解析可能 グラフィックに強いため思い通りの図を描ける SASと同等の質の結果を得ることができる プログラミングは少々わかり辛い

Weitere ähnliche Inhalte

Was ist angesagt?

201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン
201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン
201707srws第六回その3revmanでのメタ・アナリシス・ハンズオンSR WS
 
170907第3回hcru ws
170907第3回hcru ws170907第3回hcru ws
170907第3回hcru wsSR WS
 
201708 srws第七回統合、層別・感度分析、欠測への対処
201708 srws第七回統合、層別・感度分析、欠測への対処201708 srws第七回統合、層別・感度分析、欠測への対処
201708 srws第七回統合、層別・感度分析、欠測への対処SR WS
 
20170202 srws第七回統合、層別・感度分析、欠測への対処
20170202 srws第七回統合、層別・感度分析、欠測への対処20170202 srws第七回統合、層別・感度分析、欠測への対処
20170202 srws第七回統合、層別・感度分析、欠測への対処SR WS
 
20161015 srws第一回preliminarysearching 公開用
20161015 srws第一回preliminarysearching 公開用20161015 srws第一回preliminarysearching 公開用
20161015 srws第一回preliminarysearching 公開用SR WS
 
20170524 srws第三回pubmedを用いた系統的検索その1
20170524 srws第三回pubmedを用いた系統的検索その120170524 srws第三回pubmedを用いた系統的検索その1
20170524 srws第三回pubmedを用いた系統的検索その1SR WS
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアスSR WS
 
20170120おおさかどまんなか原著論文 公開用
20170120おおさかどまんなか原著論文  公開用20170120おおさかどまんなか原著論文  公開用
20170120おおさかどまんなか原著論文 公開用SR WS
 
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"SR WS
 
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオンSR WS
 
20161225午後検索式作成w sv1218答え抜き
20161225午後検索式作成w sv1218答え抜き20161225午後検索式作成w sv1218答え抜き
20161225午後検索式作成w sv1218答え抜きSR WS
 
201704 srws第一回preliminarysearching 一般公開
201704 srws第一回preliminarysearching  一般公開201704 srws第一回preliminarysearching  一般公開
201704 srws第一回preliminarysearching 一般公開SR WS
 
201705 srws第二回文献の選択基準
201705 srws第二回文献の選択基準201705 srws第二回文献の選択基準
201705 srws第二回文献の選択基準SR WS
 
データベース研究の報告
データベース研究の報告データベース研究の報告
データベース研究の報告Yasuyuki Okumura
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方Sayuri Shimizu
 
201708 srws第八回 grade、prospero登録、PRISMA
201708 srws第八回 grade、prospero登録、PRISMA201708 srws第八回 grade、prospero登録、PRISMA
201708 srws第八回 grade、prospero登録、PRISMASR WS
 
20170629 srws第五回robの評価
20170629 srws第五回robの評価20170629 srws第五回robの評価
20170629 srws第五回robの評価SR WS
 
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋としてYoshitake Takebayashi
 
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理SR WS
 

Was ist angesagt? (20)

201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン
201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン
201707srws第六回その3revmanでのメタ・アナリシス・ハンズオン
 
170907第3回hcru ws
170907第3回hcru ws170907第3回hcru ws
170907第3回hcru ws
 
201708 srws第七回統合、層別・感度分析、欠測への対処
201708 srws第七回統合、層別・感度分析、欠測への対処201708 srws第七回統合、層別・感度分析、欠測への対処
201708 srws第七回統合、層別・感度分析、欠測への対処
 
20170202 srws第七回統合、層別・感度分析、欠測への対処
20170202 srws第七回統合、層別・感度分析、欠測への対処20170202 srws第七回統合、層別・感度分析、欠測への対処
20170202 srws第七回統合、層別・感度分析、欠測への対処
 
20161015 srws第一回preliminarysearching 公開用
20161015 srws第一回preliminarysearching 公開用20161015 srws第一回preliminarysearching 公開用
20161015 srws第一回preliminarysearching 公開用
 
20170524 srws第三回pubmedを用いた系統的検索その1
20170524 srws第三回pubmedを用いた系統的検索その120170524 srws第三回pubmedを用いた系統的検索その1
20170524 srws第三回pubmedを用いた系統的検索その1
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス
 
20170120おおさかどまんなか原著論文 公開用
20170120おおさかどまんなか原著論文  公開用20170120おおさかどまんなか原著論文  公開用
20170120おおさかどまんなか原著論文 公開用
 
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"
2016.9.24診断精度の系統的レビューワークショップ事前学習 "診断研究の枠組み"
 
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン
20160713 srws第六回後半、revmanでのメタ・アナリシス・ハンズオン
 
20161225午後検索式作成w sv1218答え抜き
20161225午後検索式作成w sv1218答え抜き20161225午後検索式作成w sv1218答え抜き
20161225午後検索式作成w sv1218答え抜き
 
201704 srws第一回preliminarysearching 一般公開
201704 srws第一回preliminarysearching  一般公開201704 srws第一回preliminarysearching  一般公開
201704 srws第一回preliminarysearching 一般公開
 
201705 srws第二回文献の選択基準
201705 srws第二回文献の選択基準201705 srws第二回文献の選択基準
201705 srws第二回文献の選択基準
 
データベース研究の報告
データベース研究の報告データベース研究の報告
データベース研究の報告
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 
201708 srws第八回 grade、prospero登録、PRISMA
201708 srws第八回 grade、prospero登録、PRISMA201708 srws第八回 grade、prospero登録、PRISMA
201708 srws第八回 grade、prospero登録、PRISMA
 
20170629 srws第五回robの評価
20170629 srws第五回robの評価20170629 srws第五回robの評価
20170629 srws第五回robの評価
 
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として
 
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理
20161117 srws第三回検索その2PubMed検索、引用検索、逆引き検索と文献管理
 

Andere mochten auch

データ解析・統計講座②
データ解析・統計講座②データ解析・統計講座②
データ解析・統計講座②uenotsutomu
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
統計勉強会Vol1
統計勉強会Vol1統計勉強会Vol1
統計勉強会Vol1Yuto Suzuki
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Naruhiko Shiratori
 
Bra kobe.r12
Bra kobe.r12Bra kobe.r12
Bra kobe.r12florets1
 
図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)MROC Japan
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響されるMitsuo Shimohata
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Issei Kurahashi
 
Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Naruhiko Shiratori
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用w24nishi
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編. .
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Naruhiko Shiratori
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用Rakuten Group, Inc.
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Hiroko Onari
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?Takashi J OZAKI
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性もT T
 
データマイニング入門
データマイニング入門データマイニング入門
データマイニング入門hrfm
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Nagi Teramo
 

Andere mochten auch (20)

データ解析・統計講座②
データ解析・統計講座②データ解析・統計講座②
データ解析・統計講座②
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
統計勉強会Vol1
統計勉強会Vol1統計勉強会Vol1
統計勉強会Vol1
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回
 
Bra kobe.r12
Bra kobe.r12Bra kobe.r12
Bra kobe.r12
 
図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響される
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も
 
データマイニング入門
データマイニング入門データマイニング入門
データマイニング入門
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」
 

Ähnlich wie データ解析

データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析Seiichi Uchida
 
診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例Takashi Fujiwara
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムSeiichi Uchida
 
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708Yusuke Yamamoto
 
160509 STROBE解説
160509 STROBE解説160509 STROBE解説
160509 STROBE解説KuraRINet
 
6診断精度のメタアナリシス
6診断精度のメタアナリシス6診断精度のメタアナリシス
6診断精度のメタアナリシスSR WS
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはSeiichi Uchida
 
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析Seiichi Uchida
 
TokyoR58 初心者セッション
TokyoR58 初心者セッションTokyoR58 初心者セッション
TokyoR58 初心者セッションkotora_0507
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。Takashi Fujiwara
 
医療ビッグデータ勉強会プレゼン公開版
医療ビッグデータ勉強会プレゼン公開版医療ビッグデータ勉強会プレゼン公開版
医療ビッグデータ勉強会プレゼン公開版mamoruichikawa
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門Hiroshi Unzai
 
Jcors_2021年アドベントカレンダー企画スライド
Jcors_2021年アドベントカレンダー企画スライドJcors_2021年アドベントカレンダー企画スライド
Jcors_2021年アドベントカレンダー企画スライドMasayaITO6
 
TokyoR #57 初心者セッション
TokyoR #57 初心者セッションTokyoR #57 初心者セッション
TokyoR #57 初心者セッションkotora_0507
 
20161106予測指標の作り方当日1031 配布版
20161106予測指標の作り方当日1031  配布版20161106予測指標の作り方当日1031  配布版
20161106予測指標の作り方当日1031 配布版SR WS
 

Ähnlich wie データ解析 (20)

データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
STROBE/STARDの解説
STROBE/STARDの解説STROBE/STARDの解説
STROBE/STARDの解説
 
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708
 
160509 STROBE解説
160509 STROBE解説160509 STROBE解説
160509 STROBE解説
 
6診断精度のメタアナリシス
6診断精度のメタアナリシス6診断精度のメタアナリシス
6診断精度のメタアナリシス
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
 
観察研究の必須事項
観察研究の必須事項観察研究の必須事項
観察研究の必須事項
 
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
 
TokyoR58 初心者セッション
TokyoR58 初心者セッションTokyoR58 初心者セッション
TokyoR58 初心者セッション
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。
 
医療ビッグデータ勉強会プレゼン公開版
医療ビッグデータ勉強会プレゼン公開版医療ビッグデータ勉強会プレゼン公開版
医療ビッグデータ勉強会プレゼン公開版
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
Jcors_2021年アドベントカレンダー企画スライド
Jcors_2021年アドベントカレンダー企画スライドJcors_2021年アドベントカレンダー企画スライド
Jcors_2021年アドベントカレンダー企画スライド
 
観察研究の質の評価
観察研究の質の評価観察研究の質の評価
観察研究の質の評価
 
TokyoR #57 初心者セッション
TokyoR #57 初心者セッションTokyoR #57 初心者セッション
TokyoR #57 初心者セッション
 
Fundamentals of Neurology.pdf
Fundamentals of Neurology.pdfFundamentals of Neurology.pdf
Fundamentals of Neurology.pdf
 
20161106予測指標の作り方当日1031 配布版
20161106予測指標の作り方当日1031  配布版20161106予測指標の作り方当日1031  配布版
20161106予測指標の作り方当日1031 配布版
 
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測DLLAB Healthcare Day 2020  機械学習による健康・疾患状態の層別化と予測
DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測
 

Mehr von Issei Kurahashi

おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンスIssei Kurahashi
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるためにIssei Kurahashi
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋Issei Kurahashi
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回Issei Kurahashi
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333Issei Kurahashi
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333Issei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 

Mehr von Issei Kurahashi (17)

おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
おしゃスタV
おしゃスタVおしゃスタV
おしゃスタV
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 

データ解析

  • 2. データはあるけどどうやって解析したら良いの? 東京大学 医学系研究科 倉橋一成 2 解析方法 データの形による解析 データの形が決まれば解析もある程度決まる 研究デザインによる解析 研究、実験のデザインに沿った解析 推定、検定 方法は数えきれない程ある よく使われる検定はそんなに多くない 現在得ているデータを記述する 予測 推定の延長 将来得られる観測値を推定する 欠測 一部のデータが欠測している場合の推定、補完方法 変数の要約 調査票の解析、遺伝子データの解析など 多くの変数を要約する変数に縮小する 変数間の構造 因果関係とは? ベイズ統計
  • 3. データの形による解析 東京大学 医学系研究科 倉橋一成 3 変数 順序(数値データ) 連続 体重、身長、血圧など 離散 調査票の回答など 名義(クラスデータ) 性別、世代など 生存時間 特殊な解析 結果変数×説明変数
  • 4. 解析をする際はどのような視点を持てば良いか? 東京大学 医学系研究科 倉橋一成 4 説明変数と結果変数 変数を説明変数と結果変数に分類 各変数の型 数値 正規性(正規性を仮定した漸近的なモデルを利用) 非正規性(ノンパラメトリックな解析) クラス 群の数 各変数の数 1つ:単変量 2つ以上:多変量 変数の型と数によって分析方法がほぼ決まる
  • 5. 結果変数×説明変数の分類例 5 各変数の型(種類)での分類例 各変数の数での分類例 大部分のデータでは結果変数は単変量である 以降結果変数が単変量、多変量である場合に分けて説明 東京大学 医学系研究科 倉橋一成
  • 6. 数値×数値 東京大学 医学系研究科 倉橋一成 6 単変数 記述 相関係数 Searsonの積率相関係数 Spearmanの順位相関係数 Kendallの順位相関係数 予測 単回帰 多変数 重回帰 線形回帰 非線形回帰 移動平均 Spline Locally Weighted Scatterplot Smoother(LOESS) 結果変数:単変量
  • 7. 数値×クラス 東京大学 医学系研究科 倉橋一成 7 単変量 2群比較 検定 t検定 等分散性を仮定したt検定 Welchの検定 符号検定 Wilcoxsonの符号付順位和検定(Mann-WhitenyのU検定) 並べ替え検定 多群比較 検定 分散分析 Kluskal-Wallis検定 推定 線形回帰 多変量 重回帰 多変量分散分析(MANOVA) 結果変数:単変量
  • 8. 等分散性の検定 東京大学 医学系研究科 倉橋一成 8 クラス間の等分散性 Levene検定 Bartlett検定 Harley検定 結果変数:単変量 等分散性 の検定
  • 9. 検定の多重性は常に気に留めておく 東京大学 医学系研究科 倉橋一成 9 多重性の問題 検定を何度も行うとαerrorが増大する 個々の検定のαerrorが5%であるから、何度も行うと全体のαerror(Family-wise type I error)が増える 古典的な調整 実験データで多用 Bonferroni Tukey Dunnet Williams False Discovery Rate(Benjamini, 1995, JRSS) 遺伝子データの分野 Closed testing(Marcus, 1976, Biometrika) Gatekeeping procedure(Bauer, 1998, Stat Med) 臨床試験の分野
  • 10. クラス×数値 東京大学 医学系研究科 倉橋一成 10 判別 Fisherの線形判別分析 Nearest Neighbor NeuralNetwork Support Vector Machine Bagging 決定木 回帰 ロジスティック回帰 ポアソン回帰 Spline回帰 Locally Weighted Scatterplot Smoother(LOESS) 結果変数:単変量
  • 11. クラス×クラス(分割表) 東京大学 医学系研究科 倉橋一成 11 単変量 χ2検定 Fisherの正確検定 Cochran-Armitage傾向検定 多変量 Chocran-Mantel-Haenszel検定(交絡の調整) リスク差 リスク比 オッズ比 Breslow-Day検定(オッズ比の均一性の検定) 条件付きロジスティック回帰 結果変数:単変量
  • 12. 結果変数:単変量 東京大学 医学系研究科 倉橋一成 12 以上を統一するモデル Generalized Linear Model(GLIM、一般化線形モデル) Generalized Estimating Equation(GEE、一般化推定方程式)で解く Generalized Additive model(GAM、一般化加法モデル) モデルの構造 サンプリングモデル 結果変数の従う分布族の指定 指数型分布族 正規分布、二項分布、ポアソン分布など 平均構造のモデル 説明変数と結果変数の関係 リンク関数によって結果変数を変換 Identical link, log link, logit link
  • 13. 生存時間解析は少し特殊 東京大学 医学系研究科 倉橋一成 13 記述 Kaplan-Meier法 Log-log plot Proportional Hazard(比例ハザード)性の確認 検定 Logrank検定 一般化Wilcoxson検定 推定 Cox回帰
  • 14. 変数間の構造を見たい(多変量×多変量) 東京大学 医学系研究科 倉橋一成 14 パス解析 Structural equation model(SEM、構造方程式モデル、共分散構造分析) 結果変数:多変量
  • 15. 経時データはどのように考える? 東京大学 医学系研究科 倉橋一成 15 結果変数は単変量か多変量か? 単変量 時間変数を説明変数に加える GLIM, GAM等で解析 経済時系列解析 Autoregressivemoving average model(ARMA、自己回帰移動平均モデル) 自己回帰(AR)と移動平均(MA)を組み合わせたモデル NARMA:非線形~ ARIMA:自己回帰和分移動平均モデル(integrated) 多変量 それぞれの時点での結果変数は相関した別々の変数 SEM等で解析
  • 16. 時間依存性共変量 東京大学 医学系研究科 倉橋一成 16 属性(説明変数、共変量)が時間と共に変化する
  • 17. 変数の縮約(変数が多すぎる!!) 東京大学 医学系研究科 倉橋一成 17 説明変数、結果変数の数を減らしたい 変数選択 Stepwise法 Least Angle Resression(LARS,Efron andHastie.2004. Annals of Stat.) 縮約、縮小 Principal Component Analysis(主成分分析) FactorAnalysis(因子分析) Partial Least Squares(PLS) グループ分け(Clustering) 階層型 Ward法 凝集法 非階層型 K-means法 Self Organization Map(SOM)
  • 18. 予測 東京大学 医学系研究科 倉橋一成 18 正解率(感度、特異度)を評価する 検定? 推定 Cross-Validation Leave-one-outCV N-fold CV Bootstrap Adaptivebootstrap ABC法 .632 bootstrap .632+ bootstrap 閾値を変化させた際の挙動を見たい Receiver Operating Characteristic(ROC)曲線 IDI
  • 19. 欠測 東京大学 医学系研究科 倉橋一成 19 欠測の過程 Missing Completely at Random Missing at Random Missing not at Random 補完 Multiple Imputation Propensity Score Markov Chain Monte Carlo(MCMC)法 推定 補完はしない Propensity Score法 Inverse Probability of Censoring Weight(IPCW)法 Doubly Robust法
  • 20. 研究デザインによる解析 東京大学 医学系研究科 倉橋一成 20 実験研究 Factorial design(要因実験) Randomized block design(乱塊法) 臨床試験 デザイン 並行群間 Cross-over研究 層別ランダム化 中間解析 疫学研究 Cohort Case control Nested case control Case cohort 2-stage case control Case specula Case only
  • 21. 実験研究 東京大学 医学系研究科 倉橋一成 21 Fisherの3原則 繰り返し ランダム化 局所管理 要因実験 総組み合わせ法 乱塊法 ブロックに分けてランダム化する 1~3全て満たすことが出来る
  • 22. 臨床試験 東京大学 医学系研究科 倉橋一成 22 デザイン 並行群間 単純に2群比較を行う Cross-over研究 対象者の節約が可能 食品や生活習慣に係わる要因は避けたほうが良い Wash-out期間が長いと思われる 層別ランダム化 実験研究での乱塊法と同じ 中間解析 試験途中でも以下の場合はそれ以上の試験は中止 十分な結果が得られた 続けても効果が見られない 有害事象が多くみられる
  • 23. 疫学研究 東京大学 医学系研究科 倉橋一成 23 Cohort 全ての疫学研究の理想形 時間、予算、患者数などの問題で種々のデザイン Case control Nested case control Case cohort 2-stage case control Case specula Case only
  • 24. 因果関係とは? 東京大学 医学系研究科 倉橋一成 24 因果関係 正しく制御されたランダム化試験 得られた結果は因果関係を表す それ以外の全ての研究 Hillの必要条件を満たさないと因果関係と言えない 時間的順序 唯一完全に分かる可能性がある 交絡を受けている可能性が高い Directed Acyclic Graph(DAG) 因果関係を有向グラフ(矢線)で表現 交絡を解析によって除去できる
  • 25. DAGによる表現 東京大学 医学系研究科 倉橋一成 25 Z W Z Y Y X X Z: collider Closed pass Unconditional d-separation Z: confounder Open pass conditional d-separation DAGからopen passを消すとX-Y間の交絡が無くなる 交絡変数を説明変数に加えて調整する 因果推論的な解析を行う(直接効果の推定)
  • 26. ベイズ統計 東京大学 医学系研究科 倉橋一成 26 確率には2種類ある 頻度論(客観確率) 確率論の公理(AndreyKolmogorov, 『確率論の基礎概念』) 全ての事象の確率は0以上1以下である 全ての事象の確率を足すと1である 排反事象の和集合が起こる確率は、個々の事象の確率の和である これまでのスライドの内容ほとんど全て ベイズ統計(主観確率) 確率論が定式化される以前にThomas Bayesが考えていた(1764, Essay toward solving a problem in the doctrine of chances) 事後確率は事前確率に尤度(データの情報)をかけたもの 実生活での知識、情報の更新に近い 頻度論の解析手法はベイズ流の手法に修正可能 事前確率の設定について客観的な基準は無い
  • 27. 以上の内容をSASとRで解析していこう 東京大学 医学系研究科 倉橋一成 27 SAS Statistical Analysis System 世界的に信頼されている解析ソフト プログラミング技術が無くても解析は容易 多くの論文で利用されている 幅広い解析に対応できる パッケージ 行列計算をプログラミング 高価なため個人的な利用は難しい R インターネット上で無料配布 ダウンロードしてすぐ利用できる! 世界中の統計家が常に新しいパッケージを開発、公開 最新の論文で提案された手法も解析可能 グラフィックに強いため思い通りの図を描ける SASと同等の質の結果を得ることができる プログラミングは少々わかり辛い