SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
「機械学習の自動化が AIの民主化を加速する」
スケジュール
18:30-19:00 受付
19:00-19:15 準備(環境、データ)
19:15-19:20 お知らせ
19:20-19:30 生存分析と打切り
19:30-20:00 生存分析の手法
20:00-20:30 汎用的機械学習で生存予測
20:30-20:50 演習(犯罪予測)
20:50-21:00 まとめ、質問、アンケート
機械学習による
生存予測
1
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
生存分析と
打切り
2
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
生存分析 for improved quality of life
3
● ヘルスケア(生存分析)
○ 患者がいつ死亡するか
○ 患者がいつ入院するか
○ 患者がいつ病気にかかるか
● 製造(Failure Time 分析)
○ 機械がいつ故障するか
○ 材料がいつ耐えられなくなるか
○ 商品がいつ使えなくなるか
● その他(Time to Event 分析)
○ 顧客がいつ離脱するか
○ 犯罪者がいつ再逮捕されるか
○ 会社がいつ倒産するか
○ いつ結婚するか、離婚するか
薬の研究開発 リスク管理ケア変更 リソース管理
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
生存分析ではある事象が起こるまでの時間を分析する
4
医師によるECOG
パフォーマンス点数
0=good 3=poor
医師によるKarnofsky
パフォーマンス点数
0=poor 100=good
患者によるKarnofsky
パフォーマンス点数
0=poor 100=good
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
打切りがあるので、連続値回帰で予測できない
5
観察開始 観察終了
肺がんで死亡
交通事故で死亡
脱落
生存
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
解決法打切りなし→生存時間を直接予測
6
打切りあり→生存時間を直接予測できない
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
生存分析の手法
7
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Kaplan-Meier法で生存曲線の比較
ある時点での生存確率 = その時点での生存者数をその時点で
の対象者数で割る
P_i = (S - D - C) / (S - C)
S = その時点まで生存した人数
D = その時点で死亡した人数
C = その時点で打切りになった人数
この時点より前の打切りはこの時点より前の死亡と同様に対象
者に含まれない
この時点でまだ打切りでないものは対象者に含まれる
P_iの掛け算をして生存曲線を生成
8
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Kaplan-Meier法で生存曲線を作ってみましょう
9
1. Time
各時間の準備
2. At Risk
各時間で対象者数の計算
3. Failed
各時間で死亡者数の計算
4. Fail Rate
Failed / At Risk
5. Survival Rate
1 - Fail Rate
6. Survival Curve
Survival Rateの掛け算
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Cox PH 回帰
Kaplan-Meier法では複数の要因が生存に及ぼす影響を見ることができない
このような場合に活用できる手法にCOX比例ハザードモデルというものがある
λ(t|x1, · · · , xn) = λ0(t) exp(β1x1 + · · · + βnxn)
ハザードλはベースラインハザードのλ0と特徴量に依存
10
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
最新のアルゴリズムでやるには...
11
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
汎用的機械学習
で生存予測
12
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
© DataRobot, Inc. All rights reserved.
データの前処理
13
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Person-Periodデータの作成
データを期間に分割し、各期間生存するかを学習し、将来の各期間について予測
注意点:時間の情報が何らかの形で特徴量セットに含まれているということ
ID 時間 死 打ち切り 薬1 薬2
Ann 2年 1 0 120 180
Ben 2年 0 1 130 110
Cindy 1年 1 0 80
ID 時間 死 薬
Ann 1年 0 120
Ann 2年 1 180
Ben 1年 0 130
Ben 2年 0 110
Cindy 1年 1 80
14
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Person-PeriodデータでKaplan-Meier生存曲線を作ってみよう
15
1. Time: 一人を期間ごとに
2. Status: もともと1であれば、最後の期間が1
3. Insert PivotTable
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
From Person-Level データ...
16
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
To Person-Periodデータ
17
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Person-PeriodデータでKaplan-Meier生存曲線
18
Rと同じ曲線
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
© DataRobot, Inc. All rights reserved.
モデリング
19
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
DataRobotで死亡予測
20
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Person-PeriodデータをDataRobotにドラッグ&ドロップ
21
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
高度なオプションでグループパーティション
注意点:同じ患者のデータの一部が学習に使われて残りが検定に使われることを防ぐこと
22
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
データタブで生存月数と過去の死亡率の関係
23
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
特徴量のインパクト、モデルX-Rayでモデルを元に解釈
24
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
各期間で予測、生存確率を掛け算して生存曲線
25
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
演習:犯罪がいつ起こる
か予測してみよう
26
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
DataRobotで犯罪予測(演習20分)
1. Person-PeriodデータをDataRobotにドラッグ&ドロップ、ターゲットをセット
2. 高度なオプションでグループパーティション
3. データタブで生存月数と過去の死亡率の関係
4. 特徴量のインパクト、モデルX-Rayでモデルを元に解釈
5. 各期間で予測、生存確率を掛け算して生存曲線(時間があれば)
27
各テーブルでRossi
データを使用して釈
放されてからいつ逮
捕されるかを予測し
てみましょう。
いくつかのテーブル
に発表していただき
ます。
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
まとめ
28
Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
Person-periodのデータを準備することで...
● 最新のアルゴリズムを使用して精度をあげることができるかもしれない
○ ケア変更、リソース管理、リスク管理に貢献できる
● DataRobotで分析をして、特徴量のインパクトやモデルX-Rayなどを見ることによっ
て、Kaplan-Meier曲線やCox回帰とは違ったインサイトを得ることができる
○ 要因分析や予測値の理由を見ることができる
29
薬の研究開発 リスク管理ケア変更 リソース管理
Questions?
DataRobot Japan Team
@ DataRobot
30

Weitere ähnliche Inhalte

Was ist angesagt?

状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 

Was ist angesagt? (20)

一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
Adversarial Examples 分野の動向 (敵対的サンプル発表資料)
Adversarial Examples 分野の動向(敵対的サンプル発表資料)Adversarial Examples 分野の動向(敵対的サンプル発表資料)
Adversarial Examples 分野の動向 (敵対的サンプル発表資料)
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
1 6.変数選択とAIC
1 6.変数選択とAIC1 6.変数選択とAIC
1 6.変数選択とAIC
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
 

Ähnlich wie 機械学習による生存予測

20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
Takahiro Inoue
 
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
Akihiko Uchino
 

Ähnlich wie 機械学習による生存予測 (6)

20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
セキュリティとコンプライアンスプログラムについて
セキュリティとコンプライアンスプログラムについてセキュリティとコンプライアンスプログラムについて
セキュリティとコンプライアンスプログラムについて
 
ビジネスに役立つデータ分析
ビジネスに役立つデータ分析ビジネスに役立つデータ分析
ビジネスに役立つデータ分析
 
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
 
【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略
 

機械学習による生存予測

  • 1. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 「機械学習の自動化が AIの民主化を加速する」 スケジュール 18:30-19:00 受付 19:00-19:15 準備(環境、データ) 19:15-19:20 お知らせ 19:20-19:30 生存分析と打切り 19:30-20:00 生存分析の手法 20:00-20:30 汎用的機械学習で生存予測 20:30-20:50 演習(犯罪予測) 20:50-21:00 まとめ、質問、アンケート 機械学習による 生存予測 1
  • 2. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 生存分析と 打切り 2
  • 3. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 生存分析 for improved quality of life 3 ● ヘルスケア(生存分析) ○ 患者がいつ死亡するか ○ 患者がいつ入院するか ○ 患者がいつ病気にかかるか ● 製造(Failure Time 分析) ○ 機械がいつ故障するか ○ 材料がいつ耐えられなくなるか ○ 商品がいつ使えなくなるか ● その他(Time to Event 分析) ○ 顧客がいつ離脱するか ○ 犯罪者がいつ再逮捕されるか ○ 会社がいつ倒産するか ○ いつ結婚するか、離婚するか 薬の研究開発 リスク管理ケア変更 リソース管理
  • 4. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 生存分析ではある事象が起こるまでの時間を分析する 4 医師によるECOG パフォーマンス点数 0=good 3=poor 医師によるKarnofsky パフォーマンス点数 0=poor 100=good 患者によるKarnofsky パフォーマンス点数 0=poor 100=good
  • 5. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 打切りがあるので、連続値回帰で予測できない 5 観察開始 観察終了 肺がんで死亡 交通事故で死亡 脱落 生存
  • 6. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 解決法打切りなし→生存時間を直接予測 6 打切りあり→生存時間を直接予測できない
  • 7. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 生存分析の手法 7
  • 8. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Kaplan-Meier法で生存曲線の比較 ある時点での生存確率 = その時点での生存者数をその時点で の対象者数で割る P_i = (S - D - C) / (S - C) S = その時点まで生存した人数 D = その時点で死亡した人数 C = その時点で打切りになった人数 この時点より前の打切りはこの時点より前の死亡と同様に対象 者に含まれない この時点でまだ打切りでないものは対象者に含まれる P_iの掛け算をして生存曲線を生成 8
  • 9. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Kaplan-Meier法で生存曲線を作ってみましょう 9 1. Time 各時間の準備 2. At Risk 各時間で対象者数の計算 3. Failed 各時間で死亡者数の計算 4. Fail Rate Failed / At Risk 5. Survival Rate 1 - Fail Rate 6. Survival Curve Survival Rateの掛け算
  • 10. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Cox PH 回帰 Kaplan-Meier法では複数の要因が生存に及ぼす影響を見ることができない このような場合に活用できる手法にCOX比例ハザードモデルというものがある λ(t|x1, · · · , xn) = λ0(t) exp(β1x1 + · · · + βnxn) ハザードλはベースラインハザードのλ0と特徴量に依存 10
  • 11. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 最新のアルゴリズムでやるには... 11
  • 12. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 汎用的機械学習 で生存予測 12
  • 13. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved © DataRobot, Inc. All rights reserved. データの前処理 13
  • 14. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Person-Periodデータの作成 データを期間に分割し、各期間生存するかを学習し、将来の各期間について予測 注意点:時間の情報が何らかの形で特徴量セットに含まれているということ ID 時間 死 打ち切り 薬1 薬2 Ann 2年 1 0 120 180 Ben 2年 0 1 130 110 Cindy 1年 1 0 80 ID 時間 死 薬 Ann 1年 0 120 Ann 2年 1 180 Ben 1年 0 130 Ben 2年 0 110 Cindy 1年 1 80 14
  • 15. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Person-PeriodデータでKaplan-Meier生存曲線を作ってみよう 15 1. Time: 一人を期間ごとに 2. Status: もともと1であれば、最後の期間が1 3. Insert PivotTable
  • 16. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved From Person-Level データ... 16
  • 17. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved To Person-Periodデータ 17
  • 18. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Person-PeriodデータでKaplan-Meier生存曲線 18 Rと同じ曲線
  • 19. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved © DataRobot, Inc. All rights reserved. モデリング 19
  • 20. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved DataRobotで死亡予測 20
  • 21. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Person-PeriodデータをDataRobotにドラッグ&ドロップ 21
  • 22. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 高度なオプションでグループパーティション 注意点:同じ患者のデータの一部が学習に使われて残りが検定に使われることを防ぐこと 22
  • 23. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved データタブで生存月数と過去の死亡率の関係 23
  • 24. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量のインパクト、モデルX-Rayでモデルを元に解釈 24
  • 25. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 各期間で予測、生存確率を掛け算して生存曲線 25
  • 26. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 演習:犯罪がいつ起こる か予測してみよう 26
  • 27. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved DataRobotで犯罪予測(演習20分) 1. Person-PeriodデータをDataRobotにドラッグ&ドロップ、ターゲットをセット 2. 高度なオプションでグループパーティション 3. データタブで生存月数と過去の死亡率の関係 4. 特徴量のインパクト、モデルX-Rayでモデルを元に解釈 5. 各期間で予測、生存確率を掛け算して生存曲線(時間があれば) 27 各テーブルでRossi データを使用して釈 放されてからいつ逮 捕されるかを予測し てみましょう。 いくつかのテーブル に発表していただき ます。
  • 28. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved まとめ 28
  • 29. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Person-periodのデータを準備することで... ● 最新のアルゴリズムを使用して精度をあげることができるかもしれない ○ ケア変更、リソース管理、リスク管理に貢献できる ● DataRobotで分析をして、特徴量のインパクトやモデルX-Rayなどを見ることによっ て、Kaplan-Meier曲線やCox回帰とは違ったインサイトを得ることができる ○ 要因分析や予測値の理由を見ることができる 29 薬の研究開発 リスク管理ケア変更 リソース管理