DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測

機械学習による健康・疾患
状態の層別化と予測
川上英良
千葉大学大学院医学研究院人工知能（AI）医学
千葉大学医学部治療学人工知能研究センター
理化学研究所医科学イノベーションハブ推進プログラム

理化学研究所医科学イノベーションハブ推進プログラム
健康データ数理推論チーム
教師あり学習教師なし学習
ランドスケープモデル位相的データ解析
多項目データから分類・数値を
高い精度で予測
複雑なパターンを抽出し、新た
な分類や基準を発見
健康/疾患状態変化を地形として表現データが持つ幾何的特徴を抽出
実社会の測定データに基づいて生命現象、健康/疾患状態変化を
理解・予測するための様々な数理科学・機械学習手法を開発・応用
Kawakami et al. 2019 Clin Cancer ResKawakami et al. 2019 Clin Cancer Res

予測・個別化医療に向けた課題
 分類・診断が明確でない疾患が
多い（特に多因子疾患）
 データに基づいた疾患の層別化
が必要
 多くの疾患データは疾患発症後
に病院で取られる
 疾患発症前の履歴、疾患発症後
にどのように進行していくかを
分析する必要がある

卵巣腫瘍の手術前診断
良性腫瘍
悪性腫瘍
早期ガン
（転移・播種がない）
進行ガン
（転移・播種がある）
本来、手術してみなければ分からない
• 良性 or 悪性
• 早期 or 進行
といった卵巣腫瘍の性質を
手術前の血液検査だけから予測する
（慈恵医科大学との共同研究）
http://ovarian.org/about-ovarian-cancer/what-is-ovarian-cancer/types-a-stages より引用

良性
悪性
卵巣腫瘍の良性・悪性判定
良性 101名
悪性 334名
従来の重回帰分析
ランダムフォレスト
accuracy = 86.7%
accuracy = 92.4%
ランダムフォレスト
数千〜数万の決定木の多数決
 外れ値に強い
 分布に依存しない
 変数同士の依存関係を考慮

既知の分類は予測可能なのか
早期がんと進行がんの分類
AUC = 0.760
Accuracy = 69.0%
良性・悪性鑑別に比べて精
度があまり良くない…
 早期がんと進行がんで似てい
る症例がある？
 そもそも早期がんと進行がん
の診断は確実なのか？
➡ 教師なし学習

教師なし学習で
似た症例をグルーピング
• 血液検査パターンが似た症
例が近くに来るように配置
• この時点ではどれが良性・
早期・進行かは教えない
一個一個の点が
症例（患者）
• 良性・早期・進行がどれか
色をつけてみる

本物の元データ
項目ごとにシャッフル
した偽物データ
本物データと偽物データを区別
するためのRandom forestモデ
ルを作る
本物データに含まれる2サンプルが同
じリーフに分類される頻度によって、
サンプルの類似度を計算
2サンプル間の距離 = 1 - 類似度
サンプル間の距離行列を用いてMDS,
tSNEなどで二次元平面に分布描画
教師なしランダムフォレスト

良性腫瘍早期がん進行がん
早期がん患者は２つの集団に大別される
集団1: 良性タイプ･･･5年以内にほとんど再発しない。死亡は0。
集団 2: 進行がんタイプ･･･5年以内に1/4程度が再発か死亡。
Kawakami et al. Clin. Cancer Res. 2019
教師なし学習による
早期がん新分類の発見

Ladewig 2013
Nature Reviews Molecular Cell Biology
エピジェネティックランドスケープ
1940年にWaddingtonによって提唱されたコンセプト。細胞分化を、
「ボールが地形上を転がるように状態遷移が起こっていく」という
力学系のアナロジーとして説明。
生命システムの状態を
地形として表現する
石川哲朗
素粒子物理
→認知科学

Adapted from Watanabe & Rees (2017) Nature Communications
2値化
イジングモデルで各状
態の観測頻度とエネル
ギーを対応付ける
高次元
fMRI データ
データに基づくランドスケープ再構成
局所安定状態（local minima）を同定システムの状態遷移を分析

13
日本最大規模の
健診・レセプトデータベース
https://www.jmdc.co.jp/en/jmdc-claims-database

250万レコードの健診時系列データ
14Physical examination data

健診項目の分布・相関
BM I
GOT(AST)
GPT(ALT)
HbA1 c
HDLコレステロール
LDLコレステロール
γ-GT(γ-GTP)
ヘマトクリット値
中性脂肪(トリグリセリド )
収縮期血圧
尿糖
尿蛋白(定性)
空腹時血糖
腹囲
血色素量(ヘモグロビン値)
赤血球数
-2 0 2
z-value
flag
糖尿病＋服薬なし
非糖尿病
糖尿病 + 服薬なし 11,639人
糖尿病 + 服薬あり 16,281人
非糖尿病 289,336人
赤血球数
ヘモグロビン
腹囲
空腹時血糖
尿蛋白
尿糖
収縮期血圧
中性脂肪
ヘマトクリット
γ-GTP
LDLコレステロール
HDLコレステロール
HbA1c
ALT
AST
BMI

1
2
3
54
6
8
7
9
Energy
□
■
1: High
0: Low
空腹時血糖
HbA1c
尿糖
収縮期血圧
腹囲
BMI
ALT
γ-GTP
赤血球
ヘモグロビン
健康
肥満
肥満 +
高血圧 +
多血
糖尿病
肥満 +
高血圧 +
糖尿病
健診データに基づく糖尿病ランドスケープ
肥満＋肝機能低下
肥満 +
高血圧 +
糖尿病 +
肝機能低下
肥満 +
高血圧 +
糖尿病 +
多血
肥満 +
高血圧 +
糖尿病 +
肝機能低下 +
多血

●
●
Patient 1 Patient 2
Patient 3 Patient 4
1st exam
Exam
Onset
糖尿病発症過程の代表例

まとめ
 予測・個別化医療に向けて、健康・疾患の状態の層別
化（グループ分け）が重要
 ランドスケープモデルを使うことで、複数のパラメー
タの組み合わせに基づく健康・疾患の状態を表現する
ことができる
 疾患の発症過程、進行過程を追跡することで、適切な
タイミングでの介入、治療選択につながると考えられ
る
＠ナガノ
adapted from

DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測

Ähnlich wie DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測 (20)

Mehr von Deep Learning Lab（ディープラーニング・ラボ）

Mehr von Deep Learning Lab（ディープラーニング・ラボ） (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

DLLAB Healthcare Day 2020 機械学習による健康・疾患状態の層別化と予測