SlideShare a Scribd company logo
1 of 70
Download to read offline
バイオインフォマティクスによる
遺伝子発現解析
東京工業大学 大学院情報理工学研究科 計算工学専攻
瀬々 潤
sesejun@cs.titech.ac.jp
第2回 数理生物サマーレクチャーコース
@ RIKEN CDB
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
2
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
3
DNA(ゲノム)
mRNA
遺伝子
タンパク質
細胞
Illustrations are © 2011 DBCLS Licensed
under a Creative Commons 表示 2.1 日本 License
4
遺伝子発現
• 細胞が異なれば,遺伝子の転写量が異なる
• 遺伝子の転写量を調べることは,細胞の個性を知るための,そ
れなりに良い指標になるだろう.
• 実験が比較的容易
• 網羅的解析も可能:マイクロアレイ, RNA-seq
• 今後は大規模にたんぱく質や代謝物質が取れるようになると思う
のが,現時点では,規模・定量性の面で不十分なので,mRNAを
用いている. 5
ゲノム
mRNA
遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2
何が比較できるか
6
ゲノム
mRNA
遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2
Aさんの心臓 Bさんの心臓
Aさんの血液 Aさんの大脳
同一個体,組織が異なる
朝の血液 夜の血液
同一個体,同一組織,採取時期が異なる
組織は同一だが,個人が異なる
7
wound healing genes
cholesterol biosynthesis genes
Cluster analysis and display of genome-wide expression patterns
Eisen et al. PNAS 95:14863, 1998
An integrated encyclopedia of DNA
elements in the human genome.
The ENCODE Project Consortium
Nature 489:57, 2012
cell cycle
Removed
Removed
発現量大規模取得法の歴史
• 大きく分けて2通り
• タグ(シーケンス)を利用
• 遺伝子の特定箇所をシーケンス.これをタグと呼ぶ.
• その配列がどの遺伝子由来であるかを調べる
• BodyMap, SAGE, MPSS, CAGE, RNA-seq
• ハイブリダイゼーションを利用
• Microarray
• 採取できるのでは大量の遺伝子の発現「スナップショット」
制限酵素等で切断
切断した端を読む(タグ)
Gene X
タグが由来する
ゲノム上(遺伝子上)の
位置を特定する.
各遺伝子に由来するタグが
何個あったかを数える
=発現量 8
マイクロアレイ
• 遺伝子発現を大規模 に観測(ほぼ全遺伝子 or 全exon)
• Agilent社の場合,各遺伝子60塩基のプローブ
• 相補鎖の配列を持つ遺伝子が観測できる
M
icroarray
ATGCCAG ATGCCAG
CATGTACGGTCGATCAG
Probes in a spot
A probe
Cells
mRNAs
Golub et al. Science,
286 (5439), 531-537, 1999.
10
Removed
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
11
遺伝子発現解析の流れ
異なる組織,異なる刺激,異なる時間
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
12
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
13
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
14
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
Pathway
Phenotype,
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
15
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
Pathway
Phenotype,
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
16
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
Pathway
Phenotype,
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
観測(データ)
前処理
解析
パタン抽出
知識
17
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
18
• 各Sampleが1点.遺伝子が次元.
• 細胞の分類
• 疾患の分類
19
Genes
Sam
ple
1
Sam
ple
2
Sam
ple
3
• 各遺伝子が1点.サンプルが次元.
• 遺伝子の分類,機能予測
Sample
Gene 1
Gene 2
Gene 3
...
解析手法としては,どちらも多次元上の点
(ベクトル)が多数ある状態なので,
変化なし.
行列
前処理
• 正規化←「単位」を合わせる
• 特徴選択←信頼に足らないデータを除く
• サンプル,遺伝子共に
20
Genes
Samples
Genes
Samples
正規化(Nomalization)
• 異なるサンプル間(replicateも含む)は独立した実験
• 抽出溶液の濃さ,等に依存した「ズレ」が生じているかも
• 互いに比較がしたいので,なるべく妥当な比較ができるように変換
を行う
• 良く行われるのは,平均や四分位点を合わせるように平行移動.
• ただし,外れ値の影響を除くため,上位&下位 x%は除いて計算
される事も多い (trimmed mean).
• スケート等の採点でみられる方法と同様.
発現量
個数 21
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
22
特徴選択
• 必ずしもデータ全てに意味があるわけではない.
• 無関係なデータは省いてから,解析を行いたい.
• 健常者50名とガン患者50名から,遺伝子発現を観測
• 患者の分類に関係無さそうな遺伝子を除外して解析
• 各遺伝子に関して,その発現量と{健常,患者}に相関が
あるかを調べる(t-検定,Mann-Whitney U,級間分
散,情報量等)
• 無関係の無いものを除外し,解析をスタート
• 「特徴選択」と呼ばれる
• 特徴選択をすると,データの「ノイズ」が減るので,解
析性能が向上するケースがある
• 逆に,本当は必要だった情報を削ぎ落してしまうことも
あるので,注意. 23
(似て非なるもの) 特徴抽出
• 代表的なものとして,PCA(主成分分析)やICA(独立成分分析)
• 特徴を選択するのではなく,新しい特徴を創りだす
• 前処理として行われることもあるが,可視化が目的の場合も多い
• 高次元のデータを,低次元に落として,様子を観察できる
• 改めて,「次元の解釈」をする必要あり.
x1
x2
y1
y2
24
その他の前処理
• 必要に応じて行う(実験計画に依存)
• (基準となる細胞があれば)基準に比べて何倍発現量が上
がった or 下がったか,に変換する.
• その後,必要に応じて Z変換
• 各遺伝子毎の発現量が,平均0, 分散1になるように変
換を行う.
• 取得したいずれのサンプルでも発現量の低いものを除く
• 本当に発現していないのかもしれないし,遺伝子領域やプ
ローブが誤っているのかもしれない
• 目的とは異なる変動を示すと予想されている遺伝子群を除く
• 例えば日変動を見たい時に,日内変動が大きい事が知られ
ている遺伝子は除外するなど.
25
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
26
蓄積から解析へ
• データベースにデータが蓄積されている
• 蓄積されたデータは,有効活用したい!
• データを有効活用して,解析を行う
データマイニング+αの例
• Amazonの推奨システム
• GoogleやYahooの検索ランキングや広告配信
• ここでは
• 疾患予測や遺伝子機能予測に向けた技術を考える 27
データ解析は
シミュレーションとは異なる
• シミュレーション
• 観測できないデータの物理法則・モデルによる補完
• 例:気象予報
• 予測
• 物理法則の詳細はわからないけど,精度良く当てる
• 例:ガン発症予測,余命の予測,商品の購入予測,顔認識
• 分析
• データ内に潜む傾向を調べる.
• 例:同時に購入した商品を調べる
• シミュレーションは物理法則を必要とする
• 予測,分析は多様かつ信頼の出来るデータを必要とする
• ここでは,「予測」と「分析」を行います
28
医学系の例
患者さんから採取した発現量とその後の追跡結果から
新たに来た患者の疾病を予測したい.
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ? 29
量の採取 5
サンプルの時間 10 分 20 分 30 分 40 分
遺伝子 1 0.74 0.76 1.34 1.75
遺伝子 2 2.01 2.62 0.87 0.69
遺伝子 3 0.87 0.60 1.83 1.90
遺伝子 4 1.73 1.83 0.96 0.93
遺伝子発現量データの例.各行が一つの遺伝子,各列が採取
した時間を表している.値は 0 分のサンプルに対して,何倍
の発現を有しているかを示す.
遺伝子の使われ方を調べる
遺伝子2,4 が類似.
遺伝子1,3も類似
株価や為替の変動なども同様
30
データマイニング・機械学習
• 教師あり学習 (Supervised Learning, クラス分類,
Classification)
• 予測をする
• 遺伝子発現から患者の病態,術後経過を予測
• 遺伝子発現から遺伝子の機能を予測
• 教師なし学習 (Unsupervised Learning)
• 分析(分類)をする
• クラスタリング (Clustering)
• 「似ている」グループを発見する
• 刺激に対して同様に応答する遺伝子群の発見
• 相関ルール (Association Rule)
• 84塩基目と98塩基目のSNPが同時に起こりやすい
31
利用方法
• 最近は,様々な環境で実装されている
• R
• Numpy/Scipy (Python)
• Weka (Java)
• Matlab
• いずれも,ほぼGUIでは操作できないが,データを入力し,手
法を選択した後,パラメータを調整すれば,計算してくれる
• 手法がどのようなもので,パラメータは何であるかを知るこ
とが重要.
• 発現解析に特化したソフトウエアではGUIで使える場合もある
• GeneSpring
• Spotfire
• とはいえ,手法やパラメータは自分で選択する必要あり
32
教師あり(教師つき)学習
• データが訓練データとテストデータに分けられる.
• 各訓練データにはクラス(=答え)が存在している.
• テストデータのクラスを当てたい
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性(特徴量)
33
教師あり(教師つき)学習
• 患者の疾患を予測
• データ=患者,属性=遺伝子,クラス=疾患の有無
• 遺伝子の機能を予測
• データ=遺伝子,属性=サンプル,クラス=機能
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性(特徴量)
34
k-最近点分類 (Nearest Neighbor)
• 最も近いk点のクラスを調べ,多数決を取る.
• 下図では,Qの点のクラスが丸か四角かを予想したい
• 3-最近点分類であれば,E,F,Jが最も近い3点で,丸が
2点含まれるので,Qは丸と予測する.
遺伝子1の
発現量
遺伝子2の発現量
3-NN
遺伝子1の
発現量
遺伝子2の発現量
(A) 訓練データ (B) サンプルのクラス予測
A
B
C
D E
F
G
I
L
J
K
H
Q
A
B
C
D E
F
G
I
L
J
K
H
Q
35
決定木
• 雑誌の裏にある「占い」の様な感じのもの
• データを与えると,決定木アルゴリズムは,訓練データでの正答率が高
くなるように決定木を作成する.
• テストデータを決定木に当てはめ,予測を決定する
• 決定木を複数組み合わせるランダムフォレストも利用される
• 利点:Gene signature (状況を表す遺伝子群)が見つかる.シンプル.
• パラメータ:木の作成時に利用する関数.木の高さの調整項目.
遺伝子1の発現は
5以上?
遺伝子3の発現は
7以上?
Yes No
発病する発病しない
Yes No
発病しない
例えば:
新たな患者の属性値
・遺伝子1: 8.2
・遺伝子2: 10.4
・遺伝子3: 9.5
・遺伝子4: 3.1
木を辿ってみると・・・
36
SVM (Support Vector Machine)
• 機械学習分野を席巻した手法
• 理論的な面白さと同時に,簡単に利用できるプログラムが出回
り,精度が高いことが実証されていった.
⃝と△の境界線を決めたい.色々な引き方が可能
・Fisherの線形判別(古典的な方法)
・重心が遠く,かつ,クラス内の分散が小さくなるような境界
・SVM
・「溝」が大きくなるような境界
37
カーネル化
• SVMの「線形分離可能」は非常に強い仮定
• 工夫1:ソフトマージン.誤分類している点があったら,その分
ペナルティを加える.Cで表される.
• 工夫2:カーネル化
• SVMの計算では「点の位置」より「点と点の距離」の方が本質
的.距離情報に変換することで,線形分離可能な空間を作る.
• 線形カーネル,ガウスカーネル,シグモイドカーネル等
• K-最近点分類も,基本的に距離しか使わない
• 距離は文字列間や化合物間も定義可能なので,より汎用的
38
その他の主なクラス分類手法
• ベイズの定理を用いたもの
• ナイーブベイズ等
• 複数のクラス分類手法を組み合わせるもの
• ブースティング
• ニューラルネットワーク
• ディープネット
39
クラス分類と回帰問題
• 2つのクラスがある時に,それらを分類する手法を紹介した.
• 紹介しなかった方法としてベイズの定理を用いた方法や,複数
の手法を組み合わせる方法(ブースティング)など.きりがな
い・・・
• 同様の方法は「3つ以上のクラスがある場合(他クラス分類)」
や「数値の予測の場合(回帰問題)」にも適用できる.
• 回帰問題は,(一般化)線形回帰などと繋がっていて,非線形
の回帰を可能にする.
• 冒頭に挙げた発現量予測は,回帰の一種.
40
クロスバリデーション・精度の検証
• クラス分類手法には,精度評価が必須.
• どの方法がよいのか?
• 同一の方法でも,どのパラメータが良いのか?
• どれくらい正解している見込みのある予測なのか?
• 予測できたとしても,正答率が高くないかもしれない.
• 答えの分かる「テストデータ」を用意して,予測結果の精度を
測れば良い
• 一般に「答えの分かるテストデータ」を用意することは出来な
いので,与えられた訓練データを擬似的な「訓練データ」と
「テストデータ」に分割して精度評価する.
• クロスバリデーション
41
n-fold cross validation
• サンプル全体を重ならないようにN分割する
• N回モデル作成を実行して,精度を測る
• 下記の例では,9個中何個正解するかを調べる
• 特にn=Nの時,leave-one-out cross validationと呼ぶ
1
2
3
4
5
6
7
8
9 1
2
3
4 5
6 78
9
A
B
C
訓練データ テストデータ
24 5 A
6 78 B
139 C
13
6 78
9
B
C
24 5 A
24 5 A
139 C
6 78 B
3-fold cross validation の例
42
クラスタリング
• グループ=クラスタを見つける
• 似ているものを同一グループに
• 異なるものを異なるグループに
• 点(サンプル)=個体の場合
• 疾患の種類を分類(3種類の疾患がある,等)
• 近縁種のグループ分け
• 点(サンプル)=遺伝子の場合
• 遺伝子を機能毎に分類
43
クラスタリング
• グループ=クラスタを見つける
• 主として2通り
• 非階層型クラスタリング
• クラスタを作る個数を指定して,クラスタを作成する
• 階層型クラスタリング
• 系統樹の様な階層構造と共に,クラスタを生成する
• いずれの方法でも,ポイントは点(クラスタ)の間の距離
の測り方.
44
点の間の距離の定義
• 各点はサンプルあるいは遺伝子
• それぞれ,次元は,遺伝子もしくはサンプル
• 一般的な距離の定義
• 直線距離,マンハッタン距離
• 点と点の間の類似度(類似度が高→距離が近い)
• コサイン角度,相関係数
• 情報量(Kullback-Leibler or Jensen-Shannon divergence等)
x
y
(A) 直線距離
(ユークリッド(ノルム)距離)
(B) マンハッタン距離
x1
x2
dx1
dx2
dx2
1 + dx2
2 |dx1| + |dx2|
x
y
x1
x2
dx1
dx2
x1
(C) コサイン距離
x2
θ
45
k-means クラスタリング
• 非階層型クラスタリング.
• k はクラスタの個数.予め決める必要あり.
• 初期値鋭敏性有り(初期値に依存して結果が変わる)
m(1)
m(2)
x
m(1)
m(2)
仮のクラスタの中心を適当に2点決める
(ここでは与えられた点から2点選んだ)
各点を,最も近い中心のクラスタに
所属すると考えて,割当を決める.
46
k-means クラスタリング (2)
• 最も近い点「だけ」に属するのではなく,距離に従った「属し度合い」を定義す
れば,1点が複数のクラスタに属するような「ゆるい」方法が作れる
• Soft k-means
現在のクラスタ割当を基に,
各クラスタの中心を求める.
クラスタの割当を解消する
・・・
収束する(or 一定回数終了)
まで繰り返す.
47
階層型クラスタリング
• 階層的にクラスタを生成するクラスタ生成手法
• クラスタ間の距離の測り方で,単連結法(最短距離法),
完全連結法(最長距離法),Ward法等がある.
• 系統樹作成法との関連を考えるのも良い
• 基本的な手順は全て同じ.
48
E
(A) B,C及びD,Fの併合 (B) 点A,Eのクラスターへの併合 (C) 単連結法で生成したデンドログラム
A
B
C
D
E
F
G
A
B
C
D
F
G
A B C DE F G
4
3
6
5
2
1
1
2
3
4
距離法
クラスタ X クラスタ Y
クラスタ間
の距離
クラスタ X クラスタ Y
クラスタ間
の距離
(A) 単連結法での距離
最も近い点の距離
(B) 完全連結法での距離
最も遠い点の距離
(C) 平均結合法
全点対間の距離の平均
(D) ウォード法(Ward s method)
クラスタ中心までの距離の和
49
階層型クラスタリング
Hierarchical clustering
k-means クラスタリング
D'haeseleer P. 2005. How does gene expression clustering work? Nature Biotechnology 23: 1499–1501. 50
Removed
Removed
NMF:非負行列因子分解
(Non-negative Matrix Factorization)
• 非負の行列から,頻出するパタンをまとめていく.
• 発現のクラスタリングの代わりに用いられることがある
• Kがクラスタ数.行と列の両方のクラスタが求まるのが嬉しい
J
I
J
I=
K
K
1 1 2 3 1
0 1 0 1 1
2 0 4 4 0
3 0 6 6 0
1 0 2 2 0
0 1 0 1 10 1
1 1
2 0
3 0
=
Lee DD, Seung HS. 1999. Learning the parts of objects by non-negative matrix factorization. Nature 401: 788–791.
電子情報通信学会誌 Vol.95 No.9 pp.829-833 2012年9月 より例を転載
51
共発現ネットワーク
• 発現パタンの近い遺伝子に線を引いたネットワークを作る
• そのネットワークを可視化,(ネットワークの上で)ク
ラスタリング,クリークの発見,次数の解析などを行
なって,解析する
Nayak RR, et al. 2009. Coexpression network based on natural variation in
human gene expression reveals gene interactions and functions.
Genome Research 19: 1953–1962. 52
Removed
遺伝子発現解析の流れ
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
PathwayPhenotype 転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
53
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
54
クラスタ生成後の解析
• 状況
• 遺伝子のグループは求まった
• 疾患と相関高い遺伝子群は求まった
• 問題
• その遺伝子群が,どのように働いているのかを知りたい
• 遺伝子群と既存知識との対応付けを取りたい
• 解法
• その遺伝子群と,知られた機能との対応を順に取っていく
• 10遺伝子中 5遺伝子が膜タンパクに関連していること
は,よくあるだろうか?
• 10遺伝子中 9遺伝子がTCAサイクルに関わることは,
よくあるだろうか?
• そんなことはめったに起こらない対応を求める
• =その機能は,遺伝子群に関連深い 55
超幾何分布
• 全部で N個の玉が入った箱を考える.
• 内,N0個が赤,N-N0個が青だとする.
• n回引いた時に,x回以上 赤を引く確率は?(非復元抽出)
• Nが十分大きいと,非復元と復元に差異がなくなるので,
二項分布(母比率p=N0/N)と一致.
• 全 N遺伝子中, N0 遺伝子が調べたい機能Fを有している.
• (着目する)クラスタに n遺伝子が入っている.
• x遺伝子以上が機能Fを有している確率は?
N0
x
N N0
n x
N
n
.
N0X
x0=x
N0
x0
N N0
n x0
N
n
.丁度x回の場合 x回以上なので
56
「機能」の種類
• 遺伝子の機能,そのたんぱく質の局在
• クラスタ内の遺伝子に共通する機能や局在があるか?もし存在
すれば,特定の機能が誘導されている事が分かる.あるいは,
特定の機能が,どのような発現パタンを取るかが分かる.
• パスウエイ
• クラスタ内の遺伝子が共通したパスウエイに関わっているか?
特定のパスウエイが使われている事が分かる.
• 転写因子結合モチーフ配列
• クラスタ内の遺伝子の上流に共通するモチーフ配列があるか?
もし存在すれば,上流の転写因子が予測できる
• たんぱく質ドメイン
• クラスタ内の遺伝子が共通して持つドメインがあるか?特定
の機能が誘導されている事が分かる.
57
Gene Ontology
• Term は全ての種で共通
• 各Termに種毎に遺伝子が関連付けられている
• なるべく下の階層に配置されていることに注意
http://www.yeastgenome.org/help/gotutorial.html
ADAMTS13
NCSTN
PPP4R2
RABGGTB
ICMT
BAP1
ARPC4
TTLL1
...
計60遺伝子
58
多重検定補正
• たくさん検定を行うと,偽陽性が高い確率で生まれる
• 例えば,p-value < 0.05 の検定を100個の機能に対して行えば 99.4%
の確率で,関連する機能が見つかってしまう
• 「うそ」の発見が起こる
• Natureの投稿規定にも,「(必要なときには)多重検定補正を行うこ
と」と触れられている
• よく使われる補正方法が2通り
• FWER: 1つでも偽陽性が生まれる確率を α以下にする
• 通常用いられる補正方法
• Bonferroni 補正,Holmの改良等
• Bonferroni: 元のp-value * 検定数 を補正後のp-valueとする
• FDR: 検出された中で,擬陽性が α以下になるように補正する
• 生命科学のデータでは,FWERはキツすぎることがあるので,導
入された方法
• Benjamini-Hochberg, Storey-Tibshirani 等. 59
Gene Set Enrichment Analysis
High Low
High Low
理想
現実
統計的に有意
有意にならない,
結構変化あるのに・・・
High Low 高いところだけで判断したい.
ランダムに遺伝子ー機能の関係を入れ替えて,ESが,元のデータ以上になる確率を計算する
→これをp-valueとする.
Enrichment
Score (ES)
着目する機能に含まれている遺伝子に
はプラスポイントを与え,それ以外の
遺伝子にはマイナスポイントを与える
グラフを作る.この山の高さ(谷の深
さ)をEnrichment Score とする.
60
Subramanian et al. PNAS. 2005.
まとめ
61
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
Pathway
Phenotype,
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択,群間差のある遺伝子群の抽出
• データ解析(データマイニング,機械学習)
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
62
RNA-seq
• 遺伝子の量をリードの数を数えることで定量化
DNA
mRNA
次世代シーケンサ
から得られるリード
(100塩基程度の塩基配列)
リードのマッピング
(リードをゲノムの
領域に対応付ける)
発現量
63
RNA-seqのワークフロー
• 基礎的な要素技術は作成された
• 実用面で,もう少し改良されても良い状況.
リード
・DESeq, EdgeR, Cuffdiff
環境は2つ?それとも,3つ以上?
Splicingを見たいか?
発現差異のある遺伝子群の同定
・replicate が必須.
・正規化は必要なし
正規化
・RPKM, FPKM
クラス分類,クラスタリング
•基本的に,マイクロアレイと同じ
方法が利用可能
•RNA-seqの「タグ」を活かした
方法について,論文は出ている
が,広まって行くかは不明.
全遺伝子の発現量
64
RPKM
(Reads Per Kilobase per Million mapped reads)
• 遺伝子1と遺伝子2の発現量を求めたい
14本のリード 14本のリード
遺伝子1 遺伝子2
発現量は同一? => No
単位長さあたりの発現量 RPKM が利用される [Montazavi et al., 2008 ]
RPKM=Reads Per Kilobase of exon model per
Million mapped reads
遺伝子(Exon)上の全リード
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長(KB)
正規化
65
FPKM
(Fragments Per Kilobase per Million mapped
reads)
• 基本的にRPKMと同じ
• 配列をPaired-endで取得することが増えてきた
• 2本の配列が1本の配列に由来している
• 各readではなく,paired-end 1つで1個とカウントする.
• 利点:
• Paired-endの距離には目安がある(実験プロトコルに寄る
が,大体180-200bpを中心とする分布)ので,この距離から
誤ってmapされたものを発見し,取り除く事ができる.
• Alternative splicing の発現を求める方法も出ている
正規化
66
DESeq, EdgeR, Cuffdiff
• マイクロアレイの時同様,「発現が2倍以上の遺伝子」「半分
以下の遺伝子」等を求めたい.
• マイクロアレイと異なって,「タグ」が数えられる.
• 発現が100の遺伝子が200になるのは,必然性があるよう
に思えるが,発現が1の遺伝子が2になるのは,偶然の可能
性が高いかもしれない.
• 遺伝子の発現は,ランダムサンプリングとして統計的に定式
化できるだろう.
• ランダムにタグを取ってきたら,目的の遺伝子からのタ
グが取れる個数の分布を考える.
• Poisson分布に従うはず.
• Poisson分布は,平均=分散
発現差異の同定
67
過分散 (Overdispersion)
• Poisson分布なら,得られた点は紫の線が中心になるまず
• 実際には,特に発現量の大きい遺伝子で,分散が大きい
• Poisson分布に分散を加えたモデル=負の二項分布
(Negative Binomial Distribution) を利用
• p: 母比率,k: 観測回数,r: パラメータ
• r回失敗を許した時の,Poisson分布
NB(r, p) =
✓
k + r 1
k
◆
· (1 p)r
pk
pr
1 p
pr
(1 p)2平均 分散
In Supporting text of
Anders S, Huber W. 2010. Differential expression analysis for
sequence count data. Genome Biology 11: R106. 68
Removed
その他
• マイクロアレイに比べての利点
• 費用は,恐らく同じくらいか,少し安いくらい
• 定量性は高いと考えられている
• Splicing variant を見ることが可能
• 非モデル生物でも利用可能
• 欠点
• 過去の蓄積が無いので,比較検討が難しい
• 解析に時間がかかる
• 今まで見えなかったものが見える.
• Splicing の問題,変異の問題,遺伝子領域以外の発現
• モデル生物で,単に発現が知りたい,かつ,周辺に設備が
整っているなら,現時点ではマイクロアレイの方がよいかも
• スプライシングが見たい,非モデル生物を扱いたい場合は,
RNA-seq
69
まとめ
70
発現の観測(定量化)異なる組織,異なる刺激,異なる時間
発現差のある遺伝子群の抽出
(Differential Expressed Genes)
データマイニング,機械学習
手法を用いた解析
(Clustering, Classification)
Gene Ontology,
Pathway
Phenotype,
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象

More Related Content

What's hot

DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )Kenji Urai
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
古典的見解を越えたオーバーフィッティングの先の世界
古典的見解を越えたオーバーフィッティングの先の世界古典的見解を越えたオーバーフィッティングの先の世界
古典的見解を越えたオーバーフィッティングの先の世界西岡 賢一郎
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学Ken'ichi Matsui
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Masahiro Tsukano
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)Haruka Ozaki
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめYuichiro MInato
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 

What's hot (20)

ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
古典的見解を越えたオーバーフィッティングの先の世界
古典的見解を越えたオーバーフィッティングの先の世界古典的見解を越えたオーバーフィッティングの先の世界
古典的見解を越えたオーバーフィッティングの先の世界
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめ
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
Tesseract ocr
Tesseract ocrTesseract ocr
Tesseract ocr
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
決定木学習
決定木学習決定木学習
決定木学習
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 

Viewers also liked

clusDCA_ismb読み会2015
clusDCA_ismb読み会2015clusDCA_ismb読み会2015
clusDCA_ismb読み会2015Mika Yoshimura
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
フナコシニュース2017年11月15日号
フナコシニュース2017年11月15日号フナコシニュース2017年11月15日号
フナコシニュース2017年11月15日号fu7koshi
 
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~宏喜 佐野
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)Takanori Ogata
 

Viewers also liked (7)

clusDCA_ismb読み会2015
clusDCA_ismb読み会2015clusDCA_ismb読み会2015
clusDCA_ismb読み会2015
 
GoTermsAnalysisWithR
GoTermsAnalysisWithRGoTermsAnalysisWithR
GoTermsAnalysisWithR
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
フナコシニュース2017年11月15日号
フナコシニュース2017年11月15日号フナコシニュース2017年11月15日号
フナコシニュース2017年11月15日号
 
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 

Similar to バイオインフォマティクスによる遺伝子発現解析

Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法Wataru Hirota
 
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価SR WS
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方Yuki Yamada
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するかSAKAUE, Tatsuya
 
20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録SR WS
 
20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録SR WS
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfYusuke Fujimoto
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaKeiichiro Ono
 
診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例Takashi Fujiwara
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2Nobuaki Oshiro
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
20160713 srws第六回@メタ・アナリシス前半
20160713 srws第六回@メタ・アナリシス前半20160713 srws第六回@メタ・アナリシス前半
20160713 srws第六回@メタ・アナリシス前半SR WS
 
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月Shigeyuki Oba
 
A systematic study of the class imbalance problem in convolutional neural net...
A systematic study of the class imbalance problem in convolutional neural net...A systematic study of the class imbalance problem in convolutional neural net...
A systematic study of the class imbalance problem in convolutional neural net...Yuya Soneoka
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライドMizumoto Atsushi
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction PredictionMasahito Ohue
 

Similar to バイオインフォマティクスによる遺伝子発現解析 (20)

Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
 
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価
20161222 srws第五回 Risk of Bias 2.0 toolを用いた文献評価
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録
 
20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録20170223 srws第八回 sof、grade、prospero登録
20170223 srws第八回 sof、grade、prospero登録
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
Survival analysis0702
Survival analysis0702Survival analysis0702
Survival analysis0702
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
 
診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
20160713 srws第六回@メタ・アナリシス前半
20160713 srws第六回@メタ・アナリシス前半20160713 srws第六回@メタ・アナリシス前半
20160713 srws第六回@メタ・アナリシス前半
 
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
 
A systematic study of the class imbalance problem in convolutional neural net...
A systematic study of the class imbalance problem in convolutional neural net...A systematic study of the class imbalance problem in convolutional neural net...
A systematic study of the class imbalance problem in convolutional neural net...
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライド
 
観察研究の質の評価
観察研究の質の評価観察研究の質の評価
観察研究の質の評価
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction Prediction
 

More from sesejun

20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 readsesejun
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.keysesejun
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclusteringsesejun
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4thsesejun
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rdsesejun
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayessesejun
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 

More from sesejun (20)

20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 read
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.key
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclustering
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4th
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rd
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayes
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 

バイオインフォマティクスによる遺伝子発現解析