Protein-Protein Interaction Prediction

Predicting protein–protein interactions
based only on sequences information
配列情報のみに基づくタンパク質間相互作用予測

Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu,
Kaixian Chen, Yixue Li and Hualiang Jiang

Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341.

大上雅史 (Masahito Ohue)

2012/09/28

目次
Abstract
Introduction
Materials and Methods
Results
Discussion
配列に基づくPPI予測のその後の話

2

Abstract
タンパク質間相互作用（Protein-Protein Interaction, PPI）が重要
計算によるPPI予測の従来手法
相同性の情報やその他の情報が必要
配列情報だけを使ってPPIを予測する
機械学習(SVM)を使う
Triad Featureを使う
16,000超の学習データを使って普遍的な予測モデルを作る
PPIネットワークを予測できたので他の手法より良いよ(?)

3

Introduction
タンパク質間相互作用(PPI)
PPIは細胞内の分子基盤の大部分を支えている
• 代謝経路，シグナル伝達経路，転写制御など
創薬ターゲットとしての可能性を秘めている
• 疾病のメカニズムの解明
• 疾病に関するパスウェイの標的タンパク質に対する阻害/活性剤の開発
PPI検出手法（実験）
Yeast 2 hybrid
質量分析
プロテインチップ他
実験的な方法で得られたPPIペアはPPIネットワーク上の
一部しかカバーできていない
4

Introduction
ゲノム情報に基づくPPI予測
系統学的プロファイル
• 配列決定されたものにしか適用できない
ドメインの相互作用情報の利用
進化関係
特異的な配列モチーフの抽出（相互作用マーカー）
予測性能が相同性や相互作用マーカーの情報に
依存する

5

Introduction
“Sequence specifies structure”
相互作用の予測には配列だけで充分じゃないか
配列のみから相互作用を予測したい
Computational biologyのmajor challenge
いくつかのグループが既に取り組んでいる
• Bock JR and Gough DA. Predicting protein–protein interactions
from primary structure. Bioinformatics 2001, 17, 455-60.
– おそらく一番最初の仕事．物理化学的な特徴量とSVMを利用．
• Nanni L and Lumini A. An ensemble of K-local hyperplanes for
predicting protein-protein interactions. Bioinformatics 2006, 22,
1207–10.
– 2-Gramと物理化学的パラメータを組み合わせた特徴量＋
K-Nearest Neighborの改良アルゴリズム(Hyperplane KNN)の利用．
• 局所的な配列が考慮できていない
• Training sampleが少ない
6

目次
Materials and Methods
サポートベクターマシン (SVM)
S-Kernel
特徴量の作り方 (Conjoint Triad Feature)
特徴量について
データセットの構築
計算機環境など

7

サポートベクターマシン（SVM）
サポートベクターマシン（Support Vector Machine, SVM）
機械学習の判別問題を解くアルゴリズムの1つ
写像された高次元空間上でのマージン最大化を行う

高次元空間への写像をカーネル関数で行う
• 例
Polynomial

Radial basis

Sigmoid
8

S-Kernel
タンパク質ペアの特徴量
タンパク質Aの特徴ベクトルをとおく
（普通は）タンパク質ペアA-Bの特徴ベクトルを

として作る．（は「ただくっつけるだけ」を表す記号）
• 対称性は保たれていない（A-BとB-Aが別の特徴量を持つ）
S-Kernelという新しいカーネル関数を提案

非対称性をカーネルが吸収して対称であるかのように扱える 9

S-Kernel
S-KernelはRBFカーネルに似ている

S距離を以下のように定義すると，

S-Kernel
Radial basis 10

S-Kernel
S-Kernelは正定値カーネルではない
正定値カーネルの定義（正値性）
任意のに対し以下を満たす．

（加えて対称性も満たされる必要がある．今回は自明なので省略．）

反例を挙げて正値性を満たさないことを示す

だからなんだ→やたら計算に時間がかかったりすることがある 11

特徴量の作り方
Conjoint Triad Feature

Yu C-Y, et al. BMC Bioinform 2010, 11, 167. 12

二項空間 (大層な名前だけど単なる2つのベクトル空間の組)
• : 配列特徴ベクトルの空間，要素はそれぞれの3文字組
（は，アミノ酸20種なら203, この研究では73)
• : 頻度ベクトルの空間，要素はの頻度
配列長との相関を減らすため正規化（[0,1]化）

を並べたベクトル空間を配列の特徴ベクトルとする

13

PPIの駆動力
静電相互作用と疎水性相互作用
側鎖の極性(dipole, 双極子モーメント)と体積に依ると考えられる

アミノ酸の極性と体積を計算
20アミノ酸の構造 : Insight2005の標準フラグメントライブラリ
極性の計算 : Gaussian03(DFT)のB3LYP/6-31G*
体積の計算 : Sybyl6.8(分子モデリング)

似てるアミノ酸をまとめてグループ化

14

極性と体積の計算結果 SI Table 2
Dipole scale Volume
No. Amino Acids
(Debye) scale(A3)
1 <1.0 <50 Ala, Gly, Val
2 <1.0 >50 Ile, Leu, Phe, Pro
3 1.0<D<2.0 >50 Tyr, Met, Thr, Ser
4 2.0<D<3.0 >50 His, Asn, Gln, Tpr
5 >3.0 >50 Arg, Lys
6 >3.0* >50 Asp, Glu
7 1.0<D<2.0** >50 Cys
* opposite orientation
** S-S結合能があるためNo.3から除外

20個のアミノ酸→7つのアミノ酸グループ

15


SI Figure 1

16

データセットの構築
PPIの情報を取得
Human Protein References Database (HPRD)*から取得
* Version 2005_0913

実験的に確認された16,443の（非冗長な=共通のペアがない）PPIエントリ
→Positive Sample
Negative Sampleをつくる
Positive Sampleに現れたタンパク質から構成
• タンパク質A-BペアとI-Jペアが相互作用する
• A-I, A-J, B-I, B-Jは相互作用しない（に違いない）
Negative Sample（と思われるもの）を抽出
• 数をPositive Sampleにそろえる→16,443ペア
• 出来るかぎりタンパク質の出現頻度を揃える
Training SetとTest Set
P/N 200個ずつをTest Setに，残りはTraining Set 17

計算機環境など
計算機
128 CPU Origin3800 server (SGI)
ソフトウェア
LibSVM 2.8

書くことがなかったのでOrigin3800の図
http://www.teleobjetivo.org/blog/requiem-por-silicon-graphics.html
18

目次
Results
SVMのパラメータ最適化
予測性能
PPIネットワーク予測

19

SVMのパラメータを決める
はSVMのソフトマージンのパラメータ
はカーネル関数のパラメータ
探索方法→グリッド探索
評価方法
Training Setの3-fold Cross Validation
精度は以下で定義したものを用いる（いわゆるAccuracy）

• ただし，MSEは平均二乗誤差
• Positiveは+1，Negativeは-1のラベルを持つ

20

結果

Figure 1
21

MSEについて
MSE (Mean Square Error, 平均二乗誤差)
目標値との誤差の2乗を平均したもの

予測値目標値

22

予測性能
Test Setにかけた結果 Table 1
Test set Accuracy(%) Precision(%) Sensitivity(%) MSE
1 84.25 84.42 84.50 0.63
2 82.75 83.59 84.00 0.69
3 83.25 84.82 85.50 0.67
4 83.25 82.23 84.00 0.67
5 86.00 86.00 86.00 0.56
Avg±1σ 83.90 ± 1.29 84.21 ± 1.41 84.80 ± 0.91 0.64 ± 0.05

他のカーネルと比較 SI Table 3
Kernel function Accuracy(%)
S-kernel 83.9
Radial basis 80.5
Polynomial 72.9
Sigmoid 50.0
Linear 62.9
23

これまでにPPI予測手法のネットワーク予測への応用例
は（この筆者らが知ら）ない
1対1のPPI予測をネットワーク予測へ応用する
3つのPPIネットワークに分類
• 1コアネットワーク
• マルチコアネットワーク
• クロスオーバーネットワーク

24

ネットワークの分類
コアでないタンパク質コアタンパク質
(satellite protein) (core protein)

1コアネットワーク

マルチコアネットワーク

Figure 2
クロスオーバーネットワーク 25

1コアネットワークの予測方法
1コアネットワークのコアタンパク質をPPIデータセットから取り除く
残ったデータでパラメータ最適化と判別器生成
コアタンパク質とコアでないタンパク質間でPPI予測
マルチコアネットワークの予測方法
マルチコアネットワークのコアタンパク質を取り除く
あとは同じ
クロスオーバーネットワークの予測方法
ネットワークを構成するタンパク質をすべて取り除く
あとは同じ

26

結果
1コアネットワーク例：
CD9（テトラスパニン）とその結合タンパク質
• CDが付くやつはテトラスパニンという膜タンパク質ファミリーに属する
• CD同士で結合して膜受容体として働くので，マルチコア扱いにすべき？
13/16 PPIが予測できた
• False Positiveの数が「私，気になります！」
Figure 2A

青線：True Positive
オレンジ線：False Negative
27

結果（続き）
マルチコアネットワーク例：Ras-Raf-Mek-Erk-Elk-Srfパスウェイ
• 細胞外からの増殖因子によるシグナルを核に伝える経路．
• 細胞の増殖・分化・細胞死などに関わる．


Kolch W, et al. Expert Reviews in Molecular Medicine, 2002.

Figure 28
2B

マルチコアネットワークの予測結果
161/189 PPIが予測できた
False Negativeについて SI Table 4
0% known 10% known 30% known
Proteins model model model
FN/PPI FN/PPI FP/PPI
Ras 1/39 1/35 1/26
Raf 14/50 9/43 3/34
Mek 4/18 3/17 2/12
Elk 1/11 1/10 0/7
Erk 3/45 3/40 1/30
Srf 6/33 3/30 5/23
• x% known model: 6つのコアタンパク質に関わる正解PPIのうちx%を
学習に用いてつくった判別器
• FN: コアとサテライトのPPIで予測されなかったものの数
29

マルチコアネットワーク（続き）
30% known modelを使うとどうなるか
• PPI情報を増やすと予測能力の向上につながるか確認する
結果→84%から90%にaccuracy(?)が向上
緑線：追加したPPI情報

SI Figure 4 30

マルチコアネットワーク（続き）
accuracyは何の話？ SI Table 4 (改変)
0% known 30% known
Proteins model model
FN/PPI FN/PPI
Ras 1/39 1/26
Raf 14/50 3/34
Mek 4/18 2/12
Elk 1/11 0/7
Erk 3/45 1/30
Srf 6/33 5/23
これのことを言ってるなら，
29/196 12/132
計「85%→91%に向上」
=0.15 =0.09
（ただしRecall）
• 確かにRecallは増えた
• 本文中のaccuracyはRecallの意味?
– False Positiveが私ｋ（ｒｙ
31

結果の続き：クロスオーバーネットワーク
一般的なPPIはクロスオーバー型
→計算でちゃんと予測できたらとても便利だね
Wnt関連の相互作用ネットワーク→73/96 PPIが予測できた
• 胚発生とガンに関連するシグナル伝達経路

オレンジ線：False Negative Figure 2C
32

Discussion（ほとんどConclusion）
計算によるPPI予測手法を提案
SVMを利用
• 3-fold Cross Validationでチューニング，C=128, g=0.25
Conjoint Triad Featureの利用と
ベクトル空間の次元削減（アミノ酸クラスタリング）
• 現在の利用可能なPPIデータには限界があるが，そのような少ないデータ
によるOverfittingを回避してくれる（かもしれない）
• 変異しやすいアミノ酸という情報を含んでくれているので予測の幅が
広がっている（かもしれない）
– 73と203の精度の比較を出してくれてないので結局分からない
S-Kernelの提案
• 非対称の問題をクリア
• 他のカーネル関数よりも精度が良い

33

Discussion（ほとんどConclusion）
提案した手法をPPIネットワークに適用
これまで配列情報のみからのPPI予測の応用例はなかった
ペアのPPI予測を組み合わせてネットワーク予測を実施
3つのネットワークトポロジーで性能を確認
特に実際のネットワークに近いクロスオーバー型もちゃんと
予測できていることが重要

34

考えられる問題点
データセットについて
Negative Sampleの作り方はこれで良いのか
Test Setの抽出の仕方は大丈夫か
• TrainingにA-Bが入っててTestにA-Cが入ってる/入ってない，など
S-Kernelについて
正定値カーネルでないので計算に時間がかかったりする

35

感想
読んでみると「これでPNAS？」という印象を持ってしまう
くらいにはあっさりしてて普通
発想自体は既に報告されていた
• Bock01など
ネットワーク予測をやったことが評価されている？
• 見た目のインパクトが大きいFigureとか
高IFな一般誌に載ったことで紛糾？
この後に紹介します

36

配列に基づくPPI予測のその後
2008年に2つの手法が発表される
• Guo Y, et al. Using support vector machine combined with auto
covariance to predict protein-protein interactions from protein
sequences. Nucleic Acids Res 2008, 36, 3025–30.
– 7種のパラメータ(hydrophobicityなど)とAuto-Covarianceを利用
• Pitre S, et al. Global investigation of protein-protein interactions in
yeast Saccharomyces cerevisiae using re-occurring short
polypeptide sequences. Nucleic Acids Res 2008, 36, 4286–94.
– PPIペアで共起する部分配列情報を利用

37

2009年にメタ的な手法が提案される
• Park Y. Critical assessment of sequence-based protein-protein
interaction prediction methods that do not require homologous
protein sequences. BMC Bioinformatics 2009, 10, 419.
– Guo08, Pitre08, Martin05, Shen07のコンセンサスを取る
2010年ごろからデータセットに関する言及が増える
• Shi M-G, et al. Predicting protein-protein interactions from
sequence using correlation coefficient and high-quality interaction
dataset. Amino Acids 2010, 38, 891–9.
– High-throughputなPPIデータなんて駄目．
Gold Standardなデータセットを作ったよ．
• Yu C-Y, et al. Predicting protein-protein interactions in unbalanced
data using the primary structure of proteins. BMC bioinformatics
2010, 11, 167.
– 本当のPPIネットワークはP:N=1:1じゃない．1:15とかになると，
Shen07, Guo08はF-measureがひどいことになるけど，この方法だともう少し
マシ．
38

特にNegative Setについての報告が目立つようになる
• Yu J, et al. Simple sequence-based kernels do not predict protein-
protein in-teractions. Bioinformatics 2010, 26, 2610–4.
– 今までのNegative Setの構築方法はover-estimateを起こしていた．
Balanced Random Samplingを提案．Shen07のROC-AUC=0.5に．
• Smialowski P, et al. The Negatome database: a reference set of
non-interacting protein pairs. Nucleic Acids Res 2010, 38, D540–4.
– Negative PPIを吟味（PDB chain，PFAM，人でのcuration），
Negative Sampleのデータベースを構築．
Yu10, Bioinformaticsへの反論
• Park Y, et al. Revisiting the negative example sampling problem for
predicting protein-protein interactions. Bioinformatics
2011, 27, 3024–8.
– Yu10のsamplingはCross Validationにおいては激しく過小評価を起こす．

39

Protein-Protein Interaction Prediction

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Protein-Protein Interaction Prediction

Ähnlich wie Protein-Protein Interaction Prediction (20)

Mehr von Masahito Ohue

Mehr von Masahito Ohue (20)

Protein-Protein Interaction Prediction