Predicting protein–protein interactions based only on sequences information
Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang
Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341.
37. 配列に基づくPPI予測のその後
配列に基づくPPI予測のその後
2008年に2つの手法が発表される
• Guo Y, et al. Using support vector machine combined with auto
covariance to predict protein-protein interactions from protein
sequences. Nucleic Acids Res 2008, 36, 3025–30.
– 7種のパラメータ(hydrophobicityなど)とAuto-Covarianceを利用
• Pitre S, et al. Global investigation of protein-protein interactions in
yeast Saccharomyces cerevisiae using re-occurring short
polypeptide sequences. Nucleic Acids Res 2008, 36, 4286–94.
– PPIペアで共起する部分配列情報を利用
37
38. 配列に基づくPPI予測のその後
2009年にメタ的な手法が提案される
• Park Y. Critical assessment of sequence-based protein-protein
interaction prediction methods that do not require homologous
protein sequences. BMC Bioinformatics 2009, 10, 419.
– Guo08, Pitre08, Martin05, Shen07のコンセンサスを取る
2010年ごろからデータセットに関する言及が増える
• Shi M-G, et al. Predicting protein-protein interactions from
sequence using correlation coefficient and high-quality interaction
dataset. Amino Acids 2010, 38, 891–9.
– High-throughputなPPIデータなんて駄目.
Gold Standardなデータセットを作ったよ.
• Yu C-Y, et al. Predicting protein-protein interactions in unbalanced
data using the primary structure of proteins. BMC bioinformatics
2010, 11, 167.
– 本当のPPIネットワークはP:N=1:1じゃない.1:15とかになると,
Shen07, Guo08はF-measureがひどいことになるけど,この方法だともう少し
マシ.
38
39. 配列に基づくPPI予測のその後
特にNegative Setについての報告が目立つようになる
• Yu J, et al. Simple sequence-based kernels do not predict protein-
protein in-teractions. Bioinformatics 2010, 26, 2610–4.
– 今までのNegative Setの構築方法はover-estimateを起こしていた.
Balanced Random Samplingを提案.Shen07のROC-AUC=0.5に.
• Smialowski P, et al. The Negatome database: a reference set of
non-interacting protein pairs. Nucleic Acids Res 2010, 38, D540–4.
– Negative PPIを吟味(PDB chain,PFAM,人でのcuration),
Negative Sampleのデータベースを構築.
Yu10, Bioinformaticsへの反論
• Park Y, et al. Revisiting the negative example sampling problem for
predicting protein-protein interactions. Bioinformatics
2011, 27, 3024–8.
– Yu10のsamplingはCross Validationにおいては激しく過小評価を起こす.
39