SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
ISMB/ECCB	
  2015読み会	
2015年8月10日	
  
於:東京大学
本会の開催趣旨	
•  バイオインフォマティクス分野のトップカンファ
レンスであるISMB/ECCBに採択された論文に
ついて、その概要をなるべく多く知ることに
よってこの分野全体の流行を把握する。	
  
•  トップのレベルを感じることで、どうすれば世
界と戦えるかを考える。	
  
ISMB/ECCB	
  2015	
•  Joint	
  conference	
  
– 23rd	
  annual	
  mee=ng	
  of	
  Intelligent	
  Systems	
  for	
  
Molecular	
  Biology	
  (ISMB)	
  
– 14th	
  European	
  Conference	
  on	
  Computa=onal	
  
Biology	
  (ECCB)	
  
•  開催地: ダブリン(アイルランド)	
  
•  日程:	
  7月10〜14日	
  
•  プロシーディング:	
  Bioinforma=cs誌の特別号	
  
ISMB/ECCB	
  2015	
•  採択率:	
  42	
  /	
  241	
  ≒	
  17.4%	
  
and students in the field. The 42 papers in this volume were selected
from 241 original submissions divided into 13 research areas, col-
lectively led by 25 Area Chairs. For each area, the Area Chairs se-
lected an expert program committee for their subdiscipline and
oversaw the reviewing process for that area. By design, the Area
Chairs included a mix of experienced individuals reappointed from
previous years and experts newly recruited to ensure broad tech-
nical expertise and to promote inclusivity of various elements of the
research community. In total, the review process involved the 25
Area Chairs, 378 program committee members, and an additional
27 papers that were resubmitted, 15 were judged to have addressed
the concerns of the reviewers and were accepted for the conference
proceedings, resulting in a total of 42 acceptances and an overall
acceptance rate of 42/241 ¼ 17.4%. We believe that this two-tier
system, which is more reflective of typical multi-round journal re-
view procedures, provided a means of ensuring that only the high-
est quality original work was accepted within the tight timing
constraints imposed by the conference scheduling. We thank all
authors for submitting their work. These proceedings would sim-
ply not be possible without the scientific ingenuity of the
Table 1. ISMB/ECCB 2015 review summary by area.
Topic area Chairs Submissions Accepted
round 1
Invited for
round 2
Accepted
in round 2
Approved for
proceedings
Applied Bioinformatics Thomas Lengauer and Christophe
Dessimoz
30 1 6 3 4
Bioimaging and Data Visualization Robert Murphy 12 1 2 1 2
Databases, Ontologies and Text Mining Hagit Shatkay and Helen Parkinson 11 1 1 1 2
Disease Models and Epidemiology Simon Kasif and Alice McHardy 21 3 3 3 6
Evolution and Comparative Genomics Bernard Moret and Louxin Zhang 12 2 0 0 2
Gene Regulation and Transcriptomics Uwe Ohler and Zohar Yakhini 30 2 4 2 4
Mass Spectrometry and Proteomics Olga Vitek and Knut Reinert 11 2 0 0 2
Metabolic Networks Bonnie Berger and Hidde de Jong 5 2 0 0 2
Population Genomics Russell Schwartz and Jennifer
Listgarten
22 3 2 1 4
Protein Interactions and Molecular
Networks
Natasa Przulj and Igor Jurisica 29 2 5 3 5
Protein Structure and Function Torsten Schwede and Anna
Tramontano
22 3 2 1 4
RNA Bioinformatics Jerome Waldispuhl and Hanah
Margalit
6 0 1 0 0
Sequence Analysis Michael Brudno and Siu-Ming Yiu 30 5 3 0 5
241 27 29 15 42
来年は?	
•  ISMB	
  2016	
  
–  開催地:オーランド(アメリカ)	
  
–  日程:	
  7月8〜12日	
  
–  投稿締切:	
  1月??日(正月休めない!)	
  
•  ECCB	
  2016	
  
–  開催地:ハーグ(オランダ)	
  
–  日程:	
  9月3〜7日	
  
–  投稿締切: 3月??日	
  
•  再来年以降は?	
  
–  ISMB/ECCB	
  2017: プラハ(チェコ)	
  
–  ISMB	
  2018: シカゴ(アメリカ)	
  
–  ISMB	
  2020: 日本?
注意事項	
•  発表時間は質疑を含めて15分です。発表12分、
質疑3分ぐらいを目安でお願いします。	
  
•  発表時間が短いので、可能な限り詳細は省き、
エッセンスのみを発表するようにしてください。例
えば、この論文のどこがすごいのか、なぜISMB
に採択されたのか、などに絞って説明していただ
けるとわかりやすいです。	
  
•  詳細については、発表を聞いて興味をもった聴
講者が自身で論文を読んでください、というスタ
ンスで結構です。
慶應義塾大学理工学部	
  
佐藤健吾	
  
satoken@bio.keio.ac.jp	
Misassembly detection using paired-end
sequence reads and optical mapping data
Martin D. Muggli1,
*, Simon J. Puglisi2
, Roy Ronen3
and
Christina Boucher1
1
Department of Computer Science, Colorado State University, Fort Collins, CO 80526, USA, 2
Department of
Computer Science, University of Helsinki, Finland and 3
Bioinformatics Graduate Program, University of California,
San Diego, La Jolla, CA 92093, USA
*To whom correspondence should be addressed.
Abstract
Motivation: A crucial problem in genome assembly is the discovery and correction of misassembly
errors in draft genomes. We develop a method called MISSEQUEL that enhances the quality of draft
genomes by identifying misassembly errors and their breakpoints using paired-end sequence
reads and optical mapping data. Our method also fulfills the critical need for open source computa-
tional methods for analyzing optical mapping data. We apply our method to various assemblies of
the loblolly pine, Francisella tularensis, rice and budgerigar genomes. We generated and used
stimulated optical mapping data for loblolly pine and F.tularensis and used real optical mapping
data for rice and budgerigar.
Results: Our results demonstrate that we detect more than 54% of extensively misassembled con-
tigs and more than 60% of locally misassembled contigs in assemblies of F.tularensis and between
31% and 100% of extensively misassembled contigs and between 57% and 73% of locally misas-
Bioinformatics, 31, 2015, i80–i88
doi: 10.1093/bioinformatics/btv262
ISMB/ECCB 2015
ISMB/ECCB	
  2015読み会@東大
目的	
•  アセンブラに依存しない方法でミスアセンブリ
を検出したい。	
  
•  ペアエンドリードのみではなく、op=cal	
  
mappingデータを用いて、検出精度向上を目
指す。
Op=cal	
  mapping	
[Wikipedia]
Recruitment	
  of	
  reads	
•  ペアエンドリードをコンティグに貼り付ける。	
  
•  張り付いた順番、向き、カバレッジから、ミス
アセンブリの候補を検出する。	
Correct assembly
A R CR A R CR
Inversion
A R CR
mate-pair 1 mate-pair 2 mate-pair 3
mate-pair 1 mate-pair 2 mate-pair 3
mate-pair 1 mate-pair 2 mate-pair 3
Rearrangment
A R CR
v
Correct assembly (read depth)
A R C
v
Collapsed repeat Expanded repeat:
A R CRR
v
(a) (b) (c)
(d) (e) (f)
Fig. 1. An illustration about the systematic alterations that occur with rearrangements, inversions, collapsed repeats and expanded repeats. (a) Proper read align-
ment where mate-pair reads have the correct orientation and distance from each other. A rearrangement or inversion will present itself by the orientation of the
reads being incorrect and/or the distance of the mate-pairs being significantly smaller or significantly larger than the expected insert size. This is shown in (b) and
i82 M.D.Muggli et al.
Red-­‐black	
  posi=onal	
  de	
  Bruijn	
  graph	
•  コンティグ上の位置情報を持ったde	
  Bruijn	
  graph	
  
•  カバレッジが近傍の平均と比べて極端に外れている
場合、ペアエンドの整合性が取れない場合⇒赤、そ
うでない場合⇒黒	
  
•  赤が50個以上続いたらミスアセンブリ候補	
Misassembly detection using paired-end sequence reads and optical mapping data i83
Misassembly	
  verifica=on	
•  Twin	
  [Muggli	
  et	
  al,	
  2014]	
  を使ってコンティグを
Op=cal	
  mappingデータにアラインメントする。	
  
– コンティグを制限酵素の認識部位でin	
  silicoで切
断し、得られた配列の長さとOp=cal	
  mappingデー
タを比べる。	
  
実験データ	
•  Simulated	
  op=cal	
  mapping	
  data	
  
– F.	
  tularensis	
  (野兎病菌)	
  
– Pinus	
  taeda	
  (テーダマツ)	
  
⇒	
  3種類の制限酵素を使ってシミュレーション	
  
•  Real	
  op=cal	
  mapping	
  data	
  
– rice	
  (稲)	
  
– budgerigar	
  (セキセイインコ)	
  
⇒	
  公開データを使う
ミスアセンブリ	
•  QUAST	
  [Gurevish	
  et	
  al,	
  2013]	
  では以下のよう
に定義されている。
結果(F.	
  tularensis)	
•  SOAPdenovo	
  
•  Velvet,	
  ABySS,	
  SPAdes,	
  IDBA-­‐UDでも同様の傾
向を示した。	
  
MA	
  TPR	
 local	
  MA	
  TPR	
 FPR	
misSQuel	
  (PE	
  only)	
 100%	
  (10/10)	
  	
 100%	
  (35/35)	
  	
 63%	
  (165/263)	
  	
misSQuel	
  (OM	
  only)	
 80%	
  (8/10)	
  	
 63%	
  (22/35)	
  	
 29%	
  (77/263)	
  	
misSQuel	
  (both)	
 80%	
  (8/10)	
  	
 84%	
  (21/35)	
  	
 20%	
  (53/263)	
  	
REAPR	
 20%	
  (2/10)	
  	
 14%	
  (5/35)	
  	
 2%	
  (6/263)	
  	
Pilon	
 10%	
  (1/10)	
  	
 9%	
  (3/35)	
  	
 2%	
  (5/263)	
  
結果(Pinus	
  taeda)	
•  SPAdes	
MA	
  TPR	
 local	
  MA	
  TPR	
 FPR	
misSQuel	
 100%	
  (7/7)	
  	
 73%	
  (8/11)	
  	
 <1%	
  (135/20653)	
  	
REAPR	
 14%	
  (1/7)	
  	
 27%	
  (3/11)	
  	
 6%	
  (1323/20653)	
  	
Pilon	
 14%	
  (1/7)	
  	
 18%	
  (2/11)	
  	
 4%	
  (923/20653)	
  
結果(rice)	
•  SOAPdenovo	
MA	
  TPR	
 local	
  MA	
  TPR	
 FPR	
misSQuel	
 75%	
  (374/499)	
  	
 100%	
  (3/3)	
  	
 <1%	
  (821/10941)	
  	
REAPR	
 6%	
  (30/499)	
  	
 0%	
  (0/3)	
  	
 6%	
  (800/10941)	
  	
Pilon	
 5%	
  (25/499)	
  	
 0%	
  (0/3)	
  	
 4%	
  (522/10941)	
  
結果(budgerigar)	
•  SOAPdenovo	
MA	
  TPR	
 local	
  MA	
  TPR	
 FPR	
misSQuel	
 77%	
  
(10777/13996)	
  	
80%	
  
	
  (2350/2937)	
  	
10%	
  
(4023/39394)	
  
考察	
•  Op=cal	
  mappingデータは、ミスアセンブリの検
出に役に立つことが示された。	
  
•  一方、ミスアセンブリとstructural	
  variantの違
いを検出することはできない。偽陽性の大部
分は、実はstructural	
  variantに違いない。	
  
•  どの制限酵素を選べばいいかは今後の課題
である。
この論文のすごいところ	
•  手法の新規性	
  
–  Op=cal	
  mappingデータをちゃんと利用するツールが
今のところあまりない。	
  
•  ツールの実用性	
  
–  なかなかの高精度でミスアセンブリを検出できる。	
  
–  アセンブラを選ばない。	
  
•  論文の完成度	
  
–  さまざまな生物種について、いろいろなゲノムアセン
ブラのアセンブリにおける網羅的な実験を行っている。	
  

Weitere ähnliche Inhalte

Andere mochten auch

ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing code
ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing codeISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing code
ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing codeKengo Sato
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
デザイナーの私と サービスをつくる私
デザイナーの私と サービスをつくる私デザイナーの私と サービスをつくる私
デザイナーの私と サービスをつくる私Shizuka Yamada
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」Fuyuko Matsumura
 

Andere mochten auch (6)

ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing code
ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing codeISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing code
ISMB2014読み会 イントロ + Deep learning of the tissue-regulated splicing code
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
デザイナーの私と サービスをつくる私
デザイナーの私と サービスをつくる私デザイナーの私と サービスをつくる私
デザイナーの私と サービスをつくる私
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
 

Ähnlich wie ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads and optical mapping data

事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方Yuki Yamada
 
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオンEli Kaminuma
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
clusDCA_ismb読み会2015
clusDCA_ismb読み会2015clusDCA_ismb読み会2015
clusDCA_ismb読み会2015Mika Yoshimura
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningMasahito Ohue
 
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価Yoshitake Takebayashi
 
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012Hiroyuki Mishima
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベースDNA Data Bank of Japan center
 
ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上Masahito Ohue
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状Takeru Nakazato
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics禎晃 山崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ弘毅 露崎
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムDell TechCenter Japan
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...Takumi Ohkuma
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction PredictionMasahito Ohue
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)pinmarch_t Tada
 
情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptxtm1966
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方Sayuri Shimizu
 

Ähnlich wie ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads and optical mapping data (20)

StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
 
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
clusDCA_ismb読み会2015
clusDCA_ismb読み会2015clusDCA_ismb読み会2015
clusDCA_ismb読み会2015
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screening
 
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
 
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction Prediction
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
 
情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 

ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads and optical mapping data

  • 3. ISMB/ECCB  2015 •  Joint  conference   – 23rd  annual  mee=ng  of  Intelligent  Systems  for   Molecular  Biology  (ISMB)   – 14th  European  Conference  on  Computa=onal   Biology  (ECCB)   •  開催地: ダブリン(アイルランド)   •  日程:  7月10〜14日   •  プロシーディング:  Bioinforma=cs誌の特別号  
  • 4. ISMB/ECCB  2015 •  採択率:  42  /  241  ≒  17.4%   and students in the field. The 42 papers in this volume were selected from 241 original submissions divided into 13 research areas, col- lectively led by 25 Area Chairs. For each area, the Area Chairs se- lected an expert program committee for their subdiscipline and oversaw the reviewing process for that area. By design, the Area Chairs included a mix of experienced individuals reappointed from previous years and experts newly recruited to ensure broad tech- nical expertise and to promote inclusivity of various elements of the research community. In total, the review process involved the 25 Area Chairs, 378 program committee members, and an additional 27 papers that were resubmitted, 15 were judged to have addressed the concerns of the reviewers and were accepted for the conference proceedings, resulting in a total of 42 acceptances and an overall acceptance rate of 42/241 ¼ 17.4%. We believe that this two-tier system, which is more reflective of typical multi-round journal re- view procedures, provided a means of ensuring that only the high- est quality original work was accepted within the tight timing constraints imposed by the conference scheduling. We thank all authors for submitting their work. These proceedings would sim- ply not be possible without the scientific ingenuity of the Table 1. ISMB/ECCB 2015 review summary by area. Topic area Chairs Submissions Accepted round 1 Invited for round 2 Accepted in round 2 Approved for proceedings Applied Bioinformatics Thomas Lengauer and Christophe Dessimoz 30 1 6 3 4 Bioimaging and Data Visualization Robert Murphy 12 1 2 1 2 Databases, Ontologies and Text Mining Hagit Shatkay and Helen Parkinson 11 1 1 1 2 Disease Models and Epidemiology Simon Kasif and Alice McHardy 21 3 3 3 6 Evolution and Comparative Genomics Bernard Moret and Louxin Zhang 12 2 0 0 2 Gene Regulation and Transcriptomics Uwe Ohler and Zohar Yakhini 30 2 4 2 4 Mass Spectrometry and Proteomics Olga Vitek and Knut Reinert 11 2 0 0 2 Metabolic Networks Bonnie Berger and Hidde de Jong 5 2 0 0 2 Population Genomics Russell Schwartz and Jennifer Listgarten 22 3 2 1 4 Protein Interactions and Molecular Networks Natasa Przulj and Igor Jurisica 29 2 5 3 5 Protein Structure and Function Torsten Schwede and Anna Tramontano 22 3 2 1 4 RNA Bioinformatics Jerome Waldispuhl and Hanah Margalit 6 0 1 0 0 Sequence Analysis Michael Brudno and Siu-Ming Yiu 30 5 3 0 5 241 27 29 15 42
  • 5. 来年は? •  ISMB  2016   –  開催地:オーランド(アメリカ)   –  日程:  7月8〜12日   –  投稿締切:  1月??日(正月休めない!)   •  ECCB  2016   –  開催地:ハーグ(オランダ)   –  日程:  9月3〜7日   –  投稿締切: 3月??日   •  再来年以降は?   –  ISMB/ECCB  2017: プラハ(チェコ)   –  ISMB  2018: シカゴ(アメリカ)   –  ISMB  2020: 日本?
  • 6. 注意事項 •  発表時間は質疑を含めて15分です。発表12分、 質疑3分ぐらいを目安でお願いします。   •  発表時間が短いので、可能な限り詳細は省き、 エッセンスのみを発表するようにしてください。例 えば、この論文のどこがすごいのか、なぜISMB に採択されたのか、などに絞って説明していただ けるとわかりやすいです。   •  詳細については、発表を聞いて興味をもった聴 講者が自身で論文を読んでください、というスタ ンスで結構です。
  • 7. 慶應義塾大学理工学部   佐藤健吾   satoken@bio.keio.ac.jp Misassembly detection using paired-end sequence reads and optical mapping data Martin D. Muggli1, *, Simon J. Puglisi2 , Roy Ronen3 and Christina Boucher1 1 Department of Computer Science, Colorado State University, Fort Collins, CO 80526, USA, 2 Department of Computer Science, University of Helsinki, Finland and 3 Bioinformatics Graduate Program, University of California, San Diego, La Jolla, CA 92093, USA *To whom correspondence should be addressed. Abstract Motivation: A crucial problem in genome assembly is the discovery and correction of misassembly errors in draft genomes. We develop a method called MISSEQUEL that enhances the quality of draft genomes by identifying misassembly errors and their breakpoints using paired-end sequence reads and optical mapping data. Our method also fulfills the critical need for open source computa- tional methods for analyzing optical mapping data. We apply our method to various assemblies of the loblolly pine, Francisella tularensis, rice and budgerigar genomes. We generated and used stimulated optical mapping data for loblolly pine and F.tularensis and used real optical mapping data for rice and budgerigar. Results: Our results demonstrate that we detect more than 54% of extensively misassembled con- tigs and more than 60% of locally misassembled contigs in assemblies of F.tularensis and between 31% and 100% of extensively misassembled contigs and between 57% and 73% of locally misas- Bioinformatics, 31, 2015, i80–i88 doi: 10.1093/bioinformatics/btv262 ISMB/ECCB 2015 ISMB/ECCB  2015読み会@東大
  • 8. 目的 •  アセンブラに依存しない方法でミスアセンブリ を検出したい。   •  ペアエンドリードのみではなく、op=cal   mappingデータを用いて、検出精度向上を目 指す。
  • 10. Recruitment  of  reads •  ペアエンドリードをコンティグに貼り付ける。   •  張り付いた順番、向き、カバレッジから、ミス アセンブリの候補を検出する。 Correct assembly A R CR A R CR Inversion A R CR mate-pair 1 mate-pair 2 mate-pair 3 mate-pair 1 mate-pair 2 mate-pair 3 mate-pair 1 mate-pair 2 mate-pair 3 Rearrangment A R CR v Correct assembly (read depth) A R C v Collapsed repeat Expanded repeat: A R CRR v (a) (b) (c) (d) (e) (f) Fig. 1. An illustration about the systematic alterations that occur with rearrangements, inversions, collapsed repeats and expanded repeats. (a) Proper read align- ment where mate-pair reads have the correct orientation and distance from each other. A rearrangement or inversion will present itself by the orientation of the reads being incorrect and/or the distance of the mate-pairs being significantly smaller or significantly larger than the expected insert size. This is shown in (b) and i82 M.D.Muggli et al.
  • 11. Red-­‐black  posi=onal  de  Bruijn  graph •  コンティグ上の位置情報を持ったde  Bruijn  graph   •  カバレッジが近傍の平均と比べて極端に外れている 場合、ペアエンドの整合性が取れない場合⇒赤、そ うでない場合⇒黒   •  赤が50個以上続いたらミスアセンブリ候補 Misassembly detection using paired-end sequence reads and optical mapping data i83
  • 12. Misassembly  verifica=on •  Twin  [Muggli  et  al,  2014]  を使ってコンティグを Op=cal  mappingデータにアラインメントする。   – コンティグを制限酵素の認識部位でin  silicoで切 断し、得られた配列の長さとOp=cal  mappingデー タを比べる。  
  • 13. 実験データ •  Simulated  op=cal  mapping  data   – F.  tularensis  (野兎病菌)   – Pinus  taeda  (テーダマツ)   ⇒  3種類の制限酵素を使ってシミュレーション   •  Real  op=cal  mapping  data   – rice  (稲)   – budgerigar  (セキセイインコ)   ⇒  公開データを使う
  • 14. ミスアセンブリ •  QUAST  [Gurevish  et  al,  2013]  では以下のよう に定義されている。
  • 15. 結果(F.  tularensis) •  SOAPdenovo   •  Velvet,  ABySS,  SPAdes,  IDBA-­‐UDでも同様の傾 向を示した。   MA  TPR local  MA  TPR FPR misSQuel  (PE  only) 100%  (10/10)   100%  (35/35)   63%  (165/263)   misSQuel  (OM  only) 80%  (8/10)   63%  (22/35)   29%  (77/263)   misSQuel  (both) 80%  (8/10)   84%  (21/35)   20%  (53/263)   REAPR 20%  (2/10)   14%  (5/35)   2%  (6/263)   Pilon 10%  (1/10)   9%  (3/35)   2%  (5/263)  
  • 16. 結果(Pinus  taeda) •  SPAdes MA  TPR local  MA  TPR FPR misSQuel 100%  (7/7)   73%  (8/11)   <1%  (135/20653)   REAPR 14%  (1/7)   27%  (3/11)   6%  (1323/20653)   Pilon 14%  (1/7)   18%  (2/11)   4%  (923/20653)  
  • 17. 結果(rice) •  SOAPdenovo MA  TPR local  MA  TPR FPR misSQuel 75%  (374/499)   100%  (3/3)   <1%  (821/10941)   REAPR 6%  (30/499)   0%  (0/3)   6%  (800/10941)   Pilon 5%  (25/499)   0%  (0/3)   4%  (522/10941)  
  • 18. 結果(budgerigar) •  SOAPdenovo MA  TPR local  MA  TPR FPR misSQuel 77%   (10777/13996)   80%    (2350/2937)   10%   (4023/39394)  
  • 19. 考察 •  Op=cal  mappingデータは、ミスアセンブリの検 出に役に立つことが示された。   •  一方、ミスアセンブリとstructural  variantの違 いを検出することはできない。偽陽性の大部 分は、実はstructural  variantに違いない。   •  どの制限酵素を選べばいいかは今後の課題 である。
  • 20. この論文のすごいところ •  手法の新規性   –  Op=cal  mappingデータをちゃんと利用するツールが 今のところあまりない。   •  ツールの実用性   –  なかなかの高精度でミスアセンブリを検出できる。   –  アセンブラを選ばない。   •  論文の完成度   –  さまざまな生物種について、いろいろなゲノムアセン ブラのアセンブリにおける網羅的な実験を行っている。