[2014-02-24] 大規模ゲノム配列の情報解析システム構築：次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー

大規模ゲノム配列の情報解析システム構築：
次世代シークエンサ・アーカイブ配列を用いた
植物・微生物の系統間多型解析ワークフロー
E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T. Shimizu2, A. Toyoda3,
A. Fujiyama3,4, N. Kurata5 and Y. Nakamura1*
1Genome Informatics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka
411-8540, Japan
2 National Institute of Fruit Tree Science, Okitsu-Nakacho, Shimizu, Shizuoka 424-0292, Japan
3 Comparative Genomics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima
Shizuoka 411-8540, Japan
4 Principles of Informatics Research Division, National Institute of Informatics / Department of Informatics, SOKENDAI, 2-1-2
Hitotsubashi. Tokyo 101-8430, Japan
5 Plant Genetics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-
8540, Japan
融合プロジェクト冬合宿2014 遺伝機能システム
日時：2014年2月24日（月） 13:30～15:00
場所：神奈川県湘南国際村センター

背景①大規模ゲノム配列の情報解析システムの必要性
大規模ゲノム配列の情報解析システム構築
高速DNA
シークエンサ
(NGS)
Sequence Read Archive in 米NCBI(Wheeler et al., NAR 2008)
日本DDBJと欧EBIも登録・交換開始(Shumway et al., NAR 2010)
http://trace.ddbj.nig.ac.jp/
個人ゲノム登録(2012), コントロールアクセス開始(2013)
■NGS出力配列アーカイブの統計
アーカイブ量の増大・大規模化
↓
再利用が困難、情報解析システムや2次データベース構築の必要性
生物種別の実験登録数研究タイプ別登録数
http://sra.dbcls.jp/より
DRA-HPの統計より
大規模配列データ
のアーカイブ

背景② 情報解析Pipelineシステム
DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013)
→遺伝研スパコンをクラウド利用、10TB,2TB mem / 350 nodes / 100TB storage利用
→登録ユーザ350名、年間約4000ジョブのサービスに発展(2014年2月時点)
高速
シークエンサ
Instrumentation
data
Sequence + quality
(fastq)
base calling
Contigs
(Overlapping reads)
Scaffolds
(Supercontigs)
+ Annotation
DDBJ Sequence Read Archive
CON
Complete genome
- Annotation
DDBJ Pipeline
基礎処理部
MSS
finishing/gap
closure
annotation
通常
データ
WGS
メタデータ
データ
DRAImage data
>Seq1
AGTCGGGTGG . . . .
trace@ddbj.nig.ac.jp
http://www.ddbj.nig.ac.jp/sub/trace_sra-
j.html
mass-ftp
ディスク送付
Contig 情報ファイル +
アノテーションファイル
配列 +
自動アノテーション
結果
配列 +
mass-ftp
電子メール
大量登録システム
研究者による編集
Reference Genome Mapping
DDBJ Pipeline
高次処理部
(Annotation Tools)
PSU Galaxy Workflow
Interface
(Giardine et al.,
Genome Res 2005)
・SNP 検出/ 注釈
・Contig 注釈
・RNA-seq 解析
:
他のツール
De novo Assembly

①系統間多型の
情報解析ワークフロー構築
PUBMED
Abstracts &
Online
Journal contents
Data
source
Data source RDF化②多型注釈情報のDB化
Data Resources
for Genome-
Phenome Analysis
+
＊SNP⇔TRAIT search
＊Allele mining
遺伝機能探索のための「情報解析ワークフロー」と「データベース」
Whole Genome
Sequencing
Metagenome
Resequencing
Epigenetics
Population Genomics
WGS+ Population Genomics+Resequencing ～
65%
Transcriptome
Sequence Read Archive
注釈情報の付加
NIG遺伝資源

DNA Polymorphism Annotation Database (DNApod)
DRA
DDBJ Pipeline基礎処理部
http://p.ddbj.nig.ac.jp/
Reference mapping
DDBJ Pipeline高次処理部：Galaxy workflow
http://p-galaxy.ddbj.nig.ac.jp/
SNP検出
DNApod-DB
系統毎のSNP構造注釈系統間比較解析
SNPsのゲノム上位置を描画
同義置換／非同義置換の検出
遺伝子領域のマルチプルアライメント描画機能
タンパク質全長アミノ酸置換部位
検出多型をデータベース化
系統間多型注釈ワークフロー(H23年度公開)
ユーザデータ
DNApodデータ
(倉田研, 藤山研)
Wild rice strains

DNA Polymorphism Annotation Database (DNAPod)
・DNAPodウェブサイト構築 http://tga.nig.ac.jp/dnapod/
・多型の参照配列上の位置情報、各系統の遺伝子型情報、多型の構造注釈情報
現在、植物（イネ678系統）のみ公開、微生物（放線菌など）を準備中
DNAPodデータベース (H24年度β版公開)
JST統合微生物プロジェクト(東工大黒川先生)
コラボへ発展→微生物の多型RDF構築
■視覚化 ■注釈データのRDF統合
詳細はポスター：望月

所属担当分担内容
果樹研カンキツ研究
興津拠点：清水博士
試料, DNA抽出
遺伝研：藤山研シーケンシング
遺伝研：中村研バイオインフォマティクス
遺伝機能探索への応用事例（柑橘品種の一塩基多型解析SNP）
品種名 SNP同定数(ホモ接合遺伝子型)
#1 温州ミカン 405,442 (213,624)
#2 ダンシータンゼリン 337,635 (170,152)
#3 地中海マンダリン 263,719 (125,050)
#4 キングマンダリン 391.845 (168,467)
#5 紀州ミカン 291.871 (156,373)
#6 ポンカン 308,213 (130,277)
#7 クレメンティン(REFERENCE) 188,420 (1,153)
#8 スイートオレンジ 404.688 (111,785)
#9 晩白柚 665,622 (554,815)
#10 アンコール(#3 x #4) 254,224 (88,129)
#11 清見（#1 x #8） 391.845 (200,114)
■柑橘育種母本11品種で多型解析検証
mapped reads
- low alignment
quality error(7%)
- insert size error
(0.5%)
→ ～93%
農水委託プロジェクト
「柑橘育種品種のSNPchip構築
(果樹研清水先生)」へ発展
統一的な解析基準を検証
■クオリティフィルタの条件検討
■実験による、遺伝子型同定条件の検討

補助ツール：参照配列の推薦「RefGS」(H25年度公開)
http://tga.nig.ac.jp/refgs/
API
Pipeline-Galaxy のオリジナルワークフロー
1.クエリのセット 2.QVフィルタ 3.16S rRNAを含むリードを抽出 (bwa v0.6.1)
4.16S rRNA配列を構築
(Velvet v. 1.2.10 de novo assembly)
5. 最近縁系統の探索
(既知16S rRNA配列へのblastn ver. 2.2.26)
■ RefGS : Reference Genome Suggest(現在、微生物のみ)
類似度高の配列を推薦
■多型検出の問題
参照配列が遠縁系統
だと多型検出数が増加
↓
配列相同性（類似度）高
の公開配列を利用したい
参照配列①ＡＡＡＴＧＴＧ
クエリＡＡＡＡＧＴＧ
参照配列②ＡＡＧＴＧＴＡ
クエリＡＡＡＡＧＴＧ

◎NCBI PUBMED アブストラクトや公開文献から手作業抽出
◎PATO(Phenotypic Quality Ontology)割当による、形質遺伝率の分類
Broad-sense (H2)=Vg/(Vg+Ve)
Narrow-sense(h2)=Va/(Vg+Ve)
形質との関連が報告
されている多型情報
■838 エントリ, 67 生物種
(Kaminuma et al., NAR 2013)
http://tga.nig.ac.jp/h2db/
補助ツール：多型の文献キュレーション「H2DB」(H24年度公開)
CREST 特定課題調査費(東大鹿島先生)コラボ
へ発展→クラウドソーシングを用いたビッグ
データ解析の適用分野調査、タスク評価
■過去に分類研究有
[Mousseau, T.A. and Roff, D.A. (1987)]
* narrow-sense only
* n=1,120
Phenotype
→ Entity + Quality(EQ) model
→ Entity ontology + Quality ontology (PATO)
Leaf area (TO:0000540)
= PO:0009025(leaf)+ PATO:0001323(area)
[Ref. Mungall et al., 2010]

今後の課題
DDBJ Sequence Read Archive(DRA)
・Yuichi Kodama
・Koji Watanabe
・Daisuke Fukuda
・Masahiro Fujimoto
・Yukie Shinyama
・Keisuke Yamamoto
・Koji Suzuki
・Hideki Nagasaki
・Naoko Sakamoto
・Shota Morizaki
・Natsuko Sakakura
・Daisuke Ikumi
・Hitoshi Kunii
Pipeline System/Database
Acknowledgments
This research is partially supported by ROIS Transdisciplinary Research Grant and Grants-in-Aid for Scientific Research.
遺伝機能探索のための系統間多型解析に着目して、大規模ゲノム配列の情報解析
ワークフローとデータベースを構築した。
課題
■ 多型ＤＢの応用解析ツール（系統識別マーカ、系譜推定、ホモ化領域推定）
■ 多型解析における遺伝子発現データの利用
■ 表現型情報のキュレーションと遺伝子型情報からの形質予測基盤の構築

[2014-02-24] 大規模ゲノム配列の情報解析システム構築：次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (12)

Mehr von Eli Kaminuma

Mehr von Eli Kaminuma (12)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

[2014-02-24] 大規模ゲノム配列の情報解析システム構築：次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー