Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
大規模ゲノム配列の情報解析システム構築:
次世代シークエンサ・アーカイブ配列を用いた
植物・微生物の系統間多型解析ワークフロー
E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T...
背景①大規模ゲノム配列の情報解析システムの必要性
大規模ゲノム配列の情報解析システム構築
高速DNA
シークエンサ
(NGS)
Sequence Read Archive in 米NCBI(Wheeler et al., NAR 2008)
日...
大規模ゲノム配列の情報解析システム構築
背景② 情報解析Pipelineシステム
DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;...
①系統間多型の
情報解析ワークフロー構築
PUBMED
Abstracts &
Online
Journal contents
Data
source
Data source RDF化②多型注釈情報のDB化
Data Resources
for...
DNA Polymorphism Annotation Database (DNApod)
DRA
DDBJ Pipeline基礎処理部
http://p.ddbj.nig.ac.jp/
Reference mapping
DDBJ Pipel...
DNA Polymorphism Annotation Database (DNAPod)
・DNAPodウェブサイト構築 http://tga.nig.ac.jp/dnapod/
・多型の参照配列上の位置情報、各系統の遺伝子型情報、多型の構造...
所属担当 分担内容
果樹研カンキツ研究
興津拠点:清水博士
試料, DNA抽出
遺伝研:藤山研 シーケンシング
遺伝研:中村研 バイオインフォマティクス
遺伝機能探索への応用事例(柑橘品種の一塩基多型解析SNP)
品種名 SNP同定数(ホモ接合...
補助ツール:参照配列の推薦「RefGS」(H25年度公開)
http://tga.nig.ac.jp/refgs/
API
Pipeline-Galaxy のオリジナルワークフロー
1.クエリのセット 2.QVフィルタ 3.16S rRNAを含...
◎NCBI PUBMED アブストラクトや公開文献から手作業抽出
◎PATO(Phenotypic Quality Ontology)割当による、形質遺伝率の分類
Broad-sense (H2)=Vg/(Vg+Ve)
Narrow-sense...
今後の課題
DDBJ Sequence Read Archive(DRA)
・Yuichi Kodama
・Koji Watanabe
・Daisuke Fukuda
・Masahiro Fujimoto
・Yukie Shinyama
・Ke...
Nächste SlideShare
Wird geladen in …5
×

[2014-02-24] 大規模ゲノム配列の情報解析システム構築:次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー

大規模ゲノム配列の情報解析システム構築:
次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー
E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T. Shimizu2, A. Toyoda3, A. Fujiyama3,4, N. Kurata5 and Y. Nakamura1*
1Genome Informatics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan
2 National Institute of Fruit Tree Science, Okitsu-Nakacho, Shimizu, Shizuoka 424-0292, Japan
3 Comparative Genomics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan
4 Principles of Informatics Research Division, National Institute of Informatics / Department of Informatics, SOKENDAI, 2-1-2 Hitotsubashi. Tokyo 101-8430, Japan
5 Plant Genetics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan

融合プロジェクト冬合宿2014 遺伝機能システム
日時:2014年2月24日(月) 13:30~15:00
場所:神奈川県湘南国際村センター

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

[2014-02-24] 大規模ゲノム配列の情報解析システム構築:次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー

  1. 1. 大規模ゲノム配列の情報解析システム構築: 次世代シークエンサ・アーカイブ配列を用いた 植物・微生物の系統間多型解析ワークフロー E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T. Shimizu2, A. Toyoda3, A. Fujiyama3,4, N. Kurata5 and Y. Nakamura1* 1Genome Informatics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan 2 National Institute of Fruit Tree Science, Okitsu-Nakacho, Shimizu, Shizuoka 424-0292, Japan 3 Comparative Genomics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan 4 Principles of Informatics Research Division, National Institute of Informatics / Department of Informatics, SOKENDAI, 2-1-2 Hitotsubashi. Tokyo 101-8430, Japan 5 Plant Genetics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411- 8540, Japan 融合プロジェクト冬合宿2014 遺伝機能システム 日時:2014年2月24日(月) 13:30~15:00 場所:神奈川県湘南国際村センター
  2. 2. 背景①大規模ゲノム配列の情報解析システムの必要性 大規模ゲノム配列の情報解析システム構築 高速DNA シークエンサ (NGS) Sequence Read Archive in 米NCBI(Wheeler et al., NAR 2008) 日本DDBJと欧EBIも登録・交換開始(Shumway et al., NAR 2010) http://trace.ddbj.nig.ac.jp/ 個人ゲノム登録(2012), コントロールアクセス開始(2013) ■NGS出力配列アーカイブの統計 アーカイブ量の増大・大規模化 ↓ 再利用が困難、情報解析システムや2次データベース構築の必要性 生物種別の実験登録数 研究タイプ別登録数 http://sra.dbcls.jp/より DRA-HPの統計より 大規模配列データ のアーカイブ
  3. 3. 大規模ゲノム配列の情報解析システム構築 背景② 情報解析Pipelineシステム DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013) →遺伝研スパコンをクラウド利用、10TB,2TB mem / 350 nodes / 100TB storage利用 →登録ユーザ350名、年間約4000ジョブのサービスに発展(2014年2月時点) 高速 シークエンサ Instrumentation data Sequence + quality (fastq) base calling Contigs (Overlapping reads) Scaffolds (Supercontigs) + Annotation DDBJ Sequence Read Archive CON Complete genome - Annotation DDBJ Pipeline 基礎処理部 MSS finishing/gap closure annotation 通常 データ WGS メタデータ データ DRAImage data >Seq1 AGTCGGGTGG . . . . trace@ddbj.nig.ac.jp http://www.ddbj.nig.ac.jp/sub/trace_sra- j.html mass-ftp ディスク送付 Contig 情報ファイル + アノテーションファイル 配列 + アノテーションファイル 自動アノテーション 結果 配列 + アノテーションファイル mass-ftp 電子メール 大量登録システム 研究者による編集 Reference Genome Mapping DDBJ Pipeline 高次処理部 (Annotation Tools) PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析 : 他のツール De novo Assembly
  4. 4. ①系統間多型の 情報解析ワークフロー構築 PUBMED Abstracts & Online Journal contents Data source Data source RDF化②多型注釈情報のDB化 Data Resources for Genome- Phenome Analysis + *SNP⇔TRAIT search *Allele mining 遺伝機能探索のための「情報解析ワークフロー」と「データベース」 Whole Genome Sequencing Metagenome Resequencing Epigenetics Population Genomics WGS+ Population Genomics+Resequencing ~ 65% Transcriptome Sequence Read Archive 注釈情報の付加 NIG遺伝資源 大規模ゲノム配列の情報解析システム構築
  5. 5. DNA Polymorphism Annotation Database (DNApod) DRA DDBJ Pipeline基礎処理部 http://p.ddbj.nig.ac.jp/ Reference mapping DDBJ Pipeline高次処理部:Galaxy workflow http://p-galaxy.ddbj.nig.ac.jp/ SNP検出 DNApod-DB 系統毎のSNP構造注釈 系統間比較解析 SNPsのゲノム上位置を描画 同義置換/非同義置換の検出 遺伝子領域のマルチプルアライメント描画機能 タンパク質全長 アミノ酸置換部位 検出多型をデータベース化 系統間多型注釈ワークフロー(H23年度公開) ユーザデータ DNApodデータ (倉田研, 藤山研) Wild rice strains 大規模ゲノム配列の情報解析システム構築
  6. 6. DNA Polymorphism Annotation Database (DNAPod) ・DNAPodウェブサイト構築 http://tga.nig.ac.jp/dnapod/ ・多型の参照配列上の位置情報、各系統の遺伝子型情報、多型の構造注釈情報 現在、植物(イネ678系統)のみ公開、微生物(放線菌など)を準備中 DNAPodデータベース (H24年度β版公開) 大規模ゲノム配列の情報解析システム構築 JST統合微生物プロジェクト(東工大黒川先生) コラボへ発展→微生物の多型RDF構築 ■視覚化 ■注釈データのRDF統合 詳細はポスター:望月
  7. 7. 所属担当 分担内容 果樹研カンキツ研究 興津拠点:清水博士 試料, DNA抽出 遺伝研:藤山研 シーケンシング 遺伝研:中村研 バイオインフォマティクス 遺伝機能探索への応用事例(柑橘品種の一塩基多型解析SNP) 品種名 SNP同定数(ホモ接合遺伝子型) #1 温州ミカン 405,442 (213,624) #2 ダンシータンゼリン 337,635 (170,152) #3 地中海マンダリン 263,719 (125,050) #4 キングマンダリン 391.845 (168,467) #5 紀州ミカン 291.871 (156,373) #6 ポンカン 308,213 (130,277) #7 クレメンティン(REFERENCE) 188,420 (1,153) #8 スイートオレンジ 404.688 (111,785) #9 晩白柚 665,622 (554,815) #10 アンコール(#3 x #4) 254,224 (88,129) #11 清見(#1 x #8) 391.845 (200,114) ■柑橘育種母本11品種で多型解析検証 mapped reads - low alignment quality error(7%) - insert size error (0.5%) → ~93% 大規模ゲノム配列の情報解析システム構築 農水委託プロジェクト 「柑橘育種品種のSNPchip構築 (果樹研清水先生)」へ発展 統一的な解析基準を検証 ■クオリティフィルタの条件検討 ■実験による、遺伝子型同定条件の検討
  8. 8. 補助ツール:参照配列の推薦「RefGS」(H25年度公開) http://tga.nig.ac.jp/refgs/ API Pipeline-Galaxy のオリジナルワークフロー 1.クエリのセット 2.QVフィルタ 3.16S rRNAを含むリードを抽出 (bwa v0.6.1) 4.16S rRNA配列を構築 (Velvet v. 1.2.10 de novo assembly) 5. 最近縁系統の探索 (既知16S rRNA配列へのblastn ver. 2.2.26) 大規模ゲノム配列の情報解析システム構築 ■ RefGS : Reference Genome Suggest(現在、微生物のみ) 類似度高の配列を推薦 ■多型検出の問題 参照配列が遠縁系統 だと多型検出数が増加 ↓ 配列相同性(類似度)高 の公開配列を利用したい 参照配列①AAATGTG クエリ AAAAGTG 参照配列②AAGTGTA クエリ AAAAGTG
  9. 9. ◎NCBI PUBMED アブストラクトや公開文献から手作業抽出 ◎PATO(Phenotypic Quality Ontology)割当による、形質遺伝率の分類 Broad-sense (H2)=Vg/(Vg+Ve) Narrow-sense(h2)=Va/(Vg+Ve) 形質との関連が報告 されている多型情報 ■838 エントリ, 67 生物種 (Kaminuma et al., NAR 2013) http://tga.nig.ac.jp/h2db/ 補助ツール:多型の文献キュレーション「H2DB」(H24年度公開) 大規模ゲノム配列の情報解析システム構築 CREST 特定課題調査費(東大鹿島先生)コラボ へ発展→クラウドソーシングを用いたビッグ データ解析の適用分野調査、タスク評価 ■過去に分類研究有 [Mousseau, T.A. and Roff, D.A. (1987)] * narrow-sense only * n=1,120 Phenotype → Entity + Quality(EQ) model → Entity ontology + Quality ontology (PATO) Leaf area (TO:0000540) = PO:0009025(leaf)+ PATO:0001323(area) [Ref. Mungall et al., 2010]
  10. 10. 今後の課題 DDBJ Sequence Read Archive(DRA) ・Yuichi Kodama ・Koji Watanabe ・Daisuke Fukuda ・Masahiro Fujimoto ・Yukie Shinyama ・Keisuke Yamamoto ・Koji Suzuki ・Hideki Nagasaki ・Naoko Sakamoto ・Shota Morizaki ・Natsuko Sakakura ・Daisuke Ikumi ・Hitoshi Kunii Pipeline System/Database Acknowledgments This research is partially supported by ROIS Transdisciplinary Research Grant and Grants-in-Aid for Scientific Research. 大規模ゲノム配列の情報解析システム構築 遺伝機能探索のための系統間多型解析に着目して、大規模ゲノム配列の情報解析 ワークフローとデータベースを構築した。 課題 ■ 多型DBの応用解析ツール(系統識別マーカ、系譜推定、ホモ化領域推定) ■ 多型解析における遺伝子発現データの利用 ■ 表現型情報のキュレーションと遺伝子型情報からの形質予測基盤の構築

×