SlideShare ist ein Scribd-Unternehmen logo
1 von 10
大規模ゲノム配列の情報解析システム構築:
次世代シークエンサ・アーカイブ配列を用いた
植物・微生物の系統間多型解析ワークフロー
E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T. Shimizu2, A. Toyoda3,
A. Fujiyama3,4, N. Kurata5 and Y. Nakamura1*
1Genome Informatics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka
411-8540, Japan
2 National Institute of Fruit Tree Science, Okitsu-Nakacho, Shimizu, Shizuoka 424-0292, Japan
3 Comparative Genomics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima
Shizuoka 411-8540, Japan
4 Principles of Informatics Research Division, National Institute of Informatics / Department of Informatics, SOKENDAI, 2-1-2
Hitotsubashi. Tokyo 101-8430, Japan
5 Plant Genetics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-
8540, Japan
融合プロジェクト冬合宿2014 遺伝機能システム
日時:2014年2月24日(月) 13:30~15:00
場所:神奈川県湘南国際村センター
背景①大規模ゲノム配列の情報解析システムの必要性
大規模ゲノム配列の情報解析システム構築
高速DNA
シークエンサ
(NGS)
Sequence Read Archive in 米NCBI(Wheeler et al., NAR 2008)
日本DDBJと欧EBIも登録・交換開始(Shumway et al., NAR 2010)
http://trace.ddbj.nig.ac.jp/
個人ゲノム登録(2012), コントロールアクセス開始(2013)
■NGS出力配列アーカイブの統計
アーカイブ量の増大・大規模化
↓
再利用が困難、情報解析システムや2次データベース構築の必要性
生物種別の実験登録数 研究タイプ別登録数
http://sra.dbcls.jp/より
DRA-HPの統計より
大規模配列データ
のアーカイブ
大規模ゲノム配列の情報解析システム構築
背景② 情報解析Pipelineシステム
DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013)
→遺伝研スパコンをクラウド利用、10TB,2TB mem / 350 nodes / 100TB storage利用
→登録ユーザ350名、年間約4000ジョブのサービスに発展(2014年2月時点)
高速
シークエンサ
Instrumentation
data
Sequence + quality
(fastq)
base calling
Contigs
(Overlapping reads)
Scaffolds
(Supercontigs)
+ Annotation
DDBJ Sequence Read Archive
CON
Complete genome
- Annotation
DDBJ Pipeline
基礎処理部
MSS
finishing/gap
closure
annotation
通常
データ
WGS
メタデータ
データ
DRAImage data
>Seq1
AGTCGGGTGG . . . .
trace@ddbj.nig.ac.jp
http://www.ddbj.nig.ac.jp/sub/trace_sra-
j.html
mass-ftp
ディスク送付
Contig 情報ファイル +
アノテーションファイル
配列 +
アノテーションファイル
自動アノテーション
結果
配列 +
アノテーションファイル
mass-ftp
電子メール
大量登録システム
研究者による編集
Reference Genome Mapping
DDBJ Pipeline
高次処理部
(Annotation Tools)
PSU Galaxy Workflow
Interface
(Giardine et al.,
Genome Res 2005)
・SNP 検出/ 注釈
・Contig 注釈
・RNA-seq 解析
:
他のツール
De novo Assembly
①系統間多型の
情報解析ワークフロー構築
PUBMED
Abstracts &
Online
Journal contents
Data
source
Data source RDF化②多型注釈情報のDB化
Data Resources
for Genome-
Phenome Analysis
+
*SNP⇔TRAIT search
*Allele mining
遺伝機能探索のための「情報解析ワークフロー」と「データベース」
Whole Genome
Sequencing
Metagenome
Resequencing
Epigenetics
Population Genomics
WGS+ Population Genomics+Resequencing ~
65%
Transcriptome
Sequence Read Archive
注釈情報の付加
NIG遺伝資源
大規模ゲノム配列の情報解析システム構築
DNA Polymorphism Annotation Database (DNApod)
DRA
DDBJ Pipeline基礎処理部
http://p.ddbj.nig.ac.jp/
Reference mapping
DDBJ Pipeline高次処理部:Galaxy workflow
http://p-galaxy.ddbj.nig.ac.jp/
SNP検出
DNApod-DB
系統毎のSNP構造注釈 系統間比較解析
SNPsのゲノム上位置を描画
同義置換/非同義置換の検出
遺伝子領域のマルチプルアライメント描画機能
タンパク質全長 アミノ酸置換部位
検出多型をデータベース化
系統間多型注釈ワークフロー(H23年度公開)
ユーザデータ
DNApodデータ
(倉田研, 藤山研)
Wild rice strains
大規模ゲノム配列の情報解析システム構築
DNA Polymorphism Annotation Database (DNAPod)
・DNAPodウェブサイト構築 http://tga.nig.ac.jp/dnapod/
・多型の参照配列上の位置情報、各系統の遺伝子型情報、多型の構造注釈情報
現在、植物(イネ678系統)のみ公開、微生物(放線菌など)を準備中
DNAPodデータベース (H24年度β版公開)
大規模ゲノム配列の情報解析システム構築
JST統合微生物プロジェクト(東工大黒川先生)
コラボへ発展→微生物の多型RDF構築
■視覚化 ■注釈データのRDF統合
詳細はポスター:望月
所属担当 分担内容
果樹研カンキツ研究
興津拠点:清水博士
試料, DNA抽出
遺伝研:藤山研 シーケンシング
遺伝研:中村研 バイオインフォマティクス
遺伝機能探索への応用事例(柑橘品種の一塩基多型解析SNP)
品種名 SNP同定数(ホモ接合遺伝子型)
#1 温州ミカン 405,442 (213,624)
#2 ダンシータンゼリン 337,635 (170,152)
#3 地中海マンダリン 263,719 (125,050)
#4 キングマンダリン 391.845 (168,467)
#5 紀州ミカン 291.871 (156,373)
#6 ポンカン 308,213 (130,277)
#7 クレメンティン(REFERENCE) 188,420 (1,153)
#8 スイートオレンジ 404.688 (111,785)
#9 晩白柚 665,622 (554,815)
#10 アンコール(#3 x #4) 254,224 (88,129)
#11 清見(#1 x #8) 391.845 (200,114)
■柑橘育種母本11品種で多型解析検証
mapped reads
- low alignment
quality error(7%)
- insert size error
(0.5%)
→ ~93%
大規模ゲノム配列の情報解析システム構築
農水委託プロジェクト
「柑橘育種品種のSNPchip構築
(果樹研清水先生)」へ発展
統一的な解析基準を検証
■クオリティフィルタの条件検討
■実験による、遺伝子型同定条件の検討
補助ツール:参照配列の推薦「RefGS」(H25年度公開)
http://tga.nig.ac.jp/refgs/
API
Pipeline-Galaxy のオリジナルワークフロー
1.クエリのセット 2.QVフィルタ 3.16S rRNAを含むリードを抽出 (bwa v0.6.1)
4.16S rRNA配列を構築
(Velvet v. 1.2.10 de novo assembly)
5. 最近縁系統の探索
(既知16S rRNA配列へのblastn ver. 2.2.26)
大規模ゲノム配列の情報解析システム構築
■ RefGS : Reference Genome Suggest(現在、微生物のみ)
類似度高の配列を推薦
■多型検出の問題
参照配列が遠縁系統
だと多型検出数が増加
↓
配列相同性(類似度)高
の公開配列を利用したい
参照配列①AAATGTG
クエリ AAAAGTG
参照配列②AAGTGTA
クエリ AAAAGTG
◎NCBI PUBMED アブストラクトや公開文献から手作業抽出
◎PATO(Phenotypic Quality Ontology)割当による、形質遺伝率の分類
Broad-sense (H2)=Vg/(Vg+Ve)
Narrow-sense(h2)=Va/(Vg+Ve)
形質との関連が報告
されている多型情報
■838 エントリ, 67 生物種
(Kaminuma et al., NAR 2013)
http://tga.nig.ac.jp/h2db/
補助ツール:多型の文献キュレーション「H2DB」(H24年度公開)
大規模ゲノム配列の情報解析システム構築
CREST 特定課題調査費(東大鹿島先生)コラボ
へ発展→クラウドソーシングを用いたビッグ
データ解析の適用分野調査、タスク評価
■過去に分類研究有
[Mousseau, T.A. and Roff, D.A. (1987)]
* narrow-sense only
* n=1,120
Phenotype
→ Entity + Quality(EQ) model
→ Entity ontology + Quality ontology (PATO)
Leaf area (TO:0000540)
= PO:0009025(leaf)+ PATO:0001323(area)
[Ref. Mungall et al., 2010]
今後の課題
DDBJ Sequence Read Archive(DRA)
・Yuichi Kodama
・Koji Watanabe
・Daisuke Fukuda
・Masahiro Fujimoto
・Yukie Shinyama
・Keisuke Yamamoto
・Koji Suzuki
・Hideki Nagasaki
・Naoko Sakamoto
・Shota Morizaki
・Natsuko Sakakura
・Daisuke Ikumi
・Hitoshi Kunii
Pipeline System/Database
Acknowledgments
This research is partially supported by ROIS Transdisciplinary Research Grant and Grants-in-Aid for Scientific Research.
大規模ゲノム配列の情報解析システム構築
遺伝機能探索のための系統間多型解析に着目して、大規模ゲノム配列の情報解析
ワークフローとデータベースを構築した。
課題
■ 多型DBの応用解析ツール(系統識別マーカ、系譜推定、ホモ化領域推定)
■ 多型解析における遺伝子発現データの利用
■ 表現型情報のキュレーションと遺伝子型情報からの形質予測基盤の構築

Weitere ähnliche Inhalte

Andere mochten auch

[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
Eli Kaminuma
 
你多久沒追逐夢想了
你多久沒追逐夢想了你多久沒追逐夢想了
你多久沒追逐夢想了
John Smith
 
Material Handler Supervisor-Williams
Material Handler Supervisor-WilliamsMaterial Handler Supervisor-Williams
Material Handler Supervisor-Williams
Ralph Williams Sr.
 
Avances en materia de proteccion industrial y seguridad Industrial
Avances en materia de proteccion industrial y seguridad IndustrialAvances en materia de proteccion industrial y seguridad Industrial
Avances en materia de proteccion industrial y seguridad Industrial
Fabiana Beg
 

Andere mochten auch (12)

[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
 
暑假App開發成長會
暑假App開發成長會暑假App開發成長會
暑假App開發成長會
 
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
 
你多久沒追逐夢想了
你多久沒追逐夢想了你多久沒追逐夢想了
你多久沒追逐夢想了
 
Material Handler Supervisor-Williams
Material Handler Supervisor-WilliamsMaterial Handler Supervisor-Williams
Material Handler Supervisor-Williams
 
Develop Yourself
Develop YourselfDevelop Yourself
Develop Yourself
 
社團經營企劃
社團經營企劃社團經營企劃
社團經營企劃
 
ICV Application guide
ICV Application guideICV Application guide
ICV Application guide
 
[2016-07-06] DDBJデータ解析チャレンジ概要
[2016-07-06] DDBJデータ解析チャレンジ概要[2016-07-06] DDBJデータ解析チャレンジ概要
[2016-07-06] DDBJデータ解析チャレンジ概要
 
Avances en materia de proteccion industrial y seguridad Industrial
Avances en materia de proteccion industrial y seguridad IndustrialAvances en materia de proteccion industrial y seguridad Industrial
Avances en materia de proteccion industrial y seguridad Industrial
 
Stegano Forensics
Stegano ForensicsStegano Forensics
Stegano Forensics
 
Cuestionario Tipología de costos
Cuestionario Tipología de costosCuestionario Tipología de costos
Cuestionario Tipología de costos
 

Mehr von Eli Kaminuma

[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
Eli Kaminuma
 
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
Eli Kaminuma
 

Mehr von Eli Kaminuma (12)

[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
 
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) [2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
 
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
 
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
 
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
 
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
 
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
 
[2017-05-29] DNASmartTagger
[2017-05-29] DNASmartTagger [2017-05-29] DNASmartTagger
[2017-05-29] DNASmartTagger
 
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
 
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
 
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[2014-02-24] 大規模ゲノム配列の情報解析システム構築:次世代シークエンサ・アーカイブ配列を用いた植物・微生物の系統間多型解析ワークフロー

  • 1. 大規模ゲノム配列の情報解析システム構築: 次世代シークエンサ・アーカイブ配列を用いた 植物・微生物の系統間多型解析ワークフロー E. Kaminuma1, T. Mochizuki1, Y. Tanizawa1, T. Fujisawa1, T. Shimizu2, A. Toyoda3, A. Fujiyama3,4, N. Kurata5 and Y. Nakamura1* 1Genome Informatics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan 2 National Institute of Fruit Tree Science, Okitsu-Nakacho, Shimizu, Shizuoka 424-0292, Japan 3 Comparative Genomics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411-8540, Japan 4 Principles of Informatics Research Division, National Institute of Informatics / Department of Informatics, SOKENDAI, 2-1-2 Hitotsubashi. Tokyo 101-8430, Japan 5 Plant Genetics Laboratory, National Institute of Genetics / Department of Genetics, SOKENDAI, 1111 Yata Mishima Shizuoka 411- 8540, Japan 融合プロジェクト冬合宿2014 遺伝機能システム 日時:2014年2月24日(月) 13:30~15:00 場所:神奈川県湘南国際村センター
  • 2. 背景①大規模ゲノム配列の情報解析システムの必要性 大規模ゲノム配列の情報解析システム構築 高速DNA シークエンサ (NGS) Sequence Read Archive in 米NCBI(Wheeler et al., NAR 2008) 日本DDBJと欧EBIも登録・交換開始(Shumway et al., NAR 2010) http://trace.ddbj.nig.ac.jp/ 個人ゲノム登録(2012), コントロールアクセス開始(2013) ■NGS出力配列アーカイブの統計 アーカイブ量の増大・大規模化 ↓ 再利用が困難、情報解析システムや2次データベース構築の必要性 生物種別の実験登録数 研究タイプ別登録数 http://sra.dbcls.jp/より DRA-HPの統計より 大規模配列データ のアーカイブ
  • 3. 大規模ゲノム配列の情報解析システム構築 背景② 情報解析Pipelineシステム DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013) →遺伝研スパコンをクラウド利用、10TB,2TB mem / 350 nodes / 100TB storage利用 →登録ユーザ350名、年間約4000ジョブのサービスに発展(2014年2月時点) 高速 シークエンサ Instrumentation data Sequence + quality (fastq) base calling Contigs (Overlapping reads) Scaffolds (Supercontigs) + Annotation DDBJ Sequence Read Archive CON Complete genome - Annotation DDBJ Pipeline 基礎処理部 MSS finishing/gap closure annotation 通常 データ WGS メタデータ データ DRAImage data >Seq1 AGTCGGGTGG . . . . trace@ddbj.nig.ac.jp http://www.ddbj.nig.ac.jp/sub/trace_sra- j.html mass-ftp ディスク送付 Contig 情報ファイル + アノテーションファイル 配列 + アノテーションファイル 自動アノテーション 結果 配列 + アノテーションファイル mass-ftp 電子メール 大量登録システム 研究者による編集 Reference Genome Mapping DDBJ Pipeline 高次処理部 (Annotation Tools) PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析 : 他のツール De novo Assembly
  • 4. ①系統間多型の 情報解析ワークフロー構築 PUBMED Abstracts & Online Journal contents Data source Data source RDF化②多型注釈情報のDB化 Data Resources for Genome- Phenome Analysis + *SNP⇔TRAIT search *Allele mining 遺伝機能探索のための「情報解析ワークフロー」と「データベース」 Whole Genome Sequencing Metagenome Resequencing Epigenetics Population Genomics WGS+ Population Genomics+Resequencing ~ 65% Transcriptome Sequence Read Archive 注釈情報の付加 NIG遺伝資源 大規模ゲノム配列の情報解析システム構築
  • 5. DNA Polymorphism Annotation Database (DNApod) DRA DDBJ Pipeline基礎処理部 http://p.ddbj.nig.ac.jp/ Reference mapping DDBJ Pipeline高次処理部:Galaxy workflow http://p-galaxy.ddbj.nig.ac.jp/ SNP検出 DNApod-DB 系統毎のSNP構造注釈 系統間比較解析 SNPsのゲノム上位置を描画 同義置換/非同義置換の検出 遺伝子領域のマルチプルアライメント描画機能 タンパク質全長 アミノ酸置換部位 検出多型をデータベース化 系統間多型注釈ワークフロー(H23年度公開) ユーザデータ DNApodデータ (倉田研, 藤山研) Wild rice strains 大規模ゲノム配列の情報解析システム構築
  • 6. DNA Polymorphism Annotation Database (DNAPod) ・DNAPodウェブサイト構築 http://tga.nig.ac.jp/dnapod/ ・多型の参照配列上の位置情報、各系統の遺伝子型情報、多型の構造注釈情報 現在、植物(イネ678系統)のみ公開、微生物(放線菌など)を準備中 DNAPodデータベース (H24年度β版公開) 大規模ゲノム配列の情報解析システム構築 JST統合微生物プロジェクト(東工大黒川先生) コラボへ発展→微生物の多型RDF構築 ■視覚化 ■注釈データのRDF統合 詳細はポスター:望月
  • 7. 所属担当 分担内容 果樹研カンキツ研究 興津拠点:清水博士 試料, DNA抽出 遺伝研:藤山研 シーケンシング 遺伝研:中村研 バイオインフォマティクス 遺伝機能探索への応用事例(柑橘品種の一塩基多型解析SNP) 品種名 SNP同定数(ホモ接合遺伝子型) #1 温州ミカン 405,442 (213,624) #2 ダンシータンゼリン 337,635 (170,152) #3 地中海マンダリン 263,719 (125,050) #4 キングマンダリン 391.845 (168,467) #5 紀州ミカン 291.871 (156,373) #6 ポンカン 308,213 (130,277) #7 クレメンティン(REFERENCE) 188,420 (1,153) #8 スイートオレンジ 404.688 (111,785) #9 晩白柚 665,622 (554,815) #10 アンコール(#3 x #4) 254,224 (88,129) #11 清見(#1 x #8) 391.845 (200,114) ■柑橘育種母本11品種で多型解析検証 mapped reads - low alignment quality error(7%) - insert size error (0.5%) → ~93% 大規模ゲノム配列の情報解析システム構築 農水委託プロジェクト 「柑橘育種品種のSNPchip構築 (果樹研清水先生)」へ発展 統一的な解析基準を検証 ■クオリティフィルタの条件検討 ■実験による、遺伝子型同定条件の検討
  • 8. 補助ツール:参照配列の推薦「RefGS」(H25年度公開) http://tga.nig.ac.jp/refgs/ API Pipeline-Galaxy のオリジナルワークフロー 1.クエリのセット 2.QVフィルタ 3.16S rRNAを含むリードを抽出 (bwa v0.6.1) 4.16S rRNA配列を構築 (Velvet v. 1.2.10 de novo assembly) 5. 最近縁系統の探索 (既知16S rRNA配列へのblastn ver. 2.2.26) 大規模ゲノム配列の情報解析システム構築 ■ RefGS : Reference Genome Suggest(現在、微生物のみ) 類似度高の配列を推薦 ■多型検出の問題 参照配列が遠縁系統 だと多型検出数が増加 ↓ 配列相同性(類似度)高 の公開配列を利用したい 参照配列①AAATGTG クエリ AAAAGTG 参照配列②AAGTGTA クエリ AAAAGTG
  • 9. ◎NCBI PUBMED アブストラクトや公開文献から手作業抽出 ◎PATO(Phenotypic Quality Ontology)割当による、形質遺伝率の分類 Broad-sense (H2)=Vg/(Vg+Ve) Narrow-sense(h2)=Va/(Vg+Ve) 形質との関連が報告 されている多型情報 ■838 エントリ, 67 生物種 (Kaminuma et al., NAR 2013) http://tga.nig.ac.jp/h2db/ 補助ツール:多型の文献キュレーション「H2DB」(H24年度公開) 大規模ゲノム配列の情報解析システム構築 CREST 特定課題調査費(東大鹿島先生)コラボ へ発展→クラウドソーシングを用いたビッグ データ解析の適用分野調査、タスク評価 ■過去に分類研究有 [Mousseau, T.A. and Roff, D.A. (1987)] * narrow-sense only * n=1,120 Phenotype → Entity + Quality(EQ) model → Entity ontology + Quality ontology (PATO) Leaf area (TO:0000540) = PO:0009025(leaf)+ PATO:0001323(area) [Ref. Mungall et al., 2010]
  • 10. 今後の課題 DDBJ Sequence Read Archive(DRA) ・Yuichi Kodama ・Koji Watanabe ・Daisuke Fukuda ・Masahiro Fujimoto ・Yukie Shinyama ・Keisuke Yamamoto ・Koji Suzuki ・Hideki Nagasaki ・Naoko Sakamoto ・Shota Morizaki ・Natsuko Sakakura ・Daisuke Ikumi ・Hitoshi Kunii Pipeline System/Database Acknowledgments This research is partially supported by ROIS Transdisciplinary Research Grant and Grants-in-Aid for Scientific Research. 大規模ゲノム配列の情報解析システム構築 遺伝機能探索のための系統間多型解析に着目して、大規模ゲノム配列の情報解析 ワークフローとデータベースを構築した。 課題 ■ 多型DBの応用解析ツール(系統識別マーカ、系譜推定、ホモ化領域推定) ■ 多型解析における遺伝子発現データの利用 ■ 表現型情報のキュレーションと遺伝子型情報からの形質予測基盤の構築