Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

[2014-08-29] 日本学術会議学術フォーラム 「ビッグデータ時代のゲノム情報解析とクラウドソーシング」

ビッグデータ時代のゲノム情報解析とクラウドソーシング
神沼英里 (国立遺伝学研究所)

日本学術会議学術フォーラム「生命情報ビッグデータ時代における新しい生命科学」
日時:2014年8月29日(金) 14:35~15:00
場所:日本学術会議講堂

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

[2014-08-29] 日本学術会議学術フォーラム 「ビッグデータ時代のゲノム情報解析とクラウドソーシング」

  1. 1. ビッグデータ時代の ゲノム情報解析とクラウドソーシング 神沼英里 国立遺伝学研究所 生命情報研究センター 大量遺伝情報研究室 日本学術会議学術フォーラム「生命情報ビッグデータ時代における新しい生命科学」 日時:2014年8月29日(金) 14:35~15:00 場所:日本学術会議講堂
  2. 2. 目次:ゲノムビッグデータの機械処理と人力処理 ①ゲノムビッグデータ解析の機械処理化 ②人力処理化=クラウドソーシング研究応用 ビッグデータ時代 (オープン&自動化) 公開素材やデジタル 自動化でビッグデータ生成 価値=Bigness ビッグデータ時代 (クローズ/ 手作業) 非公開素材の使用。 または 手作業デジタル化を経て ビッグデータ生成 価値= InAccessibility ↑Automation① ↑Human Computation② 個別データ時代 実験素材に価値 価値=Originality
  3. 3. ゲノム配列解析分野は、高速DNAシークエンサ普及で ビッグデータ化 高速DNA シークエンサ (NGS) ・米NCBIがSequence Read Archive開始(Wheeler et al., NAR 2008) ・日本DNAデータバンク(DDBJ)と欧EBIも登録・交換開始 (Shumway et al., NAR 2010) http://trace.ddbj.nig.ac.jp/ ・日本人個人ゲノムの登録公開(2012) ・コントロールアクセスDB開始(2013) ■NGS出力配列アーカイブの統計 アーカイブ量の増大・ビッグデータ化 ↓ 再利用が困難、高速情報解析のニーズ 生物種別の実験登録数 研究タイプ別登録数 http://sra.dbcls.jp/より DRA-HPの統計より 大規模配列データ のアーカイブ
  4. 4. DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013) →遺伝研スパコンを遠隔利用、10TB,2TB mem / 350 nodes / 100TB storage利用 →登録ユーザ577名、年間約8000ジョブのサービスに発展(2014年8月時点) 高速 シークエンサ Instrumentation data Sequence + quality (fastq) base calling Contigs (Overlapping reads) Scaffolds (Supercontigs) + Annotation DDBJ Sequence Read Archive CON Complete genome - Annotation DDBJ Pipeline 基礎処理部 DDBJ.MSS finishing/gap closure annotation 通常 データ WGS メタデータ データ DDBJ.DRAImage data >Seq1 AGTCGGGTGG . . . . trace@ddbj.nig.ac.jp http://www.ddbj.nig.ac.jp/sub/trace_sra- j.html Contig 情報ファイル + アノテーションファイル 配列 + アノテーションファイル 自動アノテーション 結果 配列 + アノテーションファイル 日本DNAデータバンク 大量登録受付 研究者による編集 Reference Genome Mapping DDBJ Pipeline 高次処理部 (Annotation Tools) PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析 : 他のツール De novo Assembly 自動解析Pipeline提案で、解析高速化に貢献(2009年~) 日本DNAデータバンク DRA登録受付
  5. 5. 所属担当 分担内容 果樹研カンキツ研究 興津拠点:清水博士 試料, DNA抽出 遺伝研:藤山研豊田博士 シーケンシング 遺伝研:中村研神沼 バイオインフォマティクス 自動解析の事例と発展研究(柑橘の品種間一塩基多型[SNP]解析) 品種名 SNP同定数(ホモ接合遺伝子型) #1 温州ミカン 405,442 (213,624) #2 ダンシータンゼリン 337,635 (170,152) #3 地中海マンダリン 263,719 (125,050) #4 キングマンダリン 391.845 (168,467) #5 紀州ミカン 291.871 (156,373) #6 ポンカン 308,213 (130,277) #7 クレメンティン(REFERENCE) 188,420 (1,153) #8 スイートオレンジ 404.688 (111,785) #9 晩白柚 665,622 (554,815) #10 アンコール(#3 x #4) 254,224 (88,129) #11 清見(#1 x #8) 391.845 (200,114) ■柑橘育種母本11品種で多型解析検証 mapped reads - low alignment quality error(7%) - insert size error (0.5%) → ~93% 農水委託プロジェクト 「柑橘育種品種のSNPchip構築 (果樹研清水博士)」 ■統一的な解析基準を検証 ■クオリティフィルタの条件検討 ■遺伝子型同定の閾値条件の検討 現在1,536 SNPマーカ絞込中形質(酸含量、果実重な ど)とSNPとの関連解析 へ
  6. 6. 遺伝子情報自動注釈後は、キュレーション必須 タスク Annotation (自動処理) Curation (手動処理) Validation (仕様 チェック、 自動+手動) 関連オントロジー 塩基配列の 遺伝子等の 構造注釈 構造予測ツール • Glimmer3: 67-91%※1 for 14 microbial genomes • GenScan 78% ※2 for a plant genome 実験・解析デー タに基づく 遺伝子発見 アミノ酸配列翻 訳、コンタミネー ション配列チェッ ク Sequence Ontology(SO), Feature Annotation Location Description Ontology (FALDO), etc. 遺伝子等の 機能注釈 配列類似検索による • Computational GO assignment 70%※3 注釈修正、オン トロジ割当など 仕様・命名規約・ ガイドラインに基 づくチェック Gene Ongoloty(GO), Plant Ontology(PO), etc. 文献からの 注釈 Named Entity Recognition(NER) プログラムによる予測 83%※4 NERタスクの キュレーション NCI Thesaurus, etc. ※1 Delcher et al., 2007 (PMID:17237039) ※2 Burge et al,1997 (PMID:9149143) ※3 Skunca et al., 2012 (PMC3364937) ※4 Hu Y et al, 2012 (PMID:22984434)
  7. 7. ■技術革新前のゲノム解読処理フロー 高速DNA シークエンサの 配列解読 研究者による編集キュレーション (Jamboree / Online community curation) 論文公開 データ公開 配列構造や 遺伝子機能の 自動注釈 論文公開 データ 公開 Wikiによる キュレーション が提案されている (Salzberg, 2013) 現在 ■現在処理フローと BigData Curation対策案 DDBJ Pipeline TogoAnnotation (藤澤, 中村et al., 2014) 大量のDNA配列 自動注釈ツール キュレーション作業 専門 ワーカ 非専門家クラウドワーカ タスク分配 (精度、コスト) 訓練データとして利用可能? <提案>クラウドソーシングで注釈情報をキュレーション ビッグデータ・キュレーション問題 クラウドソーシングで専門家不足を解決
  8. 8. クラウドソーシング(Crowdsourcing)とは? クラウド(群衆)+アウトソーシング(委託)=クラウドソーシング ■Jeff Howeが提唱(2006) Wired Magazine編集者 The rise of crowdsourcing (2006.6月記事) ■Amazon Mechanical Turk(2005~) マイクロタスクサイト公開 ■スパム除け認証Captcha(Dr.Luis von Ahn, CMU) (2000) → Google機械で99.8%に精度向上(2014.4) 低賃金が批判対象になることも CSは機械学習用のデータセット収集に使える
  9. 9. クラウドソーシングの有名プラットフォーム ■海外と日本のプラットフォーム対比 Amazon Mturk (2005~) (マイクロタスク型有料) https://www.mturk.com/ 2007年に10万人 Zooniverse (2007~) (マイクロタスク型無料) Innocentive(2001~) (コンペ型有料) http://www.innocentive.com/ 25万人 予測モデリングKaggle Lancers(2008~) (マイクロタスク型 有料) http://www.lancers.jp/ 30万人 CROWD4U(2011~) (マイクロタスク型無料) [筑波大森嶋研] 約2,000人 Deep Analytics(2014~) (コンペ型有料) [Opt斎藤博士] https://datasciencelab.jp/ compelist/ CrowdSolving[Infocom] https://www.zooniverse.org/ [Dr.Chris Lintott, U of Oxford] 500万人
  10. 10. 研究応用のための、クラウドソーシングの型分類 クラウドソーシングの分類(Wiki, コンペ, Game, etc) Method Cs:Crowdsourcing Incentiv e Reward Period Problem 1 Cs:Wikipedia, Zooniverse方式 低 無料 無期 善意のボランティアの為、 期間内に終了せず 2 Cs:ゲーム方式 低~高 無料 有期 開発費コスト高 3 Cs:非ゲーム方式 (コンペ、マイクロタスクetc) 中 有料 有期 有料クラウドソーシングサイ トを利用(*<採用) 4 専門家方式 高 有料 有期 人件費コスト高 人材が簡単に見つからない 現在 http:://fold.it (Dr.David Baker, Univ of Washington, 2008)
  11. 11. 多様な研究工程で、クラウドソーシング活用可 多岐にわたるクラウドソーシングの活用工程 欧州Big Data Public Private Forum (BIG)より ■画像上で白血球等と区別するマラリア タグ付けゲーム [Luengo-Oroz et al., 12] • 1ヶ月以上、95カ国からボランティア12,000人以上参加 • Non-expertワーカの22結果で99%高精度 ~専門家 microscopists精度 ■タンパク質シグナル伝達ネットワークの推定[Prill et al., 11] ■タンパク質構造予測のゲーム [Cooper et al., 10] ■質量分析スペクトルの解析ゲーム [Bradley et al., 09]
  12. 12. ゲノム解析関連でのクラウドソーシング研究事例 と参加人数 →将来フィールドDNA sequencingによる遺伝子型タイピング時代に →現在もフィールド表現型タイピングは、研究開発競争始まっている 海外事例①DNA barcoding 海外事例② 海外事例③ FoldIt(UW)733参加者 Eterna(CMU) 37,000参加者 http://www.nature.com/news/data-from-pocket- sized-genome-sequencer-unveiled-1.14724 ↓ 誰でもどこでもDNA解析 http://www.insightaas.com/populating-the-barcode-of-life/ ・Sara McMullin(SAP Canada) ・Paul Hebert(Biodiversity Institute of Ontario ) 2015年末までに50万種の DNA Barcodeを検索 ・SAP:BigData解析技術 ・iBOL:データ提供 23andme 22形質GWAS、1万人参加者
  13. 13. 日本のクラウドソーシング研究者 ■人工知能学会クラウドソーシング研究会(2012~) ■情報科学分野(データマイニング、ビッグデータ解析、データベース、マルチエージェント、機械学習、 セマンティックウェブ)の専門家が集合 クラウドソーシング プラットフォーム 数理解析、方法論 小山聡(北大) [統計的品質管理] 産業界プラットフォーム パートナー Lancers / Yahoo! [Crowdsourcing Marketplaces] 櫻井祐子(九大) [参加インセンティブ設計] クラウドワーカ 応用分野 神沼英里 (遺伝研) [バイオ] 大向一輝(情報研) [オープンデータ] PI: 鹿島久嗣 (京大) 馬場雪乃 (情報研) [ビッグデータ解析基盤, プライバシ保護] 森嶋厚行 (筑波大) [参加基盤システム, クエリ言語] Opt [Competition Platform] 京大鹿島研スライド改変 松原繁夫(京大) [供出インセンティブ設計] その他のCS研究者→「クラウドソーシングとビッグデータに関するワークショップ」Google検索!
  14. 14. 遺伝子構造領域キュレーション実験① クラウドソーシングのタスク化 真核生物(植物:シロイヌナズナ)の遺伝子発現配列から遺伝子構造領域の注釈付を行う 1段目赤:配列の自動注釈結果 (精度44~65%, Tao et al., 2012) 2段目青:NCBI RefSeq注釈 短い遺伝子発現配列のアライ メント図 発現量積算図 タスク化のポイント ①配列情報の漏えい→配列情報の削除 ②テスト用に簡易化 ・拡大縮小操作は無し ・差分領域が発現積算図に重なるか判定 IGV viewer(Robinson et al, 2011)
  15. 15. 遺伝子構造領域キュレーション実験② Worker Performance and Task Condition ■クラウドワーカ20名の19タスク正答率(0.85±0.12) ■意図した結果が得られず(全員不正解)→ タスクの説明を、経験則を明文化する必要(明文化コスト大)→今後検討 クラウドワーカの一致率 オブジェクトの幅 Spearman順位相関検定 r=0.09(P=0.71) r=-0.13(P=0.60) ■画像タスク条件 参照オブジェクトまでの距離 →オブジェクト幅との相関無 →参照オブジェクトまでの距離との相関無
  16. 16. ■実験データ ・BioNLP/NLPBA 2004 Shared Taskの キュレーションデータ利用 ・ランダム選択の5件利用 ・平均単語数:187語/アブストラクト ・専門用語の選択 ・評価尺度:Recall, Precision, Fscore ■被験者 ・クラウドワーカ(非専門家):17名 ・キュレータ(専門家):3名 ■クラウドソーシング利用条件 ・プラットフォーム:ランサーズ ・雇用金額:5件1,000円 (キュレータ無料) ■非専門家の生命科学の知識レベル ・大学院で生命科学を専攻した人:3名 ・生命科学に関する仕事の従事経験がある人:0名 ■非専門家の英語レベル ・TOEIC点数(自己申告): 平均675点 ■タスク画面例 文献キュレーション実験① クラウドソーシング・タスクの実験条件 非専門家の生命科学知識レベルは、中学~大学院まで幅広い
  17. 17. 文献キュレーション実験② 専門家と同等精度のクラウドワーカ存在 赤点線:非専門家の評価値分布のうち、 専門家の評価値に相当する箇所 クラウドワーカは、PrecisionよりRecallが高い傾向 →2段階利用の可能性 :クラウドワーカが集めた結果を、キュレータが精査する
  18. 18. 研究用データ (未解決) 高精度 自動注釈モデル キュレーション 構造化データ クラウドワーカ (※キュレータ比較含) の手作業処理 モデル構築+ 訓練データ適用③ CSキュレーション・モデリングのカタログ・ポータル構築 データ 収集② キュレーションIF構築① 適用評価④ 事例① 文献データから遺伝率 情報収集 事例② 空撮映像からの圃場画像 再構築 事例③ 遺伝子発現領域の同定 reproductive quality (PATO:0001434) クラウドソーシング研究基盤構築(開発中) データ収集・キュレーション・自動解析モデル精度向上までサポート 外部連携: 数理モデリングの クラウドソーシング・サイト 京大鹿島ラボ、etc. 手作業タスクを 研究者が投稿出来る 環境を整備していく
  19. 19. タスク専門度(難易度)推定の研究 専門タスクでも、低専門値タスクの存在確認 予測モデル構築マイクロタスク一般 (画像領域抽出、 タギングなど) For these scores , perform the evaluation by calculating the AUC (Area Under the Curve). Participants bidder of this competition , the data of some of the links provided to actually between articles on Wikipedia, And using the additional information data for each article, We will create a model that predicts ( hidden by = organizer ) the existence of a link between articles is unknown whether the link. As data for learning , some of the links provided between 23,269 articles all articles in Wikipedia , and ( 45,209 links) , I offer (features of 39,541 pieces ) additional information about each page. …. OBJECTIVE: To understand the role of genetic variation in the catecholamine biosynthetic pathway for control of human heart rate (HR) BACKGROUND: Human HR is an integrated cardiovascular trait predictive of morbidity and survival. Since the autonomic pathway exerts rapid control over the heart, we probed the role of heredity in control of HR, focusing on a component of the autonomic sympathetic pathway already predictive of outflow responses: Cytochrome b561 (CYB561), the electron shuttle in catecholamine vesicle membranes for transmitter biosynthesis Image of 19 pieces will be presented. In the graph of each, please judge region shown in red to see if it is applied to the area of the graph in gray. バイオキュレーション (用語抽出) LLR(専門/非専門)をUnigram言語モデルで計算 マイクロタスク学術関係 (タギングなど) マイクロタスク一般 (データ収集など) Itoshima tourism leisurely Precious and traditional event that remains rich in natural lan that triple threat of mountain sea and countryside, stir the history inquiring mind. A safe and secure and agricultural an marine products to craft work of handmade warmth is muffl In the time it laid-back, it will guide you whisper to the sens of your Itoshima. "; Futaba-cho project This is Fukushima Prefecture Futaba Town project preliminary experiment. I'd like to tag the ones that are stored in Futaba town. Please perform the task in the following procedure. You can set the language where you want one. [Language Settings button, to answer to the task. Add tags to images Click the 2. [Add tags] button, it is displayed. If the language in which you want to 3. Answer does not exist in the language settings, please go to [answer additional → 低専門評価値タスクを、クラウドワーカに割当てる指標に → クラウドソーシング・プラットフォームのタスク専門度評価も可能に
  20. 20. 今後の課題 ■クラウドソーシングの研究基盤構築 ■遺伝子構造や文献情報抽出の実DBデータのクラウドソーシング (明文化コスト、研究倫理審査問題) ■DNA解析クラウド・タイピング(データ収集)に向けたプロトコル構築 ■Acknowledgments ・CREST特定課題調査「クラウドソーシングを用いたビッグデータ解析の適用分野調査(代表:京大鹿島)」関係者 Takatomo Fujisawa, Yasukazu Nakamura (Genome Informatics Lab.,NIG), Atsuyuki Morishima (Tsukuba University), Osamu Matsuda (Kyushu University), Shigeru Saito (Opt Inc.), Yukino Baba(National Institute of Information), Hisashi Kashima(Kyoto Univ) ・ROIS融合研究「遺伝機能システム」(代表:遺伝研倉田)、科研費の関係者 Takako Mochizuki, Yasuhiro Tanizawa, Hideki Nagasaki (Genome Informatics Lab, NIG), Atsushi Toyoda, Asao Fujiyama (Comparative Genomics Lab, NIG), Tokurou Shimizu (NARO Institute of Fruit Tree Science), Nori Kurata (Plant Genetics Lab, NIG) ・日本DNAデータバンク(DDBJ)関係者 Yuichi Kodama, Jun Mashima, Koji Watanabe, Masahiro Fujimoto, Yukie Sakon, Masanori Arita, Osamu Ogasawara, Kousaku Okubo, Toshihisa Takagi

×