SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
生命科学分野におけるデータベースの
               統合化を目指したLODの構築

              ライフサイエンス統合データベースセンター
                  山本泰智 ( @yayamamo )




13年3月7日木曜日
ライフサイエンス統合データベースセンター



             生命科学分野のデータベースを使い
             やすくするために

             2007年4月に誕生

             現在、2期目のプロジェクトを遂行




13年3月7日木曜日
組織体系

                                 文部科学省




                             情報・システ
                             ム研究機構

                                                                 大学共同利用機関法人




      遺伝学研究所     DBCLS       情報学研究所      極地研                       統計数理   新領域融合研
                                                                    研究所    究センター


               We are here            gpatague online porfolio




       DBCLS: ライフサイエンス統合データベースセンター

13年3月7日木曜日
生物関連情報の多様性




                                                   © DBCLS Licensed under CC 表示 2.1 日本




             © DBCLS Licensed under CC 表示 2.1 日本                  CK-12 Foundation


13年3月7日木曜日
生命科学研究の対象としてのヒト

                                     ヒトゲノム: 30億塩基対
                                     遺伝子:   2万数千個
                                     タンパク質 :10万以上
                                     SNP:    3千万個
                                     その他の生体分子(糖鎖, 脂質, 低分子)
                                             X
                                     細胞:200−300種類
                                     疾患:7000 (遺伝子の関係するもの)
                                                                =膨大
                                     時間:発生, 発達, 概日周期, 老化
                                     環境:生活習慣, 居住地
                                             X 
                                     個人レベルの解析
       BodyParts3D © DBCLS
       licensed under CC BY-SA 2.1          (数字は主にNCBIデータを参照)



13年3月7日木曜日
NCBI Taxonomy      4,000 biomedical journals
                          Database            indexed at NLM

               1994
               4 DBs       GenBank
                                                          SWISSPROT
                                                          PIR
                           EMBL                           PRF
                           DDBJ                           PDB
                           dbEST                          GenBank
                           dbSTS                          EMBL
                           LANL                           DDBJ
                           Patent                         LANL
                                                          Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17




         37 DBs



             2013


                                       http://www.ncbi.nlm.nih.gov/sites/gquery
13年3月7日木曜日
NAR Database Issue
                                                  1400                                              1380
                                                                                           1330
                                                  1300                          1230

                                                  1200                1170

                                                               1078
                                                  1100



                                                               2008   2009      2010       2011         2012

                                                                      Source: Oxford University Press
                  92 databases added every year




             93
                                                    dullhunk



13年3月7日木曜日
生命科学研究の新たな転換期




             生命科学の情報爆発

             仮説検証型からデータ駆動型の科学への転換

             多種多様なデータの標準化が




13年3月7日木曜日
日本のライフサイエンスDBの問題点

             ● 複数主体によるバラバラのDB構築・管理

                  最適DBを見つける困難

                  利用法を把握する困難

                  信頼性を把握する困難

              ● 大型プロジェクトの成果公開が不十分



                  DBを用いた研究が困難

13年3月7日木曜日
多様なDBの統合化へ


             第1段階
             DBを網羅的に収集しメタデータを付与する

             第2段階
             DB毎にフォーマットと用語の統一を行う

             第3段階
             複数のDBを再構築し、使いやすいインターフェース
             にまとめあげる

                        山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)

13年3月7日木曜日
http://lifesciencedb.jp/




13年3月7日木曜日
セマンティックウェブ技術を用いた統合へ



             各DBをRDFを用いて(再)構築

             オントロジーを関連組織と意見交換しつつ開発

              BioHackathon、SPARQLthon

             繋がる分散DB空間の構築を目指す




13年3月7日木曜日
略語DBや辞書のRDF化、LODへ
                       開発事例

             下記言語資源について行った

              Allie: 生命科学分野の略語に関するDB

              LSD: 生命科学分野の日英対訳辞書*

             オントロジー構築とRDF化、DBpediaへのリンク付与

             SPARQLエンドポイントの設置

                         * ライフサイエンス辞書プロジェクトによる編纂

13年3月7日木曜日
"特定病原体除去の"@ja                      allie:LongForm
  Abbreviation
       SPF                    "specific pathogen-free"@en             rdfs:label      rdf:type
             Long form                           rdfs:label
             specific pathogen-free                     http://purl.org/allie/id/longform/1528191
             English
                                                                    allie:hasLongFormOf
               特定病原体除去の
             Japanese
                                     http://purl.org/allie/id/pair/1547869


                                     rdf:type
                                                                    allie:hasShortFormOf

                                allie:EachPair
                                                          http://purl.org/allie/id/pair/1547869

  RDFデータの一部                                         rdfs:label                        rdf:type

                                                 "SPF"@en                           allie:ShortForm




13年3月7日木曜日
圧縮後ファイ
                            トリプル数
                                       ルサイズ

                 Allie      2億1700万    1G程度


                 LSD         560万       39M


             UniProt (参考)     50億        -



13年3月7日木曜日
LOD構築にまつわる課題



             URIの設計

             既存オントロジーの検索と選択

             既存オントロジーのライセンス

             適切なデータモデルの選択




13年3月7日木曜日
RDFデータを構築し公開する際に
                                             参考となる資料




   http://patterns.dataincubator.org/book/




13年3月7日木曜日
RDFデータを利用する際に参考となる資料




13年3月7日木曜日
LOD構築周辺


               作る             置く
              良いエディタ     良いレポジトリ




               探す             使う
             良い検索サービス    良いライセンス



13年3月7日木曜日
レポジトリ (トリプルストア) 現状


             実装の未成熟

             スケールしにくい

             非効率なSPARQLクエリ処理

             UTF8処理の不備

             SPARQL1.1への未対応

             頑健性を欠く動作


13年3月7日木曜日
BioHackathon / SPARQLthon




             効率よく必要な開発を行うための集まり

             関係者を一堂に集めて期間中に集中開発

             BioHackathonは世界各地から開発者を招待

             2013年は6月下旬にDBCLSにて開催




13年3月7日木曜日
13年3月7日木曜日
Knowledge




                     LO
                 D
               LO


                       D
                       LO
               D
             LO




                         D
 Reduce LOD          LOD
 Reuse
 Recycle                   BodyParts3D, © ライフサイエンス統合データベー
                           スセンター licensed under CC表示 継承2.1 日本
13年3月7日木曜日
LINKED DATA STANDARDS




13年3月7日木曜日
謝辞




             川本祥子
             JSTライフサイエンスデータベース統合推進事業




13年3月7日木曜日

Weitere ähnliche Inhalte

Was ist angesagt?

2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
Hottolink
 

Was ist angesagt? (9)

Linked Data (再)入門
Linked Data (再)入門Linked Data (再)入門
Linked Data (再)入門
 
LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)
 
ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)
 
第4回 AIツール入門講座 Linked Open Data入門
第4回 AIツール入門講座 Linked Open Data入門第4回 AIツール入門講座 Linked Open Data入門
第4回 AIツール入門講座 Linked Open Data入門
 
LODを使ってみよう!
LODを使ってみよう!LODを使ってみよう!
LODを使ってみよう!
 
第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用
 
LOD技術の概要と LinkData.orgを用いたLOD公開
LOD技術の概要とLinkData.orgを用いたLOD公開LOD技術の概要とLinkData.orgを用いたLOD公開
LOD技術の概要と LinkData.orgを用いたLOD公開
 
「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」
 
2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
2010年秋ドラマ「パーフェクト・リポート」と「獣医ドリトル」ブログレポート
 

Andere mochten auch

Andere mochten auch (20)

第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo
 
Towards Database Integration Through RDF & Linked Data
Towards Database Integration Through RDF & Linked DataTowards Database Integration Through RDF & Linked Data
Towards Database Integration Through RDF & Linked Data
 
Ontology howto
Ontology howtoOntology howto
Ontology howto
 
Metadata Strategies And Tools
Metadata Strategies And ToolsMetadata Strategies And Tools
Metadata Strategies And Tools
 
DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状
 
国際的な相互運用とオープン技術- 日時と文字 -
国際的な相互運用とオープン技術- 日時と文字 -国際的な相互運用とオープン技術- 日時と文字 -
国際的な相互運用とオープン技術- 日時と文字 -
 
文章を構成する過程を測定するジグソー・テキストの開発
文章を構成する過程を測定するジグソー・テキストの開発文章を構成する過程を測定するジグソー・テキストの開発
文章を構成する過程を測定するジグソー・テキストの開発
 
D2RQ Mapper
D2RQ MapperD2RQ Mapper
D2RQ Mapper
 
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてRDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
 
RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」
 
セマンティック・ウェブのためのRdf owl入門1&2章
セマンティック・ウェブのためのRdf owl入門1&2章セマンティック・ウェブのためのRdf owl入門1&2章
セマンティック・ウェブのためのRdf owl入門1&2章
 
RDF2Vec: RDF Graph Embeddings for Data Mining
RDF2Vec: RDF Graph Embeddings for Data MiningRDF2Vec: RDF Graph Embeddings for Data Mining
RDF2Vec: RDF Graph Embeddings for Data Mining
 
LODチャレンジ Japan 2013 アプリケーション部門 優秀賞
LODチャレンジ Japan 2013 アプリケーション部門 優秀賞LODチャレンジ Japan 2013 アプリケーション部門 優秀賞
LODチャレンジ Japan 2013 アプリケーション部門 優秀賞
 
学術分野の事例紹介
学術分野の事例紹介学術分野の事例紹介
学術分野の事例紹介
 
ライフサイエンス分野におけるLinked Open Dataの活用例
ライフサイエンス分野におけるLinked Open Dataの活用例ライフサイエンス分野におけるLinked Open Dataの活用例
ライフサイエンス分野におけるLinked Open Dataの活用例
 
RDF Refineの使い方
RDF Refineの使い方RDF Refineの使い方
RDF Refineの使い方
 
ガバメント分野におけるLODの活用例
ガバメント分野におけるLODの活用例ガバメント分野におけるLODの活用例
ガバメント分野におけるLODの活用例
 
Protege tutorial
Protege tutorialProtege tutorial
Protege tutorial
 
地理空間情報におけるLinked Open Dataの活用例
地理空間情報におけるLinked Open Dataの活用例地理空間情報におけるLinked Open Dataの活用例
地理空間情報におけるLinked Open Dataの活用例
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
 

Ähnlich wie Swc2013 yamamoto

第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
Hidemasa Bono
 
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
Hidemasa Bono
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
奈良先端大 情報科学研究科
 

Ähnlich wie Swc2013 yamamoto (20)

ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
 
バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)
 
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
 
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
 
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
 
DDBJ Nucleotide Sequence Submission System の紹介
DDBJ Nucleotide Sequence Submission System の紹介DDBJ Nucleotide Sequence Submission System の紹介
DDBJ Nucleotide Sequence Submission System の紹介
 
20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA
 
Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法
 
第52回生命科学夏の学校
第52回生命科学夏の学校第52回生命科学夏の学校
第52回生命科学夏の学校
 
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
 
第三回統合牧場収穫祭イントロダクション
第三回統合牧場収穫祭イントロダクション 第三回統合牧場収穫祭イントロダクション
第三回統合牧場収穫祭イントロダクション
 
トーゴーの日2014ポスター
トーゴーの日2014ポスタートーゴーの日2014ポスター
トーゴーの日2014ポスター
 
DDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa BonoDDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa Bono
 
[All-in-one2015] DDBJ へのデータ登録
[All-in-one2015] DDBJ へのデータ登録[All-in-one2015] DDBJ へのデータ登録
[All-in-one2015] DDBJ へのデータ登録
 
[2016-07-06] DDBJデータ解析チャレンジ概要
[2016-07-06] DDBJデータ解析チャレンジ概要[2016-07-06] DDBJデータ解析チャレンジ概要
[2016-07-06] DDBJデータ解析チャレンジ概要
 
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
 
20151028koyama
20151028koyama20151028koyama
20151028koyama
 
AJACS advanced: NGSデータベース検索
AJACS advanced: NGSデータベース検索AJACS advanced: NGSデータベース検索
AJACS advanced: NGSデータベース検索
 
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
 

Mehr von yayamamo @ DBCLS Kashiwanoha

Mehr von yayamamo @ DBCLS Kashiwanoha (14)

Qaシステム解説
Qaシステム解説Qaシステム解説
Qaシステム解説
 
AJACS54 PubMed Allie inMeXes Colil
AJACS54 PubMed Allie inMeXes ColilAJACS54 PubMed Allie inMeXes Colil
AJACS54 PubMed Allie inMeXes Colil
 
JSAI 2015 1G5-1 生命科学分野の日本語言語資源の整備と日本語コンテンツへのリンク
JSAI 2015 1G5-1 生命科学分野の日本語言語資源の整備と日本語コンテンツへのリンクJSAI 2015 1G5-1 生命科学分野の日本語言語資源の整備と日本語コンテンツへのリンク
JSAI 2015 1G5-1 生命科学分野の日本語言語資源の整備と日本語コンテンツへのリンク
 
SWAT4LS 2014 SLIDE by Yamamoto
SWAT4LS 2014 SLIDE by YamamotoSWAT4LS 2014 SLIDE by Yamamoto
SWAT4LS 2014 SLIDE by Yamamoto
 
SIG-SWO-A1402-09:SPINを用いたトリプルストアの性能評価システム
SIG-SWO-A1402-09:SPINを用いたトリプルストアの性能評価システムSIG-SWO-A1402-09:SPINを用いたトリプルストアの性能評価システム
SIG-SWO-A1402-09:SPINを用いたトリプルストアの性能評価システム
 
Made in "Jimoto"
Made in "Jimoto"Made in "Jimoto"
Made in "Jimoto"
 
R intro
R introR intro
R intro
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
Building Data
Building DataBuilding Data
Building Data
 
LOD challenge day 2011 LT
LOD challenge day 2011 LTLOD challenge day 2011 LT
LOD challenge day 2011 LT
 
Ajacs27 TogoDoc, inMeXes, Allie
Ajacs27 TogoDoc, inMeXes, AllieAjacs27 TogoDoc, inMeXes, Allie
Ajacs27 TogoDoc, inMeXes, Allie
 
SADI practice
SADI practiceSADI practice
SADI practice
 
第2回LinkedData勉強会@yayamamo
第2回LinkedData勉強会@yayamamo第2回LinkedData勉強会@yayamamo
第2回LinkedData勉強会@yayamamo
 
生物物理若手夏の学校 TogoDoc inMeXes Allie
生物物理若手夏の学校 TogoDoc inMeXes Allie生物物理若手夏の学校 TogoDoc inMeXes Allie
生物物理若手夏の学校 TogoDoc inMeXes Allie
 

Swc2013 yamamoto

  • 1. 生命科学分野におけるデータベースの 統合化を目指したLODの構築 ライフサイエンス統合データベースセンター 山本泰智 ( @yayamamo ) 13年3月7日木曜日
  • 2. ライフサイエンス統合データベースセンター 生命科学分野のデータベースを使い やすくするために 2007年4月に誕生 現在、2期目のプロジェクトを遂行 13年3月7日木曜日
  • 3. 組織体系 文部科学省 情報・システ ム研究機構 大学共同利用機関法人 遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理 新領域融合研 研究所 究センター We are here gpatague online porfolio DBCLS: ライフサイエンス統合データベースセンター 13年3月7日木曜日
  • 4. 生物関連情報の多様性 © DBCLS Licensed under CC 表示 2.1 日本 © DBCLS Licensed under CC 表示 2.1 日本 CK-12 Foundation 13年3月7日木曜日
  • 5. 生命科学研究の対象としてのヒト ヒトゲノム: 30億塩基対 遺伝子:   2万数千個 タンパク質 :10万以上 SNP:    3千万個 その他の生体分子(糖鎖, 脂質, 低分子)         X 細胞:200−300種類 疾患:7000 (遺伝子の関係するもの) =膨大 時間:発生, 発達, 概日周期, 老化 環境:生活習慣, 居住地         X  個人レベルの解析 BodyParts3D © DBCLS licensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照) 13年3月7日木曜日
  • 6. NCBI Taxonomy 4,000 biomedical journals Database indexed at NLM 1994 4 DBs GenBank SWISSPROT PIR EMBL PRF DDBJ PDB dbEST GenBank dbSTS EMBL LANL DDBJ Patent LANL Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17 37 DBs 2013 http://www.ncbi.nlm.nih.gov/sites/gquery 13年3月7日木曜日
  • 7. NAR Database Issue 1400 1380 1330 1300 1230 1200 1170 1078 1100 2008 2009 2010 2011 2012 Source: Oxford University Press 92 databases added every year 93 dullhunk 13年3月7日木曜日
  • 8. 生命科学研究の新たな転換期 生命科学の情報爆発 仮説検証型からデータ駆動型の科学への転換 多種多様なデータの標準化が 13年3月7日木曜日
  • 9. 日本のライフサイエンスDBの問題点 ● 複数主体によるバラバラのDB構築・管理 最適DBを見つける困難 利用法を把握する困難 信頼性を把握する困難 ● 大型プロジェクトの成果公開が不十分 DBを用いた研究が困難 13年3月7日木曜日
  • 10. 多様なDBの統合化へ 第1段階 DBを網羅的に収集しメタデータを付与する 第2段階 DB毎にフォーマットと用語の統一を行う 第3段階 複数のDBを再構築し、使いやすいインターフェース にまとめあげる 山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所) 13年3月7日木曜日
  • 12. セマンティックウェブ技術を用いた統合へ 各DBをRDFを用いて(再)構築 オントロジーを関連組織と意見交換しつつ開発 BioHackathon、SPARQLthon 繋がる分散DB空間の構築を目指す 13年3月7日木曜日
  • 13. 略語DBや辞書のRDF化、LODへ 開発事例 下記言語資源について行った Allie: 生命科学分野の略語に関するDB LSD: 生命科学分野の日英対訳辞書* オントロジー構築とRDF化、DBpediaへのリンク付与 SPARQLエンドポイントの設置 * ライフサイエンス辞書プロジェクトによる編纂 13年3月7日木曜日
  • 14. "特定病原体除去の"@ja allie:LongForm Abbreviation SPF "specific pathogen-free"@en rdfs:label rdf:type Long form rdfs:label specific pathogen-free http://purl.org/allie/id/longform/1528191 English allie:hasLongFormOf 特定病原体除去の Japanese http://purl.org/allie/id/pair/1547869 rdf:type allie:hasShortFormOf allie:EachPair http://purl.org/allie/id/pair/1547869 RDFデータの一部 rdfs:label rdf:type "SPF"@en allie:ShortForm 13年3月7日木曜日
  • 15. 圧縮後ファイ トリプル数 ルサイズ Allie 2億1700万 1G程度 LSD 560万 39M UniProt (参考) 50億 - 13年3月7日木曜日
  • 16. LOD構築にまつわる課題 URIの設計 既存オントロジーの検索と選択 既存オントロジーのライセンス 適切なデータモデルの選択 13年3月7日木曜日
  • 17. RDFデータを構築し公開する際に 参考となる資料 http://patterns.dataincubator.org/book/ 13年3月7日木曜日
  • 19. LOD構築周辺 作る 置く 良いエディタ 良いレポジトリ 探す 使う 良い検索サービス 良いライセンス 13年3月7日木曜日
  • 20. レポジトリ (トリプルストア) 現状 実装の未成熟 スケールしにくい 非効率なSPARQLクエリ処理 UTF8処理の不備 SPARQL1.1への未対応 頑健性を欠く動作 13年3月7日木曜日
  • 21. BioHackathon / SPARQLthon 効率よく必要な開発を行うための集まり 関係者を一堂に集めて期間中に集中開発 BioHackathonは世界各地から開発者を招待 2013年は6月下旬にDBCLSにて開催 13年3月7日木曜日
  • 23. Knowledge LO D LO D LO D LO D Reduce LOD LOD Reuse Recycle BodyParts3D, © ライフサイエンス統合データベー スセンター licensed under CC表示 継承2.1 日本 13年3月7日木曜日
  • 25. 謝辞 川本祥子 JSTライフサイエンスデータベース統合推進事業 13年3月7日木曜日