Weitere ähnliche Inhalte
Ähnlich wie Swc2013 yamamoto (20)
Mehr von yayamamo @ DBCLS Kashiwanoha (14)
Swc2013 yamamoto
- 1. 生命科学分野におけるデータベースの
統合化を目指したLODの構築
ライフサイエンス統合データベースセンター
山本泰智 ( @yayamamo )
13年3月7日木曜日
- 3. 組織体系
文部科学省
情報・システ
ム研究機構
大学共同利用機関法人
遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理 新領域融合研
研究所 究センター
We are here gpatague online porfolio
DBCLS: ライフサイエンス統合データベースセンター
13年3月7日木曜日
- 4. 生物関連情報の多様性
© DBCLS Licensed under CC 表示 2.1 日本
© DBCLS Licensed under CC 表示 2.1 日本 CK-12 Foundation
13年3月7日木曜日
- 5. 生命科学研究の対象としてのヒト
ヒトゲノム: 30億塩基対
遺伝子: 2万数千個
タンパク質 :10万以上
SNP: 3千万個
その他の生体分子(糖鎖, 脂質, 低分子)
X
細胞:200−300種類
疾患:7000 (遺伝子の関係するもの)
=膨大
時間:発生, 発達, 概日周期, 老化
環境:生活習慣, 居住地
X
個人レベルの解析
BodyParts3D © DBCLS
licensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照)
13年3月7日木曜日
- 6. NCBI Taxonomy 4,000 biomedical journals
Database indexed at NLM
1994
4 DBs GenBank
SWISSPROT
PIR
EMBL PRF
DDBJ PDB
dbEST GenBank
dbSTS EMBL
LANL DDBJ
Patent LANL
Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17
37 DBs
2013
http://www.ncbi.nlm.nih.gov/sites/gquery
13年3月7日木曜日
- 7. NAR Database Issue
1400 1380
1330
1300 1230
1200 1170
1078
1100
2008 2009 2010 2011 2012
Source: Oxford University Press
92 databases added every year
93
dullhunk
13年3月7日木曜日
- 8. 生命科学研究の新たな転換期
生命科学の情報爆発
仮説検証型からデータ駆動型の科学への転換
多種多様なデータの標準化が
13年3月7日木曜日
- 9. 日本のライフサイエンスDBの問題点
● 複数主体によるバラバラのDB構築・管理
最適DBを見つける困難
利用法を把握する困難
信頼性を把握する困難
● 大型プロジェクトの成果公開が不十分
DBを用いた研究が困難
13年3月7日木曜日
- 10. 多様なDBの統合化へ
第1段階
DBを網羅的に収集しメタデータを付与する
第2段階
DB毎にフォーマットと用語の統一を行う
第3段階
複数のDBを再構築し、使いやすいインターフェース
にまとめあげる
山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)
13年3月7日木曜日
- 12. セマンティックウェブ技術を用いた統合へ
各DBをRDFを用いて(再)構築
オントロジーを関連組織と意見交換しつつ開発
BioHackathon、SPARQLthon
繋がる分散DB空間の構築を目指す
13年3月7日木曜日
- 13. 略語DBや辞書のRDF化、LODへ
開発事例
下記言語資源について行った
Allie: 生命科学分野の略語に関するDB
LSD: 生命科学分野の日英対訳辞書*
オントロジー構築とRDF化、DBpediaへのリンク付与
SPARQLエンドポイントの設置
* ライフサイエンス辞書プロジェクトによる編纂
13年3月7日木曜日
- 14. "特定病原体除去の"@ja allie:LongForm
Abbreviation
SPF "specific pathogen-free"@en rdfs:label rdf:type
Long form rdfs:label
specific pathogen-free http://purl.org/allie/id/longform/1528191
English
allie:hasLongFormOf
特定病原体除去の
Japanese
http://purl.org/allie/id/pair/1547869
rdf:type
allie:hasShortFormOf
allie:EachPair
http://purl.org/allie/id/pair/1547869
RDFデータの一部 rdfs:label rdf:type
"SPF"@en allie:ShortForm
13年3月7日木曜日
- 15. 圧縮後ファイ
トリプル数
ルサイズ
Allie 2億1700万 1G程度
LSD 560万 39M
UniProt (参考) 50億 -
13年3月7日木曜日
- 16. LOD構築にまつわる課題
URIの設計
既存オントロジーの検索と選択
既存オントロジーのライセンス
適切なデータモデルの選択
13年3月7日木曜日
- 19. LOD構築周辺
作る 置く
良いエディタ 良いレポジトリ
探す 使う
良い検索サービス 良いライセンス
13年3月7日木曜日
- 20. レポジトリ (トリプルストア) 現状
実装の未成熟
スケールしにくい
非効率なSPARQLクエリ処理
UTF8処理の不備
SPARQL1.1への未対応
頑健性を欠く動作
13年3月7日木曜日
- 21. BioHackathon / SPARQLthon
効率よく必要な開発を行うための集まり
関係者を一堂に集めて期間中に集中開発
BioHackathonは世界各地から開発者を招待
2013年は6月下旬にDBCLSにて開催
13年3月7日木曜日
- 23. Knowledge
LO
D
LO
D
LO
D
LO
D
Reduce LOD LOD
Reuse
Recycle BodyParts3D, © ライフサイエンス統合データベー
スセンター licensed under CC表示 継承2.1 日本
13年3月7日木曜日
- 25. 謝辞
川本祥子
JSTライフサイエンスデータベース統合推進事業
13年3月7日木曜日