Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
LODAC プロジェクト 中間発表会 資料
1. Linked Open Data for ACademia
LODAC Project
-学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構
築 -
武田英明
takeda@nii.ac.jp
国立情報学研究所
Linked Dataでつくる新しいデータの世界
情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」プロジェクト 中間報告会
2012年12月10日
2. Linked Open Data for ACademia
本プロジェクトの狙い
• Linked Dataによるデータ共有を実現する仕組
みを確立する
–実践による探求:実際にデータをつくる
• サービス化、サービス提供
• 経験の蓄積と方法論化
• 問題の洗い出しと解決
3. Linked Open Data for ACademia
Linked Data
• Tim Berners-Leeが提唱する新しいデータ共有
の仕組み
– これまでのWeb:文書のWeb (Web of Documents)
– Linked Data: データのWeb (Web of Data)
• 孤立したデータの島から世界でつながるデータの
cloudへ
7. Linked Open Data for ACademia
Linked Open Data (LOD)
• オープンでリンクできるデータ
– 今のWebが“文書のWeb” 、LODは“データのWeb”
• Linked Dataの5原則
– 事柄の名前にURIを使うこと
– 名前の参照がHTTP URIでできること
– URIを参照したときに関連情報が手に入るように
理解可能なデータを提供
– 外部へのリンクも含めよう
(必ずしもオープンとは限らない⇒Linked Data)
8. Linked Open Data for ACademia
LOD Cloud: 相互リンクがある200以上のデータセット
世界におけるLODへの取り組み
10. Linked Open Data for ACademia
本プロジェクトの成果
• 美術館・博物館データのLOD化による統合
(LODAC MUSEUM)
• 生物種データのLOD化による統合
(LODAC SPECIES)
• 関係するデータ、ソフトウエアの構築
– 地理データ (LODAC LOCATION)
– DBpedia Japanese
– CKAN日本語化
11. Linked Open Data for ACademia
本プロジェクトでの構築したDB
LODAC SPECIES: 種名をベースに多様なDBをリンクで接続
博物館
標本
DB
種情報
DB
Taxon
Name DBGBIF BioSci.
DB
個別
研究
DB
名前数: 113118
トリプル数:14,532,449
Data from Source BIntegrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creator
dc:creator
crm:P55_has_current_location
crm:P55_has_current_location
crm:P55_has_current_location
dc:creator
Data from Source A
Work
Museum
Creator
Minimum Data to identify entitiesRaw Data for entities Raw Data for entities
LODAC Museum: 博物館・美術館のデータのLOD
検索拡張アプリ
CKAN (日本語):
データセット登録レジストリ
DBPedia Japanese
LODAC Location:
位置情報統合
12. Linked Open Data for ACademia
Linked Dataに基づくデータ処理
• 収集:RDB等からの変換、Webスクレイピ
ング
• 洗練:スキーマ定義、スキーマに基づく
変換
• 統合:スキーママッピング、IDマッピング
• 公開:RDFデータ公開、SPARQLエンドポイ
収集 洗練 統合 公開 利用
RDF
ほとんどの処理はRDFで行われる
13. Linked Open Data for ACademia
LODAC Museum
• Linked Dataによるデータ処理のテストベッ
ド
• 美術館・博物館情報の特徴
– 分散性:国内だけでも6,000
– 大規模性:それぞれが102~104のデータ
– スキーマの統一性と多様性:一定の標準+α
– 統合可能性:作者、作品、場所、モチーフな
ど
– リンク性:様々な分野の他のデータとのリン
クの可能性
14. Linked Open Data for ACademia
LODAC Museum
• 国内の美術館の収集公開品に関するDB
– 現在
• トリプル数:
40,059,131
– 館数:114
• 博物館Webサイトからのコレクション情報
• サイエンスミュージアムネットからの標本情報
• 作者、施設等によるデータ統合
• RDFによるデータ公開
• いくつかのアプリケーション
17. Linked Open Data for ACademia
統合のポリシー
• どうやって異なる情報源の情報を統合するか
– 責任の分担
• 各情報源はその情報に対する責任
– LODACは単にIDを同定して管理。
• LODACは統合の部分だけの責任
– LODAC IDを各情報源IDに関連づける
Data from Source BIntegrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creator
dc:creator
crm:P55_has_current_location crm:P55_has_current_location
crm:P55_has_current_location dc:creator
Data from Source A
Work
Museum
Creator
統合
18. Linked Open Data for ACademia
例:作者情報の統合
• 作者情報統合の手順
– 統合元:日本美術シソーラス絵画編
– 統合対象:各情報源データ中の作者情報
– 統合元:文字列マッチング
– 作品情報中の作者と作者ノードを関連づける
LODAC data
Link to Work
DBpedia
Basic Information
for Creators
Links
統合
23. Linked Open Data for ACademia
Linked Dataの利用
- Yokohama Art Spot -
• 博物館情報と横浜の地域情報のLODを
連携したWebアプリケーション
• 横浜市内のアート関連情報
– 施設情報
– イベント情報
– 収蔵品情報(一部の施設のみ)
– Q&A情報
LODAC Museum × 横浜LOD ×
PinQA
(博物館情報)
(地域情
報)
http://lod.ac/apps/yas/
利用
スポット情
報
24. Linked Open Data for ACademia
施 設
ユーザ
Yokohama Art Spot
RDF
ストア
SPARQL
エンドポイント
RDF
ストア
SPARQL
エンドポイント
LODAC Museum
横浜LOD
作品
所蔵館
アーティスト
アーティス
ト
施設
イベント
Yokohama Art Spot の構成
全体マップ表示における処理
施設
イベント
HTML
JavaScript
Python
SPARQLWrapper
OWLIM SE
ARC2
RDF
ストア
SPARQL
エンドポイント
PinQA
質問
回答
ユーザ
SPARQL
JSON
D2R
スポッ
ト
25. Linked Open Data for ACademia
施設情報ページにおける情報取得と表
示
•施設名
•アクセ
ス
•ジャンル
•休館日
•住所
•周辺地図
イベント情報
(タイムライン表
示)
イベント情報
(リスト表
示)
すべて横浜LODの
データを使用
利用
26. Linked Open Data for ACademia
施設情報ページにおける情報取得と表
示
標準化された形式で記述
ユーザに適した表示が
簡単に実現可能
利用
27. Linked Open Data for ACademia
施設情報ページにおける情報取得と表
示
所蔵品情報
(リスト表示)
所蔵品の提示・リンクは
LODAC Museum から取得
横浜LODだけでは
不可能な情報探索が実現可能
利用
28. Linked Open Data for ACademia
LODAC Species
• 生物多様性情報のLinked Data化
• 特徴
– 分散性:多数のDB
• 分子生物学から生態学まで
• 個別の種ごと、個別の関心ごと
– 大規模性:
– スキーマの統一性と多様性
• 一定の統一性(学名など)、分野固有データ
– 統合可能性:種やタクソンは共有
– リンク性:多様な分野とのつながり
• 他の科学(極域科学、バイオミメティクス)
• 市民科学
• 教育
29. Linked Open Data for ACademia
生物多様性情報
• 種名情報
– 生物名の目録の情報
• 分布情報
– 標本や観察記録などの情報
• 種情報
– 生物種の特徴を示す情報
学名:Papilio xuthus
和名:ナミアゲハ
界名:動物界
門名:節足動物門
綱名:昆虫綱
目名:鱗翅目
科名:アゲハチョウ科
標本所蔵館:茨城自然博物館
:
30. Linked Open Data for ACademia
Photo of Papilio xuthus:
北九州市立自然史・歴史博物館
Papilio xuthus
標本
種の同定
採集者
採集場所
命名
文献
言及
著者
シーケンス
著者
種情報
Papilio
上位/下位
タクソン
文献
31. Linked Open Data for ACademia
生物種情報の現状
種名情報
分子情報
Encyclopedia of Life
サイエンス
ミュージアムネット
BOLD
目的に応じて収録する種
の範囲が異なる
(収録ポリシーの違い:
広く/深く/特定の目的
/…)
Wikipedia
Wikispecies
NCBI
目的に応じて異なるサイ
ト
(それぞれに異なる情
報)
相互のリンクは必ずしも
あるわけではない
分布・標本情報
種情報
GBIF
Catalogue of Life
Species 2000
ITIS (Integrated Taxonomic
Information System)
32. Linked Open Data for ACademia
公開されている生物多様性情報
• GBIF:The Global Biodiversity Information Facility
– 地球規模生物多様性情報機構
– 種名・分布情報
• EoL:Encyclopedia of Life
– 種情報
• CoL:Catalogue of Life
– 種名情報
– 分類群に関する情報
• BOLD:Barcode of Life Data Systems
– DNA・標本情報
• サイエンスミュージアムネット(S-Net)
– 標本情報
– GBIF と連携
– 国立科学博物館が運営
33. Linked Open Data for ACademia
LODAC Species
• データベース:辞書、専門図鑑、標本データ
• 統合的データモデルの構築とデータ統合
– “名前による緩やかな統合”
• インターフェース
– HTML
• 個別の標本情報を閲覧
• 関連する情報をリンク経由で閲覧
– SPARQL endpoint
• ある種に関する標本情報の取得など柔軟な検索
• アプリケーション
– タクソンを使った検索支援
• CiNiiにおける文献検索
• DBCLSにおけるデータベースメタデータ検索支援
– GISを使った可視化
34. Linked Open Data for ACademia
LODAC Species
• 統合データベース
– 図鑑等の文献
• 生物学辞書(BDLS): DBCLSが多数の図鑑等から作成したもの
– 生物標本情報
• サイエンスミュージアムネット(国立科学博物館/JBIF)
– 専門家が管理しているDB
• 日本産蝶類和名学名便覧(日本昆虫学会/JBIF)
• 南極昭和基地周辺の蘚苔類・地衣類・種子植物の標本
データ(極地研)
– 蘚苔類 (例: http://lod.ac/id/2571912 )
– 地衣類(Lichens) (例: http://lod.ac/id/2631214 )
• 動物標本データベース (例: http://lod.ac/id/2628412 )
収集
35. Linked Open Data for ACademia
統合のアプローチ
• 種名・分類体系のグラフ
• 緩やかに関係を辿れるように
• リンクのルーティング
Chinese
Swallowtail
Papilio xuthus
Linnaeus, 1767
ナミアゲハ
Papilio
Papilio xuthus
Taxon
species
type
http://eol.org/....
http://www.catalogueoflife.org/...
http://ja.wikipedia.org/....
http://www.ncbi.nlm.nih.gov/...
タクソン名のネット
ワーク
統合
36. Linked Open Data for ACademia
統合データモデル
Specimen
rdf:type
species
institutionName
collectedDate
collectionLocality
crm:has_current_location
Bryophytes
TaxonName
ScientificName
CommonName TaxonRank
species
rdfs:subClassOf
rdfs:subClassOf
rdf:type
rdf:type
hasCommonName
hasScientificName hasSuperTaxon
rdf:type
hasTaxonRank
rdf:type
hasTaxonRank
rdf:type
Butterfly
BDLS
dcterms:source
dcterms:publisher
: Named Graph
: owl:Class
統合
37. Linked Open Data for ACademia
統合結果
• トリプル数
– 14,532,449
• Taxon names
– 443,248
• Scientific name
– 226,141
• Common name
– 219,865
• hasScientificName property node
– 87,160
• hasCommonName property node
– 84,610
統合
38. Linked Open Data for ACademia
LODAC Museum
LODAC Species
S-Net
表示例
http://lod.ac/ref/1674506
公開