Weitere ähnliche Inhalte Ähnlich wie LOD技術の概要とLinkData.orgを用いたLOD公開 (20) Mehr von Kouji Kozaki (16) LOD技術の概要とLinkData.orgを用いたLOD公開2. 自己紹介
古崎 晃司(こざき こうじ)
所属:大阪大学産業科学研究所
知識システム研究分野 准教授
専門分野 オントロジー工学
LODとのつながり
LODチャレンジ2011から実行委員として参加
実行委員参加のモチベーション
オントロジーはLODで用いる「語彙」の意味を定義する技術として“も”
用いられる
LODをさらに高度化する技術としてオントロジー工学を活用したい
実施中のLOD関連プロジェクト
オントロジー構築環境「法造」のLOD対応
臨床医学オントロジーのLOD化
バイオミメティクデータベースの開発にLOD技術を利用
2014/8/23 2
4. LOD技術の概要
LODの技術的背景
従来のWebから
Linked Dataへの流れ
LODの基本的技術
RDF(Resource
Description Framework)
SPARQL
2014/8/23 4
参考文献:
『Linked Data-Webをグローバルなデータ空間にする仕組み
(Tom Heath, Christian Bizer(武田英明監訳),丸善,2013)』
5. Linked Open Data(LOD)
Linked Data:Web上のデータを,つなぐ(linkする)ことで,新しい価値
を生み出そうとする取り組み.Webの創始者Tim Berners-Lee氏が提唱
※ Linked Open Data(LOD):オープンな形で公開されたLinked Data
2014/8/23
http://linkeddata.org/
• 誰もが同じ方法で,「データをつなぐことができる仕組み」を提供している.
• 技術的には,
-データ公開の共通フォーマット(URIによる名前付け,RDFによるグラフ表現
-コンピュータが,データにアクセスする共通の仕組み
が提供されている.
→Web上に公開された膨大なデータを統合した1つのデータベースとして利用できる.
5
6. Linked Dataの技術的背景
~Semantic Webの概要~
Semantic Webとは
従来の「人が読む(理解する)ためのWeb」から,
「コンピュータが理解(意味処理)可能なWeb」へ
技術的には,
Web上のドキュメントにコンピュータによる意味処理に用いる「メタデー
タ」を付与する(タグを付ける)」
その際に用いるフォーマットが「RDF」
メタデータに用いる語彙を定義するのが「オントロジー」(RDFSやOWLで
書かれる)
RDFで書かれたメタデータを検索するためのクエリー言語が
「SPARQL」
...
Semantic Webの学術的流れ
The Semantic Web:Tim Berners-Lee, James Hendler and
Ora Lassila,Scientific American, May 17, 2001.
Semantic Web Conference
Semantic Web分野のトップカンファレンス 2002~ 毎年開催
2014/8/23 6
7. Layer Cake
Semantic Webに必要な要素技術を階層状に表したもの
2014/8/23
http://www.w3.org/2001/09/06-ecdl/slide17-0.html http://www.dajobe.org/talks/200905-redland/
7
8. Semantic Webの研究動向の変遷
研究動向(流行トピック)の変遷
語彙(オントロジー)に基づいたメタデータによる意味処理の実現
誰がメタデータを?→Web2.0的共同構築
データ(インスタンス)のLinkの重視:Linked Data
2014/8/23
リ
ッ
チ
な
意
味
記
述
スケーラビリティ(大量データ)
Semantic Web (の理想)
すぐに使えるタグを(RSS,FOAF)
SNS利用・Web2.0
DBPedia
× Linked Data
2004-2006
2007
2008-
8
9. TED Talk by Tim Berrners Lee (1) 2009/2
~Raw Data Now!~
2014/8/23
http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
データを抱え込むのでは無く,
誰もが使えるように(オープンに)
することを呼びかける
=Raw Data Now!
(生データをすぐに!)
9
10. TED Talk by Tim Berrners Lee (1) 2010/2
~LODの活用事例~
2014/8/23
http://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide.html
オープンデータの活用事例を紹介
・白人/黒人の住む家と水道管の整備状況
の相関を見える化→裁判で勝利へ
・Where does my money go?
(税金はどこへ行った?)
(英国) http://wheredoesmymoneygo.org/
(横浜市) http://spending.jp/
10
11. Linked Dataが目指すこと
WWW(World Wide Web)
文書を公開し,相互に接続(ハイパーリンクでつなぐ)ための
革命的な仕組みを提供したことで,今日のWebの発展につ
ながった.
Linked Data
データを共有(公開)し,相互につなぐ仕組みを提供する.
Linked Dataの原理
データの構造化
構造化されたデータはより洗練された処理を可能にする
分散したデータをつなぐハイパーリンク
文書単位では無く,データ単位のリンクを可能にする.
データの島々から一つのグローバルデータ空間へ
分散されたデータ群を1つのグローバルなデータ空間へ統合する
参考:『Linked Data-Webをグローバルなデータ空間に
する仕組み(Tom Heath, Christian Bizer(武田英明監訳),
丸善,2013)』 1章.はじめに
2014/8/23 11
15. RDF(Resource Description Framework)
Web上の情報(リソースと呼ぶ)を記述するための統一的枠組み
RDFのデータモデル
主語(subject),述語(predicate),目的語(object)の3つ組み(トリプル)の組み
合わせで,リソースに関する情報を表現する.
計算機表現上はXML形式をはじめ,いくつかの表現が用意されている.
リソースはURI(Uniform Resource Identifier:Web上の情報資源(リソース)の場
所を示すための記述方式.URLはURIの一種)を用いて表される.
→最近は,IRI(Internationalized Resource Identifier):国際化リソース識別子へ.
2014/8/23 15
知識工
学論
古崎
担当教員
主語 述語 目的語
所属 知識システム
研究分野
述語 目的語主語
來村
担当教員 所属授業コード
280598
16. RDF(Resource Description Framework)
Web上の情報(リソースと呼ぶ)を記述するための統一的枠組み
RDFのデータモデル
主語(subject),述語(predicate),目的語(object)の3つ組み(トリプル)の組み
合わせで,リソースに関する情報を表現する.
計算機表現上はXML形式をはじめ,いくつかの表現が用意されている.
リソースはURI(Uniform Resource Identifier:Web上の情報資源(リソース)の場
所を示すための記述方式.URLはURIの一種)を用いて表される.
→最近は,IRI(Internationalized Resource Identifier):国際化リソース識別子へ.
目的語には「リテラル」(文字列)を用いることができる.
2014/8/23 16
https://koan.osaka-u.ac.jp/
koan/lecture#280598
http://www.ei.sanken.
osaka-u.ac.jp/~kozaki/
担当教員
主語 述語 目的語
所属
http://www.ei.sanken.
osaka-u.ac.jp/main
述語 目的語主語
http://www.ei.sanken.
osaka-u.ac.jp/~kita/
担当教員 所属授業コード
280598
リソース
リテラル
プロパティ
:リソース間の関係
17. RDF(Resource Description Framework)
2014/8/23 17
koan:lecture#280598 ei:kozaki/
担当教員
主語 述語 目的語
所属
ei:main
述語 目的語主語
ei:kita/
担当教員 所属授業コード
280598
ネームスペース(namespace)を用いると…
koan:=https://koan.osaka-u.ac.jp/koan/
ei:=http://www.ei.sanken.osaka-u.ac.jp/
Web上の情報(リソースと呼ぶ)を記述するための統一的枠組み
RDFのデータモデル
主語(subject),述語(predicate),目的語(object)の3つ組み(トリプル)の組み
合わせで,リソースに関する情報を表現する.
計算機表現上はXML形式をはじめ,いくつかの表現が用意されている.
リソースはURI(Uniform Resource Identifier:Web上の情報資源(リソース)の場
所を示すための記述方式.URLはURIの一種)を用いて表される.
→最近は,IRI(Internationalized Resource Identifier):国際化リソース識別子へ.
目的語には「リテラル」(文字列)を用いることができる.
19. Turtle・N-Triplesの表現例
Turtle
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
@prefix foaf: <http://xmlns.com/foaf/0.1/>
<http://www.ei.sanken.osaka-u.ac.jp/~kozaki/>
rdf:type foaf:Person ;
foaf:name “Kouji Kozaki” .
N-Triples
<http://www.ei.sanken.osaka-u.ac.jp/~kozaki/>
<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://xmlns.com/foaf/0.1/Person>.
<http://www.ei.sanken.osaka-u.ac.jp/~kozaki/>
<http://xmlns.com/foaf/0.1/name> “Kouji Kozaki”.
2014/8/23 19
http://www.ei.sanken.
osaka-u.ac.jp/~kozaki/ foaf:Person
rdf:type
foaf:name
Kouji Kozaki
1行
1行
ヘッダ
20. SPARQL
SPARQL
RDFデータに対するクエリ言語
「指定したグラフ構造」に一致するトリプルを検索する
例
select distinct * where {
?s ?p ?o .
} LIMIT 100
select distinct * where {
<http://ja.dbpedia.org/resource/東京都> ?p ?o .
} LIMIT 100
select distinct ?s where {
?s <http://www.w3.org/2000/01/rdf-schema#label> ?o
FILTER(regex(str(?o), "大阪")) .
} LIMIT 100
2014/8/23 20
日本語DBPediaでのクエリ検索例 http://ja.dbpedia.org/
で指定したパターンに一致するトリプルを検索する.
←取得する数
↑同じパターンは除外する
↓返す要素(*は全て)
全トリプルの組み合わせ
東京都を主語(Subject)に含むトリプル
ラベルに“大阪”を含むトリプル
21. LOD技術に関する参考資料
Semantic WebからLinked Dataへの変遷
Linked Open Dataで広がるデータ統合
萩野 達也,トーゴーの日シンポジウム2011,2011/10/5
http://events.biosciencedbc.jp/sympo/togo2011/program/2
Semantic Web Conferenceに見るLinked Open Dataの国際
動向
古崎晃司,第1回LODチャレンジデーin大阪,2011/12/3
http://www.slideshare.net/KoujiKozaki/semantic-web-
conferencelinked-open-data
LODに関する入門資料
Linked Open Data Initiative(LODI)によるLOD連続
講座のスライド
http://linkedopendata.jp/?cat=17
2014/8/23 21
23. LODの構築から公開まで
データの準備
元となるデータを準備する
CSVやエクセルなど,機械処理しやすい形がよい
RDF化に利用するURIの準備
自分が管理できるURIを用意することが望ましい
データのLOD化(RDF化)
用意したデータをRDF形式に変換する
変換方法
変換ツールの利用:LinkData.org,GoogleRefine,etc.
RDFエディタ(オントロジーエディタ)の利用:Protégé,法造,etc.
RDFデータをDBに登録して公開
2014/8/23 23
24. 既存データをRDF化する方法
RDFデータを作成するツールを使用
Open Refine(http://openrefine.org/)+
RDF Refine(http://refine.deri.ie/)
データを整備・公開するための多様な機能をサポート
Linked Data(http://linkdata.org/)
テーブルデータをRDFに変換して公開することができるサイト
SparqlEPCU(http://lodcu.cs.chubu.ac.jp/SparqlEPCU/)
LODの作成・活用のための支援サイト
CSVファイルをRDFとしての公開する機能もあり
StatLD(http://satolab.tiu.ac.jp/statld/)
統計Linked Dataの活用を中心としたツールを公開
一般のLinked Dataの作成にも使用可能
独自のプログラム用でRDFデータを作成
2014/8/23 24
LODチャレンジ2011
アプリケーション部門最優秀賞
LODチャレンジ2012
アプリケーション部門最優秀賞
25. LinkData.orgの特徴
できること
表形式のデータをRDFに変換し,サイト上で公開
変換にはエクセル形式の「ひな型ファイル」を利用
公開したデータを用いたアプリケーションをサイト上で開発す
る機能(LinkData.app)を提供
できないこと
複雑なRDFモデルをつくるのが難しい
RDFのスキーマ(RDFS,OWL)の定義が行えない
SPARQLエンドポイントは未提供
注意点
LinkDataでのデータ公開=(完全な)LODの公開
ではない.
より良い形のRDFに変換する為の“コツ”がある
2014/8/23 25
51. まとめ
LinkData.orgを使ったLOD公開
比較的簡単な形式のデータのRDF変換に有用
より良い形式のRDFにするための注意点(コツ)
IDは,単なる文字列ではなく「URI」とする.
プロパティ定義は,名前(文字列)だけでなくURIを用いる.
コントロール可能なURIとするために,自分で管理可能なURI
を用いる
リソース http://myweb.com/data/***
http://myweb.com/resource/*** など
プロパティ http://myweb.com/propery/***
クラス http://myweb.com/class/***
より良いLODとするために
サイト上だけではなく,RDF-DBなどでの公開を考える
外部データと「リンクする」ことを考える
可能であれば,スキーマ定義も行う
2014/8/23 52