SlideShare ist ein Scribd-Unternehmen logo
1 von 60
理解和利用关联数据
--图情档博 ( LAM )作为关联
数据的提供者和消费者


Marcia Lei Zeng 曾蕾
Kent State University


                        关联数据技术与应用专题研讨班
                          2012.07.20-23, 上海图书馆
大纲: 12345
•   1 个目的
•   2 种要回答的问题
•   3 段式 triples
•   4 项基本原则
•   5 星排行

• +“关联”的不同层次
1
1 个目的:关联
1 个目的:关联
            将数据从 silo 中解放出来,通过关联得到最大
            利用,再利用,产生新的数据、信息、知识




Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009
2
这个 thing 是什       需要回答的 2 种问题
   么?
(属性 - 值)




    这个 thing 和别
    的 thing 有什么
       关系?
3
                    这 2 种问题的答案
这个 thing 是什
   么?           都可以用 3 段式( triples )来描述
(属性 - 值)

                                            [属性]           [值]
                                            名字:     姚明 @zh
                                            名字:     Yao Ming@en
                                            出生日期:   1980 - 09 -
                                            12
                                            身高:     7' 6" (2.29 m)
                                            效力球队:   上海大鲨鱼
                                            效力球队:   休斯顿火箭
                                            出身地:          上海
                                            退役时间:   2011 - 07 -
                                            20
                                            获奖:     。。。 。。。
RDF triples:                                参赛:     。。。  。。
主体 - 谓词 - 客体( subject-predicate-object )结   。
这里面有多少
                 是独立的
                  thing ?
               ( 有自己的属
                    性)


              [属性]             [值]
              名字:     姚明 @zh
              名字:     Yao Ming@en
              出生日期:   1980 - 09 - 12
              身高:     7' 6" (2.29 m)
              效力球队:   上海大鲨鱼
这个 thing 和别   效力球队:   休斯顿火箭
的 thing 有什么   出身地:          上海
   关系?        退役时间:   2011 - 07 - 20
              获奖:     NBA All-Star
              奖牌:     2002 亚运会银牌
如果我们将能独立的 thing 都用特定的 ID
                     来表示,就可以产生无歧义的 3 段式

   ex:yaoming
ex:yaoming                                               [属性]                [值]
      label:        姚明                                   名字:        姚明 @zh
                                                         名字:        Yao Ming@en
   ex:yaoming
ex:yaoming
                                            ex:yaoming   出生日期:      1980 - 09 - 12
      draftTeam:     ex:htrockets                        身高:        7' 6" (2.29 m)
                                                         效力球队:       ex :
                                                                    上海大鲨鱼
                                                         效力球队:       shshark
                                                                    休斯顿火箭
                                                                     ex : htrockets
ex:yaoming
   ex:yaoming
      birthPlace:    ex:shanghai                         出身地:             上海
                                                                     ex : shanghai
                                                         退役时间:      2011 - 07 - 20
ex:yaoming
  ex:yaoming
                                                         获奖:        NBA All-Star
                                                                     ex :
     award:          ex:NBA_AllStar                      奖牌:        2002 亚运会银牌
                                                                     NBA_AllStar


                RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构
一个 3 段式能回答什么问题?


   ex:yaoming
ex:yaoming                         这个人叫什么名字?
      label:        ?

   ex:yaoming
ex:yaoming                         这个人与休斯顿火箭队是什么关系?
      ?           ex:htrockets
     ??
ex:yaoming                         上海是哪些[名]人的出身地?
   ?birthPlace:   ex:shanghai
     ??
ex:yaoming                         NBA All Star 的名单上都有哪些人?
  ?  award:       ex:NBA_AllStar
3 段式中的客体部分
                     也能变为主体么?
   ex :
                  能由之再产生新的 3 段式么?
ex:yaoming
   yaoming
    label:          ?
   ex :
ex:yaoming
   yaoming
    ?             ex:htrockets     关于上海这个城市,你能想
                                   到的属性和值有哪些?
     ??
ex:yaoming
   ?birthPlace:   ex:shanghai
    ??                             其中又有哪些客体是可以辨
ex:yaoming
  ?  award:       ex:NBA_AllStar   识的 thing ?
图示 1. thing 的
描述和无限联接
                                            1            2                 3


                                                             predicates        objects
  1


                             2                  3


  subjects               predicates          objects            subjects




Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need
to know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.
                                                                                 17
图示 2. 联接的内容是来自不同资源的




                                         注意:
                                         •是格式化数据的相联,不是文本的相联;
                                         •是机器可理解和可处理的数据;
                                         •是对现有数据的再利用;
Image source: Dan Brickley               •产生新的资源;其又被利用、再利用
                                         •可无限扩展下去
http://farm4.static.flickr.com/3613/3384528143_83047
92836_b.jpg
4
     4 项基本原则




将这个实例放到 4 项基本原则来看
四项基本原则:

1. 使用 URI 作为任何事物的标识名称
 –   Use URIs as names for things
1. 使用 HTTP URI 使任何人都可以访问名称
 –   Use HTTP URIs so that people can look up those names
1. 当有人访问名称时,提供有用的 [rdf] 信息
 –   When someone looks up a name, provide useful
     information
1. 尽可能提供相关的 URI 以使人们发现更多的信息
 –   Include links to other URIs so that they can discover
     more things
                     http://www.w3.org/DesignIssues/LinkedData.html
                             Translated by Liu Wei, 2008 12
1       1.       使用 URI 作为任何事
                     物的标识名称
            2.       使用 HTTP URI 使任何
                     人都可以访问名称

2       3

                  3. 当有人访问名称时,
                  提供有用的 [rdf] 信息


                   4. 尽可能提供相关的
                   URI 以使人们发现更多
                         的信息




                 Source: dbpedia
RDF triples
    取出其中一截,其结构是:

                                        is president of http://dbpedia.org/page/
     http://dbpedia.org/page/Yao_Ming                       Shanghai_Sharks
                                                  2
                     1
                                            properties           3    values
                  thing


                                                 1
<RDF:RDF>
 <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”>

2   < dbpprop:president
        rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks">
                                        3
</RDF:Description>
</RDF:RDF>

                           机器可理解、可处理
只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联
接的 properties 合理管理,则可以被考虑为关联数据。

•这是一种为 Web 所用的含义更丰富的联结方式,使
我们从超文本链接(文献到文献)发展到超数据的联
结(文献中所讨论的内容资源( thing) 的联结) ;
•人们可以通过 HTTP/URI 机制,直接获得数字资源
(Thing) 。




 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
                              参考刘炜 2008-12 的翻译
相对于传统的图书馆数据来说,
       关联的图书馆数据有如下优点
• Shareable 可分享
   – 不管谁都能解析的唯一标识- URI
   – 可信赖的数据和元数据供大家使用
• Extensible 可无限伸展
   – “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可以从
     他自己发布的空间添加描述信息
• Re-usable 可再利用
   – 各种来源的描述谈的是同样的 thing
   – 完善、加注、等等
• Internationalizable 国际化
   – 多语种、翻译等都没有问题
   – 自然语言词串( strings )不被用来指代 things 。

           This slide is based on a summary prepared by Antoine Isaac, for Talis
           Linked Data and Libraries day, London, July 14th 2011;
           built on the W3C Library Linked Data Incubator Group Final Report, draft
5
                                 5 星排行表




Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
李爵士在提出关联数据时借用过这样一个五星排行表:
From InkDroid, a nice summary (and CSS) of the star scheme

   ★ make your stuff available on the web (whatever format)
   把你的东西发布在网上(以任何格式)
   ★★ make it available as structured data (e.g. excel instead of image
     scan of a table)
   把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的
     图像)
   ★★★ non-proprietary format (e.g. csv instead of excel)
   非商家格式,(如 csv 而不是 excel )
   ★★★★ use URLs to identify things, so that people can point at your
     stuff
   用 URLs 来指代和辨识事物,这样别人就能指点到你的东西
   ★★★★★ link your data to other people’s data to provide context 将
     你的数据联到其他人的 数据
  -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006

08/14/12                                                             20
用五星排行表理解
网上有很多数据资源和知识组织系
       ★                        与 LAM 有关的资源
统
•网上开放         ★★
•机器可读         ★★★
•非专属权格式
(html, xml)          越来越多 4 星级的数据集和知识组织
                    系统                 ★★★★
                      • 采用了 RDF 标准
                        • 用 URI 指代名称
                        • 数据用三段式 triples 发布


                           其中仅有一部分达到 5
                                      星
                                •关联的 RDF
                                  ★★★★★
当前主要关联数据资源
                                            (根据 2012 年 7 月 16 日数据)




                          越来越多 4 星级的数据集、知识组织
                         系统                     ★★★★
                           • 采用了 RDF 标准
                             • 用 URI 指代名称
                             • 数据用三段式 triples 发布




CKAN = Comprehensive Knowledge Archive Network
CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880
               datasets )
               •其中最有名的一个组是关联的开放数据 LOD 云组, 云图
               中现含 295 个数据集 http://ckan.net/group/lodcloud 实际
               上该组已有 327 个。

               •其它几十个组见 : http://ckan.net/group. 一个数据集可以
               注册到多个组,其中有些数据集也上了 LOD 云。
                 • 图书馆关联数据组 http://ckan.net/group/lld (现
                   含 57 个数据集,大多数联接都是与非图书馆数据
                   的联接)
                 • 文献书目数据组 : (现含 77 个数据集)
                  • 艺术、气象数据、实验数据、考古、经济、能源数据、
                    地理、语言、国际发展数据、政府数据(加拿大、澳大
                    利亚、英国等)。有些在试验阶段,有些还不开放。

                •数据集的发行格式(可获取格式):
LOD Cloud group   CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它
327 datasets
Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327

                                                       入云要求:
                                                       •可解的 http URIs
                           媒                           •数据可解为常用 RDF
                           体                      出    格式 (RDFa,
                                                       RDF/XML, Turtle,
                                                  版    N-Triples).
                                                  物    •至少有 1000 条
                                                       triples (所以你的
          政                                            FOAF 文档不行)
          府                                            •必须通过 RDF 与本图
                                                       中一个数据集相联(含
                                                       其它数据集来的
                                                       URIs ,反之亦然。至
                                              生        少 50 条联接)
                              跨
                 地                            命        •必须能通过 RDF
                              专
                 理                            科        crawling, RDF dump,
                              业                        或 SPARQL endpoint
                                              学        得到整个数据集的数据


   Linking Open Data cloud diagram by Richard
   Cyganiak and Anja Jentzsch. http://lod-cloud.net/
“ 关联”的不同层次
“ 关联”是有不同层次的,从简单到复杂
     -- 以值词汇 (value vocabularies) 为例




                                                                 相联的各类

                                    用结构化的
同指      ‘ 关于’相似的主题                  RDF 图表
                                    达 '类 '

            References: Linked Data: Evolving the Web into a Global Data Space, by Tom
            Heath and Christian Bizer.
            Linked Data FAQ, by Structured Dynamics.
            http://structureddynamics.com/linked_data.html#question_8
• 用 owl:sameAs 来表达同一性联接 (identity
 links )
 两个数据资源指的是具有同一性的一种实体( entity )或
 者个体( instance (individual) 。
 如:你和我提到的是同一种实体或者个体(个人、事
 件、物体等),尽管名称不同。
• 同一性联接
 指向另一资源所采用的 URI
    • 辨识同样的真实世界的物体
    • 或者辨识相同的抽象概念
 客户端可以从另一资源中检索到更多的描述。
纽约时报词表里‘苹果公司’的概念 =》 纽约时报‘苹果公司’专业专栏
纽约时报
                                                         . co m /
                                            data.n ytimes 2
                                     http:// 0235787585
                                             27
                                     614530
                                                                    http://www.freebase.com/view/en/apple_inc
                                                              ycA
                                                       cN5Y29
                                                wpEbGdr
                                       x4rvVjfjp
                          / co ncept/M                               Freebase
                  ncyc.org
   http:/ /sw.ope

                                                 CYC 本体

                                                                            http://ww
                                                                                       w4.wiwis
                                                                           berlin.de/            s.fu-
                                                                                      flickrwrap
                                                                           ple_Inc.              pr/photos
                                           dbpedia                                                         /Ap

                                      _Inc.
                             e /Apple
                      esourc
              a.org/r
       dbpedi
http://


                                                                    dbpedia 图像
练习:艺术家徐冰 (1)
如果:
•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”:
   “Xu Bing (Chinese installation artist, born 1955)” ( ID:
  500125592@ulan )
•另外一个数据集采用了中国国家图书馆的规范数据,
    “徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc )
•这两个数据集里关于这个艺术家的数据都指的是同一个人
则: 可以用一个 identify link 来表达这两个是同指一人。
请你写下来
 哪个对?
 [ 1 ] Xu Bing (Chinese installation artist, born 1955)
    owl:sameAs 徐冰 ( 版画家 , 1955~)

 [ 2 ] 500125592@ulan owl:sameAs 000190318@nlc
练习:艺术家徐冰 (2)
很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁
有徐冰的数据都可以继续联接:
• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }
• Freebase 的{ http://www.freebase.com/view/en/xu_bing }

这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联
:

    http://dbpedia.org/page/Xu_Bing
        owl:sameAs: http://www.freebase.com/view/en/xu_bing ;
        owl:sameAs: {http://..... 500125592@ulan} ;
        owl:sameAs:{http://... 000190318@nlc}}.



在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是
个体。
相联的各类

                  用结构化的
同指   ‘ 关于’相似的主题   RDF 图表
                  达 '类 '
‘ 关于’相似的主题或概念

• 在这种情况下,重点在于关联有关相似的主题或
  概念的数据资源
• 通常采用被定义好了的类( classes )和概念,例
  如在本体中定义的类、分类法类目、词表系统里
  的概念
Xu Bing:Background
Story 7

徐冰
《背后的故事: 7 》

British Museum, 2011
大英博物馆, 2011




Image source: An installation by Xu Bing:
Background Story 7
By British Museum (Albums)
http://www.facebook.com/media/set/?
set=a.10150184112629723.318031.7222852972
2
Image source: An installation by Xu Bing:
Background Story 7
By British Museum (Albums)
http://www.facebook.com/media/set/?
set=a.10150184112629723.318031.7222852972
2
‘about’ similar concepts

                              建筑与艺
                              术词表



                             (通常为
                             博物馆所
                             用)




                     国会标题表

  LCSH concept: sh85066731@lcsh
  subject heading:        通常在图书馆
    “Installations (Art)” 目录中用
在 AAT 和 LCSH 中,装置艺术的概念都得
到完整的定义,有注解,不同名称,语义关
系,资料来源等。但是二者不完全一样,只
能算‘相似’,不能用‘ sameAs’
这几个词表的 {installations (visual works)} 概念
                                                     可以用 skos : closeMatch 来关联
  Concept from NDL is
  connected via                                                    采用了这些概念描述的文献和物件
  skosxl:altLabel                                                      得以通过相似概念而关联
  to LCSH's label                                 sh85066731
                                                                         clo
                                                     @lcsh                   seM
                                                                                   atc
                                                                                         h
                                     skos:prefLabel: Installations (Art)@en
                                                                                         Cb121017792@
                                                                                            rameau
            01159407@n                     美国国会标题表
                 dl                                                        skos:prefLabel: Installations (Art)@fr
                                                                     h     skos:prefLabel: FRBNF121017790@x-notation
                                                                 at c
xl:prefLabel:                                                 seM
インスタレーション ( インスタレーション )@ja                                clo
  xl:altLabel:Installations (Art)                                                            法国国家图书馆
                                                                                             的标题表
                                                 4131808-
                                                  0@swd
  日本国家 Diet 图书馆
  标题表
                                    skos:prefLabel: Installation <Kunst> @de




                                              德国国家图书馆
                                              的主题词汇                                               ‘about’ similar concepts
相联的各类

                  用结构化的
同指   ‘ 关于’相似的主题   RDF 图表
                  达 '类 '
• 比个体的联
  接更上一层
  的,是将类                       用结构化的 RDF 表达 ‘ 类 ’ 或概念
  ( Classes )
  或概念用
  SKOS 做成结
  构化的 RDF




                source: extracted from id.loc.gov/authorities/subjects/sh85066731
:sh85066731
                                                            prefLabel Installations (Art)
•RDF 图的结构能




                            bro
表征概念之间的关                                                note
                                                                   "……"




                             ad
系




                               er
                                          sh85007805



                             bro
•其中有些固定的                                               Art, Modern--20th century


                                 a de
可联接的节点,                                                     "……"


                                      r
通过它们能将四
             related



                           narr

处分散的数据系                                        sh85044164
                               o

在一起
                             we r


                                                             Environment (Art)
                                                            Environment (Art)
                                                                             "……"
                                                                            "……"
                       sh2001001631

                                      Site-specific installations (Art)
                                              " ……"
                                            " ……"
知识组织系统里定义的概念能够起到‘汇合点’的作用,
   令分散的资源很容易地通过已发布的三段式用 URI 来关联起来




Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the
           Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm
schema.org 定义了无数的类、属性,而且还在增加
Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?
src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524
相联的各类

                  用结构化的
同指   ‘ 关于’相似的主题   RDF 图表
                  达 '类 '
超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念
类之间语义关系的本体)来将各种类型的 things 相互关联起来。

这不仅仅是发布自己的数据,而是产生新的信息和知识。
通过 RDF 可以联通涉及到的人物、地点、事物、组织、事件、
统计资料、基因、理论、思想等)




   Image source: Open Knowledge Foundation. http://okfn.org/
例 1 : Freebase
                                  查 Xu Bing
            Freebase example   根据多种属性(谓
                               词)将个人的有关
                                信息进行显示




                                 根据所获奖励
                                 这个属性显示
                                  其他获奖者




source:
           由此可关联历
freebase
           年所有获奖者
例: Freebase MacArthur 奖获得者


                          根据多种属性(谓
                          词)对获奖者有选
                            择性的显示


 获奖者概况统一显示




source:
freebase
获奖者概况表格形式显示




             获奖者概况的时间隧道形式显示




source:
freebase
案例 1 方法小结
•   定义本体 (schema.org 前身 )
•   从维基百科抓取结构化数据
•   发动群众(注册了的机构和个人)完善数据
•   通过各种界面显示数据
                            source:
                            freebase
通过本体结构、采用 RDF 关联所有涉及到的
例 2 :美国国内战争 150 周年项目                       人物、地点、队伍、伤亡、物品 (如旗
                                           帜)、组织、事件 ( 战役)、统计资料、个
                                           人档案等。




                                           注意:
                                           •是格式化数据的相联,不是文本的相联;
                                           •是机器可理解和可处理的数据;
                                           •是对现有数据的再利用;
                                           •产生新的资源;其又被利用、再利用
                                           •可无限扩展下去

  [1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150
  [2] About page source: http://www.civilwardata150.net/
案例 2 方法小结
•   搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字
    化学术著作、多种媒体等),做成结构化数据
•   利用 dbpedia 等资源,集中一些数据
•   定义本体(类,子类,以及各类的属性)
•   在已有资源基础上完善名称和主题规范词汇
•   通过关联数据来组织这些过去分散的研究和历史资料。
•   对数据进行组织、利用
    (例如,自动 tweet 战役和伤亡)




Image Source:
http://www.civilwardata150.net/category/app
lications/
例 3 :哲学史图示
                     ( simonraper 6 月 13 日贴)


                                       围绕历代哲学
           柏拉                          家间的影响、
            图
亚里士                                    传承、学派为
 多德             黑格                     线索而展开
                 尔
                          马克
                           思
      康德




                Source: http://drunks-and-
                lampposts.com/2012/06/13/graphing-the-
                history-of-philosophy/
例:关于柏拉图的
                           维基百科条目




                           属性:
                              受谁影响
                            Influenced By

                              影响了谁
                            Influenced

                           值:
                             各哲学家的
                           条
                             目
内容来源   Source: Wikipedia
dbpedia 已经将这些
关系都做成 RDF 了




Source: dbpedia
到 dbpedia 的检索界面输入检索提问




                             找出凡是在‘哲学家’类有
                             ‘影响过’的所有受影响者
                             。
                             (‘哲学家’是 dbpedia 本
                             体定义的;属性(谓
                             词)为‘ influenced’ )。




Source: dbpedia
得到数据后,装到 Spreadsheet 里,分三栏:
        | Philosopher A | Philosopher B |
        Weight |

        然后用开源软件 Gephi ( http://gephi.org/ )做出
        来




Source: http://drunks-and-
lampposts.com/2012/06/13/graphing-the-
history-of-philosophy/
案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。


讨论:要产生这样的新信息和知识,需要什么条件?




Source: http://drunks-and-
lampposts.com/2012/06/13/graphing-the-
history-of-philosophy/
启示:图情博档在关联数据浪潮中
    属于什么角色?
• 作为关联数据的提供者
 – 书目资源、受控名称规范文档、词表类表、本体
 – 可供别人使用;直接利用规范成果
• 作为关联数据的消费者
 – 最起码的:将外面的 URI 请进来,或让自己资源的 URI
   被外面拿去联接
 – 利用已有资源,扩充知识组织系统,充实元数据
 – 将各类文献目录和元数据变为知识服务的新起点,而
   不光是提供查到、拿到文献的工具
 – 充分利用各种发布的关联数据资源去生产新的知识
关联数据是大趋势
•   Google 全面展开 Knowledge-graphs 服务
•   WorldCat 在书目数据页面增加关联数据
•   政府部门大数据和开放数据已成现实
•   各国图情机构、博物馆、档案馆已经发布不少数据
    集, 数字图书馆则在消费和开发上努力

              与时俱进吧!
Questions ???
•   1 个目的
•   2 种要回答的问题
•   3 段式 triples
•   4 项基本原则
•   5 星排行

• “ 关联”的不同层次
    – sameAs
    – 'about' similar concepts ( closeMatch )
    – Classes expressed in RDF graph structure
    – Connected various classes

Weitere ähnliche Inhalte

Mehr von Marcia Zeng

AAT LOD Microthesauri
AAT LOD MicrothesauriAAT LOD Microthesauri
AAT LOD MicrothesauriMarcia Zeng
 
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...Marcia Zeng
 
Extending models for controlled vocabularies to classification systems: model...
Extending models for controlled vocabularies to classification systems: model...Extending models for controlled vocabularies to classification systems: model...
Extending models for controlled vocabularies to classification systems: model...Marcia Zeng
 
Modelling Knowledge Organization Systems and Structures
Modelling Knowledge Organization Systems and StructuresModelling Knowledge Organization Systems and Structures
Modelling Knowledge Organization Systems and StructuresMarcia Zeng
 
FRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelFRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelMarcia Zeng
 
SKOS for Classification Systems
SKOS for Classification SystemsSKOS for Classification Systems
SKOS for Classification SystemsMarcia Zeng
 
Linking KOS Data [using SKOS and OWL2]
Linking KOS Data [using SKOS and OWL2]Linking KOS Data [using SKOS and OWL2]
Linking KOS Data [using SKOS and OWL2]Marcia Zeng
 
ISO 25964: Thesauri and Interoperability with Other Vocabularies
ISO 25964: Thesauri and Interoperability with Other VocabulariesISO 25964: Thesauri and Interoperability with Other Vocabularies
ISO 25964: Thesauri and Interoperability with Other VocabulariesMarcia Zeng
 
Expressing Classification Schemes -- Part 3
Expressing Classification Schemes -- Part 3Expressing Classification Schemes -- Part 3
Expressing Classification Schemes -- Part 3Marcia Zeng
 
Introducing FRSAD and Mapping it with Other Models
Introducing FRSAD and Mapping it with Other ModelsIntroducing FRSAD and Mapping it with Other Models
Introducing FRSAD and Mapping it with Other ModelsMarcia Zeng
 
Metadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMetadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMarcia Zeng
 
Metadata and Terminology Registries
Metadata and Terminology RegistriesMetadata and Terminology Registries
Metadata and Terminology RegistriesMarcia Zeng
 
Dublin Core In Practice
Dublin Core In PracticeDublin Core In Practice
Dublin Core In PracticeMarcia Zeng
 

Mehr von Marcia Zeng (13)

AAT LOD Microthesauri
AAT LOD MicrothesauriAAT LOD Microthesauri
AAT LOD Microthesauri
 
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...
Using a Semantic Analysis Tool to Generate Subject Access Points: A Study us...
 
Extending models for controlled vocabularies to classification systems: model...
Extending models for controlled vocabularies to classification systems: model...Extending models for controlled vocabularies to classification systems: model...
Extending models for controlled vocabularies to classification systems: model...
 
Modelling Knowledge Organization Systems and Structures
Modelling Knowledge Organization Systems and StructuresModelling Knowledge Organization Systems and Structures
Modelling Knowledge Organization Systems and Structures
 
FRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelFRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data model
 
SKOS for Classification Systems
SKOS for Classification SystemsSKOS for Classification Systems
SKOS for Classification Systems
 
Linking KOS Data [using SKOS and OWL2]
Linking KOS Data [using SKOS and OWL2]Linking KOS Data [using SKOS and OWL2]
Linking KOS Data [using SKOS and OWL2]
 
ISO 25964: Thesauri and Interoperability with Other Vocabularies
ISO 25964: Thesauri and Interoperability with Other VocabulariesISO 25964: Thesauri and Interoperability with Other Vocabularies
ISO 25964: Thesauri and Interoperability with Other Vocabularies
 
Expressing Classification Schemes -- Part 3
Expressing Classification Schemes -- Part 3Expressing Classification Schemes -- Part 3
Expressing Classification Schemes -- Part 3
 
Introducing FRSAD and Mapping it with Other Models
Introducing FRSAD and Mapping it with Other ModelsIntroducing FRSAD and Mapping it with Other Models
Introducing FRSAD and Mapping it with Other Models
 
Metadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMetadata for Terminology / KOS Resources
Metadata for Terminology / KOS Resources
 
Metadata and Terminology Registries
Metadata and Terminology RegistriesMetadata and Terminology Registries
Metadata and Terminology Registries
 
Dublin Core In Practice
Dublin Core In PracticeDublin Core In Practice
Dublin Core In Practice
 

理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

  • 1. 理解和利用关联数据 --图情档博 ( LAM )作为关联 数据的提供者和消费者 Marcia Lei Zeng 曾蕾 Kent State University 关联数据技术与应用专题研讨班 2012.07.20-23, 上海图书馆
  • 2. 大纲: 12345 • 1 个目的 • 2 种要回答的问题 • 3 段式 triples • 4 项基本原则 • 5 星排行 • +“关联”的不同层次
  • 4. 1 个目的:关联 将数据从 silo 中解放出来,通过关联得到最大 利用,再利用,产生新的数据、信息、知识 Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009
  • 5. 2 这个 thing 是什 需要回答的 2 种问题 么? (属性 - 值) 这个 thing 和别 的 thing 有什么 关系?
  • 6. 3 这 2 种问题的答案 这个 thing 是什 么? 都可以用 3 段式( triples )来描述 (属性 - 值) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7' 6" (2.29 m) 效力球队: 上海大鲨鱼 效力球队: 休斯顿火箭 出身地: 上海 退役时间: 2011 - 07 - 20 获奖: 。。。 。。。 RDF triples: 参赛: 。。。 。。 主体 - 谓词 - 客体( subject-predicate-object )结 。
  • 7. 这里面有多少 是独立的 thing ? ( 有自己的属 性) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7' 6" (2.29 m) 效力球队: 上海大鲨鱼 这个 thing 和别 效力球队: 休斯顿火箭 的 thing 有什么 出身地: 上海 关系? 退役时间: 2011 - 07 - 20 获奖: NBA All-Star 奖牌: 2002 亚运会银牌
  • 8. 如果我们将能独立的 thing 都用特定的 ID 来表示,就可以产生无歧义的 3 段式 ex:yaoming ex:yaoming [属性] [值] label: 姚明 名字: 姚明 @zh 名字: Yao Ming@en ex:yaoming ex:yaoming ex:yaoming 出生日期: 1980 - 09 - 12 draftTeam: ex:htrockets 身高: 7' 6" (2.29 m) 效力球队: ex : 上海大鲨鱼 效力球队: shshark 休斯顿火箭 ex : htrockets ex:yaoming ex:yaoming birthPlace: ex:shanghai 出身地: 上海 ex : shanghai 退役时间: 2011 - 07 - 20 ex:yaoming ex:yaoming 获奖: NBA All-Star ex : award: ex:NBA_AllStar 奖牌: 2002 亚运会银牌 NBA_AllStar RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构
  • 9. 一个 3 段式能回答什么问题? ex:yaoming ex:yaoming 这个人叫什么名字? label: ? ex:yaoming ex:yaoming 这个人与休斯顿火箭队是什么关系? ? ex:htrockets ?? ex:yaoming 上海是哪些[名]人的出身地? ?birthPlace: ex:shanghai ?? ex:yaoming NBA All Star 的名单上都有哪些人? ? award: ex:NBA_AllStar
  • 10. 3 段式中的客体部分 也能变为主体么? ex : 能由之再产生新的 3 段式么? ex:yaoming yaoming label: ? ex : ex:yaoming yaoming ? ex:htrockets 关于上海这个城市,你能想 到的属性和值有哪些? ?? ex:yaoming ?birthPlace: ex:shanghai ?? 其中又有哪些客体是可以辨 ex:yaoming ? award: ex:NBA_AllStar 识的 thing ?
  • 11. 图示 1. thing 的 描述和无限联接 1 2 3 predicates objects 1 2 3 subjects predicates objects subjects Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06. 17
  • 12. 图示 2. 联接的内容是来自不同资源的 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用; Image source: Dan Brickley •产生新的资源;其又被利用、再利用 •可无限扩展下去 http://farm4.static.flickr.com/3613/3384528143_83047 92836_b.jpg
  • 13. 4 4 项基本原则 将这个实例放到 4 项基本原则来看
  • 14. 四项基本原则: 1. 使用 URI 作为任何事物的标识名称 – Use URIs as names for things 1. 使用 HTTP URI 使任何人都可以访问名称 – Use HTTP URIs so that people can look up those names 1. 当有人访问名称时,提供有用的 [rdf] 信息 – When someone looks up a name, provide useful information 1. 尽可能提供相关的 URI 以使人们发现更多的信息 – Include links to other URIs so that they can discover more things http://www.w3.org/DesignIssues/LinkedData.html Translated by Liu Wei, 2008 12
  • 15. 1 1. 使用 URI 作为任何事 物的标识名称 2. 使用 HTTP URI 使任何 人都可以访问名称 2 3 3. 当有人访问名称时, 提供有用的 [rdf] 信息 4. 尽可能提供相关的 URI 以使人们发现更多 的信息 Source: dbpedia
  • 16. RDF triples 取出其中一截,其结构是: is president of http://dbpedia.org/page/ http://dbpedia.org/page/Yao_Ming Shanghai_Sharks 2 1 properties 3 values thing 1 <RDF:RDF> <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”> 2 < dbpprop:president rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks"> 3 </RDF:Description> </RDF:RDF> 机器可理解、可处理
  • 17. 只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联 接的 properties 合理管理,则可以被考虑为关联数据。 •这是一种为 Web 所用的含义更丰富的联结方式,使 我们从超文本链接(文献到文献)发展到超数据的联 结(文献中所讨论的内容资源( thing) 的联结) ; •人们可以通过 HTTP/URI 机制,直接获得数字资源 (Thing) 。 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html 参考刘炜 2008-12 的翻译
  • 18. 相对于传统的图书馆数据来说, 关联的图书馆数据有如下优点 • Shareable 可分享 – 不管谁都能解析的唯一标识- URI – 可信赖的数据和元数据供大家使用 • Extensible 可无限伸展 – “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可以从 他自己发布的空间添加描述信息 • Re-usable 可再利用 – 各种来源的描述谈的是同样的 thing – 完善、加注、等等 • Internationalizable 国际化 – 多语种、翻译等都没有问题 – 自然语言词串( strings )不被用来指代 things 。 This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011; built on the W3C Library Linked Data Incubator Group Final Report, draft
  • 19. 5 5 星排行表 Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
  • 20. 李爵士在提出关联数据时借用过这样一个五星排行表: From InkDroid, a nice summary (and CSS) of the star scheme ★ make your stuff available on the web (whatever format) 把你的东西发布在网上(以任何格式) ★★ make it available as structured data (e.g. excel instead of image scan of a table) 把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的 图像) ★★★ non-proprietary format (e.g. csv instead of excel) 非商家格式,(如 csv 而不是 excel ) ★★★★ use URLs to identify things, so that people can point at your stuff 用 URLs 来指代和辨识事物,这样别人就能指点到你的东西 ★★★★★ link your data to other people’s data to provide context 将 你的数据联到其他人的 数据 -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006 08/14/12 20
  • 21. 用五星排行表理解 网上有很多数据资源和知识组织系 ★ 与 LAM 有关的资源 统 •网上开放 ★★ •机器可读 ★★★ •非专属权格式 (html, xml) 越来越多 4 星级的数据集和知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布 其中仅有一部分达到 5 星 •关联的 RDF ★★★★★
  • 22. 当前主要关联数据资源 (根据 2012 年 7 月 16 日数据) 越来越多 4 星级的数据集、知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布 CKAN = Comprehensive Knowledge Archive Network
  • 23. CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880 datasets ) •其中最有名的一个组是关联的开放数据 LOD 云组, 云图 中现含 295 个数据集 http://ckan.net/group/lodcloud 实际 上该组已有 327 个。 •其它几十个组见 : http://ckan.net/group. 一个数据集可以 注册到多个组,其中有些数据集也上了 LOD 云。 • 图书馆关联数据组 http://ckan.net/group/lld (现 含 57 个数据集,大多数联接都是与非图书馆数据 的联接) • 文献书目数据组 : (现含 77 个数据集) • 艺术、气象数据、实验数据、考古、经济、能源数据、 地理、语言、国际发展数据、政府数据(加拿大、澳大 利亚、英国等)。有些在试验阶段,有些还不开放。 •数据集的发行格式(可获取格式): LOD Cloud group CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它 327 datasets
  • 24. Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327 入云要求: •可解的 http URIs 媒 •数据可解为常用 RDF 体 出 格式 (RDFa, RDF/XML, Turtle, 版 N-Triples). 物 •至少有 1000 条 triples (所以你的 政 FOAF 文档不行) 府 •必须通过 RDF 与本图 中一个数据集相联(含 其它数据集来的 URIs ,反之亦然。至 生 少 50 条联接) 跨 地 命 •必须能通过 RDF 专 理 科 crawling, RDF dump, 业 或 SPARQL endpoint 学 得到整个数据集的数据 Linking Open Data cloud diagram by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  • 26. “ 关联”是有不同层次的,从简单到复杂 -- 以值词汇 (value vocabularies) 为例 相联的各类 用结构化的 同指 ‘ 关于’相似的主题 RDF 图表 达 '类 ' References: Linked Data: Evolving the Web into a Global Data Space, by Tom Heath and Christian Bizer. Linked Data FAQ, by Structured Dynamics. http://structureddynamics.com/linked_data.html#question_8
  • 27. • 用 owl:sameAs 来表达同一性联接 (identity links ) 两个数据资源指的是具有同一性的一种实体( entity )或 者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个人、事 件、物体等),尽管名称不同。 • 同一性联接 指向另一资源所采用的 URI • 辨识同样的真实世界的物体 • 或者辨识相同的抽象概念 客户端可以从另一资源中检索到更多的描述。
  • 29. 纽约时报 . co m / data.n ytimes 2 http:// 0235787585 27 614530 http://www.freebase.com/view/en/apple_inc ycA cN5Y29 wpEbGdr x4rvVjfjp / co ncept/M Freebase ncyc.org http:/ /sw.ope CYC 本体 http://ww w4.wiwis berlin.de/ s.fu- flickrwrap ple_Inc. pr/photos dbpedia /Ap _Inc. e /Apple esourc a.org/r dbpedi http:// dbpedia 图像
  • 30. 练习:艺术家徐冰 (1) 如果: •艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”: “Xu Bing (Chinese installation artist, born 1955)” ( ID: 500125592@ulan ) •另外一个数据集采用了中国国家图书馆的规范数据, “徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc ) •这两个数据集里关于这个艺术家的数据都指的是同一个人 则: 可以用一个 identify link 来表达这两个是同指一人。 请你写下来 哪个对? [ 1 ] Xu Bing (Chinese installation artist, born 1955) owl:sameAs 徐冰 ( 版画家 , 1955~) [ 2 ] 500125592@ulan owl:sameAs 000190318@nlc
  • 31. 练习:艺术家徐冰 (2) 很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁 有徐冰的数据都可以继续联接: • dbpedia 的:{ http://dbpedia.org/page/Xu_Bing } • Freebase 的{ http://www.freebase.com/view/en/xu_bing } 这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联 : http://dbpedia.org/page/Xu_Bing owl:sameAs: http://www.freebase.com/view/en/xu_bing ; owl:sameAs: {http://..... 500125592@ulan} ; owl:sameAs:{http://... 000190318@nlc}}. 在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是 个体。
  • 32. 相联的各类 用结构化的 同指 ‘ 关于’相似的主题 RDF 图表 达 '类 '
  • 33. ‘ 关于’相似的主题或概念 • 在这种情况下,重点在于关联有关相似的主题或 概念的数据资源 • 通常采用被定义好了的类( classes )和概念,例 如在本体中定义的类、分类法类目、词表系统里 的概念
  • 34. Xu Bing:Background Story 7 徐冰 《背后的故事: 7 》 British Museum, 2011 大英博物馆, 2011 Image source: An installation by Xu Bing: Background Story 7 By British Museum (Albums) http://www.facebook.com/media/set/? set=a.10150184112629723.318031.7222852972 2
  • 35. Image source: An installation by Xu Bing: Background Story 7 By British Museum (Albums) http://www.facebook.com/media/set/? set=a.10150184112629723.318031.7222852972 2
  • 36. ‘about’ similar concepts 建筑与艺 术词表 (通常为 博物馆所 用) 国会标题表 LCSH concept: sh85066731@lcsh subject heading: 通常在图书馆 “Installations (Art)” 目录中用 在 AAT 和 LCSH 中,装置艺术的概念都得 到完整的定义,有注解,不同名称,语义关 系,资料来源等。但是二者不完全一样,只 能算‘相似’,不能用‘ sameAs’
  • 37. 这几个词表的 {installations (visual works)} 概念 可以用 skos : closeMatch 来关联 Concept from NDL is connected via 采用了这些概念描述的文献和物件 skosxl:altLabel 得以通过相似概念而关联 to LCSH's label sh85066731 clo @lcsh seM atc h skos:prefLabel: Installations (Art)@en Cb121017792@ rameau 01159407@n 美国国会标题表 dl skos:prefLabel: Installations (Art)@fr h skos:prefLabel: FRBNF121017790@x-notation at c xl:prefLabel: seM インスタレーション ( インスタレーション )@ja clo xl:altLabel:Installations (Art) 法国国家图书馆 的标题表 4131808- 0@swd 日本国家 Diet 图书馆 标题表 skos:prefLabel: Installation <Kunst> @de 德国国家图书馆 的主题词汇 ‘about’ similar concepts
  • 38. 相联的各类 用结构化的 同指 ‘ 关于’相似的主题 RDF 图表 达 '类 '
  • 39. • 比个体的联 接更上一层 的,是将类 用结构化的 RDF 表达 ‘ 类 ’ 或概念 ( Classes ) 或概念用 SKOS 做成结 构化的 RDF source: extracted from id.loc.gov/authorities/subjects/sh85066731
  • 40. :sh85066731 prefLabel Installations (Art) •RDF 图的结构能 bro 表征概念之间的关 note "……" ad 系 er sh85007805 bro •其中有些固定的 Art, Modern--20th century a de 可联接的节点, "……" r 通过它们能将四 related narr 处分散的数据系 sh85044164 o 在一起 we r Environment (Art) Environment (Art) "……" "……" sh2001001631 Site-specific installations (Art) " ……" " ……"
  • 41. 知识组织系统里定义的概念能够起到‘汇合点’的作用, 令分散的资源很容易地通过已发布的三段式用 URI 来关联起来 Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm
  • 43. Image source: Dan Brickley. http://philarcher.org/inc/showImage.php? src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524
  • 44. 相联的各类 用结构化的 同指 ‘ 关于’相似的主题 RDF 图表 达 '类 '
  • 45. 超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念 类之间语义关系的本体)来将各种类型的 things 相互关联起来。 这不仅仅是发布自己的数据,而是产生新的信息和知识。 通过 RDF 可以联通涉及到的人物、地点、事物、组织、事件、 统计资料、基因、理论、思想等) Image source: Open Knowledge Foundation. http://okfn.org/
  • 46. 例 1 : Freebase 查 Xu Bing Freebase example 根据多种属性(谓 词)将个人的有关 信息进行显示 根据所获奖励 这个属性显示 其他获奖者 source: 由此可关联历 freebase 年所有获奖者
  • 47. 例: Freebase MacArthur 奖获得者 根据多种属性(谓 词)对获奖者有选 择性的显示 获奖者概况统一显示 source: freebase
  • 48. 获奖者概况表格形式显示 获奖者概况的时间隧道形式显示 source: freebase
  • 49. 案例 1 方法小结 • 定义本体 (schema.org 前身 ) • 从维基百科抓取结构化数据 • 发动群众(注册了的机构和个人)完善数据 • 通过各种界面显示数据 source: freebase
  • 50. 通过本体结构、采用 RDF 关联所有涉及到的 例 2 :美国国内战争 150 周年项目 人物、地点、队伍、伤亡、物品 (如旗 帜)、组织、事件 ( 战役)、统计资料、个 人档案等。 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用; •产生新的资源;其又被利用、再利用 •可无限扩展下去 [1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150 [2] About page source: http://www.civilwardata150.net/
  • 51. 案例 2 方法小结 • 搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字 化学术著作、多种媒体等),做成结构化数据 • 利用 dbpedia 等资源,集中一些数据 • 定义本体(类,子类,以及各类的属性) • 在已有资源基础上完善名称和主题规范词汇 • 通过关联数据来组织这些过去分散的研究和历史资料。 • 对数据进行组织、利用 (例如,自动 tweet 战役和伤亡) Image Source: http://www.civilwardata150.net/category/app lications/
  • 52. 例 3 :哲学史图示 ( simonraper 6 月 13 日贴) 围绕历代哲学 柏拉 家间的影响、 图 亚里士 传承、学派为 多德 黑格 线索而展开 尔 马克 思 康德 Source: http://drunks-and- lampposts.com/2012/06/13/graphing-the- history-of-philosophy/
  • 53. 例:关于柏拉图的 维基百科条目 属性: 受谁影响 Influenced By 影响了谁 Influenced 值: 各哲学家的 条 目 内容来源 Source: Wikipedia
  • 55. 到 dbpedia 的检索界面输入检索提问 找出凡是在‘哲学家’类有 ‘影响过’的所有受影响者 。 (‘哲学家’是 dbpedia 本 体定义的;属性(谓 词)为‘ influenced’ )。 Source: dbpedia
  • 56. 得到数据后,装到 Spreadsheet 里,分三栏: | Philosopher A | Philosopher B | Weight | 然后用开源软件 Gephi ( http://gephi.org/ )做出 来 Source: http://drunks-and- lampposts.com/2012/06/13/graphing-the- history-of-philosophy/
  • 57. 案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。 讨论:要产生这样的新信息和知识,需要什么条件? Source: http://drunks-and- lampposts.com/2012/06/13/graphing-the- history-of-philosophy/
  • 58. 启示:图情博档在关联数据浪潮中 属于什么角色? • 作为关联数据的提供者 – 书目资源、受控名称规范文档、词表类表、本体 – 可供别人使用;直接利用规范成果 • 作为关联数据的消费者 – 最起码的:将外面的 URI 请进来,或让自己资源的 URI 被外面拿去联接 – 利用已有资源,扩充知识组织系统,充实元数据 – 将各类文献目录和元数据变为知识服务的新起点,而 不光是提供查到、拿到文献的工具 – 充分利用各种发布的关联数据资源去生产新的知识
  • 59. 关联数据是大趋势 • Google 全面展开 Knowledge-graphs 服务 • WorldCat 在书目数据页面增加关联数据 • 政府部门大数据和开放数据已成现实 • 各国图情机构、博物馆、档案馆已经发布不少数据 集, 数字图书馆则在消费和开发上努力 与时俱进吧!
  • 60. Questions ??? • 1 个目的 • 2 种要回答的问题 • 3 段式 triples • 4 项基本原则 • 5 星排行 • “ 关联”的不同层次 – sameAs – 'about' similar concepts ( closeMatch ) – Classes expressed in RDF graph structure – Connected various classes

Hinweis der Redaktion

  1. This slide set was presented at the TED 2009 conference, &quot;The Great Unveiling&quot; in Long Beach, CA. USA, 4, Feb 2009. The current Web is still a Web of documents, a web of un-typed documents. Datasets exist in silos, and the web is like a global file system. Now we want to turn this into a global database, so we can share, expose, and connect data in those silos. From a global file system to a global database From a Web of documents to a Web of data Break the silos Link data This slide set was presented at the TED 2009 conference, &quot;The Great Unveiling&quot; in Long Beach, CA. USA, 4, Feb 2009.
  2. When there are lots of triples together, they are like this… The first subject here really has quite a few predicates, and the objects can be URIrefs or literals. Those objects can also be the things, so they also may be the subjects of further statements. Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know . OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.
  3. Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html Linked Open Data 关联数据的四项基本原则: 原则一:使用 URI 作为任何事物的标识名称 Use URIs as names for things ; 原则二:使用 HTTP URI 使任何人都可以访问名称 Use HTTP URIs so that people can look up those names ; 原则三:当有人访问名称时,提供有用的[ RDF ]信息 When someone looks up a name, provide useful [ RDF ] information 原则四:尽可能提供相关的 URI 以使人们发现更多的信息 Include links to other URIs so that they can discover more things
  4. If we transfer the graph using the XML syntax, the graph will become the code illustrated in this slide. Now the statement becomes machine understandable and processable.
  5. From: Kingsley Idehen, Creating, Deploying, and Exploiting Linked Data
  6. Sept.. 2011 draft version: http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion#Benefits_of_the_Linked_Data_Approach The Linked Data approach offers significant advantages over current practices for creating and delivering library data while providing a natural extension to the collaborative sharing models historically employed by libraries. Linked Data and especially Linked Open Data is sharable, extensible, and easily re-usable. It supports multilingual functionality for data and user services, such as the labeling of concepts identified by a language-agnostic URIs. These characteristics are inherent in the Linked Data standards and are supported by the use of Web-friendly identifiers for data and concepts. Resources can be described in collaboration with other libraries and linked to data contributed by other communities or even by individuals.
  7. ★ 以任何开放协议和格式发布在网上; ★★ 以一种机读格式,例如 excel 表格格式而不是扫描 图片格式,发布在网上; ★★★ 以一种开放而非私有的格式,如 CSV 而不是 excel ,发布于网上; ★★★★ 采用开放格式,并以 W3C 开放标准标识和描 述,以使人们可以链接指向; ★★★★★ 采用开放格式,并以 W3C 的开放标准将大 家的数据进行标识、描述和互联。
  8. So long as the principles of URI naming, HTTP access, and linking predicates where possible are maintained, the approach qualifies as linked data. Source: http://vocab.umbel.org/
  9. Linking Open Data cloud diagram by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ There must be resolvable http:// (or https://) URIs. They must resolve, with or without content negotiation, to RDF data in one of the popular RDF formats (RDFa, RDF/XML, Turtle, N-Triples). The dataset must contain at least 1000 triples. (Hence, your FOAF file most likely does not qualify.) The dataset must be connected via RDF links to a dataset that is already in the diagram. This means, either your dataset must use URIs from the other dataset, or vice versam. We arbitrarily require at least 50 links. Access of the entire dataset must be possible via RDF crawling, via an RDF dump, or via a SPARQL endpoint.
  10. Reference: http://structureddynamics.com/linked_data.html#question_8
  11. The simple case is where two data sources refer to the exact same entity or instance (individual) with the same identity. The standard sameAs predicate is used to assert the equivalence in such cases.
  12. Data sources aggregated at DBpedia, Freebase, and New York Times for the {Apple Inc.} are all referring to the same company, even though the labelsmay be different. Their unique URIs are connected by the “owl:sameAs” property.
  13. Reference: http://structureddynamics.com/linked_data.html#question_8
  14. The more important case is where the data sources are about similar subjects or concepts, in which case a structure of well-defined reference classes is employed.
  15. “ 这个名为《背后的故事 -7 》的装置由一个体积可观的光箱构成,徐冰用生活中随处可见的现成材料,如树枝、玉米壳、麻、报纸以及从伦敦不同角落找来的废弃物,装置在磨砂的有机玻璃板背后。徐冰认为,这些物品与磨砂玻璃的距离产生了不同的视觉效果,从正面看,像是一幅典雅的中国传统山水竖轴,但当观众看到装置背面杂乱的物件时,就看到了空气中风景画的真实来源。 这件新作品展出时,直接对应的就是大英博物馆所藏的中国画家王时敏 1654 年所作的山水画。一古一今,中国艺术在大英博物馆内实现跨越时空的对话。” -摘自:徐冰个展《背后的故事 -7 》大英博物馆开展  http://culture.people.com.cn/GB/22219/14626735.html
  16. ID: 300182935   Record Type: concept installations (exhibitions) For example, books, catalogs, museum exhibitions about {installation arts} may use different terms, however they are about similar subjects or concepts. In a VRA record it might give an AAT concept {ID: 300047896@aat} with preferred term “installations (visual works)”, while a MARC record may have used a LCSH subject heading “Installations (Art)” { http://id.loc.gov/authorities/subjects/sh85066731}. In both AAT and LCSH, the concept is well defined, with notes, semantic relationships with other concepts, reference sources, preferred and alternative labels. The concept in AAT {ID:300047896@aat} and in LCSH {http://id.loc.gov/authorities/subjects/sh85066731} can be considered closely matched (coded as “ skos:closeMatch ” ). (Note they are not considered as the same (coded as “ owl:sameAs ” )).
  17. http://id.ndl.go.jp/auth/ndlsh/01159407 http://id.loc.gov/authorities/sh85066731 http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb121017792 http://d-nb.info/gnd/4131808-0
  18. Reference: http://structureddynamics.com/linked_data.html#question_8
  19. Furthermore, these classes can themselves be expressed in a graph structure capturing the relationships amongst the concepts. For example SKOSified LCSH captured the relationships of the {Installations (Art)}with the broader concept (coded as “skos:broader”) {Art, Modern--20th century} and a number of narrower concepts. The concept in LCSH is also mapped to that in the French RAMEAU vocabulary {Installations (art)} . Following the RDF graphs (statements) encoded by “skos:closeMatch”, concepts in the national authorities of the U.S., France, and Germany are connected. RDF graphs can mix different descriptions, for example, through properties such as “foaf:primaryFocus” or “dcterms:subject” to connect a thesaurus concept to the documents about the concept. Using the German resource as an example, SWD’s concept {Installation &lt;Kunst&gt;} is linked with all publications that have this subject heading (showing as “Thema in 1154 Publikationen”). The same process can be applied to the resources about an agent, a place, an object, etc.
  20. If these classes can themselves be expressed in a graph structure capturing the relationships amongst the concepts, we now have some fixed points in the conceptual information space for relating and tying together disparate data.
  21. Reference: http://structureddynamics.com/linked_data.html#question_8
  22. Still further, such a conceptual structure also provides the means to relate the people, places, things, organizations, events, etc., of the individual instances of the world to one another as well. Reference: http://structureddynamics.com/linked_data.html#question_8
  23. 时光隧道 view
  24. http://www.civilwardata150.net/category/applications/
  25. SELECT * WHERE { ?p a &lt;http://dbpedia.org/ontology/Philosopher&gt; . ?p &lt;http://dbpedia.org/ontology/influenced&gt; ?influenced. }