Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia
1. Datos enlazados para
instituciones
culturales
Daniel Vila Suero
dvila@fi.upm.es
Ontology Engineering Group, Universidad Politécnica de Madrid
Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano,
Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others)
Seminario para la Biblioteca Nacional de Colombia
Viernes 12 de Julio de 2013
This work is funded by the Spanish Project
TIN2010-17550 for the BabeLData project, and by BNE
3. Datos enlazados para LAM
• LAM (Library, Archives and Museums)
• Datos enlazados para bibliotecas, archivos y
museos.
• ¿Qué? Publicar los datos de estas instituciones
siguiendo los principios de Linked Data.
• ¿Cuáles son esos principios y cómo se
transladan al dominio de patrimonio cultural e
histórico?
3
4. Recordatorio: Los 4 Principios
(1) Utilizar URIs para identificar las cosas (en la Web)
(2) Utilizar HTTP URIs para que se puedan recuperar
sus descripciones (en la Web)
(3) Describir las cosas (los recursos, objetos,
entidades) usando estándares de la Web semántica
(RDF, RDFS, SPARQL)
(4) Incluir enlaces a otras HTTP URIs para facilitar el
descubrimiento de más recursos
4
5. Principios 1 y 2
(1, 2) Utilizar HTTP URIs para identificar y permitir
recuperar nuestros objetos (en la Web)
Cada objeto, recurso, activo relevante tiene su propio
identificador en la Web: HTTP URI.
Por ejemplo:
- Personas: Gabriel García Márquez
! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
- Obras: Cien años de soledad
= h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad=
5
6. Buenas prácticas HTTP URIs
• Cool URI's don't change:
- Las URIs deben ser estables, no deben cambiar en el
tiempo pues son el punto de acceso a nuestros recursos. El
dominio y los servidores deben estar manejados por nuestra
institución
- URIs bien estructuradas y predecibles:
• /personas/ID: todas las URIs que siguen este patrón
son Personas
- Omitir detalles de la tecnología utilizada, fechas, etc.:
• MAL: http://datos.bibliotecanacional.gov.co/index.php?
persona=Garcia_Marquez
- Las HTTP URIs son principalmente para ser manejadas por
las máquinas, si existe un ID único en los datos de origen
se debería utilizar. Por ejemplo el 001 de MARC 21
6
7. (Paréntesis)
• Formato compacto para las URIs CURIEs (Compact
URIs)
• Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa:
h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!
ID: Gabriel_García_Márquez
= = =
7
8. (Paréntesis)
• Formato compacto para las URIs CURIEs (Compact
URIs)
• Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa:
h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!
ID: Gabriel_García_Márquez
= = =
8
bncPersona:Gabriel_García_Márquez
11. Principio 3
(2) Describir las cosas (los recursos, objetos,
entidades) usando estándares de la Web semántica
(RDF, RDFS, SPARQL)
Describimos:
- Mediante tripletas RDF los atributos de nuestros
recursos.
- Utilizando clases y propiedades de
vocabularios o ontologías (FRBR, ISBD, etc)
11
15. Principio 3
15
frbr:fechaDeNacimiento
Reutilizar vocabularios estándar: FRBR, RDA, ISBD..
frbr:esCreadorDe
isbd:HtuloPropiamenteDicho
foaf:Person
Básicamente:
- Clases: Definen el tipo de recurso (Persona, obra,etc)
- Propiedades: Definen carácterísticas del recurso
(fechas, título, nombre, etc.)
16. Buenas prácticas Vocabularios
• Reutilizar vocabularios ampliamente utilizados,
estables y soportados por una comunidad
- ¿Cómo?
• Recomendación 1: Análisis de otros conjuntos de datos
del mismo dominio (Bibliotecas, Museos, etc.)
• Recomendación 2: Buscar conceptos en repositorios de
vocabularios. El más recomendable es LOV (Linked
Open Vocabularies) de la Open Knowledge Foundation
h"p://lov.okfn.org/=
16
18. Resultado de aplicar principios 1, 2 y 3
18
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Grafo de URIs describiendo a Gabriel García-Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Frbr:lugarDeNacimiento
"Colombia"
20. Principio 4
(4) Incluir enlaces a otras HTTP URIs para facilitar el
descubrimiento de más recursos
Tiene 2 vertientes que permiten aumentar/enriquecer
las descripciones:
1- Evitar utilizar cadenas de caracteres en el
objeto de la tripleta y utilizar URIs:
Usar la URI de Colombia en DBpedia frente a utilizar la
cadena "Colombia"
2 - Incluir enlaces a la mismo recurso descrito en
otro conjunto de datos:
Enlaces a García Márquez en VIAF, BNE, etc
20
21. Vertiente 1
21
bncPersona:Gabriel_García_Márquez
"Colombia" no permite recuperar
más información acerca del lugar de
nacimiento, solo el nombre
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de caracteres en el
objeto de la tripleta y utilizar URIs:
23. Vertiente 2 Enlaces: sameAs
23
bncPersona:Gabriel_García_Márquez
owl:sameAs
Enlaces al mismo recurso en otros
conjuntos de datos enlazados
bne:Gabriel_García_Márquez
Ampliamos
la red de conocimiento sobre
García
Márquez en la BNC (Obras
catalogadas en la BNE,
descripciones en VIAF, etc.)
owl:sameAs
viaf:Gabriel_García_Márquez
24. Buenas prácticas Enlazado
• Enlazar con conjuntos de datos relevantes dentro
de una comunidad determinado
- ¿Cómo?
• Recomendación 1: Recursos como VIAF, BNE o
DBpedia contienen numersos enlaces a otros recursos
similares. Centrarse inicialmente en estos para
maximizar el resultado
• Recomendación 2: Buscar otros conjuntos de datos
dentro del area. En repositorios como:
h"p://datahub.io= 24
28. Ontología basada en vocabularios de IFLA
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
29. Marimba utiliza la ontología para generar RDF
BNE
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
30. Proceso de transformación
30
• How to facilitate the mapping process to library
experts?
1. Use a familiar and intuitive interface: Spreadsheets
2. Work only on what's in the database: Pre-process records
to build the spreadsheets
• 3 step-process 3 different spreadsheets
1. Classification: is it a Person? a Work? a Manifestation?
2. Annotation: name, birth date, title, language of expression
3. Relation: find relationships between entities (Person is
creator of a certain work)
31. Marimba: Proceso de mapping
100 $a
Cervantes
Saavedra,
Miguel de
100 $a frbr:Person
String(100 $a $t) frbr:isCreatorOf100 $a
Cervantes
Saavedra,
Miguel de
$t Don
Quijote de
la Mancha
String(100 $a)
100 $a $t
frbr:titleOfWork100 $t
MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL
100 $a frbr:nameOfPerson
PRE-PROCESSING STEP
has subfield
has subfield
has heading
has heading
has content
has content
contained in
frbr:Work
Heading Class Object property Datatype/Annotation property
maps to
maps to
maps to
maps to
maps to
Librarians manually define the
mappings
Variation
(100$a + $t)
31
33. Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
34. IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Identificación de Entidades:
Dada una etiqueta de campos y una combinación de subcampos,
se determina a qué entidad FRBR se relaciona.
Por ejemplo:
100 $a $d Persona (FRBR Grupo 2)
100 $a $t Obra (FRBR Grupo 1)
Marimba: Proceso de transformación a RDF y mappings
35. IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Anotación de Entidades:
Dada una etiqueta de campos y de subcampo, se determina qué
propiedad o atributo de la entidad se anota:
Por ejemplo:
100 $d Fecha asociada a persona
100 $t Titulo de la obra
36. IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Relación entre Entidades:
Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y
dado un identificador de subcampo que representa la variación
de subcampos entre E1 y E2 en su punto de acceso principal y
sabiendo que el valor del punto de acceso de E1 está contenido en
E2, se determina que tipo de relación existe entre E1 y E2.
Por ejemplo:
Persona-Obra $t Persona es creadora de Obra
Obra-Obra $n Obra es parte de Obra
Marimba: Proceso de transformación a RDF y mappings
37. Marimba enlaza con otros recursos:
VIAF, DNB, SUDOC, LIBRIS, DBpedia
BNE
http://datos.bne.es/resource/XX1718747
Same As
Same As
Same As
Same As
Same As
LIBRIS
http://libris.kb.se/resource/auth/45369
SUDOC
http://www.idref.fr/026774771/id
DNB
http://d-nb.info/gnd/11851993X
DBpedia
http://dbpedia.org/resource/Miguel_de_Cervantes
VIAF
http://viaf.org/viaf/17220427
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
39. Publicación
• Publicación de los datos
• Publicar los metadatos sobre el dataset con VOID y
DCAT
• Para facilitar el descubrimiento del dataset
• Registrar el conjunto de datos en DataHub
• Generar el sitemap usando sitemap4rdf
• Cargar el sitemap en Google y Sindice
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
40. Explotación
• 2 perspectivas diferentes
- Sistemas y aplicaciones:
1. SPARQL endpoint,
2. Linked Data API
- Interfaces de usuario
• Usando tecnologías abiertas Web facilitamos la
reutilización por terceros y permitimos uso de
herramientas de:
- Data analytics, interfaces/APIs enriquecidas, etc.
40
41. Explotación: Ejemplo
41
Don Quijote de la Mancha
French manifestations
(213)
Novelas Ejemplares
Spanish manifestations
(303)
Don Quijote de la Mancha
Spanish manifestations
(840)
Don Quijote de la Mancha
English manifestations
(247)
Don Quijote de la Mancha
frbr:Work
Miguel de Cervantes
Don Quijote de la Mancha
German manifestations
(49)
Entremeses
Spanish manifestations
(86)
frbr:Work frbr:isEmbodiedIn frbr:Expression
frbr:Expression frbr:IsManifestedBy frbr:Manifestation
frbr:Person frbr:isCreatorOf frbr:Work
( ) Number of resources
Using Open-source tools:
Gephi for example
http://bne.linkeddata.es/graphvis
42. Permitiendo el acceso a aplicaciones
42
Linked Data API: http://datos.bne.es/frontend/persons
43. Acceso y navegación flexible
43
Consuming Out of the box:
• Search by every field
• Access cluster of resources
• Filtering
• Paging
• Serve multiple formats: XML,
Turtle, JSON
45. 45
Interfaces de usuario
Datos enlazados abre la puerta a:
• Re-ranking resultados OPAC results
• Mejor clustering, busquedas facetadas
• Motores de recomendación
• Enriquecimiento de datos y experiencia de
usuario
46. Artículos sobre proceso en datos.bne.es
• Datos.bne.es: A library linked dataset. Semantic
Web Journal 2013 to appear:
h#p://www.seman@cAwebAjournal.net/content/datosbneesAlibraryAlinkedAdataAdataset
• Daniel Vila-Suero and Elena Escolano “Linked Data
at the Spanish National Library and the
application of IFLA RDFS models”. ScatNews,
IFLA Cataloguing news, 2011.
46