"Datos enlazados en la Biblioteca Nacional de España: historia, estado, retos y perspectivas" por Ricardo Santos Muñoz, jefe del Servicio de Coordinación y Normalización del Departamento de Proceso de Técnico de la Biblioteca Nacional de España.
VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - Ricardo Santos Muñoz
1. Ricardo Santos Muñoz
Departamento de Proceso Técnico
Biblioteca Nacional de España
@3186Ricardo
Datos enlazados en la Biblioteca Nacional de España: historia,
estado, retos y perspectivas
(o cómo aprendimos a conocer y amar los datos enlazados)
VIII ENCUENTROS DE CENTROS DE DOCUMENTACIÓN DE ARTE
CONTEMPORÁNEO
ARTIUM
Vitoria/Gasteiz, 19-20 de octubre
#datosbne
2. BIBLIOTECA NACIONAL DE ESPAÑA
2
#datosbne
Índice
1. datos.bne.es: el proyecto
2. datos.bne.es: el portal
3. datos.bne.es: resultados
4. datos.bne.es: el futuro
Reflexiones
3. BIBLIOTECA NACIONAL DE ESPAÑA
3
#datosbne
Datos.bne: el proyecto
Servicios de Catalogación
Biblioteca digital, automatización
Expertos en LD
Desarrolladores
¿Quiénes hacen datos.bne?
4. BIBLIOTECA NACIONAL DE ESPAÑA
4
#datosbne
Datos.bne. Motivación original
Experimentar con la conversión y publicación de datos en RDF
Datos enlazados como :
método de servicio de datos
método para alcanzar el multilingüismo
método para ferberizar
5. BIBLIOTECA NACIONAL DE ESPAÑA
5
#datosbne
Datos 1.0 (2011)
Publicar datos bibliográficos según modelos y vocabularios de IFLA
OBJETIVO
PRINCIPAL:
CONTENIDO:
2.4 milliones registros bibliográficos (libros modernos y antiguos,
partituras y música) y registros de autoridad
DISPONIBILIDA
D:Descargas y acceso mediante Sparql
PÚBLICO
OBJETIVO:
Desarrolladores, expertos en LOD
6. BIBLIOTECA NACIONAL DE ESPAÑA
6
#datosbne
Datos.bne 2.0 (2014). Nuevas
motivaciones
Los mismos que en 2011, pero además:
Datos enlazados como :
base para la visualización de datos.
base para la integración de datos.
base para incrementar el uso de los datos.
base para la visibilidad en Intranet.
7. BIBLIOTECA NACIONAL DE ESPAÑA
7
#datosbne
Datos.bne.es: el portal
OBJETIVO
PRINCIPAL:
CONTENIDO:
DISPONIBILIDA
D:
PÚBLICO
OBJETIVO:
Diseñar un acceso innovador y distinto a las colecciones de BNE,
basado en tecnologías LOD y el modelo FRBR
Prácticamente todo el catálogo (excepto publicaciones seriadas y
información de fondos), acceso a objetos digitales
Interfaz para humanos, terminal Sparql y otros servicios
Todo tipo de usuarios, expertos de LOD, bibliotecarios de
referencia
DATOS.BNE.ES versión 2.0 (2014)
8. BIBLIOTECA NACIONAL DE ESPAÑA
8
#datosbne
Datos 2.0 (2014)
PRINCIPALES CARACTERÍSTICAS:
Permitir al usuario experimentar con nuevas maneras de descubrir y
navegar por los recursos, desde cualquier dispositivo (diseño
adaptativo)
Datos descritos y búsquedas basadas en entidades, en vez de en
texto.
Datos interconectados y enriquecidos con otras fuentes
Los recursos bibliotecarios son accesibles directamente desde los
resultados de un buscador
Tecnología y estructura sólida y escalable
9. BIBLIOTECA NACIONAL DE ESPAÑA
9
#datosbne
FRBR en un vistazo
Obras
Expresiones
Manifestaciones
Obra 1
Obra 2
Obra 3
Exp 1 Exp 2 Exp 3
Man 1 Man 2
AGENTES
10. BIBLIOTECA NACIONAL DE ESPAÑA
10
#datosbne
Navegación por entidades
Persona
Entidad
Obra
Materia
RECURSOS
11. BIBLIOTECA NACIONAL DE ESPAÑA
11
#datosbne
Navegación por entidades
La publicación de datos en LD se
basa en agrupar datos en torno a
entidades, y relacionarlas
Los modelos de datos se basan en
distribuir esos datos en entidades
Trabajar con entidades posibilita
un modelo escalable y sólido
Las entidades son básicas para la
interconexión con otros conjuntos
12. BIBLIOTECA NACIONAL DE ESPAÑA
12
#datosbne
12
Cocinando Linked Data
Según la receta original de
Tim Berners-Lee !!!!
14. BIBLIOTECA NACIONAL DE ESPAÑA
14
#datosbne
De MARC a entidades FRBR
Objetivos y problemas de origen:
Tener entidades y relaciones entre ellas:
De registros bibliográficos y de autoridad a Persona,
Obra, Expresión, Manifestación
Tener una URL para cada cosa
Las URLs de OPAC no son estables
Información se centra en los recursos, poca
visibilidad de vocabularios controlados
15. BIBLIOTECA NACIONAL DE ESPAÑA
15
#datosbne
De MARC a entidades FRBR
EXTRACCIÓN DE ENTIDADES
FRBR:
Personas / Entidades
corporativas / Obras
ExpresionEs
Manifestaciones
Registros de autoridad
Registros bibliográficos
16. BIBLIOTECA NACIONAL DE ESPAÑA
16
#datosbne
Construcción de enlaces
Expresión
manifestada
Expresión de Obra
Autor de Obra
17. BIBLIOTECA NACIONAL DE ESPAÑA
17
#datosbne
Cómo se hace datos.bne.es
MARiMbA
Datos (Marc)
Análisis de datos
Mapeo & categorización
Generación de RDF
Generación
de datos
Cadena de
publicación
Doble indexación
Doble almacenamiento
Portal
Triple store
Ranking basado en
relaciones FRBR
No hay transformación de datos después de la generación
Anotaciones con Schema en cada página html
No hay transformación de datos después de la generación
Anotaciones con Schema en cada página html
Post proceso
Enlazado
Enriquecimiento
MARiMbA
18. BIBLIOTECA NACIONAL DE ESPAÑA
18
#datosbne
Cómo se hace datos.bne.es: tecnología
Transformación y
generación de datos
Almacenamiento y
explotación
MARiMbA
Tecnologías Open
source
Portal: Elasticsearch
Base de datos: MongoDB
RDF: Virtuoso
19. BIBLIOTECA NACIONAL DE ESPAÑA
19
#datosbne
Viaje dentro de Marimba
Extracción y análisis de
MARC21
Mapeo 1: dividir los datos en
entidades
Mapeo 2: relacionar
entidades
Mapeo 3: anotación de
propiedades
Enriquecimiento
Generación de RDF según la
ontología
20. BIBLIOTECA NACIONAL DE ESPAÑA
20
#datosbne
BIBO
RDA
Ontología
DATOS 1.0
Datos BNE
ISBD FRBR
FRSAD
FRAD
DATOS 2.0
Ontología BNE
Alineamientos
SKOS/ MADS para Temas
Datos BNE
21. BIBLIOTECA NACIONAL DE ESPAÑA
21
#datosbne
Servicios expertos
• Sparql end-point
• Descargas de ficheros
• API
http://datos.bne.es/find?s=miguel+hernandez&type=Persona
• Negociación de contenidos
•HTML, RDF+XML, Turtle, JSON-LD
22. BIBLIOTECA NACIONAL DE ESPAÑA
22
#datosbne
Valoración global del portal
Creación de una estructura escalable.
Presentación de resultados ordenada y vistosa.
Búsqueda precisa.
Navegación entre entidades.
Mayor aprovechamiento del trabajo de autoridades.
Estructura desconocida para el usuario/bibiotecario
Lenguaje y entidades difíciles de plasmar.
Falta de refinamiento en algunas relaciones.
Búsquedas muy granulares aún no disponibles.
24. BIBLIOTECA NACIONAL DE ESPAÑA
24
#datosbne
BNE en Internet
Resultados directos desde buscadores
Datos.bne.es: el resultado
25. BIBLIOTECA NACIONAL DE ESPAÑA
25
#datosbne
¿Qué supone estar en Internet?
Datos.bne.es: BNE “en la nube”
Mayor presencia de los recursos más raros y menos conocidos
Más rentabilidad y reconocimiento al trabajo del catalogador
Superación de la actitud pasiva y apriorística de los catálogos
bibliotecarios.
Salir a buscar al usuario.
Convertir en usuario a quien ni sospecha que puede serlo.
26. BIBLIOTECA NACIONAL DE ESPAÑA
26
#datosbne
Bne en Internet : contenido
- Recursos “ocultos” hechos visibles .
¡Mi abuelo escribió un libro!
¡¡Fotografías de mi pueblo!!,
¡¡Ese libro/disco/grabado… que es
imposible de localizar!!)
- Alerta de errores
- Mal entendimiento de lo que es datos.bne.
(¡quiero comprarlo/descargarlo!)
- Falsas expectativas.
- Sobreexposición.
27. BIBLIOTECA NACIONAL DE ESPAÑA
27
#datosbne
- Autores que se encuentran (¿Queréis más
datos/libros? Reporte de errores)
- ¡¡¡ Este autor no identificado es mi abuelo !!!
- Sobrexposición: ¿por qué estoy en Internet?
Bne en Internet : autores
28. BIBLIOTECA NACIONAL DE ESPAÑA
28
#datosbne
• Fuente de datos para aplicaciones
• Fuente de datos intermediaria con otras fuentes
Expertos
• Herramienta de referencia
• Integración de otros datos internos o incremento de
la visibilidad
Bibliotecarios
• Nuevas maneras de acceder y descubrir recursos
• Acceso desde buscadores: salir al encuentro del usuario
Usuarios
Otros resultados
29. BIBLIOTECA NACIONAL DE ESPAÑA
29
#datosbne
¿En qué lengua escribieron los Premios Nobel
de Literatura
Datos.Bne.es: el futuro
¿Qué pasó en 1873?
¿De qué tema se publicaba más en la Andalucía
de los años 60?
¿Qué grupos de La Movida hacían punk?
Descubrir cosas que me interesan navegando en un mapa
Bücher über Himmelsmechanik
Mujeres pintoras de mi pueblo
Actores con barba
Impresores del XVII especializados en ciencia
¿Qué
podríamos
hacer?
Partituras para piano y
clarinete en Sol menor
Si te gustó este autor, prueba con
éste otro, te va a encantar
30. BIBLIOTECA NACIONAL DE ESPAÑA
30
#datosbne
Contenido
Entidades
Relaciones
Fuentes de datos
Enriquecimiento
Descripciones de entidades
Procedimientos de catalogación
Capacidades de búsqueda
Capacidades multilingües
Conexiones de la ontología
Servicios y documentación LOD
Datos.Bne.es: el futuro
31. BIBLIOTECA NACIONAL DE ESPAÑA
31
#datosbne
Datos.Bne.es: el futuro
Sostenibilidad
Relación catálogo – datos.bne.es
¿Enriquecimiento de cualquier fuente?
¿Establecimiento de límites?
¿Atreverse al 2.0?
32. BIBLIOTECA NACIONAL DE ESPAÑA
32
#datosbne
Reflexiones finales
Ya no pienso solo en mí cuando pongo los datos.
Algunos conceptos de toda la vida dejan de tener
sentido.
Reglas de catalogación vs. modelo de datos
Desfase de tecnologías
¿Vamos a una torre de Babel sintáctica y
tecnológica?
33. BIBLIOTECA NACIONAL DE ESPAÑA
Pº de Recoletos 20-22
28071 Madrid
España
T +34 915 807 800
www.bne.es
Ricardo Santos Muñoz
Biblioteca Nacional de España
ricardo.santos@bne.es
Gracias por vuestra atención
Hinweis der Redaktion
Горький
El mundo bibliográfico está compuesto por obras:
La obra se materializa de diferentes formas: la propia forma original (en este caso incluso varias versiones o estados, traducciones, audiolibros)
La manifestación son las ediciones, y son el objeto tradicional de los registros bibliográficos.
Además, hay relaciones con otras obras (otras versiones del mito, obras musicales, adaptaciones al cine).
Relacionado con todos ellos están los autores: autores del texto, traductores, ilustradores, editoriales…
Categoriza y agrupa los datos. “Baroja” deja de ser una cadena de texto, y es una persona. Flexibiliza la descripción de nuevos atributos, el enriquecimiento, en enlazado con otros conjuntos de datos diversos, y facilita el descubrimiento por los buscadores.
Categoriza y agrupa los datos. “Baroja” deja de ser una cadena de texto, y es una persona. Flexibiliza la descripción de nuevos atributos, el enriquecimiento, en enlazado con otros conjuntos de datos diversos, y facilita el descubrimiento por los buscadores.
Ir a la búsqueda del usuario. Los OPACs tradicionalmente esperan al usuario, que viene específicamente al catálogo a buscar algo. Aquí el proceso es inverso. El usuario sigue buscando algo (muchas veces no es un título concreto “manuales de psicología, manuales técnicos, cursos”) y la bne sale a su encuentro, proponiéndole sus servicios.
Ir a la búsqueda del usuario. Los OPACs tradicionalmente esperan al usuario, que viene específicamente al catálogo a buscar algo. Aquí el proceso es inverso. El usuario sigue buscando algo (muchas veces no es un título concreto “manuales de psicología, manuales técnicos, cursos”) y la bne sale a su encuentro, proponiéndole sus servicios.
Sobreexposición: fondos que estaban ocultos hechos visibles (perdidos)
Inegración…: Peticiones para integrar en datos.bne otras aplicaciones dentro de la biblioteca, para formar parte del “ecosistema” de datos de la biblioteca, y dar visibilidad a proyectos de la biblioteca.
1- Sostenibilidad . Continuidad en el tiempo, capacidad de expansión y mejora, tecnologías escalables, administrativa.
2- Ya hay datos datosBNe que no están en el catálogo, y es probable/posible que haya más en el futuro. ¿Esto es bueno? ¿corremos el riesgo de duplicar esfuerzos, de tener dos catálogos, de sostenibilidad por no saber lo que tenemos en uno o en otro?
3 – Enriquecer está bien, pero tiene que tener un propósito o de lo contrario nos vamos al spam Linked Data, del que ya se puede ver algún ejemplo; no solamente mostrar datos inconexos, sino con sentido; luego estará la distinción: integrar o enlazar.
4 – Ante la posibilidad de enriquecer nuestras entidades con nuevos elementos de datos, de superar el concepto de catálogo/inventario al de fuente de información, al de herramienta para descubrir nuevos contenidos no solicitados, superando la asunción apriorística del catálogo, cabe preguntarse. ¿Dónde ponemos el límite? ¿Cuándo deja de ser razonable, eficiente o pertinente?
5 – Ante la evidencia de no poder abarcarlo todo de todo, ante este panorama de proliferación, ¿nos atrevernos a abrir totalmente nuestros datos, acudiendo al público para dejarle que enriquezca nuestros autores, nuestros recursos?
1 Mis datos le pueden valer a otros; los servicios de datos en este sentido serán fundamentales. No quiero todos los datos, sino sólo unos pocos útiles para mis fines.
2- Para los bibliotecarios, ¿importan todavía conceptos como encabezamientos principal y secundario, o todo lo referido a puntos de acceso?
3 - ¿Las reglas de catalogación deben evolucionar también? ¿Seguimos necesitándolas tal y como existen ahora? ¿Necesitaremos un modelo de datos que nos diga como dividir el mundo bibliográfico, repartir los datos entre estas divisiones, y cómo relacionarlos?
4 - ¿Está habiendo una brecha tecnológica en los sistemas que trabajando, que viven en una arquitectura que no tiene nada que ver con la que se nos vende para datos enlazados? ¿A qué coste se cerrará esa brecha, si se cierra?
5- La aparición multitudinaria de proyectos de datos enlazados, de muy diferente tipo, apertura, con vocabularios y estructuras distintas, conllevará la ruptura de la hasta ahora sacrosanta normalización ?