Anabad está preparando un monográfico de web semántica para un próximo número del Boletín de Anabad con las ponencias y participaciones del curso que los coordinadores Julián Moyano del Archivo Histórico Provincial de Zaragoza y Javier Nogueras de la Cátedra Logisman están realizando en Ejea de los Caballeros en los Cursos de Verano de la Universidad de Zaragoza. Esta es la intervención de Julián.
Rendicion de cuentas del Administrador de Condominios
Web semantica ejea
1. Archivos y Gestión de documentos ante la web semántica
Funciones de la web semántica en la
difusión y acceso de los Archivos
Julián Moyano Collado
Archivo Histórico Provincial de Zaragoza
Ejea de los Caballeros, 17 de Julio de 2012
2. 1 Los Archivos
2 La Tecnología Semántica
3 Los archivos y la tecnología semántica
4 El Archivo Histórico Provincial de Zaragoza: proyecto
de implantación de tecnología semántica.
4. Los Archivos evolucionan...
A lo largo de los siglos, los archivos, han evolucionado en
paralelo con el desarrollo tecnológico de la humanidad.
Son testigos excepcionales de cada periodo histórico por
la documentación recogida y por los materiales e
instrumentos que conservan.
4
10. La Web en los Archivos: algunas notas
:) :(
Es sencillo conocer el funcionamiento y Entender los contenidos y estructuras de los
posibilidades de la web. Archivos es complejo.
Numerosos recursos disponibles. Más recursos disponibles, más dificultades de
consulta.
Documentos e información accesible. Acceder (y ejercer el derecho) a numerosa
información y documentos, puede no ser fácil.
Los buscadores resultan familiares para el El módulo de búsquedas no se ejecuta en una
usuario. página web “corriente” ni tampoco en
“google”, se ejecuta en un Archivo.
Los buscadores se limitan a la coincidencia
exacta de palabras clave.
Es la Imagen institucional e identidad digital Insatisfacción o experiencia de uso poco
del Archivo. Es el servicio principal. gratificante: Imagen (institucional y
profesional) dañada.
10
12. … y también los resultados ofrecidos.
Esta evolución que ha ido superando limitaciones técnicas,
ahora se encuentra con nuevos retos:
● Trabajar con un abrumador número de documentos
● Descripciones y recursos disponibles incuantificables
(referencias, instrumentos de descripción, enlaces,
documentos, contenido....datos y más datos)
● Creciente número de usuarios que demandan respuestas a sus
consultas lo más rápidas y efectivas.
● Los archiveros podemos necesitar refuerzos a los instrumentos
de gestión conocidos, e ir más allá del conjunto de normas:
ISAD-G, ISAAR CPF, ISO 15489, ISO 30300...
12
14. (Esto es un conjunto de documentos) 14
17 de jul de 2012
15. Un poco de luz...
15
(Esto es un Archivo)
17 de jul de 2012
16. Esos inconformistas: los usuarios
“Los archivos son lo que son, nos ofrecen sus tesoros cuando
quieren, de manera que no se puede ir de hecho a querer
encontrar algo, sino que... lo que sale sale.
El que busca encuentra, pero no encuentra lo que busca”
Amelia de Paz, hispanista, filóloga y usuaria de Archivos.
Entrevista Cadena Ser, junio 2012
16
19. Algunos problemas en las webs de
Archivos
● Búsqueda en el Archivo no apropiado.
(Ningún resultado)
● Búsquedas sencillas
(Demasiados resultados desordenados)
● Búsquedas complejas / avanzadas
(Relativamente efectivas)
● Recuperación mediante la consulta directa de
instrumentos de descripción
(Requiere ciertos conocimientos)
19
20. Algunos problemas en las webs de
Archivos: ejemplos
● Constitución de Cádiz 1812
(Dispersión de resultados)
● Guerra de la independencia
(Problema de ambigüedad)
● Inquisidor de Aragón / Inquisidores de Aragón
(Connotación uso singular / plural)
● Subvenciones contra el cambio climático
(Neologismos)
...
20
22. Nuevos retos, nuevas herramientas:
La Web Semántica
La esencia de la Web Semántica consiste en
acompañar a la información de:
● Identificadores en los apartados de interés.
● Descripciones explícitas del significado de la
información representada.
● Descripciones de la estructura interna.
● Descripciones globales del contenido.
La clave es la DESCRIPCIÓN para lograr que la
información se enlace entre sí, favoreciendo un uso
más universal y con menos limitaciones.
22
25. “La web semántica es un conjunto de estándares y
recomendaciones, para compartir datos y su contexto en
la web, para ser usado por otras aplicaciones”.
Bob Ducharme Learning Sparql
“Gracias a la semántica en la Web, el software es capaz
de procesar su contenido, razonar con éste, combinarlo
y realizar deducciones lógicas para resolver problemas
cotidianos automáticamente”.
W3C
“En la web semántica, los ordenadores navegan,
buscan, consultan.... por nosotros”
Joshua Tauberer
25
26. La web semántica: una evolución
● Puede ofrecer nuevas utilidades con los documentos y
recursos de los Archivos.
● Las tecnologías semánticas aspiran a corregir algunos
de los problemas planteados anteriormente.
● La evolución obliga a transformar la manera de
generar recursos de información digital y de ofrecer
descripciones (respetando ISAD (G), ISAAR CPF).
● Los datos relevantes de las descripciones o los
documentos, permite asociarse con otros recursos al
compartir un contenido o referencia similar.
26
27. Algunas posibilidades de la web
semántica
● Ofrecer los recursos de
Archivos en entornos de datos
enlazados.
● Desarrollar un módulo de
búsqueda con capacidades
semánticas.
27
29. Recursos de Archivos en entornos de
datos enlazados
Las 5 estrellas LOD de Tim Berners Lee, y los Archivos:
★ Documentos e instrumentos de descripción en la web.
★★ Descripciones e información sobre los documentos,
estructurada y procesable.
★★★ Poner las referencias y documentos en formatos y lotes
abiertos para su reutilización y aprovechamiento por terceros.
★★★★ Uso de identificadores amigables y estables para acceder a
apartados, descripciones y documentos
★★★★★ Documentos y descripciones se relacionan con otras de
diferentes archivos/recursos, generando nueva información de manera
automática, mejorando la experiencia del usuario.
Basado en http://inkdroid.org/journal/2010/06/04/the-5-stars-of-open-linked-data/
29
30. Recursos de Archivos en entornos de
datos enlazados (I)
Los recursos ya no están solos en la web, ahora se
relacionan mediante sus identificadores con otros
conjuntos de datos, para ello:
● Utilizan unos identificadores únicos de recursos para
representarse en la web (URI), .
● Proporcionan información sobre el recurso
identificado.
● Están localizados y disponibles para máquinas.
● Cada recurso contiene información asociada que lo
relaciona automáticamente con otros.
Tim Berners-Lee
30
31. Recursos de Archivos en entornos de
datos enlazados (II)
● Favorecerá la difusión, conexión, reutilización, e
interoperabilidad con otros datos/recursos y
aplicaciones.
● Enriquecimiento (“automático”) de las
descripciones.
● Acceso a la información de manera más abierta y
heterogénea.
● Se logra el entorno: Linked Open Data
– Europeana (EDM)
31
32. Recursos de Archivos en entornos de
datos enlazados (III)
“En la web, el usuario puede navegar por la
información sin ningún conocimiento de la estructura
técnica de respaldo y su experiencia es perfecta,
aunque se vincule de un sitio web a otro.
De la misma forma, los datos vinculados, hacen
posible navegar entre conjuntos de datos distintos,
incluso si se almacenan en diferentes lugares y en
diferentes formatos”.
Convergence and Interoperability: a Linked Data perspective. IFLA 2011
32
33. Social Archive 33
http://socialarchive.iath.virginia.edu/xtf/search
38. Módulo de búsqueda con capacidades
semánticas (I)
● El buscador es un nexo de unión entre los
documentos/descripciones del archivo y el usuario,
un punto de acceso fundamental
● Sus resultados influyen en la satisfacción del
usuario, y el correcto servicio.
● Sin aplicar tecnología semántica el buscador de
recursos se basa en la coincidencia exacta de
términos y en las capacidades (a veces paciencia)
del usuario.
38
39. Módulo de búsqueda con capacidades
semánticas (II)
● El buscador con capacidades semánticas necesita
conocer la estructura de las descripciones, las
relaciones entre partes, componentes, contexto...
para dar soluciones asentadas en:
“operaciones bien definidas que se
llevarán a cabo sobre datos existentes
bien definidos”
W3C
39
40. Una búsqueda SIN tecnología semántica
(sintáctica)
Términos introducidos
≠
Términos existentes en las descripciones
=
0 resultados
40
41. Una búsqueda CON tecnología semántica
Términos introducidos
≠
Términos existentes en las descripciones
=
Resultados atendiendo al significado y contexto
41
42. ● Buscar por los términos:
– Marcas de coches históricos
● Y recuperar la Serie: (sin existir los términos anteriores en ningún área
ni nivel de su descripción)
– Matriculación ordinaria de vehículos
42
43. Se logra:
● Estableciendo reglas de propiedades, clases y relaciones
entre los términos y los significados de áreas concretas.
● Utilizando software encargado de encontrar la relación
entre los términos introducidos por el usuario, las reglas
establecidas, y el contenido de las descripciones.
Esto permitirá ponderar unos resultados con respecto a
otros y mejorar el orden de respuesta según su
relevancia.
43
48. Algunos buscadores... ¡¡en Archivos!!
● http://www.w3.org/2001/sw/sweo/public/UseCases/SaltLu
x-NAK/ National Archives of Korea. 48
49. ¿Y cómo se implanta la web semántica, el
buscador, enlazar diferentes datos...?
49
50. Resumen del esquema de componentes
1 Una base de datos (fuentes de datos)
2 Un motor de inferencia
3 Un lenguaje de interrogación
4 Ontologías
50
51. 1 Una base de datos.
● La base de datos: ofrece
datos e información
estructurada en
formatos determinados
(¿html, xml, rdf...?)
51
52. Los datos ofrecidos
Mora Insa, Juan
(1880 -1959)
● Los humanos entendemos:
Apellido1 Apellido2, Nombre
(Año_Nacimiento -Año_Defunción)
● Los ordenadores “entienden”:
Mora Insa, Juan (1880 -1959)
011100000110000101101100011000
0...
52
53. Los datos se deben de estructurar...
... para que la
información pueda ser
legible e interpretable
por software y
máquinas.
Ejemplo de datos
estructurados
(ARANOR)
53
54. Algunas formas de estructurar los datos: HTML, XML,
y RDF
HTML
XML
54
55. Algunas formas de estructurar los datos: HTML, XML,
y RDF
HTML
XML
55
56. RDF Resource Description Framework: Modelo de datos
del W3C para la web semántica
● Marco de descripción de recursos
● No es un formato, es un modelo de datos con una sintaxis
definida.
● Describe y representa datos (metadatos), más allá de
estructurarlos (XML). Los recursos se describen por medio de
conexiones entre ellos.
● Establece sencillas relaciones entre los datos y permite su
identificación (URI: Uniform Resource Identifier).
● URI: citables y enlazables
● Permite el intercambio de datos
● RDF es el lenguaje de las máquinas, y está por encima de los
metadatos empleados en los estándares ISAAR, MARC, ISAD (G),
Dublin Core, EXIF....
56
●
57. RDF Resource Description Framework
Sujeto (Recurso) Predicado (propiedad) Objeto (Valor)
Mora Insa, Juan Es Persona
Mora Insa, Juan Nacida 1880
Mora Insa, Juan Fallecida 1959
… … ...
57
64. 2 Un motor de inferencia
Aporta y deduce nuevo conocimiento adicional mediante el
reasoner (razonador), entre la consulta/petición, y la
información o recursos disponibles.
64
65. 3 Un lenguaje de interrogación
● SPARQL (Protocol and RDF Query Language) es el lenguaje
de consulta que actúa de intermediario utilizando diversos
software y fuentes de datos.
● Realiza las preguntas y logra el acceso a datos disponibles.
● Recopila, conecta y transforma datos RDF para ofrecer una
respuesta.
● Puede realizar consultas a múltiples fuentes de datos.
65
67. 4 Ontologías
Representan una realidad o área del conocimiento
mediante la jerarquización, relación, clasificación y
consenso de conceptos y apartados.
67
68. 4 Ontologías (I)
Representan una realidad o área del conocimiento
mediante la jerarquización, relación, clasificación y
consenso de conceptos y apartados.
¿Un Cuadro de clasificación es una
ontología?
68
69. Ontologías (II)
- Las definiciones de los conceptos que componen las ontologías
y sus relaciones, se realiza mediante un lenguaje normalizado
que permite la interoperabilidad y la interpretación por parte de
máquinas o agentes de software.
- Proporcionan un vocabulario consensuado de clases,
atributos, y relaciones que representan un dominio específico o
universo del discurso, con la finalidad de compartir conocimiento,
y la representación de éste entre usuarios.
- OWL Web Ontology Language OWL, lenguaje que define y
representa ontologías en la web mediante la definición de todo
tipo de relaciones de clases de la parte del conocimiento que
representan.
Permiten deducir de la información existente en una base de
datos nuevo conocimiento mediante la inferencia.
69
71. Los Archivos y las Ontologías
● Los archivos pueden disponer de tantas ontologías como
fondos, materias, materiales, series, periodos históricos,
instituciones, trámites administrativos, normas, cuadros...
se quieran representar.
● Las ontologías desarrolladas en los archivos pueden ser
numerosas, teniendo en cuenta que se pueden
interconectar, son modulables y reutilizables.
● El consenso y la máxima colaboración de profesionales que
conozcan la documentación, y las necesidades de los
usuarios puede ser clave para el desarrollo con éxito de
ontologías.
71
72. “Un profesional de los archivos no sólo debería conocer qué
es una ontología y cómo diseñarla, sino que sería esencial
que además tuviera nociones sobre cómo implementar,
gestionar y mantener estas herramientas para asegurar su
funcionamiento”
José Manuel Morales-del-Castillo y Germán Hurtado Martín
Integrando las tecnologías de Web Semántica en la Archivística
72
76. La tecnología semántica conecta recursos (LOD)
● La documentación casi siempre se relaciona con otros
documentos de diferentes fondos/archivos, pero resulta
imposible establecer asociaciones (salvo nota ISAD).
● La tecnología semántica puede ofrecer información
adicional: lugares, instituciones, hechos históricos,
materias …
● Recuperar datos de diferentes fuentes es muy importante,
pero no es menos, que la información relacionada va a
poder ser interpretada en su conjunto:
– Improve discoverability “mejora el descubrimiento”
76
77. La web semántica renueva la tecnología
● Los profesionales de los Archivos tenemos cada vez
más responsabilidades ante la dimensión tecnológica:
– Debemos conocer la volatilidad de programas
– Posibilidades de los gestores documentales.
– Formas de ofrecer los recursos electrónicos
– Normalización y estándares de descripción
– Uso de diferentes metadatos y formatos
– …
● La tecnología semántica puede ser un centro de
gravedad para frenar este constante “caos”.
77
78. Semantizar, es universalizar
● La consulta de documentación no se puede limitar al
acceso a sedes electrónicas o webs concretas, cuando se
puede desarrollar el Archivo de los Archivos, a través de
datos enlazados.
● Más allá de usar diferentes modelos OAI, EAC, EAD, EXIF...
la tecnología semántica pasa a poner al servicio de
cualquier máquina los datos, independientemente de los
estándares utilizados, gracias a los URI (LODLAM).
● Pasaremos de un modelo docucéntrico a datacéntrico, Mark
A. Matienzo
78
82. Las normas archivísticas: ¿nuevas o mismas
posibilidades?
● Los Archivos utilizan normas para describir recursos, éstas
seguirán siendo su base (Información jerárquica y
multinivel).
● La representación de recursos mediante normas, con la
tecnología semántica, ofrecerán otras posibilidades de
explotación de las mismas.
● Millones de recursos archivísticos están normalizados, se
debe aprovechar la tecnología semántica para mejorar su
difusión.
● Será fundamental convertir los registros XML (EAD, EAC) a
modelos RDF, (y mejor a entornos LOD).
82
83. La semántica puede ser un buen aliado de los
Archivos.
● La tecnología semántica puede ayudar a mejorar la
interacción entre los usuarios y el archivo.
● Ofrecer datos en entornos abiertos genera confianza por
parte de los archivos (e instituciones productoras).
● Favorece el uso y consulta de las descripciones (potencia el
acceso)
● Los documentos de los Archivos (públicos) son de los
ciudadanos: el reto siempre es hacerlos llegar.
● RDF puede resolver algunos de los problemas derivados de
la preservación digital de recursos web (LOCAH project).
83
84. Hay que tener en cuenta...
● Los archiveros debemos conocer las posibilidades de
estos componentes.
● Poner en funcionamiento este conjunto de elementos
necesita de desarrolladores que ensamblen cada apartado,
y de archiveros que fijen los objetivos.
Algunas herramientas y programas que posibilitan la web semántica se puede
consultar desde el W3C.
http://www.w3.org/2001/sw/wiki/Tools
● La puesta en marcha de la web semántica requiere una
fuerte inversión en recursos humanos y técnicos que lo
hagan posible y viable en el tiempo.
84
87. History Pin
87
http://www.historypin.com/map/#!/geo:39.466437,-77.741837/zoom:13
88. 4 El Archivo Histórico Provincial de
Zaragoza: proyecto de implantación de
tecnología semántica.
89. El Archivo Histórico Provincial de Zaragoza:
proyecto de implantación de tecnología
semántica.
89
90. El Archivo Histórico Provincial de Zaragoza:
proyecto de implantación de tecnología
semántica.
Proyecto de uso de tecnología semántica en una parte del
fondo fotográfico de Juan Mora Insa (Mora Industrial):
● Es una colección fotográfica limitada (<1500 recursos)
● Son materiales con un impacto positivo en los usuarios.
● Son recursos universales (imágenes).
● La descripción de fotografías es menos problemática que
otros materiales documentales.
● Servirá para empezar con esta tecnología, y enfocar su
aplicación futura con otros fondos y colecciones.
90
91. La colección de Mora Industrial en LOD. Punto
de partida
● En estos momentos, cada foto de esta colección dispone de
una descripción RDF (photoshop).
91
92. La colección de Mora Industrial en LOD. Punto
de partida
● Y también dispone de su descripción ISAD (G) en EAD.
92
93. La conversión
● Ambos recursos de información [RDF (photoshop) e ISAD-G
(EAD)] se deben de transformar en un metamodelo
normalizado: Europeana Data Model.
● EDM adoptará toda la información disponible sobre la
fotografía: descripción realizada en el Archivo junto con
otros metadatos.
● Señalar que EDM (Europeana Data Model): se basa en
reutilizar entornos y estándares muy variados: OAI-ORE,
Dublin Core, SKOS, FOAF... a modo de ontología
“universal”.
93
94. Europeana (EDM) es muy variada y ambiciosa
● Pero (de momento) no tiene muy en cuenta los Archivos, ni
sus modelos de descripciones:
94
96. Se debe de procesar.... a EDM
● EAD:
– OAI-ORE: información sobre la descripción de
fondos, secciones, subsecciones y series.
– CRM información relativa a hechos históricos
asociados al Archivo (contexto archivístico).
– Dublin Core para las unidades documentales
(Objetos digitales).
● EAC: (forzar)
– FOAF: Personas
Basado en:
- El Modelo de Datos de Europeana (EDM) / Doerr
- Definition of the Europeana Data Model elements
http://pro.europeana.eu/tech-details
- Conversion of EAD into EDM Linked Data 96
http://www.few.vu.nl/~aisaac/papers/EADtoEDM.pdf
97. Y aunque EDM, de momento, no usa
modelos de descripciones archivísticas
(se han tenido que procesar)
:(
97
99. … para lograr un entorno LOD que sirva para
CultureGrid (UK)
AHPZ (Spain)
Puente / Bridge
● Conectar Fotografía / Photography
● Relacionar Juan Mora Insa / de Mare, Eric
Caspe / Saltash
● Posicionar
195? / 1954
● Usar 99
MF_MORAIND/0055/AA98-05393
100. Recomendable conocer...
● Tecnologías de la Web semántica. Pastor Sánchez, Juan Antonio. (2011)
● How to Publish Linked Data on the Web. Chris Bizer.
http://www4.wiwiss.fu-berlin.de/bizer/pub/linkeddatatutorial/
● Web semántica y sistemas de información documental. Lluis Codina, Mari
Carmen Marcos y Rafael Pedraza. (2009)
● TFC: XML y Web semántica. Estudio del impacto... García Ruiz, Ricardo
(2008)
openaccess.uoc.edu/webapps/o2/bitstream/10609/1861/1/42897.pdf
● Sistema de análisis automático de fotografías. Torres Rodríguez, Nuria
(2008) http://e-archivo.uc3m.es/handle/10016/5204
● International Linked Open Data in Libraries Archives and Museums
Summit http://lod-lam.net/summit/
● Linked Data for Libraries, Archives, Museums (2012)
http://www.slideshare.net/ljsmart/linked-data-for-libraries-archives-museums
● Linked Data and Archival Description: Confluences, Contingencies, and
Conflicts. Matienzo, Mark A. @anarchivist (2010)
http://ecommons.library.cornell.edu/handle/1813/14512
● Semasntic Web W3C http://www.w3.org/2001/sw/
● An Introduction to Linked Open Data in Libraries, Archives & Museums.
http://www.youtube.com/watch?v=vUBTd8WZZ5A 100
101. “Si lo archiva, sabrá dónde está pero casi nunca lo necesitará.
Si no lo archiva, lo necesitará pero nunca sabrá dónde está”
Principio organizativo de Tillis
Gracias!
julianmoyanoc@gmail.com
@jmcollado
101
102. Fotografías utilizadas
p 27Foto Lacasitos http://www.flickr.com/photos/reedsturtevant/4287666265/)
p 27 Foto binoculars Niño Andy Hay Flickr (http://www.flickr.com/photos/andyhay/239756376/ )
p 49 Foto Mago: Eva Pebar. http://www.flickr.com/photos/evaysucamara/5438832695/
p 52 Perro Flicker http://www.flickr.com/photos/walkadog/3353936487/sizes/m/in/photostream/
p 70 Foto Colador http://www.flickr.com/photos/benhosking/5055301773/sizes/z/in/photostream/
p 70 Pegamento http://www.flickr.com/photos/lylamerle/1398264226/sizes/m/in/photostream/
p 42 Foto coche antiguo http://www.flickr.com/photos/mdpettitt/283440735/sizes/m/in/photostream/
p 47 Engranajes http://www.flickr.com/photos/ajc1/5738974571/sizes/m/in/photostream/
p 51 Armario Archivador http://www.flickr.com/photos/eiriks/3359730744/sizes/m/in/photostream/
p 64 The Thinker Monkey por Banksy
p 17 La ciudad no es para mi, r Pedro Lazaga. Legajos de Forges.
La Nube http://www.rtve.es/alacarta/videos/la-nube/nube-instante-futuro/1455957 39,29
DARA documentos y Archivos de Aragón: http://www.sipca.es/dara/
102