El documento describe la problemática de la preservación digital a largo plazo, conocida como la dificultad de garantizar el acceso continuo a documentos digitales debido a la obsolescencia tecnológica. Explica que la preservación digital implica mantener no solo los soportes, sino también la capacidad de interpretar los formatos y aplicaciones a lo largo del tiempo. Asimismo, resume las principales técnicas de preservación como la migración y renovación de soportes, así como el uso de metadatos y formatos estándares para facilitar la
Proyecto integrador. Las TIC en la sociedad S4.pptx
Normalización y preservación digital
1. Normalización y preservación digital:
de la gestión cultural a la continuidad del
negocio
Jornadas Innovadoc’08
Ricardo Eito Brun
Universidad Carlos III de Madrid
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 1:
UNA PROBLEMÁTICA CONOCIDA…
PROBLEMÁ CONOCIDA…
2. La preservación y
El ciclo de vida de los contenidos digitales
El ciclo de vida de los contenidos digitales abarca las actividades
relacionadas con su creación, almacenamiento, uso corriente
(recuperación) y posterior archivo a corto, medio y largo plazo.
Hasta la fecha actual, se ha prestado mayor atención a las técnicas
relacionadas con las primeras etapas del ciclo de vida:
◦ Desarrollo de herramientas
◦ Desarrollo de sistemas de metadatos
◦ Desarrollo de estándares.
Ejemplo:
◦ gestión de metadatos claramente enfocada a la recuperación
◦ Inversión en tecnologías GED prioritarias: indexación, workflow
distribución, servicios de biblioteca.
La preservación y
El ciclo de vida de los contenidos digitales
Enfoque tradicional:
“preservación + digital” equivalía a:
◦ Digitalización de documentos en papel,
◦ con el objetivo de evitar el uso de las versiones impresas y
◦ Garantizar la preservación de los originales.
◦ Se trataba de preservar documentos impresos usando representaciones digitales de los
mismos que evitasen su deterioro.
◦ En los primeros sistemas de gestión de flujos de trabajo, la digitalización de
documentos impresos constituía un medio para agilizar su tratamiento en el
contexto de los procesos administrativos.
La digitalización era una actividad orientada a la consecución de unos
objetivos ajenos a la representación digital en sí misma.
Prácticas asociadas normalmente a la protección de bienes culturales.
3. La preservación y
El ciclo de vida de los contenidos digitales
Enfoque actual:
◦ Estamos en un entorno caracterizado por:
generación de documentos en formato electrónico directamente
Interrogantes y dudas sobre la validez legal y carácter probatorio de los
documentos
Documentos vs Datos, y Documentos con mayor complejidad estructural
Cada día más transacciones de las que no existe una evidencia en papel.
Especial atención a cuestiones relativas a la Seguridad de la Información y de
los activos “menos tangibles” de las organizaciones.
◦ ha supuesto un cambio de aproximación necesario:
las copias impresas se generan para soportar actividades de trabajo y el uso
de los documentos,
los documentos se almacenan y transmiten en soporte digital
El documento digital pasa a ser el objeto de la preservación, y no el medio.
La preservación y
El ciclo de vida de los contenidos digitales
Enfoque actual:
◦ Prácticas asociadas a:
Protección de bienes culturales / patrimonio documental
Protección de la organización (de sus actividades, derechos, PI)
Aseguramiento de la continuidad de las actividades.
Protección de registros e “información basada en documentos”
◦ Implicaciones adicionales a la accesibilidad para garantizar en el
largo plazo:
Inteligibilidad de la información
Confidencialidad en el acceso
Autenticidad de los objetos
Integridad de la información
◦ ISO 15489-1, 7.1
“To support the continuing conduct of business, comply with the regulatory
environment, and provide necessary accountability, organizations should create an
maintain authentic, reliable and useable records, and protect the integrity for
those records for as long as required”
4. La preservación y
El ciclo de vida de los contenidos digitales
¿Qué significa “largo plazo”?
◦ ISO/TR 18492:2005: “Long-term preservation of electronic document-based
information”
◦ “Cuando el periodo de conservación excede la expectativa de vida de la
tecnología (hardware y software) utilizada para crear y mantener la
información”
◦ Periodo variable
◦ Depende de las características y necesidades de cada organización.
◦ ISO/PDTR 26102:2007:
“Tiempo lo suficientemente amplio como para tener que preocuparnos por el
impacto de cambios en la tecnología, nuevos media y formatos de datos, o
por una comunidad de usuarios cambiante. Se puede extender
indefinidamente.”
La preservación y
El ciclo de vida de los contenidos digitales
¿Qué significa “documento”?
ISO/TR 18492:2005, “Long-term preservation of electronic document-based information”
◦ Información “auténtica” basada en documentos:
“Información que puede tratarse como una unidad (por ejemplo una imagen, texto, hoja de
cálculo, vistas de una base de datos)”
“Información electrónica cuya exactitud, fiabilidad e integridad se mantiene a lo largo del
tiempo”
◦ Información + Contexto + Estructura:
“Contexto:
información acerca de las circunstancias de creación, control, uso, almacenamiento y gestión
de la información-e basada en otros documentos;
e información acerca de su relación con otro material similar”
“Estructura:
atributos lógicos y físicos de la información (jerarquía con apartados, tipo de fuente,
espaciado, etc.)”
◦ Estos tres aspectos son inicialmente el objeto de la preservación digital
5. La preservación digital
una problemática bien conocida…
Una de las grandes incógnitas relacionadas con la documentación
en soporte electrónico es su preservación futura
Dentro de un número no determinado de años, ¿podremos seguir
accediendo a estos materiales de la misma forma en que hoy
accedemos a los documentos impresos años y siglos atrás?
◦ Los documentos digitales no sólo exigen conservar sus soportes en un
estado óptimo que permita su uso,
◦ también es necesario:
mantener y asegurar el correcto funcionamiento de los equipos
informáticos (hardware y software) empleados para acceder a ellos
Mantener la capacidad de interpretar los formatos en los que están
codificados los documentos.
La preservación digital
una problemática bien conocida…
El problema anterior se acentúa por la continua evolución de la
tecnología, que afecta:
◦ a los soportes,
◦ a los formatos y
◦ a las aplicaciones informáticas capaces de interpretarlos.
Las presiones del mercado obligan a revisar y actualizar formatos y
programas informáticos:
La continua evolución genera en ocasiones:
◦ versiones incompatibles de un mismo aplicativo software o formato, y
◦ dificultades para reconocer los documentos creados con las versiones
anteriores de un programa.
Evolución continua Obsolescencia
Innovación ¿posible enemigo de la normalización?
6. La preservación digital
una problemática bien conocida…
A corto plazo estos problemas pueden evitarse gestionando con
atención la evolución de los “parques informáticos” de las
instituciones,
A largo plazo la situación exige un enfoque sistemático, dada la
dificultad de prever la evolución futura de las tecnologías.
Una actuación adecuada exige:
◦ Formulación de políticas y planes orientados a la preservación de los
documentos y recursos de información digital.
◦ Los objetivos de estas políticas no deben centrarse únicamente en la
conservación de los materiales, sino también en asegurar su uso mediante la
infraestructura técnica necesaria para acceder a ellos.
◦ Se debe atender a cuestiones relativas a la autenticidad e integridad de los
documentos.
La preservación digital
una problemática bien conocida…
Así, las políticas y estrategias de preservación de documentos
electrónicos deben prestar atención a tres factores:
◦ la obsolescencia de los soportes físicos utilizados para su
almacenamiento,
◦ la obsolescencia de los formatos empleados para su codificación, y
◦ la obsolescencia de las aplicaciones informáticas y equipamiento
hardware necesarios para su lectura.
7. La preservación digital
una problemática bien conocida…
Hay dificultades adicionales a las “técnicas”
Muchas de las medidas que se deberían adoptar están en manos de
terceras partes:
productores de contenidos
fabricantes de aplicaciones hardware y software.
Cuyos intereses pueden entrar en conflicto con las
recomendaciones para la preservación.
◦ Ejemplo: aunque se recomienda el uso de formatos estándares el productor de
contenidos puede optar por elegir formatos menos costosos o que le permitan
diferenciarse de sus competidores.
La concienciación y colaboración de los distintos actores que
intervienen en la producción, gestión, almacenamiento y
distribución de los contenidos se convierte en un imperativo para
disponer de garantías a largo plazo.
La preservación digital
una problemática bien conocida…
Las organizaciones que desarrollan políticas de preservación digital
contraen una importante responsabilidad como:
◦ Garante de la continuidad del legado intelectual, científico o literario de
una comunidad y de su preservación para las siguientes generaciones.
◦ Garante de la “continuidad administrativa” de una organización.
◦ Garante de la integridad de los documentos digitales – es decir, el que
nadie pueda alterar su contenido intencionada o accidentalmente, ni su
autenticidad.
◦ Establecer criterios de selección: en el medio digital no se puede
pretender preservar todo lo que se publica/genera.
◦ Asumir complejidad y costes técnicos
8. La preservación digital
técnicas ampliamente aceptadas…
La literatura (texto y normas) y las prácticas profesionales
describen una serie de técnicas en torno a las que articular un
programa de preservación.
◦ Renovación de soportes o “rejuvenecimiento”,
◦ Migración de datos
◦ Preservación de sistemas informáticos
◦ Emulación
◦ Autodocumentación
◦ Uso de formatos estándares
La preservación digital
técnicas ampliamente aceptadas…
Renovación de soportes o rejuvenecimiento
◦ Consiste en traspasar regularmente los datos de un soporte de almacenamiento
a otro más moderno. No se hacen cambios en el formato de los datos;
Migración
◦ Implica un cambio en el formato de los documentos para reemplazar su formato
por otro más actual;
Preservación de sistemas informáticos
◦ Costosa, exige mantener el HW y SW original en condiciones de uso.
◦ Se usa en periodos de retención cortos (entre 3-5 años una vez se ha
reemplazado una tecnología)
Emuladores
◦ También costosa, exige preservar las aplicaciones informáticas utilizadas para
emular a la original.
Auto-documentación/Encapsulado
◦ inclusión – como parte del documento – de la información necesaria para que
éste pueda ser interpretado / comprendido por un “usuario” (SW o persona)
9. La preservación digital
técnicas ampliamente aceptadas…
El rejuvenecimiento y migración (técnicas más comunes) deben
realizarse de forma sistemática:
◦ planificada,
◦ siguiendo unos procedimientos,
◦ por personal competente y herramientas cualificadas,
◦ verificando sus resultados, y
◦ documentando la ejecución del proceso.
Las transferencias y los cambios que se realicen en los documentos
digitales pueden causar efectos no deseados que afecten a su
contenido, legibilidad, o que pongan en duda su autenticidad e
integridad.
La preservación digital
Metadatos
Todas estas técnicas exigen información sobre los materiales
objeto de preservación, que se recogerá en forma de metadatos.
Nos permitirán conocer datos como el tipo de aplicación
informática necesaria para leer el documento, formato, versión,
surrogados generados mediante algoritmos para evaluar su
autenticidad, etc.
El enfoque tradicional “mantener metadatos descriptivos para
identificar y recuperar documentos” se completa con otros que
garanticen su preservación, integridad, autenticidad y capacidad de
usarlos.
10. La preservación digital
Metadatos
Estos metadatos para la preservación deberán quedar vinculados al
objeto al que se refieren a lo largo de todo su ciclo de
vida/preservacion.
“Los metadatos se necesitan para permitir la re-creación e
interpretación del contenido, contexto, estructura, apariencia y
comportamiento de los registros digitales a lo largo del tiempo.”
ISO/PDTR 26102.4
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2:
BREVE RESUMEN DE LA NORMATIVA
11. La preservación digital
Normativa específica
Incluimos normas e informes técnicos elaborados por organismos
de normalización
Cubren distintos aspectos:
◦ Formatos orientados a la preservación
ISO 19005-1:2005, “Document management -- Electronic document file format for
long-term preservation -- Part 1: Use of PDF 1.4 (PDF/A-1)”
Especificaciones XML del W3C
◦ Prácticas de gestión y organizativas
ISO 14721:2003, “Space data and information transfer systems -- Open
archival information system -- Reference model”
ISO/TR 18492:2005, “Long-term preservation of electronic document-based
information” (UNE-ISO/TR 18492:2008 IN Conservación a largo plazo de la
información basada en documentos)
ISO/CD TR 26102, “Information and documentation -- Requirements for
long-term preservation of electronic records” (periodo de comentarios)
◦ Metadatos para la preservación
Iniciativa PREMIS (Library of Congress)
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2.1:
BREVE RESUMEN DE LA NORMATIVA
ISO 19005-1:2005, “DOCUMENT MANAGEMENT -- ELECTRONIC
19005-
DOCUMENT FILE FORMAT FOR LONG-TERM PRESERVATION -- PART 1:
LONG-
USE OF PDF 1.4 (PDF/A-1)”
(PDF/A- 1)”
12. La preservación digital
ISO 19005-1:2005, PDF/A-1
El uso de formatos estándares es una de las recomendaciones en
todas las estrategias / políticas de preservación digital.
Formatos independientes de fabricantes específicos, no sujetos a la
evolución ni a presiones del mercado.
Formatos que evolucionan en respuesta al consenso alcanzado por
representantes de la industria y usuarios que participan en
organismos de normalización.
La función de los “depósitos de almacenamiento” incluiría la
conversión de los documentos recibidos a formatos más idóneos
para la preservación a largo plazo.
El uso de formatos estándar es sólo un componente dentro de las
estrategias de preservación (no un garante absoluto de ésta)
La preservación digital
ISO 19005-1:2005, PDF/A-1
PDF/A puede verse como una versión simplificada de la versión 1.4
del formato PDF, publicado por Adobe®.
Puede verse como una versión “estabilizada” del formato.
Hereda las ventajas del formato: independencia de plataforma,
metadatos embebidos, archivos compactos, fidelidad al original,
costes de producción bajos.
3 años de desarrollo, con la participación de:
◦ AIIM (Association for Information and Image Management),
◦ NPES (National Printing Equipment Association)
◦ Administrative Office of the U.S. Court
◦ Adobe Systems
◦ Library of Congress,
◦ NARA (National Archives & Records Administration).
◦ Xerox, EMC, Honeywell, EDS, etc.
13. La preservación digital
ISO 19005-1:2005, PDF/A-1
Establece:
◦ “un formato de archivo basado en PDF, llamado PDF/A, que ofrece mecanismos para
representar documentos electrónicos de forma que preserva en el tiempo su apariencia
visual, independientemente de las herramientas y sistemas usados para crear,
almacenar o mostrar los archivos”
Características del formato:
◦ Auto-contenidos, sin dependencias de enlaces u objetos externos.
◦ Se añaden restricciones a la versión 1.4 de PDF y se excluyen algunas
características de este formato, con el fin de asegurar una mayor estabilidad.
2 niveles de conformidad, PDF/A-1a y PDF/A-1b (capacidad de
extraer texto limitada).
En proceso la revisión para adaptar características de PDF 1.5, 1.6
y 1.7 (PDF/A-2)
Herramientas disponibles y soporte de la industria.
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2.2:
BREVE RESUMEN DE LA NORMATIVA
ISO 14721:2003, “SPACE DATA AND INFORMATION TRANSFER
SYSTEMS -- OPEN ARCHIVAL INFORMATION SYSTEM -- REFERENCE
MODEL”
14. La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
OAIS (Open Archival Information System)
Define un modelo de referencia para un “archivo digital”
(sería más correcto hablar de sistema de información de archivo).
Modelo de referencia es:
◦ “marco para comprender las relaciones entre las entidades de un entorno
determinado, para el desarrollo de estándares o especificaciones; un modelo de
referencia se basa en un número pequeño de conceptos que pueden usarse como una
base para la formación y para explicar las normas a personas no especializadas”
Propone un modelo conceptual, independiente de implementación
técnica.
No debemos asociar este concepto con los archivos abiertos (open
archives) y OAI (Open Archives Initiative)
La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
Su origen se encuentra en el sector espacial., en 1990
Publicada por el Consultative Committee for Space Data Systems
(CCSDS), organismo en el que participan distintas agencias
nacionales para desarro estándares para la gestión de datos
espaciales.
Reference Model for an Open Archival Information System (Blue Book
Version) publicado en enero del 2002
◦ Establece un modelo de referencia frente al cual se pueden evaluar los
sistemas dedicados a la preservación digital.
◦ Define funciones que caracterizan a este tipo de organizaciones y los
servicios que deben prestar a sus usuarios.
◦ La falta de un modelo similar que pudiese tomarse como referencia,
hizo que OAIS pasase de ser un modelo genérico (no sólo para
espacio).
15. La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
Un archivo digital u OAIS se define como una
“organización formada por personas y sistemas que han aceptado la
responsabilidad de preservar información y hacerla disponible (facilitar el
acceso) para una determinada comunidad de usuarios.”
OAIS no especifica una implementación particular del modelo; ni
siquiera se mencionan sistemas informáticos, bases de datos o
tecnologías particulares.
Diferencia:
◦ Responsabilidades
◦ Entorno
◦ Modelo funcional
◦ Modelo de información
Apartado 5 cita técnicas: transformación, rejuvenecimiento,
preservación HW/SW, emulación y conservación del código
fuente.
La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
Responsabilidades de un OAIS:
◦ Establecer criterios de selección para los materiales (consideración de
derechos de autor y lograr el interés de los productores de
información para depositar materiales);
◦ Aceptar información por parte de los productores (reglas establecidas
para su ingreso);
◦ Asegurar que la información que se preserva es comprensible por la
comunidad de usuarios
◦ Poner a disposición de los usuarios la información que se preserva
◦ Aplicar procedimientos y políticas documentadas que aseguren la
preservación de la información frente a contingencias razonables y la
difusión de copias de autenticidad contrastada.
◦ Control del uso que la comunidad hace del sistema
16. La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
Entorno de un OAIS
Tres entidades externas que interactúan con el archivo:
productores, usuarios y encargados de su gestión.
◦ OAIS debe ofrecer algún tipo de interfaz para que los productores
puedan transferir o volcar información., regulada por algún tipo de
acuerdo .
◦ Los usuarios o consumidores son las personas, organizaciones o sistemas
informáticos que consultan los materiales preservados en el archivo.
Soporte a búsqueda (ad hoc y basadas en eventos) y petición de
documentos, asistencia, etc.
◦ Los encargados de la gestión del OAIS serán los responsables de
formular las políticas, gestionar su financiación, establecer precios para
los servicios que se prestan, revisar el funcionamiento del archivo y
resolver conflictos con productores y usuarios.
La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
Modelo funcional de una OAIS
◦ Ingreso o admisión (ingest): proceso para la recepción de los
objetos digitales procedentes de los productores;.
◦ Almacenamiento (archival storage): se refiere a la preservación de los
objetos digitales en un archivo.
◦ Gestión de datos (data management): se encarga de la gestión y
mantenimiento de los metadatos descriptivos.
◦ Planificación de la preservación (preservation planning): hace un
seguimiento del entorno exterior del archivo para identificar la
influencia de las nuevas tecnologías.
◦ Acceso (access): servicios que usarán los usuarios para consultar los
materiales, solicitarlos y obtener copias.
◦ Gestión (administration): gestión diaria del archivo.
17. La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
La preservación digital
ISO 14721:2003, Modelo Referencia OAIS
CCSDS 650.0-B-1 detalla mediante representaciones gráficas cada
uno de estos seis servicios, descomponiendo las actividades que
conforman el servicio y el procesamiento que se espera se haga
con los datos.
Estos seis servicios se complementan con los llamados servicios
comunes, que incluyen funciones relativas a la seguridad (claves de
acceso, autenticación de usuarios, etc.), servicios de red, etc.
18. La preservación digital
ISO 14721:2003, Modelo de Información
Modelo de información
Propone la gestión de documentos digitales junto con los
metadatos necesarios para su preservación.
Se habla de un information package o IP, que reúne en una misma
entidad el documento digital junto a sus metadatos.
Distingue tres tipos de IP:
◦ el utilizado por los proveedores para enviar información al archivo,
llamado Submission Information Package (SIP);
◦ el utilizado por el archivo para el almacenamiento y preservación de los
objetos, llamado Archival Information Package (AIP); y
◦ el que se usa para la distribución de los objetos al usuario final, o
Dissemination Information Package (DIP).
La relación entre estos tres tipos de IP no es uno a uno.
La preservación digital
ISO 14721:2003, Modelo de Información
19. La preservación digital
ISO 14721:2003, Modelo de Información
La distinción entre IP resulta en una mayor flexibilidad para las
distintas partes implicadas en el mantenimiento y uso del archivo.
◦ Se acepta que distintas organizaciones pueden optar por usar distintos
metadatos y formatos de transferencia.
◦ No toda la información necesaria para la preservación de la información
podrá ser facilitada por el productor, ni será necesario facilitarla a los
usuarios.
El modelo exige contar así con mecanismos para la transformación
entre los formatos y metadatos usados por los distintos IP.
La preservación digital
ISO 14721:2003, Modelo de Información
Un IP consta de partes:
◦ Información-Contenido (Content Information o CI), consiste en el
contenido a preservar y la información que los usuarios necesitan para
comprenderla.
◦ Información de preservación / descriptión (Preservation Description
Information o PDI), que recoge los metadatos necesarios para su
preservación.
◦ Información de empaquetado (Packaging Information) – datos que
agrupan el CI (Content Information) con el PDI (Preservation Description
Information) en una única entidad.
◦ Información descriptiva (Descriptive Information) – son metadatos
para facilitar la recuperación del objeto, búsquedas, etc.
20. La preservación digital
ISO 14721:2003, Modelo de Información
Los metadatos para preservación se subdividen en:
◦ Información de referencia (Reference Information) – son los
identificadores del objeto en el archivo, o externos tipo ISBN, DOI.
◦ Información de contexto (Context Information) – representa las
relaciones del objeto con su entorno y con otros objetos (distintas
versiones, copias en otros formatos, etc.)
◦ Información de procedencia (Provenance Information) – información
sobre la creación del objeto, acciones que se ha hecho sobre él con el
fin de preservarlo, cambios en su custodia, etc.
◦ Información de integridad (Fixity Information) –metadatos que
permiten comprobar la autenticidad e integridad del objeto, como
marcas digitales, check sums, hash, etc.
La preservación digital
ISO 14721:2003, Interoperabilidad
OAIS plantea la posibilidad de consultar y acceder a datos
disponibles en distintos archivos OAIS y tener interfaces.
Establece cuatro niveles de clasificación de los OAIS:
◦ Independencia, cuando no existe ningún tipo de interacción con otros
OAIS; el archivo atiende únicamente las solicitudes de su propia
comunidad de usuarios.
◦ Cooperación: un OAIS actúa como usuario de otro OAIS
◦ Recursos compartidos – cuando existen acuerdos entre OAIS para
compartir recursos.
◦ Federados – cuando varios OAIS sirven a una comunidad global a la que
se ofrecen herramientas de búsqueda comunes. Normalmente se
añadirá a este modelo un catálogo común
21. La preservación digital
ISO 14721:2003, aplicación en bibliotecas
La especificación OAIS se formuló en el contexto de la gestión de
datos espaciales.
Pronto se reconoció su valor como una aproximación general,
válida en cualquier contexto.
La comunidad bibliotecaria desarrolló iniciativas que tomaron
como punto de partida este modelo de referencia, :
◦ DIAS (Digital Information Archiving System) de la Koninklijke Bibliotheek
(Biblioteca Nacional de Holanda e IBM)
◦ NEDLIB (Networked European Deposit Library)
◦ CEDARS (CURL Exemplars in Digital Archives). Proyecto conjunto de las
universidades inglesas de Oxford, Leads y Cambridge
◦ PANDORA (Preserving and Accessing Networked Documentary Resources
of Australia), proyecto de la National Library of Australia
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2.3:
BREVE RESUMEN DE LA NORMATIVA
”ISO/TR 18492:2005, “LONG-TERM PRESERVATION OF
LONG-
ELECTRONIC DOCUMENT-BASED INFORMATION”
DOCUMENT- INFORMATION”
22. La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document- information”
Estado: 60.60 International Standard published
Objetivos:
◦ “Marco para el desarrollo de estrategias y buenas prácticas aplicables
a una amplia gama de información electrónica basada en
documentos del sector público y privado”
◦ “Se aplica a todas las formas de información generada por los
sistemas de información y guardada como evidencia de transacciones
y actividades de gestión”
◦ Define características de la información que deben asegurarse:
Legibilidad = estado del soporte, obsolescencia y vulnerabilidad.
Inteligibilidad = capacidad de que un aplicativo SW interprete el formato
Recuperabilidad = capacidad de que un aplicativo SW recupere secciones
del archivo.
Comprensibilidad = capacidad de que una persona/SW acceda al
contexto del documento (relación con otros documentos u enlaces lógicos).
La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document - information”
Recomendaciones (se pueden agrupar en):
◦ Relativas al uso de técnicas de preservación
◦ Relativas al uso de formatos estándares
◦ Relativas a aspectos organizativos y enfoque de gestión.
◦ Relativas a la seguridad de la información (física y lógica)
◦ Relativas al registro y control de las acciones de preservación
◦ Relativas a la auditoría de las acciones de preservación y al
seguimiento de procedimientos.
23. La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document- information”
Recomendaciones: Técnicas de preservación:
◦ Menciona la renovación de soportes, migración de información,
autodocumentación (no aborda emulación).
◦ “La estrategia debería abordar la obsolescencia de los soportes
estableciendo procedimientos para transferir periódicamente la
información de soportes antiguos a nuevos”
◦ “Una estrategia de conservación a largo plazo debería abordar la
cuestión de la dependencia del software. “
“Cuando se actualiza el software la información debería trasladarse
automáticamente, junto con el esquema de representación física subyacente, y el
contenido y el contexto, al nuevo entorno.”
◦ “Uso de soportes no reescribibles, accesos sólo-lectura, códigos CRC,
funciones hash o similar para poder verificar la integridad de los
documentos”
◦ “Información inteligible para el ordenador”
La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document - information”
Recomendaciones: Uso de formatos estándares:
◦ “Asegurar que los datos se formatean de manera que los usuarios en
el futuro procesen los datos (formatos válidos para cualquier
tecnología)”
◦ “Los depósitos de almacenamiento deberían considerar la migración
desde una amplia variedad de formatos utilizados por los creadores o
receptores a […] formatos “normalizados” a partir de su
transferencia a la custodia del depósito. “
◦ Formatos citados de forma explícita: PDF/A, TIFF, JPEG y XML
24. La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document- information”
Recomendaciones: Enfoque de gestión/SegInf.:
◦ Establecer un depósito de almacenamiento ante la dificultad de
proteger la información de ser alterada mientras permanezca en un
entorno de producción.
◦ Crear políticas y procedimientos documentados
◦ Aclarar y documentar roles y funciones del personal
◦ Identificar el tipo de custodia y las circunstancias en las que se iniciarán
acciones de preservación, técnicas a usar, etc.
◦ Establecer controles y auditorías de conformidad
◦ Disponer de registros y control de acceso para el personal
◦ Disponer de medidas de seguridad física contra desastres
◦ Establecer procedimientos de recuperación ante desastres
◦ Disponer de una instalación de almacenamiento secundaria para las
copias de seguridad de los soportes de almacenamiento
La preservación digital
ISO/TR 18492:2005, “Long-term preservation of electronic
Long-
document-based information”
document - information”
Recomendaciones: Registro de actividades preservación:
◦ Documentación minuciosa y completa de todos los pasos seguidos en
el reformateo.
◦ Personas (agentes) que ejecutaron el proceso;
◦ Fecha en que tuvo lugar;
◦ Formato de los datos;
◦ Comparación de los valores CRC o hash generados antes y después de
la operación;
◦ Comparación visual de instancias reformateadas con sus equivalentes en
el antiguo formato.
Recomendaciones: Auditoría de actividades preservación:
◦ “Una tercera parte debería revisar estas acciones para determinar que
se llevaron a cabo de acuerdo con procedimientos establecidos. “
25. Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2.4:
BREVE RESUMEN DE LA NORMATIVA
”ISO/CD TR 26102, “INFORMATION AND
DOCUMENTATION -- REQUIREMENTS FOR LONG-TERM
LONG-
PRESERVATION OF ELECTRONIC RECORDS”
RECORDS”
La preservación digital
ISO/CD TR 26102, “Requirements for long-term
long-
preservation of electronic records
Estado: 30.60 (en desarrollo)
Extiende requisitos sobre gestión de documentos de la ISO
15489-1, en aspectos relacionados con su preservación a
largo plazo.
La política de gestión de documentos incluirá:
◦ Compromiso con las actividades preservación (disponer de recursos)
◦ Uso de estándares
◦ Descripción de prácticas de preservación
◦ Descripción de roles y funciones.
◦ Sistemas de auditoría
◦ Identificar situaciones donde se inician acciones de preservación.
◦ Normalización de formatos, herramientas y dispositivos
almacenamiento.
26. La preservación digital
ISO/CD TR 26102, “Requirements for long-term
long-
preservation of electronic records
Prácticas específicas:
◦ Captura de metadatos automáticamente
◦ Crear un sistema centralizado para la preservación de registros.
◦ Asegurar existencia de logs y datos de auditoría
◦ Implementar controles de acceso y seguridad
◦ Migrar registros digitales a nuevos sistemas.
◦ Señala características deseables de los formatos de archivo
◦ Referencia a políticas de seguridad, firma digital, encriptado,
compresión, etc.
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 2.5:
BREVE RESUMEN DE LA NORMATIVA
“PREMIS (PRESERVATION METADATA IMPLEMENTATION
STRATEGIES)”
STRATEGIES)”
27. La preservación digital
PREMIS: normalización de metadatos
Resultado de sintetizar los logros de iniciativas anteriores
Formuló un estándar que recogiese las conclusiones de
experiencias previas.
El grupo de trabajo se estableció en 2003 (OCLC y RLG), con la
participación de expertos procedentes de bibliotecas, archivos y
museos de distintos países bajo la coordinación de Rebecca
Guenther y Priscilla Caplan.
En la actualidad la información sobre PREMIS y el mantenimiento
de sus especificaciones está disponible en el sitio web de la Library
of Congress.
Si OAIS plantea un modelo de referencia genérico, PREMIS ofrece
información más detallada sobre los metadatos que deben
gestionarse y los esquemas XML para su codificación.
¿dos extremos en la evolución de la preservación digital?
La preservación digital
PREMIS: normalización de metadatos
Precedentes y trabajo previo
En 2000, OCLC y RLG crearon grupo de trabajo , Preservation
Metadata Framework Working Group, cuyas conclusiones se
publicaron en un informe publicado en enero del 2001
En junio del 2002, publicó el informe Preservation Metadata and the
OAIS Information Model: A Metadata Framework to Support the
Preservation of Digital Objects.
Se tomó como punto de partida el modelo de referencia OAIS
para identificar un conjunto de metadatos para la preservación
(muchos procedentes de conjuntos de metadatos ya usados en
CEDARS, NLA o NEDLIB),
28. La preservación digital
PREMIS: normalización de metadatos
PREMIS: Objetivos e hitos
Definir un conjunto de metadatos para la preservación, que tuviese
un carácter práctico (es decir, que pudiesen implementarse y
utilizarse en un sistema real) y
Evaluar alternativas para su codificación, almacenamiento e
intercambio.
Preparación de programas pilotos para verificar conclusiones
Los principales hitos en el desarrollo de PREMIS han sido
◦ Informe Implementing Preservation Repositories for Digital Materials:
Current Practice and Emerging Trends in the Cultural Heritage Community;
en septiembre del 2004
◦ Data Dictionary for Preservation Metadata en mayo del 2005 (V2 abril
2008).
La preservación digital
PREMIS: normalización de metadatos
Informe Implementing…
Resultados de una encuesta dirigida a setenta instituciones de trece
países diferentes (aunque un 46% eran norteamericanas).
Más tarde, en febrero del 2004, se distribuyó a trece instituciones
más, obteniéndose un total de cuarenta y ocho respuestas, un 58%
procedente de bibliotecas, un 15% de archivos, un 6% de museos y
el 23% restante de otro tipo de centros (agencias gubernamentales,
ONG, prensa, etc.).
La encuesta incluía un amplio conjunto de preguntas: relativas al
uso de tecnologías, metadatos y aplicaciones informáticas, la
gestión de derechos de copia, disponibilidad de procedimientos
para la preservación, etc.
29. La preservación digital
PREMIS: normalización de metadatos
Data Dictionary for Preservation Metadata
Describe exhaustivamente los metadatos identificados como
esenciales para la preservación digital.
Son metadatos válidos para cualquier tipo de formato de archivo,
omitiendo propiedades que fuesen únicamente aplicables a
formatos específicos.
Habla de “unidades semánticas”: dato que debemos conocer
para poder articular un programa de preservación; metadato sería
la forma en que lo registramos.
Culminación de iniciativas anteriores y principal referente en la
normalización de metadatos para la preservación.
El grupo de trabajo PREMIS también ha publicado unos esquemas
XML para la codificación de estos metadatos.
La preservación digital
PREMIS: normalización de metadatos
Metadatos y entidades
Los metadatos se organizan en torno a cinco entidades:
Entidad intelectual: contenidos tratados como una unidad, por
ejemplo una monografía.
Objeto: corresponde a un documento en formato electrónico,
como puede ser un archivo en formato PDF, TIFF, ZIP, etc.
Constituye la principal entidad del modelo.
Eventos: actividades que se realizan para la preservación de un
objeto, registro y almacenamiento en un archivo, rejuvenecimiento,
migración, etc.
Agentes: personas, entidades o aplicaciones SW relacionadas con
un evento (no directamente con objetos)
Derechos: permisos para hacer ciertas acciones sobre un objeto
para su preservación. (se excluyen otro tipo de acciones)
30. La preservación digital
PREMIS: normalización de metadatos
Tipos de objetos
bitstream (secuencia de bits),
file (archivos), correspondientes a los archivos procesables por un
programa informático,
filestream, equivalente al tipo file a todos los efectos, se usaría para
archivos comprimidos, encriptados o incluidos dentro de otro
archivo y
representation (representación), resultado de agrupar todos los
archivos necesarios para ensamblar un documento con entidad
propia, y permitir una “presentación completa y razonable de la
entidad intelectual correspondiente” (libro, documento compuesto,
etc.).
La preservación digital
PREMIS: normalización de metadatos
Metadatos específicos
PREMIS recoge metadatos para los objetos, eventos y derechos
No se incluyeron en su alcance los metadatos para las llamadas
entidades intelectuales, (la comunidad de usuarios ya dispone de
numerosos sistemas de metadatos) ni agentes
Hincapié en aquellos que puedan extraerse automáticamente de
los documentos.
Para cada unidad semántica se indica un nombre, definición,
restricciones, aplicabilidad para cada tipo de objeto
(representación, archivo secuencia de bits), carácter opcional u
obligatorio, repetible o no, notas sobre la creación y
mantenimiento del metadato, sobre su uso y ejemplos.
31. La preservación digital
PREMIS: normalización de metadatos
Semantic Unit EnvironmentCharacteristic
Semantic components None
Definition An assessment of the extent to which the described environment supports
its purpose.
Rational If multiple environments are described, this element can help to distinguish
among them.
Data constraint Value should be taken from a controlled vocabulary.
Object category Representation File Bitstream
Applicability Applicable Applicable Applicable
Examples Unspecified Recommended
Minimum Minimum
Repeatibility Not repeatable Not repeatable Not repeatable
Obligation Optional Optional Optional
Creation / Maintenance Noes This value could be supplied by the submitter or by the repository. If
environment software and hardware information is obtained from an
environment registry, environmentCharacteristic might also be obtained
from the registry. Note however that the criteria for “recommended” may be
different for different repositories.
Usage Notes Suggested values:
Unspecified: no attempt made to provide this value
Known to work = the object can be rendered in this environment
Etc.
La preservación digital
PREMIS: normalización de metadatos
Un repositorio que cumpla con PREMIS debe registrar información
para los metadatos marcados como obligatorios en el Diccionario.
Los metadatos que tengan igual nombre que una “unidad
semántica” de PREMIS, deben compartir la misma definición.
PREMIS permite añadir metadatos adicionales a los que figuran en
el diccionario, siempre que éstos no entren en conflicto con los
descritos en él.
No se exige ningún tipo de implementación particular para los
metadatos (forma de almacenarlos, uso de XML, etc.).
Únicamente se dan recomendaciones como tratar de automatizar
en la mayor medida que sea posible la extracción de los metadatos
a partir de los objetos que se añadan al repositorio, o utilizar
vocabularios controlados para los valores de algunos metadatos.
34. La preservación digital
PREMIS: normalización de metadatos
Implementación
Sirve como referencia para herramientas en desarrollo/existentes.
Se dispone de herramientas para automatización de captura de
metadatos: JHOVE, NLNZ Metadata Extraction Tool, DROID,
XENA…
Registros de formatos: Pronom y Global Digital Format Registry
(GDFR)
Necesidad de gestionar metadatos adicionales
Nivel de entidad intelectual
Derechos y agentes
Posibilidad de combinar metadatos PREMIS con otros sistemas de
codificación de documentos electrónicos que actúan como
“contenedores” (METS/MPEG DID ISO/IEC 21000-2: Digital Item
Declaration)
Normalización y preservación digital:
de la gestión cultural a la continuidad del negocio
PARTE 3:
CONCLUSIONES
35. La preservación digital
Conclusiones
Nivel de normalización suficiente para articular sistemas y
desarrollar iniciativas.
Las normas actuales ofrecen pautas a nivel de:
Modelos y prácticas de gestión
Sistemas de metadatos
Formatos de almacenamiento.
Estado de las herramientas, posiblemente deficitario en ciertos
aspectos puntuales.
Amplias posibilidades abiertas por los sistemas código abierto.
Fomentar la visibilidad de las iniciativas de preservación:
Se encuadran en proyectos de Biblioteca Digital enfocados a la creación
/ difusión preliminar y pueden quedar en un “lugar secundario”.
Integrar con / adoptar prácticas “Seguridad Información”.