Presentada en la Jornada Internacional sobre Archivos Web y Depósito Legal Electrónico, en la Biblioteca Nacional de España (BNE), el día 9 de julio de 2013.
1. EL ARCHIVO DE LA WEB ESPAÑOLA
BIBLIOTECA NACIONAL DE ESPAÑA
Mar Pérez Morillo
Jefe del Servicio Web de la BNE
2. BIBLIOTECA NACIONAL DE ESPAÑA
2
Contexto
Misión del bibliotecario
Otras instituciones patrimoniales
Marco normativo
Historia del proyecto:
Colaboración con Internet Archive
Estado actual:
El Archivo de la Web Española
Convenio de colaboración con Red.es
Próximos pasos:
Traslado de la colección
Diseño arquitectura técnica proyecto
Identificación del patrimonio digital
Recolecciones de la web española con medios propios
Creación de un portal web específico de acceso a la colección
El Archivo de la Web Española
ÍNDICE
3. BIBLIOTECA NACIONAL DE ESPAÑA
3
EL RIESGO DE UNA EDAD OSCURA DIGITAL
El Archivo de la Web Española
4. BIBLIOTECA NACIONAL DE ESPAÑA
4
Contenidos volátiles en la red
Imposibilidad de abrir y leer archivos digitales en el
futuro
Redes sociales: fundamentales para entender
nuestro tiempo
1ª mención → IFLA, 1997
Bibliotecas: primeras aludidas para tratar de salvar
este peligro
El Archivo de la Web Española
EDAD OSCURA DIGITAL
5. BIBLIOTECA NACIONAL DE ESPAÑA
5
Proteger tesoro documental en línea
Evolución: internet → nuevo medio de
producción de contenidos
Bibliotecario: intermediario entre
contenidos y usuario
Preservación de la web → ventana
para investigar el hoy en el futuro
El Archivo de la Web Española
CONTEXTO: MISIÓN DEL BIBLIOTECARIO
6. BIBLIOTECA NACIONAL DE ESPAÑA
6
El Archivo de la Web Española
CONTEXTO: INSTITUCIONES PATRIMONIALES
7. BIBLIOTECA NACIONAL DE ESPAÑA
7
Pioneras internacionalmente:
• BN Australia
• Biblioteca Alexandrina (Egipto)
• Internet Archive
• BN Suecia
En España:
• PADICAT
• ONDARENET
El Archivo de la Web Española
CONTEXTO: INSTITUCIONES PATRIMONIALES
8. BIBLIOTECA NACIONAL DE ESPAÑA
8
Alerta de los riesgos de pérdida de patrimonio
Insta a tomar medidas urgentes:
“Es preferible actuar, aunque no sea de manera exhaustiva ni
impecable, a no hacer nada.”
Insta a la colaboración entre todos los sectores:
“La preservación del patrimonio digital exige un esfuerzo
constante por parte de gobiernos, creadores, editoriales,
industriales del sector e instituciones que se ocupan del
patrimonio.”
Pide legislación para ello:
“Hacer que la legislación … se aplique al patrimonio digital ha de
ser un elemento esencial de la política nacional de preservación.”
El Archivo de la Web Española
CONTEXTO: DIRECTRICES UNESCO
9. BIBLIOTECA NACIONAL DE ESPAÑA
9
International Internet Preservation Consortium
Fundado en 2003 por 11 bibliotecas
nacionales y el Internet Archive
Aglutina principales proyectos de archivado
web en el mundo
Ámbito de colaboración internacional
Plataforma de desarrollo de herramientas
El Archivo de la Web Española
CONTEXTO: IIPC
10. BIBLIOTECA NACIONAL DE ESPAÑA
10
CONTEXTO: MARCO NORMATIVO
El Archivo de la Web Española
11. BIBLIOTECA NACIONAL DE ESPAÑA
11
Directivas UE sobre digitalización y
accesibilidad en línea del material cultural
Ley de Depósito Legal
Ley de Propiedad Intelectual
Ley de Protección de Datos
El Archivo de la Web Española
CONTEXTO: MARCO NORMATIVO
12. BIBLIOTECA NACIONAL DE ESPAÑA
12
Instituciones patrimoniales:
• Manos a la obra, aunque la realidad vaya
más deprisa que la tecnología
Gobiernos:
• Elaboración de legislación sobre DLe
El Archivo de la Web Española
DOBLE CAMINO
13. BIBLIOTECA NACIONAL DE ESPAÑA
13
ARCHIVOS WEB: BASE DEL DLe
El Archivo de la Web Española
14. BIBLIOTECA NACIONAL DE ESPAÑA
14
Posibilitan:
• Recolección contenidos en internet
• Preservación
• Acceso a largo plazo
Uso de herramientas, técnicas y normas comunes →
abre camino al DLe
No se pueden aplicar preservación tradicional
Contenidos transfronterizos
Convergencia internacional de los proyectos
Legislación DLe protege contenidos en línea
El Archivo de la Web Española
ARCHIVOS WEB: BASE DEL DLe
15. BIBLIOTECA NACIONAL DE ESPAÑA
15
REAL DECRETO SOBRE PUBLICACIONES EN LÍNEA
Promulgación Ley DL 3/2011
→ punto de partida
Colaboración entre centros
de conservación y editores
Preservación del acceso al
patrimonio digital
Propósito de ámbito legal de
amplia cobertura
Protección de:
• Propiedad intelectual
• Datos personales
El Archivo de la Web Española
16. BIBLIOTECA NACIONAL DE ESPAÑA
16
COLABORACIÓN CON INTERNET ARCHIVE
El Archivo de la Web Española
2 contratos desde 2009
Fórmula híbrida de captura de contenidos:
Recolecciones masivas (8)
Recolecciones selectivas (2):
• Elecciones Generales 20-N 2011
• Humanidades
85 TB → ± 130 TB:
Selectiva elecciones: 9,2 TB
Selectiva Humanidades: 6,5 TB
Pasos de una recolección:
Crawl de prueba
Crawl en producción
Crawl de parcheado
Análisis de la recolección
17. BIBLIOTECA NACIONAL DE ESPAÑA
17
ARCHIVO DE LA WEB ESPAÑOLA
El Archivo de la Web Española
Robot Heritrix
Datos se guardan en formato W/ARC (ISO 28500:2009):
Comprime los datos
Guarda todo en un solo archivo, enlaces incluidos
Paquetes de herramientas distintos (toolkits):
Web Curator Tool
NetArchive Suite
Elementos de los toolkits:
Robot: Heritrix
Indización: NutchWAX, Solr
Recuperación: Wayback Machine
18. BIBLIOTECA NACIONAL DE ESPAÑA
18
ARCHIVO DE LA WEB ESPAÑOLA
El Archivo de la Web Española
19. BIBLIOTECA NACIONAL DE ESPAÑA
19
CÓMO SE VE UNA PÁGINA ARCHIVADA
El Archivo de la Web Española
20. BIBLIOTECA NACIONAL DE ESPAÑA
20
RECOLECCIONES MASIVAS DOMINIO .ES
El Archivo de la Web Española
21. BIBLIOTECA NACIONAL DE ESPAÑA
21
RECOLECCIÓN SELECTIVA HUMANIDADES
El Archivo de la Web Española
22. BIBLIOTECA NACIONAL DE ESPAÑA
22
RECOLECCIÓN SELECTIVA ELECCIONES 20N
El Archivo de la Web Española
23. BIBLIOTECA NACIONAL DE ESPAÑA
23
CONTENIDOS DESAPARECIDOS EN WEB VIVA
El Archivo de la Web Española
24. BIBLIOTECA NACIONAL DE ESPAÑA
24
PÁGINAS WEB YA DESAPARECIDAS
El Archivo de la Web Española
25. BIBLIOTECA NACIONAL DE ESPAÑA
25
PÁGINAS WEB YA DESAPARECIDAS
El Archivo de la Web Española
27. BIBLIOTECA NACIONAL DE ESPAÑA
27
CONVENIO CON RED.ES (2012)
El Archivo de la Web Española
Desarrollo conjunto de actuaciones
Almacenamiento y acceso a publicaciones en línea
Construcción de un repositorio compartido
Marco de colaboración con CC.AA.
Desarrollo de infraestructuras para
• Recolectar
• Preservar
• Dar acceso
Construcción de arquitectura técnica eficaz
28. BIBLIOTECA NACIONAL DE ESPAÑA
28
PRÓXIMOS PASOS
El Archivo de la Web Española
Traslado de la colección
Identificación del patrimonio digital
Diseño arquitectura técnica proyecto
Recolecciones con medios propios
Portal de acceso a la colección
30. BIBLIOTECA NACIONAL DE ESPAÑA
30
NETARCHIVE SUITE
El Archivo de la Web Española
Conjunto de herramientas para recolectar la web
Pruebas de la BNE para poder recolectar
Software de código abierto
Desarrollado por la BN de Dinamarca
Utilizado por la BnF y la BN de Austria
32. BIBLIOTECA NACIONAL DE ESPAÑA
32
FLUJO DE TRABAJO
El Archivo de la Web Española
Trabajo intrainstitucional:
• Informáticos
• Conservadores de contenido (bibliotecarios)
Colaboración con CC.AA. en el ámbito del CCB
Colaboración con organismos internacionales (IIPC)
Colaboración con otras entidades nacionales (Red.es)
Centros de investigación colaboradores
33. BIBLIOTECA NACIONAL DE ESPAÑA
33
COLABORACIÓN EN PROYECTOS
INTERNACIONALES
El Archivo de la Web Española
34. BIBLIOTECA NACIONAL DE ESPAÑA
34
OTROS ÁMBITOS INTERNACIONALES DE
COOPERACIÓN
El Archivo de la Web Española
ISO: Informe Técnico sobre “Estadísticas y aspectos
de calidad de los archivos web”
SEDDOCH:
• Proyecto en evaluación por la Comisión Europea
• Con bibliotecas nacionales de Eslovenia, Reino
Unido y Holanda
• Fijar criterios de selección de contenidos en línea
35. BIBLIOTECA NACIONAL DE ESPAÑA
35
NECESIDAD DE COLABORACIÓN
El Archivo de la Web Española
Interna
Productores
Institucional
Nacional
Internacional
36. BIBLIOTECA NACIONAL DE ESPAÑA
36
EN NOMBRE DEL EQUIPO, GRACIAS POR VENIR
El Archivo de la Web Española
37. Mar Pérez Morillo
Jefe del Servicio Web
BIBLIOTECA NACIONAL DE ESPAÑA
mar.perez@bne.es
archivoweb@bne.es
Pº de Recoletos 20-22
28071 Madrid
España
T +34 915 167928
www.bne.es