A British Library está desenvolvendo um programa de arquivamento de páginas web para preservar o patrimônio digital do Reino Unido, coletando mais de 4 milhões de páginas anualmente. O programa enfrenta desafios como a rápida evolução tecnológica e limitações de espaço de armazenamento. A biblioteca também trabalha em parceria com outras instituições para ampliar o escopo do projeto.
1. Preservando a Poesia do Presente –
Programa de Arquivo de Páginas Web da
British Library
Aquiles Alencar Brayner
Aquiles.alencarbrayner@bl.uk
2. 2
Selecao de
material
Estrategias de
acesso ao
acervo
Programas de
extensao
Desenvolvimento da Colecao:
Humanidades e Ciencias Sociais
Identificacao de novas linhas de
pesquisa (presente e futuro)
Objetivos:
Gerenciar programas de
preservacao e acesso para
conteudos em formato digital
Desenvolver estrategias de
comunicacao digital
Reproducao de suporte analogico
em formato digital (digitalizacao)
Dissem
inacao
Preservaca
o
Selecao
Adocao de novas
tecnologias
Estrategias de
preservacao
Curator
Curadoria Digital
Contatos
externos:
Midia,
Governo,
Universidades, etc
Treinamento de
novos
curadores
3. Historico
Projetos de digitalizacao:
http://www.growingknowledge.bl.uk/StartResearching.aspx
UK Web Archive: projecto iniciado en 2003
Missao: “to put in place systems that enable The British Library to
become the point of first resort for anyone who wants to
access a comprehensive archive of material from the UK
Web domain. We will ensure that this archive will be
accessible forever.”
criar sistemas que permitam a Biblioteca Britânica
tornar-se o ponto central de recurso para quem queira
acessar arquivos de material digital no domínio da Web no
Reino Unido e garantir que estes arquivos sejam acessíveis
para sempre.
4. Importancia da preservacao do patrimonio digital
Vivemos atualmanente em uma “Idade das Trevas Digital”
(Terry Kuny, IFLA, 1997) ou “época do esquecimento”
onde a maioria das informacoes que circulam no ambito
digital desaparecem sem que sejam arquivadas.
A maioria das paginas Web tem uma vida aproximada de
2 meses
80% do conteudo das paginas Web sao alterados a cada
ano.
Ha atualmente cerca de 6 milhoes de paginas Web
registradas no Reino Unido – a maioria destas paginas
nao estara disponivel em línha nos proximos 10 anos.
5. Importancia do arquivo de páginas Web
Acesso a informacao em seu contexto historico
Identificar mudancas textuais e graficas em sistemas
institucionais, partidos políticos e governos.
Motivos legais
Acesso ao conteudo de página Web que haja sido
modificado por determinacao judicial
Pesquisa historico-social
Seguir a evolucao dos conteudos Web a partir de sua
funcao de interacao social e mediacao entre grupos
específicos de usuarios (ex. “nativos digitais”, “geracao
X”, “geracao Google,” etc.)
6. Estatísticas de páginas Web no Reino Unido
Mais de 4 milhoes de paginas no dominio “.uk”
Mais de 2 milhoes de paginas nos dominios “.com” , “.net”
que representam 20% do total de paginas Web no Reino
Unido.
Taxa de crescimento anual de 17%
30% dos registros de paginas Web nao sao renovados
Tamanho promedio de paginas Web em 2009: 40MB
Segundo este dado, considera-se que o tamanho das
paginas Web no dominio UK seja de 200TB
Nos ultimos seis anos, o tamanho promedio de cada página
Web foi quintuplicado, e a inclusao de objetos externos nas
paginas (videos, audio, imagens, etc) foi duplicado
7. Aspectos Legais
• Lei de Depósito Legal de Bibliotecas (2003) – arquivo de material
digital en seis bibliotecas. Gra-Bretanha e um dos 30 países que
ja aprovaram leis sobre arquivo de material digital. Apesar disto,
a regulamentacao necessaria para o arquivamento de conteudo
digital está ainda por ser implementada. A expectativa e que,
quando haja a implementacao da lei, o projeto UK Web Archive
se amplie consideravelmente.
• O acesso ao deposito legal para a maioria do material digital
arquivado esta restrito a usuarios da biblioteca
• Permissao de arquivamento – o arquivo de cada nova pagina
Web so pode ser efetuado mediante a permissao legal do
proprietario da pagina ou de quem detenha os direitos de
propriedade intelectual do material disponivel em linha.
8. Limitacoes e obstaculos
• Incompatibilidade do software de coleta (harvesting) em
reconhecer e armazenar conteudos externos (streaming
videos, scripting languages, RSS feeds, etc.)
• Páginas Web estao cada vez mais personalizadas (ex.
cookies) – como armazenar o seu conteudo?
• Rápida mudanca de tecnologias e interface
Aug. 2005 Aug. 2010
9. Selecao
Páginas Web podem ser arquivadas por:
• Quantidade (numero limitado de páginas)
• Espaco de armazenamento
• Período
• Periodicidade de coleta (anual, semestral, trimestral, etc)
• Areas de interesse
• Formatos (ex. inclusao de páginas com video e audio)
• Controle de qualidade
10. Desafios: preservacao e acesso
• Rapida evolucao de software e novas tecnologias: como
acessar os conteudos de paginas Web no contexto em que
estes foram criados? Necesssidade de emular tecnologias
obsoletas
• Como comprimir arquivos sem perda de qualidade?
ex. Tiff -> Jpeg
• Custos de armazenamento
• Restricoes de acesso – páginas con senhas, parte
interditadas de uma página por motivos legais ou instrucao
de seu autor, etc.
11. Producao Poetica Contemporanea em linha
Como arquivar paginas com arquivos multimidia?
http://www.pochanostra.com/
Blogs?
http://nospos.blogspot.com/
11
12. Criacao de consorcios
The UK Web Archiving Consortium (UKWAC)
The British Library
The National Archives
National Library of Wales
National Library of Scotland
JISC (Joint Information Systems Committee)
The Wellcome Trust