SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
GT Digital Preservation

Rio de Janeiro
Setembro de 2011
Roteiro


   ●   Motivação

   ●   Serviço proposto

   ●   Modelo de replicação

   ●   Implementação e arquitetura do
       sistema

   ●   Protótipo no PlanetLab

   ●   Conclusão
Motivação


Importância dos dados digitais

  ●   Nossa herança cultural tem sido preservada em
      muitos materiais diferentes, incluindo rocha,
      couro, seda, papel e outros

  ●   Hoje uma quantidade considerável de
      informação está sendo produzida em formato
      digital

  ●   Curiosamente o meio digital é mais vulnerável
      a deterioração que os meios convencionais
Motivação


Preservação digital

 ●   Boa parte das instituições tem grande
     dificuldade para preservar seus dados

 ●   Dificuldades principais:
      ●   Custos com hardware e infra-estrutura
      ●   Ausência de pessoal especializado
      ●   O volume de informação armazenada cresce
            constantemente
Motivação


Preservação digital

  ●   Redes de compartilhamento de arquivos Peer-
      to-Peer não atendem os requisitos de
      preservação digital pois previligiam conteúdo
      popular

  ●   Nuvens computacionais não oferecem as
      garantias de longo prazo necessárias

  ●   Além de considerar as falhas de hardware e
      software é necessário considerar falhas
      organizacionais e humanas
Serviço proposto



Objetivo



   Oferecer um sistema de arquivamento digital
      baseado em armazenamento distribuído
   garantindo preservação de dados a baixo custo
   por períodos de tempo indefinidamente longos
Serviço proposto


Algumas considerações importantes

 ●   O sistema é baseado no modelo de federação
      ●   Facilidade de adesão é importante

 ●   Os dados são imutáveis

 ●   Os servidores de armazenamento considerados são
     tipicamente PCs com arrays de disco SATA

 ●   Desempenho para recuperação dos dados não é uma
     preocupação

 ●   Heterogeneidade é desejável
Serviço proposto


Algumas considerações importantes

 ●   O sistema é baseado no modelo de federação
      ● Facilidade de adesão é importante




 ●   Os dados são imutáveis

 ●   Os servidores de armazenamento considerados são
     tipicamente PCs com arrays de disco SATA

 ●   Desempenho para recuperação dos dados não é uma
     preocupação

 ●   Heterogeneidade é desejável
Serviço proposto


Requisitos para implementação

 ●   O sistema deve ser o menos intrusivo possível

 ●   Evitar sobrecargas, especialmente em disco

 ●   Utilização de ferramentas e protocolos com
     implementações seguras e amplamente disponíveis

 ●   Instalável em uma grande variedade de plataformas
O Modelo


Modelo de replicação

    ●   Conjunto de repositórios (computadores
        executando o sistema) distribuídos
        geograficamente

    ●   Repositórios podem ser desde servidores de
        alta-disponibilidade instalados em centros de
        dados até desktops comuns

    ●   A unidade de preservação é um item ou
        objeto digital
O Modelo


Definições do modelo

   ●   Uma métrica de confiabilidade é associada a
       cada repositório

   ●   Cada item é armazenado com uma
       confiabilidade desejada que reflete a
       importância do item

   ●   Para atender a confiabilidade desejada para
       um item, réplicas são criadas nos repositórios
O Modelo




●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%
●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
Auditoria


O processo de auditoria

    ●   Réplicas podem ser perdidas durante o tempo

    ●   É necessário verificar periodicamente a
        existência destas réplicas

    ●   Quanto maior o número de auditorias maior a
        confiabilidade obtida
        ●   Entretanto esse intervalo de tempo não pode ser pequeno
Implementação do Protótipo


Implementação

   ●   Repositórios são PC rodando alguma
       distribuição Linux

   ●   Uso de ferramentas padrão do sistema

   ●   Bash scripts, linguagem C e Java

   ●   Software Livre GPL
Arquitetura do protótipo
Implementação


Camada de Armazenamento

 ●   Responsável pelo armazenamento das réplicas
     dos objetos digitais

 ●   São implementadas as operações de
     transferência de objetos digitais entre
     repositórios (replicação) e de verificação
     periódica da integridade do conteúdo das
     réplicas

 ●   Secure Shell (SSH) e Rsync
Implementação



Camada de Gerenciamento

 ●   Responsável por gerenciar os objetos do
     repositório para garantir os níveis de
     confiabilidade


 ●   Inserção, auditoria, recuperação e consulta de
      objetos
Implementação


Estratégia para seleção de réplicas

 ●   Escolhemos aleatoriamente um conjunto de
     repositórios candidatos a armazenar as réplicas
     de um determinado item

 ●   Para este conjunto de repositórios, calculamos o
     intervalo de auditoria necessário para atingir a
     confiabilidade desejada

 ●   O intervalo de auditoria mínimo é configurado
     pelo administrador local do sistema
Simulação



   ●
     Espaço total: 200TB
   ● Utilização de 99% do espaço

   ● Total de ítens: 58.000

   ● 48.437.231MB (48TB)




N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%)

 50    1000000     80          10             30             10
 50    1000000     90          10             30             10
 50    1000000     80          10             45             10
 50    1000000     90          10             45             10
100 anos sem auditoria
100 anos com auditoria
Implementação
500 anos com auditoria
500 anos sem auditoria




           Tudo foi perdido!
Implementação



Camada da Interface

  ●   A padronização da comunicação entre as
      aplicações e a camada de gerenciamento é
      realizada por um serviço web

  ●   Web Service (SOAP, WSDL, Java)

  ●   Inserir, consultar e recuperar
Implementação


Camada de Aplicações

 ●   Diversas aplicações podem necessitar ou desejar
     um serviço de preservação

 ●   Usuário pode inserir, consultar e recuperar seus
     arquivos

 ●   Escolhemos o Dspace (sistema de biblioteca
     digitais utilizado por mais de 1000 instituições)
Implementação


Camada de Aplicações

 ●   Diversas aplicações podem necessitar ou desejar
     um serviço de preservação

 ●   Usuário pode inserir, consultar e recuperar seus
     arquivos

 ●   Escolhemos o Dspace (sistema de biblioteca
     digitais utilizado por mais de 1000 instituições)
Protótipo no Planetlab


O Ambiente

 ●   Rede formada por milhares de computadores
     espalhados pelo planeta

 ●   Nodos do slice estão quase sempre
     sobrecarregados

 ●   Em muitos casos podemos dizer que as
     condições oferecidas são piores que a realidade
Protótipo no Planetlab

Avaliação

  ●   A implantação no Plab obrigou a refinar a
      implementação tornando o sistema mais
      robusto

  ●   Devemos ampliar o número de repositórios no
      futuro próximo

  ●   E utilizar essa rede para preservar o acervo dos
      100 anos da UFPR
Protótipo no Planetlab


Avaliação

 ●   Principais funcionalidades estão implementadas

 ●   As decisões iniciais de projetos se mostraram
     acertadas

 ●   Existe um bom número de interessados em
     utilizar o sistema
Protótipo no Planetlab
Implementação


Avaliação

 ●   Principais funcionalidades estão implementadas

 ●   As decisões iniciais de projetos se mostraram
     acertadas

 ●   Dissertações e TCC também foram produzidos

 ●   Existe um bom número de interessados em
     utilizar o sistema
Protótipo no Planetlab


Para uma nova fase

 ●   Estimar a confiabilidade de cada repositório
 ●   Compartilhamento das chaves SSH
 ●   Sistema de Indexação
 ●   Controle do consumo de recursos
 ●   Ferramentas para operação do serviço
 ●   O modelo de governança a ser adotado
Conclusão e Trabalhos Futuros




 ●   O problema atacado é relevante

 ●   O modelo parece adequado e o protótipo mostra
     a viabilidade prática do serviço

 ●   Integrar mais nodos do PlanetLab e também

 ●   Fase de “acabamento” do projeto: versão final
      da documentação, novo site, etc.

Weitere ähnliche Inhalte

Was ist angesagt?

Linux e o modelo open source
Linux e o modelo open sourceLinux e o modelo open source
Linux e o modelo open sourceFrederico Madeira
 
Aula 3 (alta disponibilidade)
Aula 3 (alta disponibilidade)Aula 3 (alta disponibilidade)
Aula 3 (alta disponibilidade)Evandro Júnior
 
Alta Disponibilidade na Prática utilizando servidores Linux
Alta Disponibilidade na Prática utilizando servidores LinuxAlta Disponibilidade na Prática utilizando servidores Linux
Alta Disponibilidade na Prática utilizando servidores Linuxelliando dias
 
Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Marcelo Dieder
 
Alta Disponibilidade
Alta DisponibilidadeAlta Disponibilidade
Alta Disponibilidadeelliando dias
 
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...Zabbix BR
 
Zabbix FLISOL Campinas 28-04-2012
Zabbix FLISOL Campinas 28-04-2012Zabbix FLISOL Campinas 28-04-2012
Zabbix FLISOL Campinas 28-04-2012André Déo
 
Estou seguro com no sql
Estou seguro com no sqlEstou seguro com no sql
Estou seguro com no sqlRafael Redondo
 
Estratégia de backup - RMAN
Estratégia de backup - RMANEstratégia de backup - RMAN
Estratégia de backup - RMANEduardo Legatti
 

Was ist angesagt? (14)

Linux e o modelo open source
Linux e o modelo open sourceLinux e o modelo open source
Linux e o modelo open source
 
Aula 3 (alta disponibilidade)
Aula 3 (alta disponibilidade)Aula 3 (alta disponibilidade)
Aula 3 (alta disponibilidade)
 
Alta Disponibilidade na Prática utilizando servidores Linux
Alta Disponibilidade na Prática utilizando servidores LinuxAlta Disponibilidade na Prática utilizando servidores Linux
Alta Disponibilidade na Prática utilizando servidores Linux
 
Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?Como criar infraestrutura de sites para receber milhões de usuários?
Como criar infraestrutura de sites para receber milhões de usuários?
 
Apresentacao sobre o QNX Neutrino
Apresentacao sobre o QNX NeutrinoApresentacao sobre o QNX Neutrino
Apresentacao sobre o QNX Neutrino
 
Sistemas Operacionais de Tempo Real
Sistemas Operacionais de Tempo RealSistemas Operacionais de Tempo Real
Sistemas Operacionais de Tempo Real
 
Alta Disponibilidade
Alta DisponibilidadeAlta Disponibilidade
Alta Disponibilidade
 
Google File System
Google File SystemGoogle File System
Google File System
 
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...
1º Meetup Zabbix Meetup do Recife: Danilo Barros - Zabbix dicas e truques par...
 
Zabbix FLISOL Campinas 28-04-2012
Zabbix FLISOL Campinas 28-04-2012Zabbix FLISOL Campinas 28-04-2012
Zabbix FLISOL Campinas 28-04-2012
 
Estou seguro com no sql
Estou seguro com no sqlEstou seguro com no sql
Estou seguro com no sql
 
Estratégia de backup - RMAN
Estratégia de backup - RMANEstratégia de backup - RMAN
Estratégia de backup - RMAN
 
Boteco Xen
Boteco XenBoteco Xen
Boteco Xen
 
Monitoração com Nagios
Monitoração com NagiosMonitoração com Nagios
Monitoração com Nagios
 

Andere mochten auch

Tragedies of globalization 20110712
Tragedies of globalization   20110712Tragedies of globalization   20110712
Tragedies of globalization 20110712Steven Millward
 
Näringslivsdagen 2010. Jarnheimer customer focus eng
Näringslivsdagen 2010. Jarnheimer customer focus engNäringslivsdagen 2010. Jarnheimer customer focus eng
Näringslivsdagen 2010. Jarnheimer customer focus engÅlands Näringsliv
 
Tools for the classroom of the future
Tools for the classroom of the future Tools for the classroom of the future
Tools for the classroom of the future Michael Wolf
 
Service Design Thinking: una guida per tutti
Service Design Thinking: una guida per tuttiService Design Thinking: una guida per tutti
Service Design Thinking: una guida per tuttiCristiana Pivetta
 
Comodo RMM (Remote Monitoring and Management) Software Administrator Guide
Comodo RMM (Remote Monitoring and Management) Software Administrator GuideComodo RMM (Remote Monitoring and Management) Software Administrator Guide
Comodo RMM (Remote Monitoring and Management) Software Administrator GuideStacey Matthews
 
1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta
1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta
1ºBACH HISTORIA Guía de estudio tema 1 Europa despiertaGeohistoria23
 
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.Augusto Vitte Corleone
 
Tecnicas de biología molecular
Tecnicas de biología molecularTecnicas de biología molecular
Tecnicas de biología molecularBernardoOro
 
The Real World December 2012
The Real World December 2012The Real World December 2012
The Real World December 2012Posterscope
 
Mi Tabla IngléS.
Mi Tabla IngléS.Mi Tabla IngléS.
Mi Tabla IngléS.guestdb147
 
Music Industry Thesis Oct 2010
Music Industry Thesis Oct 2010Music Industry Thesis Oct 2010
Music Industry Thesis Oct 2010Michael Jones
 
Mantenimiento a un ventilador
Mantenimiento a un ventiladorMantenimiento a un ventilador
Mantenimiento a un ventiladorAndres Ochoa
 

Andere mochten auch (20)

Tragedies of globalization 20110712
Tragedies of globalization   20110712Tragedies of globalization   20110712
Tragedies of globalization 20110712
 
Näringslivsdagen 2010. Jarnheimer customer focus eng
Näringslivsdagen 2010. Jarnheimer customer focus engNäringslivsdagen 2010. Jarnheimer customer focus eng
Näringslivsdagen 2010. Jarnheimer customer focus eng
 
Future trends
Future trendsFuture trends
Future trends
 
Tools for the classroom of the future
Tools for the classroom of the future Tools for the classroom of the future
Tools for the classroom of the future
 
Service Design Thinking: una guida per tutti
Service Design Thinking: una guida per tuttiService Design Thinking: una guida per tutti
Service Design Thinking: una guida per tutti
 
CCNA DUMPS 200-120
CCNA DUMPS 200-120CCNA DUMPS 200-120
CCNA DUMPS 200-120
 
Remedios Varo
Remedios VaroRemedios Varo
Remedios Varo
 
Pcr
PcrPcr
Pcr
 
Comodo RMM (Remote Monitoring and Management) Software Administrator Guide
Comodo RMM (Remote Monitoring and Management) Software Administrator GuideComodo RMM (Remote Monitoring and Management) Software Administrator Guide
Comodo RMM (Remote Monitoring and Management) Software Administrator Guide
 
1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta
1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta
1ºBACH HISTORIA Guía de estudio tema 1 Europa despierta
 
Grécia: Organização das cidades-estado
Grécia: Organização das cidades-estadoGrécia: Organização das cidades-estado
Grécia: Organização das cidades-estado
 
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.
Análisis del barrio Las Cumbres en Aguascalientes, Aguascalientes.
 
Tecnicas de biología molecular
Tecnicas de biología molecularTecnicas de biología molecular
Tecnicas de biología molecular
 
The Real World December 2012
The Real World December 2012The Real World December 2012
The Real World December 2012
 
Mi Tabla IngléS.
Mi Tabla IngléS.Mi Tabla IngléS.
Mi Tabla IngléS.
 
Capillasixtina
CapillasixtinaCapillasixtina
Capillasixtina
 
Las drogas
Las drogasLas drogas
Las drogas
 
Music Industry Thesis Oct 2010
Music Industry Thesis Oct 2010Music Industry Thesis Oct 2010
Music Industry Thesis Oct 2010
 
Mantenimiento a un ventilador
Mantenimiento a un ventiladorMantenimiento a un ventilador
Mantenimiento a un ventilador
 
Presentación cmc
Presentación cmcPresentación cmc
Presentación cmc
 

Ähnlich wie Apresentação GT - Digital Preservation

Estaleiro o uso de kubernetes no serpro
Estaleiro   o uso de kubernetes no serproEstaleiro   o uso de kubernetes no serpro
Estaleiro o uso de kubernetes no serproRicardo Katz
 
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021Renato Groffe
 
Projetos Estruturados de Redes - Parte 3
Projetos Estruturados de Redes - Parte 3Projetos Estruturados de Redes - Parte 3
Projetos Estruturados de Redes - Parte 3José Wagner Bungart
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxDell Technologies
 
Dev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataDev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataAlexandre Cardoso
 
Planejamento (e recuperação) de Desastres por Rodrigo Campos
Planejamento (e recuperação) de Desastres por Rodrigo CamposPlanejamento (e recuperação) de Desastres por Rodrigo Campos
Planejamento (e recuperação) de Desastres por Rodrigo CamposJoao Galdino Mello de Souza
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...CPqD
 
Segurança em servidores Linux
Segurança em servidores LinuxSegurança em servidores Linux
Segurança em servidores LinuxImpacta Eventos
 
SNMP - Rafael Rodriques
SNMP - Rafael RodriquesSNMP - Rafael Rodriques
SNMP - Rafael Rodriquesmarleigrolli
 
Backup+e+archiving+na+nuvem+aws+ +ricardo+geh
Backup+e+archiving+na+nuvem+aws+ +ricardo+gehBackup+e+archiving+na+nuvem+aws+ +ricardo+geh
Backup+e+archiving+na+nuvem+aws+ +ricardo+gehAmazon Web Services LATAM
 
Transição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasTransição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasDenodo
 
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de A...
Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de A...Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de A...
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de A...Jonhnny Weslley
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHPFelipe Ribeiro
 
Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Flávio Lisboa
 

Ähnlich wie Apresentação GT - Digital Preservation (20)

Estaleiro o uso de kubernetes no serpro
Estaleiro   o uso de kubernetes no serproEstaleiro   o uso de kubernetes no serpro
Estaleiro o uso de kubernetes no serpro
 
Consegi 2011: Ganeti + Puppet
Consegi 2011: Ganeti + PuppetConsegi 2011: Ganeti + Puppet
Consegi 2011: Ganeti + Puppet
 
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021
Boas Práticas em Aplicações na Nuvem: Twelve-Factor App | TDC Connections 2021
 
Projetos Estruturados de Redes - Parte 3
Projetos Estruturados de Redes - Parte 3Projetos Estruturados de Redes - Parte 3
Projetos Estruturados de Redes - Parte 3
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - Linux
 
Tibero
TiberoTibero
Tibero
 
Dev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataDev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big Data
 
Planejamento (e recuperação) de Desastres por Rodrigo Campos
Planejamento (e recuperação) de Desastres por Rodrigo CamposPlanejamento (e recuperação) de Desastres por Rodrigo Campos
Planejamento (e recuperação) de Desastres por Rodrigo Campos
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
 
Segurança em servidores Linux
Segurança em servidores LinuxSegurança em servidores Linux
Segurança em servidores Linux
 
SNMP - Rafael Rodriques
SNMP - Rafael RodriquesSNMP - Rafael Rodriques
SNMP - Rafael Rodriques
 
Backup+e+archiving+na+nuvem+aws+ +ricardo+geh
Backup+e+archiving+na+nuvem+aws+ +ricardo+gehBackup+e+archiving+na+nuvem+aws+ +ricardo+geh
Backup+e+archiving+na+nuvem+aws+ +ricardo+geh
 
Transição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasTransição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e Estratégias
 
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de A...
Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de A...Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de A...
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de A...
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
arcserve in the AWS cloud
arcserve in the AWS cloud arcserve in the AWS cloud
arcserve in the AWS cloud
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHP
 
Mulesoft Meetup Latam Summit Brazil
Mulesoft Meetup Latam Summit BrazilMulesoft Meetup Latam Summit Brazil
Mulesoft Meetup Latam Summit Brazil
 
Overview de QA
Overview de QA Overview de QA
Overview de QA
 
Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011
 

Apresentação GT - Digital Preservation

  • 1. GT Digital Preservation Rio de Janeiro Setembro de 2011
  • 2. Roteiro ● Motivação ● Serviço proposto ● Modelo de replicação ● Implementação e arquitetura do sistema ● Protótipo no PlanetLab ● Conclusão
  • 3. Motivação Importância dos dados digitais ● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros ● Hoje uma quantidade considerável de informação está sendo produzida em formato digital ● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais
  • 4. Motivação Preservação digital ● Boa parte das instituições tem grande dificuldade para preservar seus dados ● Dificuldades principais: ● Custos com hardware e infra-estrutura ● Ausência de pessoal especializado ● O volume de informação armazenada cresce constantemente
  • 5. Motivação Preservação digital ● Redes de compartilhamento de arquivos Peer- to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular ● Nuvens computacionais não oferecem as garantias de longo prazo necessárias ● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas
  • 6. Serviço proposto Objetivo Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos
  • 7. Serviço proposto Algumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
  • 8. Serviço proposto Algumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
  • 9. Serviço proposto Requisitos para implementação ● O sistema deve ser o menos intrusivo possível ● Evitar sobrecargas, especialmente em disco ● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis ● Instalável em uma grande variedade de plataformas
  • 10. O Modelo Modelo de replicação ● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente ● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns ● A unidade de preservação é um item ou objeto digital
  • 11. O Modelo Definições do modelo ● Uma métrica de confiabilidade é associada a cada repositório ● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item ● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios
  • 12. O Modelo ●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993% ●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
  • 13. Auditoria O processo de auditoria ● Réplicas podem ser perdidas durante o tempo ● É necessário verificar periodicamente a existência destas réplicas ● Quanto maior o número de auditorias maior a confiabilidade obtida ● Entretanto esse intervalo de tempo não pode ser pequeno
  • 14. Implementação do Protótipo Implementação ● Repositórios são PC rodando alguma distribuição Linux ● Uso de ferramentas padrão do sistema ● Bash scripts, linguagem C e Java ● Software Livre GPL
  • 16. Implementação Camada de Armazenamento ● Responsável pelo armazenamento das réplicas dos objetos digitais ● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas ● Secure Shell (SSH) e Rsync
  • 17. Implementação Camada de Gerenciamento ● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade ● Inserção, auditoria, recuperação e consulta de objetos
  • 18. Implementação Estratégia para seleção de réplicas ● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item ● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada ● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema
  • 19. Simulação ● Espaço total: 200TB ● Utilização de 99% do espaço ● Total de ítens: 58.000 ● 48.437.231MB (48TB) N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%) 50 1000000 80 10 30 10 50 1000000 90 10 30 10 50 1000000 80 10 45 10 50 1000000 90 10 45 10
  • 20. 100 anos sem auditoria
  • 21. 100 anos com auditoria Implementação
  • 22. 500 anos com auditoria
  • 23. 500 anos sem auditoria Tudo foi perdido!
  • 24. Implementação Camada da Interface ● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web ● Web Service (SOAP, WSDL, Java) ● Inserir, consultar e recuperar
  • 25. Implementação Camada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
  • 26. Implementação Camada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
  • 27. Protótipo no Planetlab O Ambiente ● Rede formada por milhares de computadores espalhados pelo planeta ● Nodos do slice estão quase sempre sobrecarregados ● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade
  • 28. Protótipo no Planetlab Avaliação ● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto ● Devemos ampliar o número de repositórios no futuro próximo ● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR
  • 29. Protótipo no Planetlab Avaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Existe um bom número de interessados em utilizar o sistema
  • 30. Protótipo no Planetlab Implementação Avaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Dissertações e TCC também foram produzidos ● Existe um bom número de interessados em utilizar o sistema
  • 31. Protótipo no Planetlab Para uma nova fase ● Estimar a confiabilidade de cada repositório ● Compartilhamento das chaves SSH ● Sistema de Indexação ● Controle do consumo de recursos ● Ferramentas para operação do serviço ● O modelo de governança a ser adotado
  • 32. Conclusão e Trabalhos Futuros ● O problema atacado é relevante ● O modelo parece adequado e o protótipo mostra a viabilidade prática do serviço ● Integrar mais nodos do PlanetLab e também ● Fase de “acabamento” do projeto: versão final da documentação, novo site, etc.