SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Arquivos Digitais na 3ª geração da Web:
uma ideia com mais de 20 anos
José Carlos Ramalho
jcr@di.uminho.pt
jcr@keep.pt
Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de
Informação na Era pós-custodial
A nossa história
Período Projeto
1989 - 1991 HiTeX – Transcrição assistida com semântica
1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das
Gavetas do Cabido”; “Bulário Bracarense”; etc.
2000 Reverse Engineering da BD das “Inquirições de Génere”
2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc.
2006 – 2008 RODA: Preservação Digital
2006 – 2013 CRAV: Consulta Real em Ambiente Virtual
2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital
2013 - ... Archeevo: a nova geração do Digitarq e do CRAV
2013 – 2015 4C: projeto FP7 sobre Preservação Digital
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 2
Um denominador comum:
geração automática de índices
(cronológico, toponímico e
antroponímico). Facilidades: navegação
relacional e não hierárquica.
Produção
massiva de
conteúdos
Milhões de registos
organizados
hierarquicamente:
ISAD, EAD, METS, etc.
De regresso ao passado…
• HITEX (1989-1991): Um Sistema em Desenvolvimento para
Historiadores e Arquivistas
– Normalização: cada um deixar de fazer à sua maneira;
– Reutilização: noção de componente reutilizável com interesse
histórico;
– Classificação: taxonomia padrão de conceitos históricos (classes) que
exprime a ordem de subsunção sobre o conhecimento histórico;
– Tolerância para com informação incompleta: permite a aquisição
incremental de conhecimento histórico;
– Resultados:
• formato HiTeX: uma linguagem de fácil utilização para transcrição documental;
• criação automática de índices: cronológico, toponímico e antroponímico.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 3
Um pequeno exemplo
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4
“Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez ao
Cabido de Braga [: : : ] Ano de 1300.”
Início do primeiro volume do Índice das Gavetas do Cabido de Braga
Asserções:
• D. Martinho de Oliveira era o Arcebispo de Braga em 1300;
• Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano;
• O Cabido guardou uma certidão dessa doação;
• Essa certidão está arquivada no fundo documental designado Gavetas do Cabido;
• Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do
correspondente Índice, compilado no século XVIII.
D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice
Modelo ontológico
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5
Qual a relevância disto no contexto atual?
Três vias alternativas para o
desenvolvimento Web
Setembro de 2013 Engenharia Web 2013 6
Comunidades
Equipamento
Aplicações,
Serviços,
Agentes
• Wikis
• Blogs
• Mashups
• Portais
• Computação Ubíqua
• Espaços Inteligentes
• RFID
• Sistemas Embebidos
• Redes Sensoriais
• Metainformação
• Ontologias
• Serviços Web
• Agentes
• Portais Inteligentes
Evolução da Web
Web Arquivos pt
1ª geração Páginas estáticas 1ª geração Informatização
2ª geração Páginas geradas a partir de
conteúdos em SI
2ª geração Acesso Web à informação
em regime de acesso livre
3ª geração Sites que se atualizam
automaticamente mediante
alterações de 3ªs partes:
BBC
• Integração automática de
SI
• Normalização
• Identificadores
persistentes
• ...
3ª geração • Integração
• Dados com semântica
• Novos modelos de acesso
• Aplicações de valor
acrescentado
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 7
É preciso aumentar o nível de percepção das “máquinas”…
Hoje: a Web Sintáctica
Setembro de 2013 Engenharia Web 2013 8
Resource
Resource
Resource
Resource
Resource
Resourcehref
href
href
href
href
href
href
href
• Um lugar onde os computadores fazem a apresentação
da informação (fácil) e as pessoas a interpretação e a
navegação (difícil).
• Ideia: Porque não colocar o computador a fazer uma
maior parte do trabalho difícil?
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
Apenas Semântica?!
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11
Estamos a criar
silos bem
estruturados…
SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do
exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto
omnicooper", sobre assuntos vários.
Semântica & “Linking”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12
• É necessário que:
– a informação esteja
disponível na Web
• accessível via tecnologias
Web standard;
– a informação esteja
interligada através da
Web;
– ie, a informação pode ser
integrada através
daWeb.
Informação disponível
na Web não é
suficiente…
Linked Open Data, Set. 2010
13
Linked Open Data, Set. 2011
14
Por áreas específicas
5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro
Gostaria que os sistemas de
arquivo portugueses fizessem
parte desta área nos
próximos anos...
As opções da Europeana
• Geonames: 10 milhões de nomes/designações
geográficos;
• Dbpedia: base de conhecimento que encerra a
descrição de 3,64 milhões de itens;
• Catalog of Life (CoL): catálogo completo de todos os
organismos vivos conhecidos;
• Uniprot: banco de dados sobre sequenciação de
proteínas;
• GEMET: thesaurus que define um vocabulário
controlado para a temática ambiental;
• FOAF: “Friend of a Friend” – ontologia para descrever
pessoas e respetivas relações.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 16
Geonames
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
Descrição arquivística com
semântica
1. É preciso identificar univocamente os registos
descritivos: utilizando URIs persistentes;
2. Os registos descritivos devem estar num
formato normalizado de modo a que recursos e
respetivas relações possam ser
automaticamente reconhecidos (RDF);
3. Incluir nas descrições o maior número de links
(mínimo = 50 links externos / dataset) possíveis
para outros recursos de informação.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 18
• Para integrar dados é necessário acordar
– nos termos a usar:
• “translator”, “author”
– nas categorias a usar:
• “Person”, “literature”
– nas relações entre aqueles:
• “an author is also a Person…”, “historical fiction is a
narrower term than fiction”
• novas relações podem ser deduzidas.
Vocabulários
5 de Outubro de 2013 19Encontro Internacional de Arquivos - Faro
O que é preciso?
• Acordo num vocabulário;
• Acordo numa ontologia;
• Embeber esta semântica no “front-end” dos
sistemas de informação atuais (experiências
em curso);
• No fim: vontade e força política (difícil mas
não impossível).
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 20
– É necessária uma linguagem de especificação
formal para estes vocabulários;
– Para os definir;
– Para lhes associar semântica de modo a tornar
claro como é que novas relações podem ser
deduzidas.
Vocabulários
5 de Outubro de 2013 21Encontro Internacional de Arquivos - Faro
• Definição:
Ontologias
“Especificação formal de uma área de conhecimento através da
definição dos conceitos que lhe são subjacentes e relações entre
estes.”
• Conhecimento explícito (fácil);
• Conhecimento implícito (difícil, é preciso torná-lo
explícito).
5 de Outubro de 2013 22Encontro Internacional de Arquivos - Faro
• Para thesauri, glossários, etc: SKOS
• Para definir vocabulários mais complexos com
alguma lógica subjacente: OWL
• E uma framework para definir regras sobre os
termos e a informação: RIF
• RDF/XML para representação dos modelos
semânticos
Emergiram 3 tecnologias e 1
formato
5 de Outubro de 2013 23Encontro Internacional de Arquivos - Faro
Do bit à Semântica:
XML
RDF
NameSpaces XML Schema
Unicode URI
RDF Schema
Ontologias
Lógica
Prova
Topic
Map
s
245 de Outubro de 2013 Encontro Internacional de Arquivos - Faro
Vocabulários
Último exemplo: Inquirições de
“Génere”
• Motor SPARQL: http://librdf.org/query
• Ontologia light:
http://www.di.uminho.pt/~jcr/XML/sparql/in
quiricoes-light.owl
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 25
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
Interrogações: Nomes dos
indivíduos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
SELECT ?na
WHERE {
?a inq:nome ?na.
}
Os pares de nomes dos que são
Irmãos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
SELECT ?na, ?nb
WHERE {
?a inq:Irmao ?b.
?a inq:nome ?na.
?b inq:nome ?nb
}
• Publica a tua informação primeiro, preocupa-te com as
interfaces/aparência depois!
– a “informação crua” pode ser útil assim mesmo e outros
poderão usá-la;
– podes acrescentar-lhe valor, mais tarde, criando-lhe
acessos sofisticados.
• Se possível, publica a tua informação em RDF caso
contrário, outros poderão ajudar-te na conversão
– confia na comunidade…
• Acrescenta links para outras fontes. “Apenas” publicar
não é suficiente…
Algumas recomendações
5 de Outubro de 2013 28Encontro Internacional de Arquivos - Faro
Oportunidades
• Horizonte 2020: este é um dos eixos principais de
financiamento na área das TIC;
• Criação de novos produtos: site da BBC, Retrievo,
Archeevo, …
• Se ligarmos à LOD o nosso repositório estamos a
maximizar a sua visibilidade e a aumentar
potencialmente o número de visitas;
• Os motores de busca tipo google já tiram partido
da informação semântica se esta estiver
disponível.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 29
Dificuldades
• Se descrever arquivisticamente consome
recursos, descrever conteúdos consome ainda
mais;
• Voluntariado (folksonomias na prática)
– é preciso preparar o terreno;
– controlar/definir os vocabulários usados;
– criar política de contribuições.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 30
Exemplo: www.retrievo.pt
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
Pensamentos “soltos”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro
Linguagem
Informação
Conhecimento
Estamos algures entre
a Informação e o
Conhecimento...
32
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33
José Carlos Ramalho
KEEPS/Universidade do Minho
jcr@keep.pt / jcr@di.uminho.pt
Questões?
http://www.keep.pt

Weitere ähnliche Inhalte

Ähnlich wie Arquivos Digitais na 3a geração da Web

Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogaçãoFalando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogaçãoFabrício Silva Assumpção
 
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...Daniel Flores
 
Padroes descricao boas_praticas_recursos_musicais
Padroes descricao boas_praticas_recursos_musicaisPadroes descricao boas_praticas_recursos_musicais
Padroes descricao boas_praticas_recursos_musicaisRosana Lanzelotte
 
Fontes digitais
Fontes digitaisFontes digitais
Fontes digitaisUFSC
 
Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Daniel Flores
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentaisjosecosme
 
Biblioteca Escolar Digital
Biblioteca Escolar DigitalBiblioteca Escolar Digital
Biblioteca Escolar DigitalCarlos Pinheiro
 
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...Daniel Flores
 
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPAula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPCharlley Luz
 
Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Aquiles Alencar Brayner
 
Web Semântica e Ontologias
Web Semântica e OntologiasWeb Semântica e Ontologias
Web Semântica e OntologiasDaniela Brauner
 
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
Resolução 39/14 - Conarq:   DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...Resolução 39/14 - Conarq:   DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...Daniel Flores
 
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...CarlosMarcondes17
 
Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Cariniana Rede
 

Ähnlich wie Arquivos Digitais na 3a geração da Web (20)

Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogaçãoFalando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
 
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
 
Software DSpace 2 de 4
Software DSpace 2 de 4Software DSpace 2 de 4
Software DSpace 2 de 4
 
Padroes descricao boas_praticas_recursos_musicais
Padroes descricao boas_praticas_recursos_musicaisPadroes descricao boas_praticas_recursos_musicais
Padroes descricao boas_praticas_recursos_musicais
 
Fontes digitais
Fontes digitaisFontes digitais
Fontes digitais
 
Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...
 
Bibliotecas
BibliotecasBibliotecas
Bibliotecas
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentais
 
Biblioteca Escolar Digital
Biblioteca Escolar DigitalBiblioteca Escolar Digital
Biblioteca Escolar Digital
 
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
 
Integrar 2016
Integrar 2016Integrar 2016
Integrar 2016
 
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPAula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
 
Pesquisa
PesquisaPesquisa
Pesquisa
 
Bibliotecas Digitais
Bibliotecas DigitaisBibliotecas Digitais
Bibliotecas Digitais
 
Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015
 
Web Semântica e Ontologias
Web Semântica e OntologiasWeb Semântica e Ontologias
Web Semântica e Ontologias
 
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
Resolução 39/14 - Conarq:   DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...Resolução 39/14 - Conarq:   DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
 
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
 
Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014
 
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
 

Arquivos Digitais na 3a geração da Web

  • 1. Arquivos Digitais na 3ª geração da Web: uma ideia com mais de 20 anos José Carlos Ramalho jcr@di.uminho.pt jcr@keep.pt Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de Informação na Era pós-custodial
  • 2. A nossa história Período Projeto 1989 - 1991 HiTeX – Transcrição assistida com semântica 1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das Gavetas do Cabido”; “Bulário Bracarense”; etc. 2000 Reverse Engineering da BD das “Inquirições de Génere” 2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc. 2006 – 2008 RODA: Preservação Digital 2006 – 2013 CRAV: Consulta Real em Ambiente Virtual 2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital 2013 - ... Archeevo: a nova geração do Digitarq e do CRAV 2013 – 2015 4C: projeto FP7 sobre Preservação Digital 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 2 Um denominador comum: geração automática de índices (cronológico, toponímico e antroponímico). Facilidades: navegação relacional e não hierárquica. Produção massiva de conteúdos Milhões de registos organizados hierarquicamente: ISAD, EAD, METS, etc.
  • 3. De regresso ao passado… • HITEX (1989-1991): Um Sistema em Desenvolvimento para Historiadores e Arquivistas – Normalização: cada um deixar de fazer à sua maneira; – Reutilização: noção de componente reutilizável com interesse histórico; – Classificação: taxonomia padrão de conceitos históricos (classes) que exprime a ordem de subsunção sobre o conhecimento histórico; – Tolerância para com informação incompleta: permite a aquisição incremental de conhecimento histórico; – Resultados: • formato HiTeX: uma linguagem de fácil utilização para transcrição documental; • criação automática de índices: cronológico, toponímico e antroponímico. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 3
  • 4. Um pequeno exemplo 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4 “Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez ao Cabido de Braga [: : : ] Ano de 1300.” Início do primeiro volume do Índice das Gavetas do Cabido de Braga Asserções: • D. Martinho de Oliveira era o Arcebispo de Braga em 1300; • Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano; • O Cabido guardou uma certidão dessa doação; • Essa certidão está arquivada no fundo documental designado Gavetas do Cabido; • Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do correspondente Índice, compilado no século XVIII. D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice
  • 5. Modelo ontológico 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5 Qual a relevância disto no contexto atual?
  • 6. Três vias alternativas para o desenvolvimento Web Setembro de 2013 Engenharia Web 2013 6 Comunidades Equipamento Aplicações, Serviços, Agentes • Wikis • Blogs • Mashups • Portais • Computação Ubíqua • Espaços Inteligentes • RFID • Sistemas Embebidos • Redes Sensoriais • Metainformação • Ontologias • Serviços Web • Agentes • Portais Inteligentes
  • 7. Evolução da Web Web Arquivos pt 1ª geração Páginas estáticas 1ª geração Informatização 2ª geração Páginas geradas a partir de conteúdos em SI 2ª geração Acesso Web à informação em regime de acesso livre 3ª geração Sites que se atualizam automaticamente mediante alterações de 3ªs partes: BBC • Integração automática de SI • Normalização • Identificadores persistentes • ... 3ª geração • Integração • Dados com semântica • Novos modelos de acesso • Aplicações de valor acrescentado 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 7 É preciso aumentar o nível de percepção das “máquinas”…
  • 8. Hoje: a Web Sintáctica Setembro de 2013 Engenharia Web 2013 8 Resource Resource Resource Resource Resource Resourcehref href href href href href href href • Um lugar onde os computadores fazem a apresentação da informação (fácil) e as pessoas a interpretação e a navegação (difícil). • Ideia: Porque não colocar o computador a fazer uma maior parte do trabalho difícil?
  • 9. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
  • 10. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
  • 11. Apenas Semântica?! 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11 Estamos a criar silos bem estruturados… SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto omnicooper", sobre assuntos vários.
  • 12. Semântica & “Linking” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12 • É necessário que: – a informação esteja disponível na Web • accessível via tecnologias Web standard; – a informação esteja interligada através da Web; – ie, a informação pode ser integrada através daWeb. Informação disponível na Web não é suficiente…
  • 13. Linked Open Data, Set. 2010 13
  • 14. Linked Open Data, Set. 2011 14
  • 15. Por áreas específicas 5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro Gostaria que os sistemas de arquivo portugueses fizessem parte desta área nos próximos anos...
  • 16. As opções da Europeana • Geonames: 10 milhões de nomes/designações geográficos; • Dbpedia: base de conhecimento que encerra a descrição de 3,64 milhões de itens; • Catalog of Life (CoL): catálogo completo de todos os organismos vivos conhecidos; • Uniprot: banco de dados sobre sequenciação de proteínas; • GEMET: thesaurus que define um vocabulário controlado para a temática ambiental; • FOAF: “Friend of a Friend” – ontologia para descrever pessoas e respetivas relações. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 16
  • 17. Geonames 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
  • 18. Descrição arquivística com semântica 1. É preciso identificar univocamente os registos descritivos: utilizando URIs persistentes; 2. Os registos descritivos devem estar num formato normalizado de modo a que recursos e respetivas relações possam ser automaticamente reconhecidos (RDF); 3. Incluir nas descrições o maior número de links (mínimo = 50 links externos / dataset) possíveis para outros recursos de informação. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 18
  • 19. • Para integrar dados é necessário acordar – nos termos a usar: • “translator”, “author” – nas categorias a usar: • “Person”, “literature” – nas relações entre aqueles: • “an author is also a Person…”, “historical fiction is a narrower term than fiction” • novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 19Encontro Internacional de Arquivos - Faro
  • 20. O que é preciso? • Acordo num vocabulário; • Acordo numa ontologia; • Embeber esta semântica no “front-end” dos sistemas de informação atuais (experiências em curso); • No fim: vontade e força política (difícil mas não impossível). 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 20
  • 21. – É necessária uma linguagem de especificação formal para estes vocabulários; – Para os definir; – Para lhes associar semântica de modo a tornar claro como é que novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 21Encontro Internacional de Arquivos - Faro
  • 22. • Definição: Ontologias “Especificação formal de uma área de conhecimento através da definição dos conceitos que lhe são subjacentes e relações entre estes.” • Conhecimento explícito (fácil); • Conhecimento implícito (difícil, é preciso torná-lo explícito). 5 de Outubro de 2013 22Encontro Internacional de Arquivos - Faro
  • 23. • Para thesauri, glossários, etc: SKOS • Para definir vocabulários mais complexos com alguma lógica subjacente: OWL • E uma framework para definir regras sobre os termos e a informação: RIF • RDF/XML para representação dos modelos semânticos Emergiram 3 tecnologias e 1 formato 5 de Outubro de 2013 23Encontro Internacional de Arquivos - Faro
  • 24. Do bit à Semântica: XML RDF NameSpaces XML Schema Unicode URI RDF Schema Ontologias Lógica Prova Topic Map s 245 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Vocabulários
  • 25. Último exemplo: Inquirições de “Génere” • Motor SPARQL: http://librdf.org/query • Ontologia light: http://www.di.uminho.pt/~jcr/XML/sparql/in quiricoes-light.owl 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 25 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
  • 26. Interrogações: Nomes dos indivíduos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na WHERE { ?a inq:nome ?na. }
  • 27. Os pares de nomes dos que são Irmãos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na, ?nb WHERE { ?a inq:Irmao ?b. ?a inq:nome ?na. ?b inq:nome ?nb }
  • 28. • Publica a tua informação primeiro, preocupa-te com as interfaces/aparência depois! – a “informação crua” pode ser útil assim mesmo e outros poderão usá-la; – podes acrescentar-lhe valor, mais tarde, criando-lhe acessos sofisticados. • Se possível, publica a tua informação em RDF caso contrário, outros poderão ajudar-te na conversão – confia na comunidade… • Acrescenta links para outras fontes. “Apenas” publicar não é suficiente… Algumas recomendações 5 de Outubro de 2013 28Encontro Internacional de Arquivos - Faro
  • 29. Oportunidades • Horizonte 2020: este é um dos eixos principais de financiamento na área das TIC; • Criação de novos produtos: site da BBC, Retrievo, Archeevo, … • Se ligarmos à LOD o nosso repositório estamos a maximizar a sua visibilidade e a aumentar potencialmente o número de visitas; • Os motores de busca tipo google já tiram partido da informação semântica se esta estiver disponível. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 29
  • 30. Dificuldades • Se descrever arquivisticamente consome recursos, descrever conteúdos consome ainda mais; • Voluntariado (folksonomias na prática) – é preciso preparar o terreno; – controlar/definir os vocabulários usados; – criar política de contribuições. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 30
  • 31. Exemplo: www.retrievo.pt 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
  • 32. Pensamentos “soltos” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Linguagem Informação Conhecimento Estamos algures entre a Informação e o Conhecimento... 32
  • 33. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33 José Carlos Ramalho KEEPS/Universidade do Minho jcr@keep.pt / jcr@di.uminho.pt Questões? http://www.keep.pt