Este documento descreve ações para melhorar a qualidade dos dados na Biblioteca Digital Brasileira de Teses e Dissertações (BDTD), incluindo a normalização de campos de metadados através de mapeamentos e filtros, e a conversão automática de registros de vários formatos para um padrão adotado pela BDTD.
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados
1. BIBLIOTECA DIGITAL BRASILEIRA DE
TESES E DISSERTAÇÕES: AÇÕES PARA
MELHORIA NA QUALIDADE DOS DADOS
DIEGO JOSÉ MACEDO
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT)
DIEGOMACEDO@IBICT.BR
MILTON SHINTAKU
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT)
SHINTAKU@IBICT.BR
TAINÁ BATISTA DE ASSIS
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT)
TAINA@IBICT.BR
WASHINGTON L. R. DE CARVALHO SEGUNDO
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT)
WASHINGONSEGUNDO@IBICT.BR
RONNIE FAGUNDES DE BRITO
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT)
RONNIEBRITO@IBICT.BR
1
2. INTRODUÇÃO
Biblioteca Digital Brasileira de Teses e Dissertações (BDTD)
Integra, em um só portal de acesso aberto, os sistemas de
informação de teses e dissertações existentes nas instituições de
ensino e pesquisa brasileiras e por brasileiros que defenderam no
exterior.
2
3. BIBLIOTECA DIGITAL BRASILEIRA DE
TESES E DISSERTAÇÕES (BDTD)
A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e
adota o modelo baseado em padrões de interoperabilidade.
Processo de funcionamento da BDTD há dois atores principais:
- provedores de dados: administra o depósito e a
publicação expondo os metadados para a coleta automática
(harvesting).
- provedores de serviços: fornece serviços de informação
com base nos metadados coletados junto aos provedores de
dados.
3
4. PROBLEMAS
provedores de dados: sistemas heterogêneos que operam
com diversos formatos de metadados;
Falta de normalização no preenchimento de campos nos
metadados;
Falta de preenchimento de campos requeridos.
4
5. OBJETIVOS
Apresentar os resultados de avaliação dos metadados
descritivos da BDTD passíveis de normalização;
Apresentar algoritmos desenvolvidos para melhoria da
qualidade dos dados agregados.
5
6. METODOLOGIA
Coleta de metadados provenientes de diversos tipos de
sistemas de gestão de teses e dissertações, via protocolo
Open Archives Initiative - Protocol Metadata Harvesting
(OAI-PMH).
Utilização de feramentas e técnicas para aplicação de
filtros para determinar variações, erros de preenchimento
e normalização de campos.
6
7. ESTRUTURA
7
COLETADOR/
AGREGADOR
REPOX
Crosswalks
Mapeamentos –
Filtros –
Normalização
XSTL
MTD2- BR
DC
DIM
MARC
XML
Outros
Harvesting
8. 8
MTD2- BR
DC
DIM
MARC
XML
Outros
COLETADOR/
AGREGADOR
REPOX
Harvesting
Crosswalk
Mapeamentos
– Filtros –
Normalização
XSTL
Portal de
Busca
Consolidada
Metadados
normalizados
Provedores de
Serviços –
NDLTD
RCAAP
LA Referencia
Primo Central
Metadados
DC e ETD-MS
normalizados
ESTRUTURA
13. RESULTADO(S) E
DISCUSSÃO
104 provedores de dados desenvolvidos com tecnologias
diversas. Destaca-se
13
SISTEMA QUANTIDADE
TEDE 84
DSpace 15
OPAC 1
Outros 4
14. RESULTADO(S) E
DISCUSSÃO
Interoperabilidade: sistema de coleta de diversos
esquemas de metadados
14
ESQUEMA DE
METADADOS
QUANTIDADE
MTD(2)-BR 92
DIM 6
RDF 5
MARCXML 1
15. RESULTADO(S) E
DISCUSSÃO
Provedores de dados são analisados separadamente;
Registros coletados são convertidos automaticamente
para o padrão adotado pela BDTD;
Aplicação de Crosswalks;
XSLT (Extensible Stylesheet Language Transformations);
Viabiliza-se maior flexibilidade à rede;
15
16. RESULTADO(S) E
DISCUSSÃO
Mapeadores e filtros – algoritmos de normalização:
• Padronização de campos como: idioma, tipo do documento,
grau e instituição de defesa.
• Filtragem e tratamento de campos com variação como: Grau,
tal como: Mestre, mestrado, mestrado em <nome do
programa>.
• Instituição de defesa;
• Campos como tipo de documento e idioma também sofreram
transformações de conteúdo para que se alinhassem às
orientações das diretrizes DRIVER.
16
17. RESULTADO(S) E
DISCUSSÃO
Desenvolvimento de ferramentas que ajustaram os dados
coletados;
O processo permitiu uma melhor acurácia dos dados
coletados;
Assim, completou todo ciclo que visa alcançar
refinamento da qualidade dos dados na base consolidada.
17
18. CONCLUSÕES
Necessidade de processamento para melhoria da
qualidade de dados em redes heterogêneas, composta
por sistemas que operam com formatos de metadados
diferentes.
O processo adotado na presente pesquisa encontra apoio
no estudo de Stupmf e McDonnell (2004), que indica como
possível solução para problemas de acurácia de
metadados o uso de ferramentas automatizadas.
18
19. CONCLUSÕES
Infraestrutura, possibilitando uma maior
flexibilização aos provedores de dados, mas
também o tratamento da informação.
Com isso, torna-se mais eficaz a melhoria da
disseminação da informação.
19
O presente estudo tem por objetivo apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização, os quais foram submetidos a algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. Com isso, visa-se apoiar estudos voltados à intersecção da Ciência da Informação e da Ciência da Computação, principalmente no conteúdo referente às questões de recuperação da informação.
O presente estudo tem por objetivo apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização, os quais foram submetidos a algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. Com isso, visa-se apoiar estudos voltados à intersecção da Ciência da Informação e da Ciência da Computação, principalmente no conteúdo referente às questões de recuperação da informação.
Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.
Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.
Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.