SlideShare ist ein Scribd-Unternehmen logo
1 von 20
BIBLIOTECA DIGITAL BRASILEIRA DE 
TESES E DISSERTAÇÕES: AÇÕES PARA 
MELHORIA NA QUALIDADE DOS DADOS 
DIEGO JOSÉ MACEDO 
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) 
DIEGOMACEDO@IBICT.BR 
MILTON SHINTAKU 
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) 
SHINTAKU@IBICT.BR 
TAINÁ BATISTA DE ASSIS 
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) 
TAINA@IBICT.BR 
WASHINGTON L. R. DE CARVALHO SEGUNDO 
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) 
WASHINGONSEGUNDO@IBICT.BR 
RONNIE FAGUNDES DE BRITO 
INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) 
RONNIEBRITO@IBICT.BR 
1
INTRODUÇÃO 
Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) 
Integra, em um só portal de acesso aberto, os sistemas de 
informação de teses e dissertações existentes nas instituições de 
ensino e pesquisa brasileiras e por brasileiros que defenderam no 
exterior. 
2
BIBLIOTECA DIGITAL BRASILEIRA DE 
TESES E DISSERTAÇÕES (BDTD) 
A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e 
adota o modelo baseado em padrões de interoperabilidade. 
Processo de funcionamento da BDTD há dois atores principais: 
- provedores de dados: administra o depósito e a 
publicação expondo os metadados para a coleta automática 
(harvesting). 
- provedores de serviços: fornece serviços de informação 
com base nos metadados coletados junto aos provedores de 
dados. 
3
PROBLEMAS 
 provedores de dados: sistemas heterogêneos que operam 
com diversos formatos de metadados; 
 Falta de normalização no preenchimento de campos nos 
metadados; 
 Falta de preenchimento de campos requeridos. 
4
OBJETIVOS 
 Apresentar os resultados de avaliação dos metadados 
descritivos da BDTD passíveis de normalização; 
 Apresentar algoritmos desenvolvidos para melhoria da 
qualidade dos dados agregados. 
5
METODOLOGIA 
 Coleta de metadados provenientes de diversos tipos de 
sistemas de gestão de teses e dissertações, via protocolo 
Open Archives Initiative - Protocol Metadata Harvesting 
(OAI-PMH). 
 Utilização de feramentas e técnicas para aplicação de 
filtros para determinar variações, erros de preenchimento 
e normalização de campos. 
6
ESTRUTURA 
7 
COLETADOR/ 
AGREGADOR 
REPOX 
Crosswalks 
Mapeamentos – 
Filtros – 
Normalização 
XSTL 
MTD2- BR 
DC 
DIM 
MARC 
XML 
Outros 
Harvesting
8 
MTD2- BR 
DC 
DIM 
MARC 
XML 
Outros 
COLETADOR/ 
AGREGADOR 
REPOX 
Harvesting 
Crosswalk 
Mapeamentos 
– Filtros – 
Normalização 
XSTL 
Portal de 
Busca 
Consolidada 
Metadados 
normalizados 
Provedores de 
Serviços – 
NDLTD 
RCAAP 
LA Referencia 
Primo Central 
Metadados 
DC e ETD-MS 
normalizados 
ESTRUTURA
EXEMPLO MAPEAMENTO 
DE DC.TYPE 
9 
<dc:type> 
Mestre 
</ dc:type > 
< dc:type > 
Mestrado 
</dc:type > 
<dc:type > 
Dissertação 
</dc:type > 
<dc:type> 
master 
</dc:type> 
<dc.type> 
masterThesis 
</dc.type > 
XSLT 
Diretrizes DRIVER
EXEMPLO MAPEAMENTO 
DE DC.LANGUAGE 
10 
<dc:language> 
pt_BR 
</dc:language> 
<dc:language> 
Português 
</dc:language> 
<dc:language> 
PT 
</dc:language> 
<dc:language> 
por 
</dc:language> 
<dc.language> 
por 
</dc:language> 
Diretrizes DRIVER - ISO 639-3 
XSLT
EXEMPLO DE 
MAPEAMENTO 
Alguns casos, o 
campo dc.type não 
está preenchido. 
dc.publisher.program 
dc.publisher.departament 
11 
dc.type
EXEMPLO DE 
MAPEAMENTO 
12 
dc.publisher.cnpq 
dc.type dc.publisher.program 
XSLT
RESULTADO(S) E 
DISCUSSÃO 
 104 provedores de dados desenvolvidos com tecnologias 
diversas. Destaca-se 
13 
SISTEMA QUANTIDADE 
TEDE 84 
DSpace 15 
OPAC 1 
Outros 4
RESULTADO(S) E 
DISCUSSÃO 
 Interoperabilidade: sistema de coleta de diversos 
esquemas de metadados 
14 
ESQUEMA DE 
METADADOS 
QUANTIDADE 
MTD(2)-BR 92 
DIM 6 
RDF 5 
MARCXML 1
RESULTADO(S) E 
DISCUSSÃO 
 Provedores de dados são analisados separadamente; 
 Registros coletados são convertidos automaticamente 
para o padrão adotado pela BDTD; 
 Aplicação de Crosswalks; 
 XSLT (Extensible Stylesheet Language Transformations); 
 Viabiliza-se maior flexibilidade à rede; 
15
RESULTADO(S) E 
DISCUSSÃO 
 Mapeadores e filtros – algoritmos de normalização: 
• Padronização de campos como: idioma, tipo do documento, 
grau e instituição de defesa. 
• Filtragem e tratamento de campos com variação como: Grau, 
tal como: Mestre, mestrado, mestrado em <nome do 
programa>. 
• Instituição de defesa; 
• Campos como tipo de documento e idioma também sofreram 
transformações de conteúdo para que se alinhassem às 
orientações das diretrizes DRIVER. 
16
RESULTADO(S) E 
DISCUSSÃO 
 Desenvolvimento de ferramentas que ajustaram os dados 
coletados; 
 O processo permitiu uma melhor acurácia dos dados 
coletados; 
 Assim, completou todo ciclo que visa alcançar 
refinamento da qualidade dos dados na base consolidada. 
17
CONCLUSÕES 
 Necessidade de processamento para melhoria da 
qualidade de dados em redes heterogêneas, composta 
por sistemas que operam com formatos de metadados 
diferentes. 
 O processo adotado na presente pesquisa encontra apoio 
no estudo de Stupmf e McDonnell (2004), que indica como 
possível solução para problemas de acurácia de 
metadados o uso de ferramentas automatizadas. 
18
CONCLUSÕES 
 Infraestrutura, possibilitando uma maior 
flexibilização aos provedores de dados, mas 
também o tratamento da informação. 
 Com isso, torna-se mais eficaz a melhoria da 
disseminação da informação. 
19
OBRIGADO! 
Diego Macêdo 
diegomacedo@ibict.br 
+55 61 3217-6241 
20

Weitere ähnliche Inhalte

Andere mochten auch

Estándares ieee 802
Estándares ieee 802Estándares ieee 802
Estándares ieee 802guest32d570
 
Ieee 830 srs
Ieee 830 srsIeee 830 srs
Ieee 830 srsLauC2457
 
Redes Lan, Wan Y Man
Redes Lan, Wan Y ManRedes Lan, Wan Y Man
Redes Lan, Wan Y Manestacopadoo
 
IEEE 610 and IEEE 1002
IEEE 610 and IEEE 1002IEEE 610 and IEEE 1002
IEEE 610 and IEEE 1002Luis Pastén
 
ESTANDAR IEEE 802 x
ESTANDAR IEEE 802 xESTANDAR IEEE 802 x
ESTANDAR IEEE 802 xgchv
 
2. Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...
2.	Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...2.	Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...
2. Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...wilber147
 
ESTANDARES IEEE
 ESTANDARES IEEE ESTANDARES IEEE
ESTANDARES IEEEsalesperson
 
Operación y mantenimiento de calderas 2009
Operación y mantenimiento de calderas 2009Operación y mantenimiento de calderas 2009
Operación y mantenimiento de calderas 2009avilamarroco
 

Andere mochten auch (17)

Estándares ieee 802
Estándares ieee 802Estándares ieee 802
Estándares ieee 802
 
Os jesuitas na iasd
Os jesuitas na iasdOs jesuitas na iasd
Os jesuitas na iasd
 
Ieee 830 srs
Ieee 830 srsIeee 830 srs
Ieee 830 srs
 
Redes Lan, Wan Y Man
Redes Lan, Wan Y ManRedes Lan, Wan Y Man
Redes Lan, Wan Y Man
 
Estándar IEEE 802.x
Estándar IEEE 802.x Estándar IEEE 802.x
Estándar IEEE 802.x
 
IEEE Xplore Digital Library. Sesión informativa en la BUZ
IEEE Xplore Digital Library. Sesión informativa en la BUZIEEE Xplore Digital Library. Sesión informativa en la BUZ
IEEE Xplore Digital Library. Sesión informativa en la BUZ
 
IEEE 610 and IEEE 1002
IEEE 610 and IEEE 1002IEEE 610 and IEEE 1002
IEEE 610 and IEEE 1002
 
8.-ESTANDARES IEEE Y ANSI
8.-ESTANDARES IEEE Y ANSI8.-ESTANDARES IEEE Y ANSI
8.-ESTANDARES IEEE Y ANSI
 
ESTANDAR IEEE 802 x
ESTANDAR IEEE 802 xESTANDAR IEEE 802 x
ESTANDAR IEEE 802 x
 
2. Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...
2.	Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...2.	Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...
2. Estándar IEEE 802.x (Características, Fundamentos, Controladores de Dispos...
 
Informe tipo IEEE
Informe tipo IEEEInforme tipo IEEE
Informe tipo IEEE
 
Calderas pirotubulares
Calderas pirotubularesCalderas pirotubulares
Calderas pirotubulares
 
Estándar ieee 802
Estándar ieee 802Estándar ieee 802
Estándar ieee 802
 
Formato ieee830(srs lleno)
Formato ieee830(srs lleno)Formato ieee830(srs lleno)
Formato ieee830(srs lleno)
 
Ieee 830
Ieee 830Ieee 830
Ieee 830
 
ESTANDARES IEEE
 ESTANDARES IEEE ESTANDARES IEEE
ESTANDARES IEEE
 
Operación y mantenimiento de calderas 2009
Operación y mantenimiento de calderas 2009Operación y mantenimiento de calderas 2009
Operación y mantenimiento de calderas 2009
 

Ähnlich wie Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados

Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosLeandro Ciuffo
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2Projeto RCAAP
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiCleber Oliveira
 
gcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfgcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfSlowtfk
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasNIT Rio
 
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...Andreza Leite
 
2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambientalGeorge Porto Ferreira
 
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...Fabrício Silva Assumpção
 
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...Fabrício Silva Assumpção
 
Jornadas 2016: PTCRIS_Parte II
Jornadas 2016: PTCRIS_Parte IIJornadas 2016: PTCRIS_Parte II
Jornadas 2016: PTCRIS_Parte IIPTCRIS FCT
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...GiovanniGuimares2
 
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOS
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOSBIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOS
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOSAdilmar Dantas
 

Ähnlich wie Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados (20)

Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
 
Estudo e desenvolvimento de ferramenta de migração entre sistemas de publicaç...
Estudo e desenvolvimento de ferramenta de migração entre sistemas de publicaç...Estudo e desenvolvimento de ferramenta de migração entre sistemas de publicaç...
Estudo e desenvolvimento de ferramenta de migração entre sistemas de publicaç...
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_ti
 
gcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfgcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdf
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas Físicas
 
CARINIANA
CARINIANACARINIANA
CARINIANA
 
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
 
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
 
2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental
 
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
 
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...
Tecnologias aplicadas à catalogação: a utilização de folhas de estilo XSLT na...
 
Jornadas 2016: PTCRIS_Parte II
Jornadas 2016: PTCRIS_Parte IIJornadas 2016: PTCRIS_Parte II
Jornadas 2016: PTCRIS_Parte II
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
 
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
 
Alterao ementa tii
Alterao ementa tiiAlterao ementa tii
Alterao ementa tii
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOS
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOSBIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOS
BIODATA: SOFTWARE WEB PARA GERENCIAMENTO DE COLETA DE DADOS BIOMÉDICOS
 

Mehr von Conferência Luso-Brasileira de Ciência Aberta

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Conferência Luso-Brasileira de Ciência Aberta
 

Mehr von Conferência Luso-Brasileira de Ciência Aberta (20)

Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...
 
Pré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição EletrónicaPré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição Eletrónica
 
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
 
10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA
 
Programa de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência AbertaPrograma de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência Aberta
 
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoAnálise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
 
Acesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do pacienteAcesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do paciente
 
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
 
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
 
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
 
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
 
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
 
Serviço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOIServiço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOI
 
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
 
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
 
Preservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidadePreservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidade
 
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
 
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em PortugalDo acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
 
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
 
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
 

Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados

  • 1. BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES: AÇÕES PARA MELHORIA NA QUALIDADE DOS DADOS DIEGO JOSÉ MACEDO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) DIEGOMACEDO@IBICT.BR MILTON SHINTAKU INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) SHINTAKU@IBICT.BR TAINÁ BATISTA DE ASSIS INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) TAINA@IBICT.BR WASHINGTON L. R. DE CARVALHO SEGUNDO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) WASHINGONSEGUNDO@IBICT.BR RONNIE FAGUNDES DE BRITO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) RONNIEBRITO@IBICT.BR 1
  • 2. INTRODUÇÃO Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) Integra, em um só portal de acesso aberto, os sistemas de informação de teses e dissertações existentes nas instituições de ensino e pesquisa brasileiras e por brasileiros que defenderam no exterior. 2
  • 3. BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES (BDTD) A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e adota o modelo baseado em padrões de interoperabilidade. Processo de funcionamento da BDTD há dois atores principais: - provedores de dados: administra o depósito e a publicação expondo os metadados para a coleta automática (harvesting). - provedores de serviços: fornece serviços de informação com base nos metadados coletados junto aos provedores de dados. 3
  • 4. PROBLEMAS  provedores de dados: sistemas heterogêneos que operam com diversos formatos de metadados;  Falta de normalização no preenchimento de campos nos metadados;  Falta de preenchimento de campos requeridos. 4
  • 5. OBJETIVOS  Apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização;  Apresentar algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. 5
  • 6. METODOLOGIA  Coleta de metadados provenientes de diversos tipos de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH).  Utilização de feramentas e técnicas para aplicação de filtros para determinar variações, erros de preenchimento e normalização de campos. 6
  • 7. ESTRUTURA 7 COLETADOR/ AGREGADOR REPOX Crosswalks Mapeamentos – Filtros – Normalização XSTL MTD2- BR DC DIM MARC XML Outros Harvesting
  • 8. 8 MTD2- BR DC DIM MARC XML Outros COLETADOR/ AGREGADOR REPOX Harvesting Crosswalk Mapeamentos – Filtros – Normalização XSTL Portal de Busca Consolidada Metadados normalizados Provedores de Serviços – NDLTD RCAAP LA Referencia Primo Central Metadados DC e ETD-MS normalizados ESTRUTURA
  • 9. EXEMPLO MAPEAMENTO DE DC.TYPE 9 <dc:type> Mestre </ dc:type > < dc:type > Mestrado </dc:type > <dc:type > Dissertação </dc:type > <dc:type> master </dc:type> <dc.type> masterThesis </dc.type > XSLT Diretrizes DRIVER
  • 10. EXEMPLO MAPEAMENTO DE DC.LANGUAGE 10 <dc:language> pt_BR </dc:language> <dc:language> Português </dc:language> <dc:language> PT </dc:language> <dc:language> por </dc:language> <dc.language> por </dc:language> Diretrizes DRIVER - ISO 639-3 XSLT
  • 11. EXEMPLO DE MAPEAMENTO Alguns casos, o campo dc.type não está preenchido. dc.publisher.program dc.publisher.departament 11 dc.type
  • 12. EXEMPLO DE MAPEAMENTO 12 dc.publisher.cnpq dc.type dc.publisher.program XSLT
  • 13. RESULTADO(S) E DISCUSSÃO  104 provedores de dados desenvolvidos com tecnologias diversas. Destaca-se 13 SISTEMA QUANTIDADE TEDE 84 DSpace 15 OPAC 1 Outros 4
  • 14. RESULTADO(S) E DISCUSSÃO  Interoperabilidade: sistema de coleta de diversos esquemas de metadados 14 ESQUEMA DE METADADOS QUANTIDADE MTD(2)-BR 92 DIM 6 RDF 5 MARCXML 1
  • 15. RESULTADO(S) E DISCUSSÃO  Provedores de dados são analisados separadamente;  Registros coletados são convertidos automaticamente para o padrão adotado pela BDTD;  Aplicação de Crosswalks;  XSLT (Extensible Stylesheet Language Transformations);  Viabiliza-se maior flexibilidade à rede; 15
  • 16. RESULTADO(S) E DISCUSSÃO  Mapeadores e filtros – algoritmos de normalização: • Padronização de campos como: idioma, tipo do documento, grau e instituição de defesa. • Filtragem e tratamento de campos com variação como: Grau, tal como: Mestre, mestrado, mestrado em <nome do programa>. • Instituição de defesa; • Campos como tipo de documento e idioma também sofreram transformações de conteúdo para que se alinhassem às orientações das diretrizes DRIVER. 16
  • 17. RESULTADO(S) E DISCUSSÃO  Desenvolvimento de ferramentas que ajustaram os dados coletados;  O processo permitiu uma melhor acurácia dos dados coletados;  Assim, completou todo ciclo que visa alcançar refinamento da qualidade dos dados na base consolidada. 17
  • 18. CONCLUSÕES  Necessidade de processamento para melhoria da qualidade de dados em redes heterogêneas, composta por sistemas que operam com formatos de metadados diferentes.  O processo adotado na presente pesquisa encontra apoio no estudo de Stupmf e McDonnell (2004), que indica como possível solução para problemas de acurácia de metadados o uso de ferramentas automatizadas. 18
  • 19. CONCLUSÕES  Infraestrutura, possibilitando uma maior flexibilização aos provedores de dados, mas também o tratamento da informação.  Com isso, torna-se mais eficaz a melhoria da disseminação da informação. 19
  • 20. OBRIGADO! Diego Macêdo diegomacedo@ibict.br +55 61 3217-6241 20

Hinweis der Redaktion

  1. O presente estudo tem por objetivo apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização, os quais foram submetidos a algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. Com isso, visa-se apoiar estudos voltados à intersecção da Ciência da Informação e da Ciência da Computação, principalmente no conteúdo referente às questões de recuperação da informação.
  2. O presente estudo tem por objetivo apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização, os quais foram submetidos a algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. Com isso, visa-se apoiar estudos voltados à intersecção da Ciência da Informação e da Ciência da Computação, principalmente no conteúdo referente às questões de recuperação da informação.
  3. Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.
  4. Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.
  5. Contrastando com abordagem das ciências puras, a computação se caracteriza pelos estudos mistos de pesquisa e desenvolvimento, principalmente pelo alinhamento da disciplina à tecnologia aplicada. De característica empírica e experimental, o presente estudo se aproxima do que Wazlawick (2008) classifica de apresentação de produto virtual, visto que o autor considera a Ciência da Computação como a Ciência do Artificial, em oposição ao mundo real das Ciências Naturais. Assim, a presente pesquisa se baseou na coleta de metadados provenientes de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH), com a aplicação de filtros para determinar variações, erros de preenchimento e grau de normalização.