A pesquisa contemporânea gera e consome uma quantidade extraordinária de dados. Seja nos domínios da grande ciência com os seus aparatos espetaculares e distribuídos globalmente como observatórios espaciais, grandes colisores, sensores remotos e novas escalas; seja pela virtualização dos objetos de pesquisa da natureza e da sociedade – pela transformação da ciência in vitro para a ciência in silico; seja pela atividades da cauda longa da pesquisa com seus milhões de pequenos laboratórios gerando petabytes de dados heterogêneos e diversificados. Nesse contexto em transição, dados de pesquisa de deixam de ser meros subprodutos das atividades científicas e se tornam protagonistas de novas metodologias científicas e das novas configurações da comunicação científicas. Entretanto, para que os dados se tornem subsídios para novas pesquisas, especialmente as interdisciplinares, e que mantenham a sua capacidade de serem ressignificados agora e no futuro os dados precisam ser gerenciados desde a sua gênese de uma forma levando em conta aspectos conceituais, éticos, legais, políticos, tecnológicos e disciplinares. Tomando isso em conta o curso abordará os seguintes tópicos: a) contexto científico do protagonismo dos dados (eScience, Big Science, Cauda Longa da pesquisa); b) conceito de dados de pesquisa; c) ciclo de vida dos dados de pesquisa; c) curadoria de dados de pesquisa; c) desdobramentos éticos, políticos e legais; d) infraestrutura tecnológica e de padronização necessárias.
Link para Apresentação On Line
Parte1: https://www.youtube.com/watch?v=dDl9xKxyk7A
Parte 2: https://www.youtube.com/watch?v=GZKLX26h8-Y
1. Luana Farias Sales
ARQUIVO NACIONAL
PPGCI IBICT/ECO-UFRJ
Luis Fernando Sayão
CNEN/CIN
PPGCI IBICT/ECO-UFRJ
GESTÃO E CURADORIA
2. PROTAGONSMOS DOS DADOS NA CIÊNCIA CONTEMPORÂNEA
O QUE É DADO DE PESQUISA
GESTÃO DE DADOS DE PESQUISA
CURADORIA DE DADOS DE PESQUISA
DEZ PASSOS PARA COMEÇAR A GESTÃO DE SEUS DADOS
Luís Sayão e Luana Sales
3.
4.
5. Os registros claros e cuidadosos de suas observações e seu estilo de publicação não somente
permitiu que ele compreendesse o Sistema Solar como permitiu também que seus
leitores compreendessem como ele chegou as suas descobertas. Isto por que o caderno
de notas de Galileu integravam seus dados (desenhos de Júpiter e suas luas), metadados
chaves (cronometragem de cada observação, condições meteorológicas, propriedades do
telescópio) e texto (descrição dos métodos, análises e conclusões). Quando Galileu inclui as
informações de suas notas no Siderius Nuncius, a integração entre texto, dado e metadado foi
preservada.
De forma diferente de como Galileu reportou em Siderius Nuncius o resultado de suas pesquisas, a quantidade de
dados reais e de descrição de dados nas publicações modernas quase nunca são suficientes para repetir ou mesmo
estatisticamente verificar o estudo que está sendo apresentado (Goodman, 2014; Sayão e Sales. 2018)
GALILEU GALILEI
7. BIG DATA CIENTÍFICO
Grandes projetos
Observatórios
Instalações complexas
Dados distribuídos
Simulação por computador
Ciência aberta
DADOS ABERTOS
Metodologias
Equipamentos
Software
Cadernos de laboratório
Roteiro de entrevistas
Resultados negativos
DADOS DOS DO GRANDE
NÚMERO DE PEQUENOS
LABORATÓRIOS
Heterogêneos
Não tratados
Invisíveis
Coletivamente é o maior
volume
TECNOLOGIA
COMPUTACIONAL
APLICADAS A ESTUDOS EM
HUMANIDADES.
Humanidades estudando
Tecnologias digitais (Bobley)
PROTAGONISMODE DADOS NA CIÊNCIA
8. OS PARADIGMAS CIENTÍFICOS
1º PARADIGMA:
Ciência experimental ou empírica estuda a relação
entre fenômenos por meio de experimentos;
descreve os fenômenos naturais
2º PARADIGMA:
Ciência teórica ou descritiva formula modelos
para descrição, explicação e generalização dos
fenômenos naturais
3º PARADIGMA:
Ciência computacional baseada em simulação de
fenômenos complexos por meio de uso de software,
gera grande quantidade de dados
4º PARADIGMA:
Ciência exploratória baseado no uso intensivo de
dados, exploração estatística e mineração de dados
Unifica teorias, experimentos e simulação
- Dados capturados por instrumentos ou gerados por
simulação;
- Processados por software
- Informação/conhecimento armazenadas em
computadores
- Análise de base de dados por estatística e mineração
Pré-Renascença
Pré-computação
Pré-big data
Agora
Experimentos
Leis da mecânica
clássica,
eletromagnetismo, etc
Simulação da
natureza,
Método Monte
Carlo
Deteção de
padrões,
relações e
anomalias.
Big Data
Inteligência
Artificial
1600
1950
2010
11. CAPTURA GESTÃO/CURADORIA ANÁLISE
BASE DE DADOS
COMPUTAÇÃO
PADRÕES
RELAÇÕES
HIPÓTESES
TEORIAS
MODELOS
NOVOSS
DESCOBERTAS
COMBINAÇÃO DE MÚLTIPLAS FONTES
DE DADOS PROVENIENTES DE
DOMÍNIOS DIFERENTES
Análises exploratórias
Exploração de coleções
de dados
Mineração de dados
Modelagem
Simulação interativa
Realidade virtual
Workflow científico
12. CIÊNCIA PRODUZIDA A PARTIR DO USO,
ARMAZENAMENTO, PROCESSAMENTO,
ANÁLISE E COMPARTILHAMENTO DE
DADOS DE PESQUISA (GRAY, 2005).
eScience
O QUARTO PARADIGMA CIENTÍFICO
O poder dos computadores modernos permite que
relações altamente complexas e até então
despercebidas possam ser identificadas e se tornem o
motor do quarto paradigma
[
[
13.
14. eScience
O QUARTO PARADIGMA CIENTÍFICO
ACELERAR A PESQUISA CIENTÍFICA E GERAR CONHECIMENTO COM BASE NA
EXPLORAÇÃO DESSE ACÚMULO DE DADOS
Ferramentas avançadas de software e de mineração de dados ajudam a interpretar e
transformar os dados brutos em configurações ilimitadas de informação e conhecimento.
Perguntas instigantes e recursivas colocadas perante os vários segmentos científicos podem
agora ser endereçadas, pela combinação de múltiplas fontes de dados provenientes
de domínios diferentes, através da aplicação de modelos complexos e de métodos
inéditos de análise.
15. eScience
O QUARTO PARADIGMA CIENTÍFICO
O MODO DE FAZER CIÊNCIA MUDA....
A computação não é mais meramente um suporte para o padrão
tradicional de se conduzir a investigação científica em determinadas
disciplinas, mas pode mudar fundamentalmente o desenvolvimento
dessas disciplinas.
Ao invés de hipóteses serem testadas e
desenvolvidas a partir de dados coletados para
este propósito, hipóteses são construídas
após a identificação relações nos
conjuntos de dados. Neste abordagem os
dados vem primeiro, incorporados numa
sequencia de captura de dados, curadoria e
análises
FORMULAÇÃO
DE HIPÓTESES
16. Illustration: Marian Bantjes "All models are wrong, but some are useful."
O DILÚVIO DE DADOS TORNA O MÉTODO CIENTÍFICO OBSOLETO
Chris Anderson (2008)
As the title indicates, Anderson asserted that in the era of petabyte
information and supercomputing, the traditional, hypothesis‐driven
scientific method would become obsolete. No more theories or
hypotheses, no more discussions whether the experimental results
refute or support the original hypotheses. In this new era, what counts
are sophisticated algorithms and statistical tools to sift through a
massive amount of data to find information that could be turned into
knowledge.
17. O método científico tradicional está superado?
O big data pode substituir a ciência orientada por hipótese por sofisticados
algoritmos e massivas coleções de dados?
Dada a quantidade de dados científicos disponíveis é possível descartar o papel das
formulações teóricas e de hipóteses?
Em vez de buscar resultados precisos sob condições controladas e de
campo simplificado, os cientistas são levados a ver na desordem dos
dados um reflexo da complexidade da natureza
“
18. Ciência aberta
Quando há
compartilhamento de ideias
e abertura do conhecimento a
ciência avança mais
rapidamente
O compartilhamento e o
intercâmbio permitem
descobrir conexões no que
estava antes desconectado
19. Reprodutibilidade dos experimentos científicos é um dos fundamentos da ciência.
Os dados científicos devem estar disponíveis para qualquer pessoa sem restrições de
copyright, patentes ou outros mecanismos de controle. Dados abertos incentivam o
reuso em outras áreas diferentes da original, o que pode levar a descobertas
surpreendentes.
Os pesquisadores devem divulgar suas descobertas de forma que elas
estejam acessíveis para todos os usuários potenciais sem qualquer barreira.
Colaboração crescente entre cientistas efetivada por meio das mídias sociais e da internet. Um
número crescente de cientistas estão encontrando novas estratégias para comunicar seus
trabalhos usando wikis, blogs, twitter
Códigos fontes para reproduzir dos dados; uso de software livres e formatos abertos; ferramentas
de pesquisa abertas; Dados de entrada e metadados Cadernos de pesquisa abertos
A avaliação pelas instituições de pesquisa, bem como a aprovação de financiamento pelas agências deve levar em conta
a preparação dos dados para disponibilidade na mesma escala em que considera artigos de periódicos e outras
publicações, ou seja o nível de transparência.
22. Número de
datasets
A MAIORIA DAS COLEÇÕES DE DADOS
PRODUZIDAS PELA PESQUISA CIENTÍFICA
É GERADO/COLETADO POR PEQUENOS
LABORATÓRIOS E PESQUISADORES
INDIVIDUALMENTE NAS UNIVERSIDADES E
INSTITUTOS DE PESQUISA, QUE
DESENVOLVEM UM GRANDE NÚMERO DE
PROJETOS CIENTÍFICOS
A CAUDA
LONGA
DA CIÊNCIA
Dados da Grande Ciência são fáceis de manipular, compreender
e arquivar;
A Pequena Ciência é exepcionalmente heterogênea e muito mais
vasta e gera 2-3 vezes mais dados do que a Big Science (MacColl, 2010)
ASTRONOMIA
FISICA NUCLEAR
GENOMA
PROTEINA
SENSORIAMENTO
REMOTO
PEQUENOS LABORATÓRIOS, EQUIPES E PESQUISADORES INDIVIDUAIS
DOMÍNOS ESPECÍFICOS
VÁRIOS DOMÍNIOS E INSTITUIÇÕESVolume
dos dados
23. TAMANHO DAS COLEÇÕES
FORMATOS DOS DADOS
ESTRUTURA DOS DADOS
COMPLEXIDADE DOS DADOS
DOMÍNIOS DISCIPLINARES
TECNOLOGIAS USADAS NA
GERAÇÃO/COLETA
HETEROGENEIDADE EM VÁRIAS DIMENSÕES
24. Grande número de
projetos científicos que geram pequenas
quantidades de dados
uma grande parte não
está publicado ou está
armazenada nos
laboratórios
Número de datasets
Big dados
organizados
Dados da cauda
longa da ciência
Volume
dos dados
Pequeno número
de grandes
projetos científicos
que geram muitos
dados
DADOS NÃO PUBLICADOS
Limite da literatura
Os dados gerados ou coletados em decorrência dos pequenos projetos de pesquisa são distribuídos por todos os domínios do
conhecimento, das artes e humanidades até as áreas mais identificadas como os padrões da grande ciência como física e astronomia
A CIÊNCIAINVISíVELDA CAUDA LONGA
25. Parece mais provável que a ciência transformadora
venha mais da cauda do que da cabeça (Heidorn, 2008)“
Inovação
modelos
27. DADOS
BASES DE DADOS
REPOSITÓROS
ACESSO
GESTÃO
CURADORIA
MINERAÇÃO
PRIVACIDADE
REDES
REDES DE
PESQUISA/EDUCAÇÃO
NACIONAIS E
INTERNACIONAIS;
SEGURANÇA
RECURSOS
COMPUTACIONAIS
SUPERCOMPUTADORES
NUVEM, GRID, CLUSTER;
VISUALIZAÇÃO;
CENTROS DE COMPUTAÇÃO
INSTRUMENTOS
CIENTÍFICOS
TELECÓPIOS
SATÉLITES
COLISORES
SENSORES
SOFTWARE
APLICAÇÕES;
DESENVOLVIMENTO
E SUPORTE
EXPERTISESPESQUISADORES
CIENTISTAS DE DADOS
BIBLIOTECARIOS DE DADOS
ARQUIVISTAS
ORGANIZAÇÕES
UNIVERSIDADES
INSTITUTOS DE PESQUISA
AGÊNCIAS DE FOMENTO
BIBLIOTECAS, ARQUIVOS, MUSEUS
ORGANIZAÇOES VIRTUAIS;
COMUNIDADES
CIBERINFRAESTRUTURA
DE PESQUISA
28.
29.
30. A maioria dos pesquisadores concordam em tese com os
princípios de compartilhamento e reuso preconizados pela
ciência aberta, mas relutam em compartilhar os seus próprios
dados como parte do fluxo de pesquisa , e o fazem mais como
exceção do que como regra .
31. LADO
OCULTO
DOS
DADOS
DADOS
NÃO
PUBLICADOS
INDIVIDUAIS
DISCIPLINARES
ORGANIZACIONAIS
+50%
DOS ACHADOS
NÃO FORAM
PUBLICADOS
O COMPARTILHAMENTO PODE REVELAR VALORES IMPORTANTES OCULTOS NESSES DADOS
INFRAESTRUTURAISPOLITICAS
Personalidade e atitudes do pesquisador em
relação aos seus dados.
Cultura do compartilhamento do domínio
Obstáculos inerentes às instituições de
pesquisa em relação à gestão de dados
Aportes tecnológicos disponíveisCondicionantes políticas voltadas para
recompensa, financiamento e
sustentabilidade de longo prazo
32. INTERESSES ECONÔMICOS
(patentes, acordos comerciais, etc)
RESULTADOS NEGATIVOS,
hipóteses não confirmadas
CUSTO do tratamento dos dados
(limpeza, catalogação, formatos, etc.)
Perda da VANTAGEM COMPETITIVA de
publicar mais baseado nos dados
Dificuldade de garantir a PRIVACIDADE
dos dados
Preocupação dos dados serem
ERRONEAMENTE INTERPRETADOS por
outros pesquisadores
Restrições culturais,
DISCIPLINARES e institucionais X
MOTIVOS
PARA O
PESQUISADOR
NÃO
COMPARTILHAR
34. MINHA TESE
O TEXTO ACADÊMICO
APRESENTA APENAS OS
DADOS DE PESQUISA DE
FORMA CONDENSADA
UMA VISÃO DOS DADOS!!!
VISÍVEL INVISÍVEL
35. DUPLICAÇÃO DE ESFORÇOS E RECURSOS
PRINCÍPIO DA REPRODUTIBILIDADE DOS EXPERIMENTOS
VALIDAÇÃO E AUTOCORREÇÃO DA PESQUISA
TORNAR PÚBLICO OS RESULTADOS DAS PESQUISAS
FINANCIADAS POR VERBAS PÚBLICAS
AVANÇO DO CONHECIMENTO E INOVAÇÃO
NOVAS VISÕES SOBRE ESSES DADOS
37. PESQUISADORES
Iniciativas como o DataCite - que atribui identificador persistente (DOI) aos dados de pesquisa -
ajudam o cientista a tornar seus dados citáveis, rastreáveis e acessíveis de modo que os dados
de pesquisa, bem como as publicações baseadas nesses
AGÊNCIAS FINANCIADORAS DE PESQUISA
PLANOS DE COMPARTILHAMENTO DE DADOS
POLÍTICAS MANDATÓRIAS
Isso garante que os pesquisadores se comprometem a cuidar dos dados durante e
após a pesquisa no sentido de otimizar o compartilhamento de dados.
PERIÓDICOS CIENTÍFICOS
Os periódicos exigem cada vez mais que os dados que sustentam a
pesquisa publicada depositado dentro em uma base de dados ou
repositório acessível .
INSTITUIÇÕES DE PESQUISA
Financiam/desenvolvem infraestruturas para gestão e serviços de
dados para facilitar o compartilhamento dentro de domínios específicos.
38. Há uma parcela dos produtos de
pesquisa que necessita de
infraestruturas
INFORMACIONAIS
TECNOLÓGICAS
POLÍTICAS
GERENCIAIS
Para se tornarem
visíveis para as comunidades
acadêmicas, Instituições de pesquisa,
agências de fomento e para o cidadão comum.
40. RECURSOS
INTERNACIONAIS
RELEVANTES
WORDWILDE PROTEIN DATABANK
LARGE HADRON COLLIDER
EUROPEN BIOINFORMATICS INSTITUTE
CENTROS DE DADOS
NACIONAIS
REPOSITÓRIOS
MULTIDICIPLINARES/INSTITUCIONAIS
COLEÇÕES
INDIVIDUAIS
INFRAESTRUTURA
PADRÕES,
SUSTENTABILIDADE
PROVENIÊNCIA
REAPONSABILIDADE
DEMANDA POR ACESSO
VALOR SOCIAL
CONFIABILIDADE
ESTABILIDADE
REFERÊNCIAS
NACIONAIS E
INTERNACIONAIS
IMPORTANTES
COLEÇÕES DE DADOS
INSUBISTITUÍVEIS
COLEÇÕES DE
COMUNIDADES
ESPECÍFICAS
MEMÓRIA
CIENTÍFICA
COLEÇÕES
DE UM GRUPO DE
PESQUISADORES
PERMANÊNCIA
USABILIDADE
COMPARTILHAMENTO
REUSO
CARPE DIEN
PIRÂMIDE DE GESTÃO DE DADOS
NATIONAL BIODIVERSITY
NETWORK
REPOSITÓRIOS
TEMÁTICOS/DISCIPLINARES
41. DIVERSIDADE DOS DADOS
Os dados da cauda longa, com sua natureza heterogênea e diversificada, devem se integrar a homogeneidade da grande
ciência formando uma ecologia ou diversidade de dados. Isto por que nem sempre a grande ciência, definida por
predicados homogêneos e estáveis é o modelo mais adequado para algumas das áreas mais avançadas e inovadoras da
pesquisa científica. Na maioria das vezes, integrar dados formando uma diversidade de dados transversalmente rica, estabelece modelos
eficientes de geração de conhecimento
neurociência
astronomia
transdisciplinaridade
A perspectiva sistêmica do espaço de dados torna a integração desses ativos chave para respostas a novas
indagações da ciência. Isso acontece especialmente ao vincular a estabilidade da grande ciência ao território de
alto coeficiente de autonomia e independência da cauda longa, cujas condutas desafiadoras favorecem a inovação e a
geração de conhecimentos multi e interdisciplinar.
42. RECONHECIMENTO/RECOMPENSA
CITAÇÃO/FATOR DE IMPACTO/PUBLICAÇÃO
CAPACITAÇÃO
EXIGÊNCIAS PARA FINANCIAMENTO DE PROJETOS
EXIGÊNCIAS DO EDITORES
POLÍTICAS
PESQUISADORES COMO PRODUTORES E
USUÁRIOS
BIBLIOTECARIOS DE DADOS
CIENTISTAS DE DADOS
INFRAESTRUTURA
FINANCIAMENTO
ORIENTAÇÃO POR PROJETOS/FINANCIMENTO PERMANENTE
CUSTO-BENEFÍCIO
ÊNFASE DISCIPLINAR
INCENTIVOS
O que o pesquisador precisa para tornar os seus dados visíveis
44. Informação é um conceito complexo com
centenas de definições [...]. Dado [por sua vez]
é um conceito simples com poucas definições,
porém sujeito a muitas e diferentes
interpretações
“
O que dificulta atribuir uma definição consensual ao dado de pesquisa é o fato idiossincrático
que ele pode ser muitas coisas diferentes para pessoas e circunstancias diferentes.
Isto acontece porque dado de pesquisa é dependente de interpretação
CRISTINE BORGMAN (2007, P.9)
45. AFINAL, O QUE É DADO DE PESQUISA
?
uma sequencia de bits proveniente de um sensor sísmico é dado de
pesquisa para os sismólogos;
amostras de rochas são dados de pesquisa para um geomorfologista;
conversas gravadas são dados de pesquisa para sociólogos;
e inscrições em cuneiformes são dados de pesquisa para quem
estuda linguagens do Oriente Próximo.
46. Porém, os cuneiformes podem
ser também dados para o
arqueólogo ou para o
ambientalista que buscam
padrões climáticos históricos;
de forma similar, os dados
sísmicos podem ser úteis para
biólogos que estudam
comportamento animal.
Borgman (2007, p.119)
cuneiformes
dados sísmicos
biólogos
arqueólogos
ambientalistas
... mas podem ser
reinterpretados em outros
contextos
“Dados são sempre registrados tomando como base de algum interesse, perspectiva,
tecnologia e prática que determinam seus significados e utilidades em diferentes
contextos”
Nielsen e Hjorland (2014, p.225)
47. ENTREVISTAS
ANOTAÇÕES
DADOS DE PESQUISA SÃO GERADOS PARA DIFERENTES
PROPÓSITOS, POR DIFERENTES COMUNIDADES
CIENTÍFICAS E POR MEIO DE DIFERENTES PROCESSOS
AFINAL, O QUE É DADO DE PESQUISA
?
52. DADOS EXPERIMENTAIS são provenientes de situações
controladas em bancadas de laboratórios. Em tese, dados
experimentais provenientes de experimentos que podem ser
precisamente reproduzidos e não precisam ser armazenados
indefinidamente; entretanto, nem sempre é possível reproduzir
precisamente todas as condições experimentais.
53. Observações de fenômenos naturais e sociais
Únicos e não se repetem
Dados brutos são coletados por percepção humana,
por instrumentos in sito ou por sensoriamento
remoto
Depois de coletado são processados em diferentes
níveis de complexidade
Observações cobrindo longos períodos são mais
valiosas
Para guarda permanente precisam ser avaliados:
Autenticidade, confiabilidade, integridade e
usabilidade (potencial de reuso);
Qualidade e completeza dos metadados
55. DADOS GOVERNAMENTAIS
Dados provenientes de recenseamento,
seguro social, levantamentos de agências
governamentais etc. são críticos para as
pesquisas nas áreas de saúde, ciências sociais
e humanidades.
DADOS ACUMULADOS POR REDES
SOCIAIS, MÁQUINAS DE BUSCA, ETC.
Big data
Comércio Transacional baseado em dados de negócios.
Humanidades digitais
REGISTROS
Registros médicos críticos para as pesquisas
nas áreas de saúde e ciências sociais. Registros
arquivísticos, históricos, jornalísticos,
administrativos, etc
56. DADOS BRUTOS
ou
DADOS PRIMÁRIOS
Dados provenientes
diretamente do
instrumento científico
.PROCESSAMENTO
. CALIBRAÇÃO
.VALIDAÇÃO
.COMBINAÇÃO COM OUTROS
DADOS
57. INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
FLUXO
DOS DADOS
58. UM EXEMPLO DE PROCESSAMENTO DE DADOS BRUTOS
FLUXO
DOS DADOS
60. Antes das práticas
acadêmicas se
deslocarem para o
reino digital ou para
o paradigma do big
data, os museus de
história natural já
tinham ampliado o seu
conceito de curadoria
antecipando a demanda
por gestão e
aprimoramento dos
dados digitais (PALMER
et al., 2013, p. 2).
66. Em comparação com a
gestão de artigos, livros e
teses as funções, as
descrições, os padrões e
os controles são mais
numerosos e complexos.
Essa complexidade, no
entanto, varia de acordo
com os ambientes
disciplinares, os tipos
de objetos e as
tecnologias
subjacentes
considerados e com a
política adotada pela
instituição.
DADOS DE PESQUISA DEMANDAM
UM GESTÃO MAIS COMPLEXA
67. TAMANHO DAS COLEÇÕES
FORMATOS DOS DADOS
ESTRUTURA DOS DADOS
COMPLEXIDADE DOS DADOS
DOMÍNIOS DISCIPLINARES
TECNOLOGIAS USADAS NA
GERAÇÃO/COLETA
HETEROGENEIDADE EM VÁRIAS DIMENSÕES
68. Pela primeira vez em 3.500 anos de
atividade de gestão de documentos,
produzimos registros que não
existem para o olho humano.
Completamente diferentes das placas de
argila da Babilônia, dos papiros egípcios,
dos pergaminhos romanos, do papel
moderno e mesmo do microfilme
E pela primeira não estamos
produzindo, gerenciando e
guardando artefatos físicos,
mas tentando entender e
preservar padrões virtuais
que dão a informação digital
seu conteúdo, estrutura,
contexto e assim o seu
significado, que são
completamente controlados
por software
69. A mesma tecnologia que muda a pesquisa científica coloca os
dados gerados em risco e nos impõe o desafio estratégico,
gerencial e político de criar, arquivar, preservar e tornar
disponível esses dados[
70. 001100011100011010100010110001011101001011001010011111010100100010100001110001001010001000101
Política de preservação
O repositório estabelece o conjunto de
propriedades significativas que serão
asseguradas para cada classe de
objeto
INFORMAÇÃO
Define a intensidade das medidas de preservação e o custo benefício da
preservação:
Seleção, Criticidade, Longevidade operacional Risco aceitável pela organização
ESTRATÉGIAS DE PRESERVAÇÃO
Procedimentos que devem ser realizados pelo organização sobre as diversas
classes de informação.
Define o conjunto de estratégias de preservação que o repositório irá adotar
FORMATOS DE ARQUIVOS
Definição de formatos para a preservação para cada
uma das classes de informação
SOFTWARE
Seleção de plataforma de software que permite a
produção, manipulação, gestão e preservação de
objetos digitais
ARMAZENMAENTO
Dispositivo ou conjunto de dispositivos utilizados para
armazenar primariamente os dados e as informações
produzidos -
SEGURANÇA
Sistema de cópias de segurança (backup) – oferece garantia contra
eventual perda ou corrupção dos dados primários contidos no
sistema de armazenamento por desastre, mau uso ou roubo
METADADOS
Metadados descrevem os atributos dos documentos do repositório dando-lhes
significado, contexto e organização, permitindo a produção, gestão, utilização deles
ao longo do tempo
Política de preservação
O repositório estabelece o conjunto de
propriedades significativas que serão
asseguradas para cada classe de
objeto
72. REALIDADE VIRTUAL
GAMES
SIMULAÇÕES
MODELOS EM 3D
ESTRUTURAS QUÍMICAS
SOFTWARE
WEBSITE/MULTIMÍDIA
VIDEOS
FOTOS
GRÁFICOS
ESPECIFICAÇÕES
ENTREVISTAS
FORMÚLAS
TABELAS
ANOTAÇÕES
DADOS NUMÉRICOS
NÍVEISDEABSTRAÇÃO
dispositivos de
imersão e
interativas
apresentações
sensoriais
imagem em
movimento
imagens
sons
documentos
letras
símbolos
números
Texto e
números não
contam toda
história
DADOS DE PESQUISA SÃO
OBJETOS COMPLEXOS,
DIVERSIFICADOS E
HETEROGÊNEOS.
OS OBJETIVOS E OS
MÉTODOS USADOS PARA
PRODUZI-LOS VARIAM
ENORMEMENTE DE
ACORDO COM OS
CAMPOS CIENTÍFICOS,
ASSIM COMO OS
CRITÉRIOS PARA
COMPARTILHÁ-LOS,
73. INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
74. INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
75. É MAIS DIFÍCIL VALIDAR OS
DADOS SE AS INFORMAÇÕES
ENTRE A IDEIA INICIAL E
RESULTADO FINAL ESTÃO
FALTANDO
77. DADO DE PESQUISA NÃO FALA POR SI PRÓPRIO
Dados de pesquisa são
incompreensíveis e portanto
inúteis a menos que haja uma
descrição detalhada e clara de
como e quando eles foram obtidos e
de como os dados derivados foram
produzidos !!!
Para entender os dados os usuários futuros necessitam de metadados, caso
contrário eles não saberão os detalhes de como os dados foram obtidos e
preparados : 1) como os instrumentos foram projetados e construídos; 2)
quando, onde e como os dados foram coletados; e 3) e não terão uma
descrição dos processos que levaram aos dados derivados, que são
tipicamente usados para analises científicas de dados.
Gray, 2002
82. IDENTIFICAÇÃO
A capacidade das coleções de dados e suas versões hospedadas nos repositórios de serem
IDENTIFICADAS permanentemente torna-se essencial para o acesso, preservação e citação; é um
fator importante também nos processos de interoperabilidade e de linking com outros recursos via,
por exemplo, linked data.
IDENTIFICADORES
PERSISTENTES
DOI
URN
HANDLES
Específicos
UFG – UNIVERSAL FINGERPRINT
TIMESTAMPING
CONTROLE DE VERSÕES
86. A INTEROPERABILIDADE DE SISTEMAS É COMPREENDIDA AQUI COMO A
CAPACIDADE DAS PLATAFORMAS DE REPOSITÓRIOS DE DADOS INTERCAMBIAREM
INFORMAÇÕES – DADOS E METADADOS - COM SISTEMAS EXTERNOS DE FORMA
HARMÔNICA E INTEGRADA E COM PROPÓSITOS ESPECÍFICOS.
ARCHIVEMÁTICA
SISTEMAS DE
PUBLICAÇÕES DE
PERIÓDICOS
SISTEMA DE
REPOSITÓRIO
CONFIÁVEL
CRIS
EXPORTAÇÃO DE
METADADOS - DC,
MARC-XML, METS...
PROGRAMAS PARA
EXPOR METADADOS
PROTOCOLO OAI-PMH
PARA COLETA
AUTOMÁTICA DE
METADADOS
LINKING - USO DO
LINKED DATA SISTEMA DE GESTÃO
DE PESQUISA
INTEGRAÇÃO COM
OUTROS SISTEMAS
88. O reuso confiável de dados de
pesquisa só é possível se eles
forem gerenciados de forma que
sua autenticidade e
integridade sejam mantidas ao
longo do tempo, isto porque um
pesquisador confia nos dados
coletados ou gerado por outro
pesquisador para dar
prosseguimento ao seu trabalho.
Isto coloca como em primeiro
plano a questão da
proveniência e de como ela é
endereçada pelos sistemas que
cuidam da curadoria de
dados, da preservação
digital e do arquivamento
confiável.
“
91. Questões éticas e de consentimento
Coletar, usar e compartilhar dados no âmbito de pesquisas
que envolvam pessoas exige que obrigações éticas e
legais sejam respeitadas.
Quando a pesquisa envolve obter dados de pessoas, o que se
espera do pesquisador é que ele mantenha um
comportamento pautado por um rigoroso código de ética,
que seja condizente com os padrões e protocolos
recomendados pelas entidades profissionais, instituições de
pesquisa e organizações financiadoras de pesquisa e,
sobretudo, com a legislação do país concernente a esse
aspecto.
Este comportamento deve permear todo o
ciclo de pesquisa, incluindo especialmente a
fase de compartilhamento dos dados.
92. Nesse contexto a compreensão de três tipos
de dados se torna essencial:
DADOS PESSOAIS
São dados relacionados a indivíduos vivos,
que podem ser identificados a partir desses
dados ou a partir desses dados combinados
com outras informações.
DADOS CONFIDENCIAIS
São dados que não estão em domínio
público tais como informações sobre
negócios, lucros, saúde, detalhes médicos e
opiniões políticas, entregues em confiança
ou que duas partes concordam em mantê-
los confidenciais, isto é, secretos.
DADOS PESSOAIS SENSÍVEIS
São dados sobre raça, origem étnica,
opinião política, religião ou crenças
similares, filiação sindical, doença física ou
mental, vida sexual, etc.
SENSÍVEL
95. PEN DRIVE
NOTEBOOK
WEBSITE DO PROJETO
OU DA INSTITUIÇÃO
PUBLICAÇÃO EM
REPOSITÓRIO INSTITUCIONAL
PUBLICAÇÃO EM PERIÓDICOS
COMO MATERIAL SUPLEMENTAR
PUBLICAÇÃO EM DATA JOURNAL
PUBLICAÇÃO EM REPOSITÓRIO DE DADOS
DISCIPLINAR/TEMÁTICO
PUBLICAÇÃO EM REPOSITÓRIO DE DADOS
MULTIDISCIPLINAR
INVISIBILIDADE
PUBLICAÇÃO DE DADOS
VISIBILIDADE
REUSO
COMPARTILHAMENTO
VISIBILIDADE
96.
97. Um crescente número de novas modalidades de
publicação está surgindo como resposta ao desafio de
dar visibilidade e implementar estratégias de
compartilhamento de dados de pesquisa. É importante
observar que os mecanismos de publicação de dados
tomam como solução um alinhamento ao sistema de
reputação científica
As novas modalidades de publicação de dados e de suas
representações descritivas demonstram com clareza que é
possível de ancorar os sistemas de compartilhamento
de dados às formas tradicionais de publicação,
embora isso exija um alto grau de inovação e uma nova
dinâmica que imponha mais velocidade nos processos de
avaliação, que pode ser algo que se desenrole no tempo e se
distribua no espaço de forma menos exclusiva (PAMPEL;
DALLMEIR-TIESSEN, 2015).
A publicação dos dados de pesquisa como objeto
de informação independente, em
repositórios de dados ou centros de dados.
A publicação de documentação textual em
data journal sobre dados de pesquisa na forma
de data papers
A publicação de dados de pesquisa enriquecendo
um artigo por meio de links que podem ter valor
semântico, nas chamadas publicações
ampliadas
Publicação de dados de pesquisas de
experimentos que não deram certos e
hipóteses não confirmadas em periódicos
voltados para essa condição
PUBLICAÇÃO DE DADOS
98. Uma publicação periódica científica cujo
objetivo principal é descrever coleções
de dados ao invés de reportar uma
investigação científica
DESCREVE
os dados em forma legível por humanos
A metodologia sobre a qual os dados
forma criados;
Detalha o potencial de reuso dos dados
DESCREVE OS DADOS e não hipóteses ou
argumentos desenvolvidos sobre os dados
Oferecer uma publicação que pode ser
citada e que dá credito ao autor e o
outros envolvidos no processo;
Assegura que os dados estejam
documentados para o reuso;
Aumenta a visibilidade dos dados na
comunidade científica
DATASET
DATA
PAPER
DATA
JOURNAL
REVISÃO
POR
PARES
<LINK>
A novidade interessante introduzida pelos data journals é que o modelo
propõe um processo de publicação para dados que remete a publicação
tradicional [...] A revisão por pares objetiva mensurar a originalidade e
qualidade dos dados, ela é aplicada aos dados ao invés da publicação, e a
sua “benção” é mandatória para os que os dados sejam publicados
(CASTELLI et al, 2013)
DATApaper
REPOSITÓRIO DE
DADOS
“
journal
99. O “viés de publicação do positivo” preocupa há décadas
diversos pesquisadores. Partindo da ideia de que a comunidade
científica só pode aprender com os resultados negativos se os
dados forem publicados, existem alguns periódicos
científicos que investem na publicação do que não deu
certo em diversas áreas. Tais periódicos têm como premissa
a concepção de que o suposto “fracasso” é tão importante na
ciência como em outros aspectos da vida, e que o progresso
científico não depende apenas das realizações de indivíduos
isolados, mas requer colaboração, trabalho em equipe e
comunicação aberta com todos os resultados, sejam eles
positivos ou negativos.
Fonte: http://www.enago.com.br/blog/motivos-para-publicar-resultados-negativos/
102. EXISTEM CÓDIGOS INTERNACIONAIS, NACIONAIS E
INSTITUCIONAIS QUE DETALHAM AS ESPECIFICAÇÕES E
GUARDA DESTES CADERNOS
Caderno de laboratório
Cadernos
convencionais
Cadernos
Eletrônicos
auditoria | certificação
Sistemas
complexos
integração com os
equipamentos do lab
Cadernos abertos
disponibilização dos dados
acontece em tempo real, à
medida que a pesquisa vai sendo
feita
O caderno de laboratório é uma ferramenta de organização
e de memória que serve de registro primário da pesquisa
científica e das atividades relacionadas. O caderno de
pesquisa registra as hipóteses, experimentos e análises
iniciais ou interpretações dos experimentos; serve também
como o registro legal da propriedade intelectual das ideias
e dos resultados obtidos pela pesquisa (SCHNELL, 2015).
105. As potencialidades dos acervos digitais
podem ser ampliadas se eles forem
reconfigurados como matéria-prima para o
empacotamento, ressignificação,
reinterpretação e agregações em novos
contextos e com novos propósito,
estabelecendo espaços de colaboração e
interlocução que definem o conceito de
reuso.
107. ATRIBUTOS
DOS OBJETOS DIGITAIS QUE OS
DIFEREM DE OBJETOS
FÍSICOS
EDITÁVEL
INTERATIVO
ABERTO E
REPROGRAMÁVEL
DISTRIBUÍDOS
(KALLINIKOS, 2010)
NOVAS FORMAS DE
AGREGAÇÃO,
APRESENTAÇÃO,
CONTEXTUALIZAÇÃO
E INTERPRETAÇÃO
CONECTÁVEL
BITS
&
BYTES
ÁTOMOS
&
MOLÉCULAS AUTOCONTIDO/
SUPORTE FIXO
“compreender o meio digital como um facilitador de acesso e precursor de novas possibilidades de imersão nos
lugares de memória, afastando-se de uma concepção simplista do digital como mero repositório de
informação” (REIS et al, 2016)
108. As potencialidades dos acervos digitais podem ser ampliadas se eles forem reconfigurados como matéria-
prima para o empacotamento, ressignificação, reinterpretação e agregações em novos contextos e com novos
propósito, estabelecendo espaços de colaboração e interlocução que definem o conceito de reuso.
AUTOCORREÇÃO
110. Por que diários de bordo de navios de séculos passados são tão
importantes para a pesquisa atual sobre o clima?
111. EM OUTROS CONTEXTOS
Centenas de diários de bordo
digitalizados, registrando viagens
marítimas de três séculos
ARQUIVOLOGIA CLIMATOLOGIA
se tornam uma base de
dados rica sobre a
fauna, flora,
corrente e ventos
oceânicos
DATA MINING
Cientistas reconstroem a história
dos sistemas dinâmicos da Terra
e melhoram as projeções sobre
o futuro do clima
112. Tornar um conteúdo que foi criado para uma audiência útil para outra é um problema complexo, porque cada
disciplina tem seu próprio vocabulário, estrutura de dados e práticas de pesquisa e formulam
questões de forma distintas usando sua própria terminologia. Isto coloca um desafio importante para os
serviços de curadoria que é criar descrições e representações, ferramentas e serviços que tornem viável o
compartilhamento entre diferentes audiências (BORGMAN,2007).
A probabilidade de uma coleção de dado ser
reusada no futuro por outras audiências,
estabelece o critério mais simples de valor para
a coleção. Embora não seja algo simples, a partir
daí pode-se estimar se vale pena arquivá-la por
longo prazo
113.
114. NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE
INFORMAÇÃO & CONHECIMENTO
115. NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE
INFORMAÇÃO & CONHECIMENTO
116. GESTÃO DE DADOS DE PESQUISA
COMPARTILHAMENTO
REUSO
PRESERVAÇÃO
CONTEXTUALIZAÇÃO
PROVENIÊNCIA
AUTENTICIDADE
118. Aumento do potencial de compartilhamento/reuso
de dados de pesquisa, minimizando a necessidade de
duplicar trabalho no laboratório, no campo ou na
biblioteca.
Assegura que os dados obtidos por meio de altos custos não
sejam perdidos ou inadvertidamente destruídos e
mantenham sua integridade, autenticidade e confiabilidade.
Permitir que a recuperação, comparação e meta
análise dos dados proveniente de múltiplas fontes possa
levar a novos importantes conhecimentos.
Possibilita a verificação ou repetição de experimentos,
validação de trabalhos acadêmicos e a verificação de
descobertas, particularmente importante em meio a
preocupação nacional e internacional sobre integridade da
pesquisa.
Novos temas de pesquisa – em particular temas
interdisciplinares – podem emergir a partir da reanálise
de dados existentes ou comparações com novos
dados: crescentemente dados podem se tornar ponto de
partida para novas pesquisas, bem como um produto para
as pesquisas correntes.
SÃO SIGNIFICANTES OS
BENEFÍCIOS POTENCIAIS
PARA O MUNDO
ACADÊMICO DA GESTÃO
DE DADOS DE PESQUISA
MELHORES DADOS >> MELHORES PESQUISAS
119. CICLO DE VIDA DOS DADOS DE PESQUISA
PLANEJAMENTO
GERAÇÃO/COLETA
PROCESSAMENTO
ANÁLISE PRESERVAÇÃO
REUSOPUBLICAÇÃO
120. EXISTEM DUAS ÁREAS DE REQUISITOS NA GESTÃO DADOS CIENTÍFICOS:
a primeira está relacionada com as infraestruturas – sistemas, normas e protocolos - necessárias para assegurar a
coleta, preservação e acesso, e ainda a disponibilidade de serviços de amplo espectro;
A SEGUNDA CONSIDERA OS ASPECTOS POLÍTICOS, LEGAIS E ÉTICOS DECORRENTES DO ACESSO E
REUSO DOS DADOS ALÉM DO CONTEXTO INICIAL PARA QUE FORAM GERADOS.
MARCOS
POLÍTICOS
ÉTICOS
LEGAIS E
DE PRIVACIDADE
INFRAESTRUTURAS:
SISTEMAS, NORMAS E
PROTOCOLOS -
NECESSÁRIAS PARA
ASSEGURAR A COLETA,
PRESERVAÇÃO E
ACESSO, E AINDA A
DISPONIBILIDADE DE
SERVIÇOS PRIVACIDADE &
SEGURANÇADA INFORMAÇÃO
QUESTÕES LEGAIS
QUESTÕES ÉTICAS
ARCABOUÇO POLÍTICO
1
2
SOLUÇÕES DE TI
PLANEJAMENTO
SUPORTE
INFORMACIONAL
121. Planejamento:
Projeto de pesquisa
Plano de Gestão de Dados
Coleta/geração de dados
Processamento
Controle de qualidade
Metadados disciplinares
Armazenamento seguro
Backups
Análise
Avaliação
Catalogação
Contextualização
Questões éticas e legais
Publicação
Preservação de longo prazo
Compartilhamento/
acesso/reuso
ANTES DA PESQUISA COMEÇAR DURANTE A PESQUISA PESQUISA FINALIZADA
GESTÃO DE DADOS DE PESQUISA
122. DADOS QUE SERÃO GERADOS
PADRÕES DE METADADOS
PADRÕES DE CONTROLE/GARANTIA
DA QUALIDADE DOS DADOS
PLANO DE COMPARTILHAMENTO
QUESTÕES ÉTICAS E LEGAIS
RESTRIÇÕES AO COMPARTILHAMENTO
ARMAZENAMENTO/PRESERVAÇÃO DE
CURTO PRAZO
PROPRIEDADE INTELECTUAL E LICENÇAS
CUSTOS
PAPÉIS E RESPONSABILIDADES
PRESERVAÇÃO DE LONGO PRAZO
PLANO DE
GESTÃO DE
DADOS DE
PESQUISA
INCORPORAR OS
ITENS DA GESTÃO DE
DADOS COMO PARTE
IMPORTANTE DO
CICLO DA PESQUISA
IMPLEMENTAR A
GESTÃO DE DADOS DE
ACORDO COM AS
NECESSIDADES E
PROPÓSITOS DA
PESQUISA
1
2
123. As bibliotecas de pesquisa
tem que capturar dados em
diferentes estágios da
geração e processamento dos
dados de pesquisa.
O planejamento da gestão de
dados se torna parte do
processo de investigação
científica
PÓS-PUBLICAÇÃO PRÉ-PUBLICAÇÃO
PLANO DE DADOS DE PESQUISA
124. Financiamento
Política de ct & i
Treinamento
Aquisição/desenvolvimento de coleções
Segurança/armazenamento
Preservação
Boas práticas/qualidade
Conformidade legal/responsabilidades
Infraestrutura tecnológica
tipos de dados
formatos
Identificadores persistentes
curadoria
serviços
Políticas mandatórias
metadados/documentação
interoperabilidade
Arquivamento
depósito/acesso
Publicação
tempo de embargo
INSTITUCIONAL
Sustentabilidade
Licenças
REPOSITÓRIOS
Transparência
POLÍTICA DE
COMUNIDADES/DISCIPLINAS/COLEÇÕES
POLÍTICAS
DE DADOS
NACIONAL
GOVERNAMENTAL
Proteção à propriedade intelectual
Ética
FOMENTO À
PESQUISA
Prioridades
Prioridades estratégicas
125.
126. TIPOS ESPECÍFICOS DE
DADOS
(ex: modelos biológicos)
REPOSITÓRIOS
INSTITUCIONAIS
As PLATAFORMAS DISCIPLINARES se voltam para domínios
específicos ou para tipos particulares de dados. Em geral
possuem modelos de dados adequados à representação das
coleções de dados e oferecem uma CARTEIRA DE
SERVIÇOS mais orientadas, como curadoria e visualização.
Essas plataformas estão abertas para publicar qualquer
tipo de dados, e são especialmente desenvolvida para
dar apoio a publicação de datasets produzidas no
âmbito da ciência chamada de “CAUDA LONGA” –
domínios científicos nos quais um grande número de
relativamente pequenos laboratórios ou de
pesquisadores individuais produzem a maioria
resultados científicos
TIPOS DE PLATAFORMAS DE
GESTÃO DE DADOS
DISCIPLINARES
MULTIDISCIPLINARES
127. O sucesso dos novos serviços de
informação para a pesquisa está
relacionado à sua capacidade de
dar apoio às práticas e culturas
das comunidades científicas da
instituição.
128. PADRÃO DE QUALIDADE DOS DADOS
SERVIÇOS ESPECIALIZADOS
VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO,
CURADORIA, ANOTAÇÃO, ETC
PRESERVAÇÃO DE LONGO PRAZO
ARMAZENAMENTO SEGURO
CONTROLE DE ACESSO
BACK-UPS
BUSCAS PRECISAS E PERSONALIZADAS
ACESSO EM FORMATOS POPULARES
MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE
ACESSOS
PLATAFORMA
DISCIPLINAR
DE GESTÃO
DE DADOS
DE PESQUISA
FERRAMENTAS DE CITAÇÃO PADRONIZADA
PROMOÇÃO DOS DADOS/INTERAÇÃO
LICENÇAS APROPRIADAS
130. HARDWARE
INSTALAÇÃO
LOCAL ARMAZENAMENTO
BASE INSTALADA
LICENÇA
ESQUEMA DE METADADOS
METADADOS
EXPORTAÇÃO (ex. METS)
INTEROPERABILIDADE
PROGRAMAÇÃO (ex. API)
BUSCA
CUSTOMIZAÇÃO
AMBIENTE DE PESQUISA
PERIODO DE EMBARGO
REVISÃO POR PARES
VERSIONAMENTO
VALIDAÇÃO
COMUNIDADES
CONSULTORIA
TIPOS DE
DADOS
INSTITUIÇÃO
AG. FOMENTO
ÁREA
PESQUISADORES
REQUISITOS
133. CURADOR
ALGUÉM QUE MANTÉM ALGUMA
COISA PARA O BEM PÚBLICO,
CUJO VALOR FREQUENTEMENTE
NECESSITA SER REVELADO.
134. Seleção, cuidado e preservação de coleções de objetos de arte estáveis, como pintura
e esculturas, livros e manuscritos raros e únicos; espécimes naturais e físicos
importantes, e outros artefatos considerados de valor cultural ou científico. Em
termos espaciais, a curadoria ocorre em contextos organizacionais relativamente
limitados como bibliotecas, arquivos, museus, galerias de arte, herbários e
instituições similares (NRC, 2015).
Além do mais, curadoria está preocupada também em promover a disponibilidade
dos objetos para audiências apropriadas (JISC).
135. Independente de uma coleção ser constituídas de objetos físicos ou digitais – ou seja, de
átomos e moléculas ou de bits e bytes - um curador deve avaliar seu valor e relevância para a
comunidade de usuários reais e potenciais; determinar a necessidade de preservação;
documentar a origem e autenticidade; descrever, registrar e catalogar seu conteúdo;
providenciar armazenamento e preservação a longo prazo; e proporcionar um meio de acesso e
uso para os conteúdos (NRC, 2015).
A CURADORIA
DIGITAL difere, em
termos de significado e
amplitude conceitual, da
CURADORIA como ela
vem sendo compreendida
ao longo do tempo!
Entretanto, a curadoria
digital mostra alguma
continuidade com as
praticas tradicionais
de curadoria!
136. Antes das práticas
acadêmicas se
deslocarem para o
reino digital ou para
o paradigma do big
data, os museus de
história natural já
tinham ampliado o seu
conceito de curadoria
antecipando a demanda
por gestão e
aprimoramento dos
dados digitais (PALMER
et al., 2013, p. 2).
137. oferece um
arcabouço pratico e
conceitual que permite a
elaboração de fluxos de
trabalho voltados para a
uma gestão dinâmica de
coleções digitais...
...que podem
ser aplicados aos
acervos digitais
CULTURAIS e
CIENTÍFICOS
ampliando o
seu potencial de
reuso e de
concepção e
desenvolvimento
NOVOS
PRODUTOS
SERVIÇOS
ON-LINE
INOVADORES
ESPAÇOS DE
INTERAÇÃO
METODOLOGIAS ACERVOS DIGITAIS
REUSO
AGORA E NO FUTURO
METODOLOGIAS ACERVOS DIGITAIS ADICIONANDO
VALOR
138. QUE PRESSUPÕE
ADICIONAR VALOR
ORGANIZAÇÕES EM COLEÇÕES
DOCUMENTAÇÃO
ATRIBUIÇÃO DE METADADOS
IDENTIFICAÇÃO
ARQUIVAMENTO
PRESERVAÇÃO
SEGURANÇA FÍSICA
AVALIAÇÃO (AUTENTICAÇÃO E
VERIFICAÇÃO)
CONTROLE DE QUALIDADE
ANOTAÇÃO
CONTEXTUALIAÇÃO
AÇÕES
GERENCIAIS,
TECNOLÓGICAS E
POLÍTICAS
NECESSÁRIAS PARA
MANTER OS DADOS
POR TODO O SEU CICLO
DE VIDA – DESDE A SUA
CRIAÇÃO -VISANDO O
USO CORRENTE E
FUTURO
AVALIAÇÃO DE RISCO
PARA GARANTIR
INTELIGENTEMENTE
ABERTOS
COMPREENSÍVEIS
LONGEVOS
DISPONÍVEIS
RECUPERÁVEIS
ACESSÍVEIS
AVALIÁVEIS
(PROVENIÊNCIA/
INTEGRIDADE/
QUALIDADE)
CONFORMIDADE LEGAL
E ÉTICA
PADRONIZADOS
INTEROPERÁVEIS
COM OBJETIVO
FINAL
USABILIDADE/REUSO
REPRODUTIBILIDADE
INTERDISCIPLINARIDADE
INPUT PARA NOVAS
PESQUISAS
ENSINO DAS CIÊNCIAS
MEMÓRIA ACADÊMICA
VALIDAÇÃO DA PESQUISA
VOLTADO PARA
UM PÚBLICO-ALVO
ALINHADO COM O
FLUXO DE PESQUISA
139. CURADORIA DIGITAL
ATIVIDADE DE GESTÃO E DE PROMOÇÃO DE USO
DE ACERVOS DIGITAIS DESDE A
CRIAÇÃO/SELEÇÃO, ASSEGURANDO A SUA
ADEQUAÇÃO PARA PROPÓSITOS ATUAIS E
FUTUROS E TORNANDO-OS
DISPONÍVEIS PARA
DESCOBERTA E REUSO.
ARQUIVAMENTO
ATIVIDADE DE CURADORIA QUE ASSEGURA QUE O
OBJETO DIGITAL ESTÁ SELECIONADO, ARMAZENADO
E PODE SER ACESSADO E QUE A SUA
INTEGRIDADE FÍSICA E LÓGICA ESTÁ
MANTIDA AO LONGO DO TEMPO
PRESERVAÇÃO DIGITAL
ATIVIDADE INCLUÍDA NA CURADORIA ATRAVÉS DA QUAL ITENS
ESPECÍFICOS SÃO MANTIDOS AO LONGO DO TEMPO DE FORMA
QUE ELES POSSAM SER ACESSADOS E COMPREENDIDOS
NO FUTURO A DESPEITO DAS MUDANÇAS
TECNOLÓGICAS
GESTÃO DE
MUDANÇAS AO
LONGO DO TEMPO E
DO ESPAÇO
140.
141. PLANO DE
GESTÃO DE
DADOS
DE PESQUISA
IDENTIFICADO
CITADO
VISÍVELLOCALIZADO
RECUPERADO
ACESSADO
INTERPRETADO
CONTEXTUALIZADO
AVALIADO
PROVENIÊNCIA
COMPARTILHADO
ON-LINE
LINKADO COM
PUBLICAÇÃO
CONSIDERA PRIVACIDADE/ÉTICA
LICENÇA APROPRIADA
REUSADO
DADO DE
PESQUISA
MANEIRO
ANOTADO
ATIVA COLABORAÇÃO
INTEROPERÁVEL
ARQUIVADO
PRESERVADO
142. ENCONTRÁVEL:
Fácil de achar por humanos e
computadores por meio de metadados
que facilitem a busca por datsets
específicos.
ACESSÍVEL:
Armazenado por longo prazo de forma
que ele pode ser facilmente acessado
e/ou baixado com licenças e condições
de acesso bem definidas (acesso aberto
quando possível)
INTEROPERÁVEL
Pronto para combinar com outros
dados por seres humanos ou por
computadores
REUSÁVEL
Pronto para ser usado para
pesquisas futuras, e para ser
processado usando métodos
computacionais.
PRINCÍPIOS FAIR
143. • Os seus dados estão associados a um identificador persistente?
• Existem metadados ricos descrevendo os seus dados?
• Os metadados estão acessíveis online em uma ferramenta de busca? Ex: catálogo ou repositório
dedados
• O registro do metadado especifica o identificador persistente?
• O acesso ao identificador persistente levará o usuário ao dado ou aos metadado associados?
• Os protocolos adotados seguem padrões reconhecidos? Ex: html
• Os procedimentos de acesso incluem autenticação e graus de autorização?
• Os metadados estão acessivies, mesmo quando os dados não estão disponíveis?
• Os dados estão em formatos claramente compreendidos e de preferência abertos
• Os metadados seguem normas relevantes?
• Os vocabulários controlados, palavras-chave, tesauros ou ontologias são utilizados sempre que
possível?
• Referências e links qualificados são fornecidos para uso por outros?
• Os dados são precisos e bem descritos com muitos atributos relevantes?
• Os dados possuem uma licença de uso de dados clara e acessível?
• Está claro como, por que e por quem os dados foram criados e processados?
• Os dados e os metadados atendem a padrões e domínio relevantes?
ENCONTRÁVELENCONTRÁVEL
ACESSÍVEL
INTEROPERÁVEL
REUSÁVEL
144.
145.
146.
147.
148. DADOS QUE SERÃO GERADOS
PADRÕES DE METADADOS
PADRÕES DE CONTROLE/GARANTIA
DA QUALIDADE DOS DADOS
PLANO DE COMPARTILHAMENTO
QUESTÕES ÉTICAS E LEGAIS
RESTRIÇÕES AO COMPARTILHAMENTO
ARMAZENAMENTO/PRESERVAÇÃO DE
CURTO PRAZO
PROPRIEDADE INTELECTUAL E LICENÇAS
CUSTOS
PAPÉIS E RESPONSABILIDADES
PRESERVAÇÃO DE LONGO PRAZO
PLANO DE
GESTÃO DE
DADOS DE
PESQUISA
INCORPORAR OS
ITENS DA GESTÃO DE
DADOS COMO PARTE
IMPORTANTE DO
CICLO DA PESQUISA
IMPLEMENTAR A
GESTÃO DE DADOS DE
ACORDO COM AS
NECESSIDADES E
PROPÓSITOS DA
PESQUISA
1
2
149.
150.
151.
152.
153.
154.
155.
156.
157. PADRÃO DE QUALIDADE DOS DADOS
SERVIÇOS ESPECIALIZADOS
VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO,
CURADORIA, ANOTAÇÃO, ETC
PRESERVAÇÃO DE LONGO PRAZO
ARMAZENAMENTO SEGURO
CONTROLE DE ACESSO
BACK-UPS
BUSCAS PRECISAS E PERSONALIZADAS
ACESSO EM FORMATOS POPULARES
MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE
ACESSOS
PLATAFORMA
DISCIPLINAR
DE GESTÃO
DE DADOS
DE PESQUISA
FERRAMENTAS DE CITAÇÃO PADRONIZADA
PROMOÇÃO DOS DADOS/INTERAÇÃO
LICENÇAS APROPRIADAS
158.
159. GESTÃO DE DADOS DE
PESQUISA ENFATIZA TODOS
OS FUNDAMENTOS DA
BIBLIOTECONOMIA DIGITAL
MEMÓRIA CIENTÍFICA
BIBLIOTECAS: PROVEDORES
DE NOVOS SERVIÇO
EXPANSÃO DO ESCOPO DA
PROFISSÃO
AGENDA DE PESQUISA
DADOS DE PESQUISA
Hinweis der Redaktion
INTEROPERABILIDADE COM OUTROS SISTEMAS
A interoperabilidade de sistemas é compreendida aqui como a capacidade das plataformas de repositórios de dados intercambiarem informações – dados e metadados - com sistemas externos de forma harmônica e integrada e com propósitos específicos. No momento em que projeta os recursos informacionais autocontidos numa plataformas em uma escala dimensionalmente maior – em termos espaciais e temporais -, a interoperabilidade assegura que os dados possam ser disseminados, encontrados, preservados e reusados com maior intensidade e longevidade. “Expor o conteúdo do repositório para outras plataformas de pesquisa [e outros tipos de sistemas] pode aumentar a visibilidade e o reuso dos dados” reforça XXXX
Troca de metadados
A maioria dos sistemas permitem o desenvolvimento de clientes e ferramentas assim como oferecem seu proprio API´s para exporem seus registros de metadados para comunidades externas, but there are some diferences regarding standard complience. (#3)
O protocolo OAI-PMH (citar 18) is a widely –used protocol that promotes interoperability between repositories while also streamlining data dissemination, and is a valuable resource for harvesters to index the content of the repository.
OAI-PMH
Oferece acesso alternativo aos dados e metadados por meio de alguma forma de API para acesso online e intercâmbio.
Integração com sistemas de publicação de periódicos científicos
A conexão por hiperlink dos dados com os artigos que relatam os experimentos através dos quais eles forma gerados ou coletados se tornam cada vez mais importante como forma de contextualização, visibilidade, citação e avaliação da pesquisa, além de conferir um valor adicional ao artigo. Essas ligações são importantes também na formulação de novos conceitos de documentos científicos, como são as publicações ampliadas (citar tese). Dessa forma a integração entre sistemas de publicação, como o Open Journal System e repositórios de dados, como o Dataverse, por meio do protocolo SWORD – como relatados por autores como Altman e colaboradores (2015) e Castro e Garnett (2014) - criam uma estrutura informacional organicamente interligada importante para o acesso e validação.
Esse tipo de interoperabilidade permite que os sistemas de periódicos gerenciem, de forma fluida, a submissão, revisão e publicação de coleção de dados associados com um artigo, segundo um workflow específico (ALTMAN et al, 2015). Dessa forma os autores podem submeter seus artigos e as coleções de dados subjacentes aos artigos simultaneamente no sistema de gestão de periódicos, enquanto os dados são automaticamente depositados em um repositório de dados (CASTRO; GARNETT, 2014). Esta integração facilita o compartilhamento, o arquivamento das coleções de dados e, sobretudo, ainda a validação e reprodutibilidade da pesquisa.
O repositório recebe do por meio de algum dispositivo, por exemplo, de um API, a submissão de dados associados a um artigo provenientes de sistemas externos de gestão de periódicos?
Integração com plataformas de repositório confiável
Existe um grande interesse dos principais stakeholds em preservar os dados de pesquisa usando padrões confiáveis e formatos recomendados pelas comunidades de arquivo e de preservação. Porém, o que se observa é que as plataformas voltadas para dados carecem de certos tipos de atividades de preservação, processos e padrões que são exigidos para assegurar compatibilidade com repositórios digitais confiáveis e com outros padrões de certificação.
Há possibilidade que a plataforma esteja integrada a um repositório confiável aderente aos princípios do OAIS, por meio, por exemplo de um API, que permita a automação do processamento, criação de metadados de preservação e criação de pacotes independentes de repositório SIP´s e AIP´s, usando METS, PREMIS and bagit.
Um exemplo disso é a integração DATAVERSE com o Archivematica
“A construção de um sistema robusto de arquivamento e preservação para dados de pesquisa envolve capturar a essência e o contexto do dado de pesquisa original, incluindo os metadados descritivos e estruturais que permitem o reuso.”
Archivematica
Seer
EXPORTAÇÃO DE METADADOS
Algumas plataformas dispõe de facilidades para a exportação de registros que são compatíveis com esquemas de metadados – Dublin Core, MARC-XML etc. (#3); plataformas baseadas em Dspace podem exportar DIPs na forma de registros de metadados METS, dessa forma permitindo a ingestão desses pacotes em fluxos de trabalho orientados para preservação de longo termo.
INTEGRAÇÃO COM OUTROS SISTEMAS
TIPO DE REPOSITÓRIO
Quando se compara publicações acadêmicas e coleções de dados – ambos produtos de pesquisa – verifica-se que diferentemente das publicações acadêmicas, os dados variam consideravelmente. Isto porque áreas distintas de pesquisa têm diferentes exigências em relação à geração e uso dos dados, especialmente devido à diversidade estrutural que caracterizam os seus datasets.
Essa heterogeneidade se reflete com intensidade nas exigências de metadados que podem variar bastante de domínio para domínio, exigindo modelos de dados flexíveis o bastante para representarem adequadamente os registros de cada área.
É preciso considerar também que as práticas de compartilhamento de dados variam enormemente entre as disciplinas científicas: em algumas áreas o compartilhamento e o reuso de dados são essenciais para seu desenvolvimento, enquanto outras o compartilhamento é quase uma cultura de “troca de presentes”, conforme destaca (#4).
De uma forma geral há uma diversidade de tipos de repositório que espelham afiliações acadêmicas e institucionais e as políticas e práticas próprias desses segmentos, domínios disciplinares e, sobretudo, a natureza diversificada e heterogênea das coleções de dados de pesquisa. Para a finalidade da presente análise consideram-se dois tipos: multidisciplinares (algumas vezes chamados genéricos) e os disciplinares (também chamados temáticos).
O disciplinares se voltam para domínios específicos como ...; ou para tipos particulares de dados como ... Em geral possuem modelos de dados adequados à representação das coleções de dados e oferecem uma carteira de serviços mais orientadas, como curadoria e visualização. Por sua vez os repositórios multidisciplinares gerenciam coleções de dados de diversas áreas, estruturas e tipos, que implica em representação limitada e serviços básicos. “Essas plataformas são essencialmente serviços de compartilhamento e não repositórios de preservação” (#11). Essas plataformas estão abertas para publicar qualquer tipo de dados, e são especialmente desenvolvida para dar apoio a publicação de datasets produzidas no âmbito da ciência chamada de “cauda longa” – domínios científicos nos quais um grande número de relativamente pequenos laboratórios ou de pesquisadores individuais produzem a maioria resultados científicos (#2, Heidorn). Entretanto, vários levantamentos indicam que a maioria dos repositórios se identifica com um domínio particular ou com uma área de estudo bem delimitada (#1, #2,).
Portanto, a escolha por parte do pesquisador deve se orientar por plataformas mais próximas de sua área de pesquisa, ou seja, repositórios temáticos que oferecem esquemas de metadados disciplinares que podem descrever e contextualizar com mais precisão os seus datasets.
Porém, se não há repositórios disciplinares para a área de pesquisa dos dados, é melhor que eles sejam depositados em plataformas multidisciplinar como o Zenodo, Figshare ou Dataverse, ou ainda no Repositório da instituição....DRYAD