SlideShare ist ein Scribd-Unternehmen logo
1 von 160
Luana Farias Sales
ARQUIVO NACIONAL
PPGCI IBICT/ECO-UFRJ
Luis Fernando Sayão
CNEN/CIN
PPGCI IBICT/ECO-UFRJ
GESTÃO E CURADORIA
PROTAGONSMOS DOS DADOS NA CIÊNCIA CONTEMPORÂNEA
O QUE É DADO DE PESQUISA
GESTÃO DE DADOS DE PESQUISA
CURADORIA DE DADOS DE PESQUISA
DEZ PASSOS PARA COMEÇAR A GESTÃO DE SEUS DADOS
Luís Sayão e Luana Sales
Os registros claros e cuidadosos de suas observações e seu estilo de publicação não somente
permitiu que ele compreendesse o Sistema Solar como permitiu também que seus
leitores compreendessem como ele chegou as suas descobertas. Isto por que o caderno
de notas de Galileu integravam seus dados (desenhos de Júpiter e suas luas), metadados
chaves (cronometragem de cada observação, condições meteorológicas, propriedades do
telescópio) e texto (descrição dos métodos, análises e conclusões). Quando Galileu inclui as
informações de suas notas no Siderius Nuncius, a integração entre texto, dado e metadado foi
preservada.
De forma diferente de como Galileu reportou em Siderius Nuncius o resultado de suas pesquisas, a quantidade de
dados reais e de descrição de dados nas publicações modernas quase nunca são suficientes para repetir ou mesmo
estatisticamente verificar o estudo que está sendo apresentado (Goodman, 2014; Sayão e Sales. 2018)
GALILEU GALILEI
TICHO BRAHE
DADOS
EXPERIMENTAIS
TEORIA
TICHO BRAHE JOHANNES KEPLER
BIG DATA CIENTÍFICO
Grandes projetos
Observatórios
Instalações complexas
Dados distribuídos
Simulação por computador
Ciência aberta
DADOS ABERTOS
Metodologias
Equipamentos
Software
Cadernos de laboratório
Roteiro de entrevistas
Resultados negativos
DADOS DOS DO GRANDE
NÚMERO DE PEQUENOS
LABORATÓRIOS
Heterogêneos
Não tratados
Invisíveis
Coletivamente é o maior
volume
TECNOLOGIA
COMPUTACIONAL
APLICADAS A ESTUDOS EM
HUMANIDADES.
Humanidades estudando
Tecnologias digitais (Bobley)
PROTAGONISMODE DADOS NA CIÊNCIA
OS PARADIGMAS CIENTÍFICOS
1º PARADIGMA:
Ciência experimental ou empírica estuda a relação
entre fenômenos por meio de experimentos;
descreve os fenômenos naturais
2º PARADIGMA:
Ciência teórica ou descritiva formula modelos
para descrição, explicação e generalização dos
fenômenos naturais
3º PARADIGMA:
Ciência computacional baseada em simulação de
fenômenos complexos por meio de uso de software,
gera grande quantidade de dados
4º PARADIGMA:
Ciência exploratória baseado no uso intensivo de
dados, exploração estatística e mineração de dados
Unifica teorias, experimentos e simulação
- Dados capturados por instrumentos ou gerados por
simulação;
- Processados por software
- Informação/conhecimento armazenadas em
computadores
- Análise de base de dados por estatística e mineração
Pré-Renascença
Pré-computação
Pré-big data
Agora
Experimentos
Leis da mecânica
clássica,
eletromagnetismo, etc
Simulação da
natureza,
Método Monte
Carlo
Deteção de
padrões,
relações e
anomalias.
Big Data
Inteligência
Artificial
1600
1950
2010
ABSTRAÇÃO
MODELO
MATEMÁTICO
ALGORÍTMO
NUMÉRICO
SOFTWARE
PREDIÇÕES
CLIMÁTICAS
REALIDADE
SIMULAÇÃO POR COMPUTADOR
É análogo a um experimento físico, mas usa
equações matemáticas para representar o
mundo real
No eScience a simulação deixa de ser uma ferramenta que auxilia o pesquisador a
fazer ciência para transformar o modo de fazer ciência e definir um novo PARADIMA
CIENTÍFICO.
Muitos dados!!!
COMPUTAÇÃO
NOVAS
DESCOBERTAS
BIG DATA
DADOS ESTRUTURADOS
E NÃO ESTRUTURADOS
integrar visualizar
analisar
CAPTURA GESTÃO/CURADORIA ANÁLISE
BASE DE DADOS
COMPUTAÇÃO
PADRÕES
RELAÇÕES
HIPÓTESES
TEORIAS
MODELOS
NOVOSS
DESCOBERTAS
COMBINAÇÃO DE MÚLTIPLAS FONTES
DE DADOS PROVENIENTES DE
DOMÍNIOS DIFERENTES
Análises exploratórias
Exploração de coleções
de dados
Mineração de dados
Modelagem
Simulação interativa
Realidade virtual
Workflow científico
CIÊNCIA PRODUZIDA A PARTIR DO USO,
ARMAZENAMENTO, PROCESSAMENTO,
ANÁLISE E COMPARTILHAMENTO DE
DADOS DE PESQUISA (GRAY, 2005).
eScience
O QUARTO PARADIGMA CIENTÍFICO
O poder dos computadores modernos permite que
relações altamente complexas e até então
despercebidas possam ser identificadas e se tornem o
motor do quarto paradigma
[
[
eScience
O QUARTO PARADIGMA CIENTÍFICO
ACELERAR A PESQUISA CIENTÍFICA E GERAR CONHECIMENTO COM BASE NA
EXPLORAÇÃO DESSE ACÚMULO DE DADOS
Ferramentas avançadas de software e de mineração de dados ajudam a interpretar e
transformar os dados brutos em configurações ilimitadas de informação e conhecimento.
Perguntas instigantes e recursivas colocadas perante os vários segmentos científicos podem
agora ser endereçadas, pela combinação de múltiplas fontes de dados provenientes
de domínios diferentes, através da aplicação de modelos complexos e de métodos
inéditos de análise.
eScience
O QUARTO PARADIGMA CIENTÍFICO
O MODO DE FAZER CIÊNCIA MUDA....
A computação não é mais meramente um suporte para o padrão
tradicional de se conduzir a investigação científica em determinadas
disciplinas, mas pode mudar fundamentalmente o desenvolvimento
dessas disciplinas.
Ao invés de hipóteses serem testadas e
desenvolvidas a partir de dados coletados para
este propósito, hipóteses são construídas
após a identificação relações nos
conjuntos de dados. Neste abordagem os
dados vem primeiro, incorporados numa
sequencia de captura de dados, curadoria e
análises
FORMULAÇÃO
DE HIPÓTESES
Illustration: Marian Bantjes "All models are wrong, but some are useful."
O DILÚVIO DE DADOS TORNA O MÉTODO CIENTÍFICO OBSOLETO
Chris Anderson (2008)
As the title indicates, Anderson asserted that in the era of petabyte
information and supercomputing, the traditional, hypothesis‐driven
scientific method would become obsolete. No more theories or
hypotheses, no more discussions whether the experimental results
refute or support the original hypotheses. In this new era, what counts
are sophisticated algorithms and statistical tools to sift through a
massive amount of data to find information that could be turned into
knowledge.
O método científico tradicional está superado?
O big data pode substituir a ciência orientada por hipótese por sofisticados
algoritmos e massivas coleções de dados?
Dada a quantidade de dados científicos disponíveis é possível descartar o papel das
formulações teóricas e de hipóteses?
Em vez de buscar resultados precisos sob condições controladas e de
campo simplificado, os cientistas são levados a ver na desordem dos
dados um reflexo da complexidade da natureza
“
Ciência aberta
Quando há
compartilhamento de ideias
e abertura do conhecimento a
ciência avança mais
rapidamente
O compartilhamento e o
intercâmbio permitem
descobrir conexões no que
estava antes desconectado
Reprodutibilidade dos experimentos científicos é um dos fundamentos da ciência.
Os dados científicos devem estar disponíveis para qualquer pessoa sem restrições de
copyright, patentes ou outros mecanismos de controle. Dados abertos incentivam o
reuso em outras áreas diferentes da original, o que pode levar a descobertas
surpreendentes.
Os pesquisadores devem divulgar suas descobertas de forma que elas
estejam acessíveis para todos os usuários potenciais sem qualquer barreira.
Colaboração crescente entre cientistas efetivada por meio das mídias sociais e da internet. Um
número crescente de cientistas estão encontrando novas estratégias para comunicar seus
trabalhos usando wikis, blogs, twitter
Códigos fontes para reproduzir dos dados; uso de software livres e formatos abertos; ferramentas
de pesquisa abertas; Dados de entrada e metadados Cadernos de pesquisa abertos
A avaliação pelas instituições de pesquisa, bem como a aprovação de financiamento pelas agências deve levar em conta
a preparação dos dados para disponibilidade na mesma escala em que considera artigos de periódicos e outras
publicações, ou seja o nível de transparência.
CAUDA LONGA
DA CIÊNCIA
Número de
datasets
A MAIORIA DAS COLEÇÕES DE DADOS
PRODUZIDAS PELA PESQUISA CIENTÍFICA
É GERADO/COLETADO POR PEQUENOS
LABORATÓRIOS E PESQUISADORES
INDIVIDUALMENTE NAS UNIVERSIDADES E
INSTITUTOS DE PESQUISA, QUE
DESENVOLVEM UM GRANDE NÚMERO DE
PROJETOS CIENTÍFICOS
A CAUDA
LONGA
DA CIÊNCIA
Dados da Grande Ciência são fáceis de manipular, compreender
e arquivar;
A Pequena Ciência é exepcionalmente heterogênea e muito mais
vasta e gera 2-3 vezes mais dados do que a Big Science (MacColl, 2010)
ASTRONOMIA
FISICA NUCLEAR
GENOMA
PROTEINA
SENSORIAMENTO
REMOTO
PEQUENOS LABORATÓRIOS, EQUIPES E PESQUISADORES INDIVIDUAIS
DOMÍNOS ESPECÍFICOS
VÁRIOS DOMÍNIOS E INSTITUIÇÕESVolume
dos dados
TAMANHO DAS COLEÇÕES
FORMATOS DOS DADOS
ESTRUTURA DOS DADOS
COMPLEXIDADE DOS DADOS
DOMÍNIOS DISCIPLINARES
TECNOLOGIAS USADAS NA
GERAÇÃO/COLETA
HETEROGENEIDADE EM VÁRIAS DIMENSÕES
Grande número de
projetos científicos que geram pequenas
quantidades de dados
uma grande parte não
está publicado ou está
armazenada nos
laboratórios
Número de datasets
Big dados
organizados
Dados da cauda
longa da ciência
Volume
dos dados
Pequeno número
de grandes
projetos científicos
que geram muitos
dados
DADOS NÃO PUBLICADOS
Limite da literatura
Os dados gerados ou coletados em decorrência dos pequenos projetos de pesquisa são distribuídos por todos os domínios do
conhecimento, das artes e humanidades até as áreas mais identificadas como os padrões da grande ciência como física e astronomia
A CIÊNCIAINVISíVELDA CAUDA LONGA
Parece mais provável que a ciência transformadora
venha mais da cauda do que da cabeça (Heidorn, 2008)“
Inovação
modelos
BIGSCIENCE
GRANDES INSTRUMENTOS
ALTOS CUSTOS
LONGA DURAÇÃO
MUITOS COLABORADORES
PESQUISA DISTRIBUÍDA
PEQUENOS INSTRUMENTOS
BAIXOS CUSTOS
PEQUENA DURAÇÃO
EQUIPES PEQUENAS
PESQUISA LOCAL
DADOS
BASES DE DADOS
REPOSITÓROS
ACESSO
GESTÃO
CURADORIA
MINERAÇÃO
PRIVACIDADE
REDES
REDES DE
PESQUISA/EDUCAÇÃO
NACIONAIS E
INTERNACIONAIS;
SEGURANÇA
RECURSOS
COMPUTACIONAIS
SUPERCOMPUTADORES
NUVEM, GRID, CLUSTER;
VISUALIZAÇÃO;
CENTROS DE COMPUTAÇÃO
INSTRUMENTOS
CIENTÍFICOS
TELECÓPIOS
SATÉLITES
COLISORES
SENSORES
SOFTWARE
APLICAÇÕES;
DESENVOLVIMENTO
E SUPORTE
EXPERTISESPESQUISADORES
CIENTISTAS DE DADOS
BIBLIOTECARIOS DE DADOS
ARQUIVISTAS
ORGANIZAÇÕES
UNIVERSIDADES
INSTITUTOS DE PESQUISA
AGÊNCIAS DE FOMENTO
BIBLIOTECAS, ARQUIVOS, MUSEUS
ORGANIZAÇOES VIRTUAIS;
COMUNIDADES
CIBERINFRAESTRUTURA
DE PESQUISA
A maioria dos pesquisadores concordam em tese com os
princípios de compartilhamento e reuso preconizados pela
ciência aberta, mas relutam em compartilhar os seus próprios
dados como parte do fluxo de pesquisa , e o fazem mais como
exceção do que como regra .
LADO
OCULTO
DOS
DADOS
DADOS
NÃO
PUBLICADOS
INDIVIDUAIS
DISCIPLINARES
ORGANIZACIONAIS
+50%
DOS ACHADOS
NÃO FORAM
PUBLICADOS
O COMPARTILHAMENTO PODE REVELAR VALORES IMPORTANTES OCULTOS NESSES DADOS
INFRAESTRUTURAISPOLITICAS
Personalidade e atitudes do pesquisador em
relação aos seus dados.
Cultura do compartilhamento do domínio
Obstáculos inerentes às instituições de
pesquisa em relação à gestão de dados
Aportes tecnológicos disponíveisCondicionantes políticas voltadas para
recompensa, financiamento e
sustentabilidade de longo prazo
INTERESSES ECONÔMICOS
(patentes, acordos comerciais, etc)
RESULTADOS NEGATIVOS,
hipóteses não confirmadas
CUSTO do tratamento dos dados
(limpeza, catalogação, formatos, etc.)
Perda da VANTAGEM COMPETITIVA de
publicar mais baseado nos dados
Dificuldade de garantir a PRIVACIDADE
dos dados
Preocupação dos dados serem
ERRONEAMENTE INTERPRETADOS por
outros pesquisadores
Restrições culturais,
DISCIPLINARES e institucionais X
MOTIVOS
PARA O
PESQUISADOR
NÃO
COMPARTILHAR
DADOS DE PESQUISA SÃO MUITO SUSCETÍVEIS A PERDAS
MINHA TESE
O TEXTO ACADÊMICO
APRESENTA APENAS OS
DADOS DE PESQUISA DE
FORMA CONDENSADA
UMA VISÃO DOS DADOS!!!
VISÍVEL INVISÍVEL
DUPLICAÇÃO DE ESFORÇOS E RECURSOS
PRINCÍPIO DA REPRODUTIBILIDADE DOS EXPERIMENTOS
VALIDAÇÃO E AUTOCORREÇÃO DA PESQUISA
TORNAR PÚBLICO OS RESULTADOS DAS PESQUISAS
FINANCIADAS POR VERBAS PÚBLICAS
AVANÇO DO CONHECIMENTO E INOVAÇÃO
NOVAS VISÕES SOBRE ESSES DADOS
AUTOCORREÇÃO
PESQUISADORES
Iniciativas como o DataCite - que atribui identificador persistente (DOI) aos dados de pesquisa -
ajudam o cientista a tornar seus dados citáveis, rastreáveis e acessíveis de modo que os dados
de pesquisa, bem como as publicações baseadas nesses
AGÊNCIAS FINANCIADORAS DE PESQUISA
PLANOS DE COMPARTILHAMENTO DE DADOS
POLÍTICAS MANDATÓRIAS
Isso garante que os pesquisadores se comprometem a cuidar dos dados durante e
após a pesquisa no sentido de otimizar o compartilhamento de dados.
PERIÓDICOS CIENTÍFICOS
Os periódicos exigem cada vez mais que os dados que sustentam a
pesquisa publicada depositado dentro em uma base de dados ou
repositório acessível .
INSTITUIÇÕES DE PESQUISA
Financiam/desenvolvem infraestruturas para gestão e serviços de
dados para facilitar o compartilhamento dentro de domínios específicos.
Há uma parcela dos produtos de
pesquisa que necessita de
infraestruturas
INFORMACIONAIS
TECNOLÓGICAS
POLÍTICAS
GERENCIAIS
Para se tornarem
visíveis para as comunidades
acadêmicas, Instituições de pesquisa,
agências de fomento e para o cidadão comum.
TECNOLOGIAS
Redes de computadores
Banco de dados
Ferramentas de software
Sistemas de storage
Repositórios confiáveis
RECURSOS
INTERNACIONAIS
RELEVANTES
WORDWILDE PROTEIN DATABANK
LARGE HADRON COLLIDER
EUROPEN BIOINFORMATICS INSTITUTE
CENTROS DE DADOS
NACIONAIS
REPOSITÓRIOS
MULTIDICIPLINARES/INSTITUCIONAIS
COLEÇÕES
INDIVIDUAIS
INFRAESTRUTURA
PADRÕES,
SUSTENTABILIDADE
PROVENIÊNCIA
REAPONSABILIDADE
DEMANDA POR ACESSO
VALOR SOCIAL
CONFIABILIDADE
ESTABILIDADE
REFERÊNCIAS
NACIONAIS E
INTERNACIONAIS
IMPORTANTES
COLEÇÕES DE DADOS
INSUBISTITUÍVEIS
COLEÇÕES DE
COMUNIDADES
ESPECÍFICAS
MEMÓRIA
CIENTÍFICA
COLEÇÕES
DE UM GRUPO DE
PESQUISADORES
PERMANÊNCIA
USABILIDADE
COMPARTILHAMENTO
REUSO
CARPE DIEN
PIRÂMIDE DE GESTÃO DE DADOS
NATIONAL BIODIVERSITY
NETWORK
REPOSITÓRIOS
TEMÁTICOS/DISCIPLINARES
DIVERSIDADE DOS DADOS
Os dados da cauda longa, com sua natureza heterogênea e diversificada, devem se integrar a homogeneidade da grande
ciência formando uma ecologia ou diversidade de dados. Isto por que nem sempre a grande ciência, definida por
predicados homogêneos e estáveis é o modelo mais adequado para algumas das áreas mais avançadas e inovadoras da
pesquisa científica. Na maioria das vezes, integrar dados formando uma diversidade de dados transversalmente rica, estabelece modelos
eficientes de geração de conhecimento
neurociência
astronomia
transdisciplinaridade
A perspectiva sistêmica do espaço de dados torna a integração desses ativos chave para respostas a novas
indagações da ciência. Isso acontece especialmente ao vincular a estabilidade da grande ciência ao território de
alto coeficiente de autonomia e independência da cauda longa, cujas condutas desafiadoras favorecem a inovação e a
geração de conhecimentos multi e interdisciplinar.
RECONHECIMENTO/RECOMPENSA
CITAÇÃO/FATOR DE IMPACTO/PUBLICAÇÃO
CAPACITAÇÃO
EXIGÊNCIAS PARA FINANCIAMENTO DE PROJETOS
EXIGÊNCIAS DO EDITORES
POLÍTICAS
PESQUISADORES COMO PRODUTORES E
USUÁRIOS
BIBLIOTECARIOS DE DADOS
CIENTISTAS DE DADOS
INFRAESTRUTURA
FINANCIAMENTO
ORIENTAÇÃO POR PROJETOS/FINANCIMENTO PERMANENTE
CUSTO-BENEFÍCIO
ÊNFASE DISCIPLINAR
INCENTIVOS
O que o pesquisador precisa para tornar os seus dados visíveis
‘
Informação é um conceito complexo com
centenas de definições [...]. Dado [por sua vez]
é um conceito simples com poucas definições,
porém sujeito a muitas e diferentes
interpretações
“
O que dificulta atribuir uma definição consensual ao dado de pesquisa é o fato idiossincrático
que ele pode ser muitas coisas diferentes para pessoas e circunstancias diferentes.
Isto acontece porque dado de pesquisa é dependente de interpretação
CRISTINE BORGMAN (2007, P.9)
AFINAL, O QUE É DADO DE PESQUISA
?
uma sequencia de bits proveniente de um sensor sísmico é dado de
pesquisa para os sismólogos;
amostras de rochas são dados de pesquisa para um geomorfologista;
conversas gravadas são dados de pesquisa para sociólogos;
e inscrições em cuneiformes são dados de pesquisa para quem
estuda linguagens do Oriente Próximo.
Porém, os cuneiformes podem
ser também dados para o
arqueólogo ou para o
ambientalista que buscam
padrões climáticos históricos;
de forma similar, os dados
sísmicos podem ser úteis para
biólogos que estudam
comportamento animal.
Borgman (2007, p.119)
cuneiformes
dados sísmicos
biólogos
arqueólogos
ambientalistas
... mas podem ser
reinterpretados em outros
contextos
“Dados são sempre registrados tomando como base de algum interesse, perspectiva,
tecnologia e prática que determinam seus significados e utilidades em diferentes
contextos”
Nielsen e Hjorland (2014, p.225)
ENTREVISTAS
ANOTAÇÕES
DADOS DE PESQUISA SÃO GERADOS PARA DIFERENTES
PROPÓSITOS, POR DIFERENTES COMUNIDADES
CIENTÍFICAS E POR MEIO DE DIFERENTES PROCESSOS
AFINAL, O QUE É DADO DE PESQUISA
?
Algumas definições
O QUE E DADO DE PESQUISA?
DADOS EXPERIMENTAIS são provenientes de situações
controladas em bancadas de laboratórios. Em tese, dados
experimentais provenientes de experimentos que podem ser
precisamente reproduzidos e não precisam ser armazenados
indefinidamente; entretanto, nem sempre é possível reproduzir
precisamente todas as condições experimentais.
Observações de fenômenos naturais e sociais
Únicos e não se repetem
Dados brutos são coletados por percepção humana,
por instrumentos in sito ou por sensoriamento
remoto
Depois de coletado são processados em diferentes
níveis de complexidade
Observações cobrindo longos períodos são mais
valiosas
Para guarda permanente precisam ser avaliados:
Autenticidade, confiabilidade, integridade e
usabilidade (potencial de reuso);
Qualidade e completeza dos metadados
ABSTRAÇÃO
MODELO
MATEMÁTICO
ALGORÍTMO
NUMÉRICO
SOFTWARE
PREDIÇÕES
CLIMÁTICAS
REALIDADE
SIMULAÇÃO POR COMPUTADOR
É análogo a um experimento físico, mas usa
equações matemáticas para representar o
mundo real
No eScience a simulação deixa de ser uma ferramenta que auxilia o pesquisador a
fazer ciência para transformar o modo de fazer ciência e definir um novo modo de
fazer ciência.
Muitos dados!!!
DADOS GOVERNAMENTAIS
Dados provenientes de recenseamento,
seguro social, levantamentos de agências
governamentais etc. são críticos para as
pesquisas nas áreas de saúde, ciências sociais
e humanidades.
DADOS ACUMULADOS POR REDES
SOCIAIS, MÁQUINAS DE BUSCA, ETC.
Big data
Comércio Transacional baseado em dados de negócios.
Humanidades digitais
REGISTROS
Registros médicos críticos para as pesquisas
nas áreas de saúde e ciências sociais. Registros
arquivísticos, históricos, jornalísticos,
administrativos, etc
DADOS BRUTOS
ou
DADOS PRIMÁRIOS
Dados provenientes
diretamente do
instrumento científico
.PROCESSAMENTO
. CALIBRAÇÃO
.VALIDAÇÃO
.COMBINAÇÃO COM OUTROS
DADOS
INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
FLUXO
DOS DADOS
UM EXEMPLO DE PROCESSAMENTO DE DADOS BRUTOS
FLUXO
DOS DADOS
QUANTO Á ABORDAGEM
Dados qualitativos
Dados quantitativos
Antes das práticas
acadêmicas se
deslocarem para o
reino digital ou para
o paradigma do big
data, os museus de
história natural já
tinham ampliado o seu
conceito de curadoria
antecipando a demanda
por gestão e
aprimoramento dos
dados digitais (PALMER
et al., 2013, p. 2).
AUTOMÁTICA
COLETA
ESTRUTURADOS
NÃO E
TU
~
Em comparação com a
gestão de artigos, livros e
teses as funções, as
descrições, os padrões e
os controles são mais
numerosos e complexos.
Essa complexidade, no
entanto, varia de acordo
com os ambientes
disciplinares, os tipos
de objetos e as
tecnologias
subjacentes
considerados e com a
política adotada pela
instituição.
DADOS DE PESQUISA DEMANDAM
UM GESTÃO MAIS COMPLEXA
TAMANHO DAS COLEÇÕES
FORMATOS DOS DADOS
ESTRUTURA DOS DADOS
COMPLEXIDADE DOS DADOS
DOMÍNIOS DISCIPLINARES
TECNOLOGIAS USADAS NA
GERAÇÃO/COLETA
HETEROGENEIDADE EM VÁRIAS DIMENSÕES
Pela primeira vez em 3.500 anos de
atividade de gestão de documentos,
produzimos registros que não
existem para o olho humano.
Completamente diferentes das placas de
argila da Babilônia, dos papiros egípcios,
dos pergaminhos romanos, do papel
moderno e mesmo do microfilme
E pela primeira não estamos
produzindo, gerenciando e
guardando artefatos físicos,
mas tentando entender e
preservar padrões virtuais
que dão a informação digital
seu conteúdo, estrutura,
contexto e assim o seu
significado, que são
completamente controlados
por software
A mesma tecnologia que muda a pesquisa científica coloca os
dados gerados em risco e nos impõe o desafio estratégico,
gerencial e político de criar, arquivar, preservar e tornar
disponível esses dados[
001100011100011010100010110001011101001011001010011111010100100010100001110001001010001000101
Política de preservação
O repositório estabelece o conjunto de
propriedades significativas que serão
asseguradas para cada classe de
objeto
INFORMAÇÃO
Define a intensidade das medidas de preservação e o custo benefício da
preservação:
Seleção, Criticidade, Longevidade operacional Risco aceitável pela organização
ESTRATÉGIAS DE PRESERVAÇÃO
Procedimentos que devem ser realizados pelo organização sobre as diversas
classes de informação.
Define o conjunto de estratégias de preservação que o repositório irá adotar
FORMATOS DE ARQUIVOS
Definição de formatos para a preservação para cada
uma das classes de informação
SOFTWARE
Seleção de plataforma de software que permite a
produção, manipulação, gestão e preservação de
objetos digitais
ARMAZENMAENTO
Dispositivo ou conjunto de dispositivos utilizados para
armazenar primariamente os dados e as informações
produzidos -
SEGURANÇA
Sistema de cópias de segurança (backup) – oferece garantia contra
eventual perda ou corrupção dos dados primários contidos no
sistema de armazenamento por desastre, mau uso ou roubo
METADADOS
Metadados descrevem os atributos dos documentos do repositório dando-lhes
significado, contexto e organização, permitindo a produção, gestão, utilização deles
ao longo do tempo
Política de preservação
O repositório estabelece o conjunto de
propriedades significativas que serão
asseguradas para cada classe de
objeto
1001100010010
1011000010010
0011000110010
1001011000111
1110001001011
0011001110110
1001101100011
1001100010010
1011000010010
0011000110010
1001011000111
1110001001011
CADEIAS
DE
BITS
O QUE
DEVEMOS
PRESERVAR?
REALIDADE VIRTUAL
GAMES
SIMULAÇÕES
MODELOS EM 3D
ESTRUTURAS QUÍMICAS
SOFTWARE
WEBSITE/MULTIMÍDIA
VIDEOS
FOTOS
GRÁFICOS
ESPECIFICAÇÕES
ENTREVISTAS
FORMÚLAS
TABELAS
ANOTAÇÕES
DADOS NUMÉRICOS
NÍVEISDEABSTRAÇÃO
dispositivos de
imersão e
interativas
apresentações
sensoriais
imagem em
movimento
imagens
sons
documentos
letras
símbolos
números
Texto e
números não
contam toda
história
DADOS DE PESQUISA SÃO
OBJETOS COMPLEXOS,
DIVERSIFICADOS E
HETEROGÊNEOS.
OS OBJETIVOS E OS
MÉTODOS USADOS PARA
PRODUZI-LOS VARIAM
ENORMEMENTE DE
ACORDO COM OS
CAMPOS CIENTÍFICOS,
ASSIM COMO OS
CRITÉRIOS PARA
COMPARTILHÁ-LOS,
INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
INSTRUMENTO
CIENTÍFICO
DADOS
BRUTOS
PROCESSAMENTO
DOS DADOS
ANÁLISE DOS
DADOS
Selecionar subset
Mesclar mútiplos datasets
Conversão
Normalização
Limpeza dos dados
COMPUTAÇÃO EM NUVEM
COMPUTAÇÃO EM GRADE
Estatísticas
Simulação
Plotagem
Visualização
Modelos
Algoritmos
Publicações
A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
É MAIS DIFÍCIL VALIDAR OS
DADOS SE AS INFORMAÇÕES
ENTRE A IDEIA INICIAL E
RESULTADO FINAL ESTÃO
FALTANDO
SIGNIFICADO
CONTEXTO e ESTRUTURA DOS
DDADOS
DADO DE PESQUISA NÃO FALA POR SI PRÓPRIO
Dados de pesquisa são
incompreensíveis e portanto
inúteis a menos que haja uma
descrição detalhada e clara de
como e quando eles foram obtidos e
de como os dados derivados foram
produzidos !!!
Para entender os dados os usuários futuros necessitam de metadados, caso
contrário eles não saberão os detalhes de como os dados foram obtidos e
preparados : 1) como os instrumentos foram projetados e construídos; 2)
quando, onde e como os dados foram coletados; e 3) e não terão uma
descrição dos processos que levaram aos dados derivados, que são
tipicamente usados para analises científicas de dados.
Gray, 2002
SIGNIFICADO
ESTRUTURA
IDENTIFICAÇÃO
CONTEXTO
PROVENIÊNCIA
METADADOS
DOCUMENTAÇÃO
DEPENDÊNCIAS
TÉCNICAS
PROVENIÊNCIA
AUTORIA
DIREITOS ASSOCIADOS
INTERVENÇÕES
MODELO DE
DADOS
Os metadados têm um forte impacto
na capacidade dos dados de pesquisa
de transmitir conhecimentos e poder
ser interpretados e reusados agora e
no futuro
LOCALIZAÇÃO
GEOGRÁFICA
VERSÃO
DESCRITIVOS
ADMINISTRATIVOS
TÉCNICOS
ESTRUTURAIS
PRESERVAÇÃO
DISCIPLINARES
METADADOS DISCIPLINARES
http://www.dcc.ac.uk/drupal/resources/metadata-standards
IDENTIFICAÇÃO
A capacidade das coleções de dados e suas versões hospedadas nos repositórios de serem
IDENTIFICADAS permanentemente torna-se essencial para o acesso, preservação e citação; é um
fator importante também nos processos de interoperabilidade e de linking com outros recursos via,
por exemplo, linked data.
IDENTIFICADORES
PERSISTENTES
DOI
URN
HANDLES
Específicos
UFG – UNIVERSAL FINGERPRINT
TIMESTAMPING
CONTROLE DE VERSÕES
IDENTIFICADAS/CITADAS
UNF – UNIVERSAL NUMERIC FINGERPRINT
TME STAMP
INTEROPERABILIDADE
Humanos & Máquinas
A INTEROPERABILIDADE DE SISTEMAS É COMPREENDIDA AQUI COMO A
CAPACIDADE DAS PLATAFORMAS DE REPOSITÓRIOS DE DADOS INTERCAMBIAREM
INFORMAÇÕES – DADOS E METADADOS - COM SISTEMAS EXTERNOS DE FORMA
HARMÔNICA E INTEGRADA E COM PROPÓSITOS ESPECÍFICOS.
ARCHIVEMÁTICA
SISTEMAS DE
PUBLICAÇÕES DE
PERIÓDICOS
SISTEMA DE
REPOSITÓRIO
CONFIÁVEL
CRIS
EXPORTAÇÃO DE
METADADOS - DC,
MARC-XML, METS...
PROGRAMAS PARA
EXPOR METADADOS
PROTOCOLO OAI-PMH
PARA COLETA
AUTOMÁTICA DE
METADADOS
LINKING - USO DO
LINKED DATA SISTEMA DE GESTÃO
DE PESQUISA
INTEGRAÇÃO COM
OUTROS SISTEMAS
INTEROPERABILIDADE POSSÍVEL
REPOSITÓRIOS
INSTITUCIONAISSISTEMAS DE
PERIÓDICOS
REPOSITÓRIOS
CONFIÁVEIS
SISTEMAS CRIS
GESTÃO DE PESQUISA
GESTÃO ACADÊMICA
PLATAFORMA LATTES
CLOCKSS
REPOSITÓRIOS
DE DADOS
O reuso confiável de dados de
pesquisa só é possível se eles
forem gerenciados de forma que
sua autenticidade e
integridade sejam mantidas ao
longo do tempo, isto porque um
pesquisador confia nos dados
coletados ou gerado por outro
pesquisador para dar
prosseguimento ao seu trabalho.
Isto coloca como em primeiro
plano a questão da
proveniência e de como ela é
endereçada pelos sistemas que
cuidam da curadoria de
dados, da preservação
digital e do arquivamento
confiável.
“
PADRÕES,
BOAS PRÁTICAS,
GESTÃO,
TECNOLOGIA,
ORGANIZAÇÃO
SUSTENTABILIDADE
A IMPORTÂNCIA DOS PROCESSOS DE AVALIAÇÃO RESIDE NO FATO DELES PROMOVEREM A
CONFIANÇA NA USABILIDADE, SUSTENTABILIDADE E PERSISTÊNCIA POR LONGO PRAZO DOS
DADOS DISPONÍVEIS PARA COMPARTILHAMENTO.
E ACREDITE
NOS
REPOSITÓRIOS
DIGITAIS
CONFIÁVEIS
Questões éticas e de consentimento
Coletar, usar e compartilhar dados no âmbito de pesquisas
que envolvam pessoas exige que obrigações éticas e
legais sejam respeitadas.
Quando a pesquisa envolve obter dados de pessoas, o que se
espera do pesquisador é que ele mantenha um
comportamento pautado por um rigoroso código de ética,
que seja condizente com os padrões e protocolos
recomendados pelas entidades profissionais, instituições de
pesquisa e organizações financiadoras de pesquisa e,
sobretudo, com a legislação do país concernente a esse
aspecto.
Este comportamento deve permear todo o
ciclo de pesquisa, incluindo especialmente a
fase de compartilhamento dos dados.
Nesse contexto a compreensão de três tipos
de dados se torna essencial:
DADOS PESSOAIS
São dados relacionados a indivíduos vivos,
que podem ser identificados a partir desses
dados ou a partir desses dados combinados
com outras informações.
DADOS CONFIDENCIAIS
São dados que não estão em domínio
público tais como informações sobre
negócios, lucros, saúde, detalhes médicos e
opiniões políticas, entregues em confiança
ou que duas partes concordam em mantê-
los confidenciais, isto é, secretos.
DADOS PESSOAIS SENSÍVEIS
São dados sobre raça, origem étnica,
opinião política, religião ou crenças
similares, filiação sindical, doença física ou
mental, vida sexual, etc.
SENSÍVEL
DADOS
PESSOAIS
SENSÍVEIS
LICENÇAS APROPRIADAS AO
COMPARTILHAMENTO E REUSO
ESTRUTURA + CONTEÚDO
... ENTÃO,
O QUE VOCÊ
BAIXOU?
PEN DRIVE
NOTEBOOK
WEBSITE DO PROJETO
OU DA INSTITUIÇÃO
PUBLICAÇÃO EM
REPOSITÓRIO INSTITUCIONAL
PUBLICAÇÃO EM PERIÓDICOS
COMO MATERIAL SUPLEMENTAR
PUBLICAÇÃO EM DATA JOURNAL
PUBLICAÇÃO EM REPOSITÓRIO DE DADOS
DISCIPLINAR/TEMÁTICO
PUBLICAÇÃO EM REPOSITÓRIO DE DADOS
MULTIDISCIPLINAR
INVISIBILIDADE
PUBLICAÇÃO DE DADOS
VISIBILIDADE
REUSO
COMPARTILHAMENTO
VISIBILIDADE
Um crescente número de novas modalidades de
publicação está surgindo como resposta ao desafio de
dar visibilidade e implementar estratégias de
compartilhamento de dados de pesquisa. É importante
observar que os mecanismos de publicação de dados
tomam como solução um alinhamento ao sistema de
reputação científica
As novas modalidades de publicação de dados e de suas
representações descritivas demonstram com clareza que é
possível de ancorar os sistemas de compartilhamento
de dados às formas tradicionais de publicação,
embora isso exija um alto grau de inovação e uma nova
dinâmica que imponha mais velocidade nos processos de
avaliação, que pode ser algo que se desenrole no tempo e se
distribua no espaço de forma menos exclusiva (PAMPEL;
DALLMEIR-TIESSEN, 2015).
A publicação dos dados de pesquisa como objeto
de informação independente, em
repositórios de dados ou centros de dados.
A publicação de documentação textual em
data journal sobre dados de pesquisa na forma
de data papers
A publicação de dados de pesquisa enriquecendo
um artigo por meio de links que podem ter valor
semântico, nas chamadas publicações
ampliadas
Publicação de dados de pesquisas de
experimentos que não deram certos e
hipóteses não confirmadas em periódicos
voltados para essa condição
PUBLICAÇÃO DE DADOS
Uma publicação periódica científica cujo
objetivo principal é descrever coleções
de dados ao invés de reportar uma
investigação científica
DESCREVE
os dados em forma legível por humanos
A metodologia sobre a qual os dados
forma criados;
Detalha o potencial de reuso dos dados
DESCREVE OS DADOS e não hipóteses ou
argumentos desenvolvidos sobre os dados
Oferecer uma publicação que pode ser
citada e que dá credito ao autor e o
outros envolvidos no processo;
Assegura que os dados estejam
documentados para o reuso;
Aumenta a visibilidade dos dados na
comunidade científica
DATASET
DATA
PAPER
DATA
JOURNAL
REVISÃO
POR
PARES
<LINK>
A novidade interessante introduzida pelos data journals é que o modelo
propõe um processo de publicação para dados que remete a publicação
tradicional [...] A revisão por pares objetiva mensurar a originalidade e
qualidade dos dados, ela é aplicada aos dados ao invés da publicação, e a
sua “benção” é mandatória para os que os dados sejam publicados
(CASTELLI et al, 2013)
DATApaper
REPOSITÓRIO DE
DADOS
“
journal
O “viés de publicação do positivo” preocupa há décadas
diversos pesquisadores. Partindo da ideia de que a comunidade
científica só pode aprender com os resultados negativos se os
dados forem publicados, existem alguns periódicos
científicos que investem na publicação do que não deu
certo em diversas áreas. Tais periódicos têm como premissa
a concepção de que o suposto “fracasso” é tão importante na
ciência como em outros aspectos da vida, e que o progresso
científico não depende apenas das realizações de indivíduos
isolados, mas requer colaboração, trabalho em equipe e
comunicação aberta com todos os resultados, sejam eles
positivos ou negativos.
Fonte: http://www.enago.com.br/blog/motivos-para-publicar-resultados-negativos/
90%
10%
EXISTEM CÓDIGOS INTERNACIONAIS, NACIONAIS E
INSTITUCIONAIS QUE DETALHAM AS ESPECIFICAÇÕES E
GUARDA DESTES CADERNOS
Caderno de laboratório
Cadernos
convencionais
Cadernos
Eletrônicos
auditoria | certificação
Sistemas
complexos
integração com os
equipamentos do lab
Cadernos abertos
disponibilização dos dados
acontece em tempo real, à
medida que a pesquisa vai sendo
feita
O caderno de laboratório é uma ferramenta de organização
e de memória que serve de registro primário da pesquisa
científica e das atividades relacionadas. O caderno de
pesquisa registra as hipóteses, experimentos e análises
iniciais ou interpretações dos experimentos; serve também
como o registro legal da propriedade intelectual das ideias
e dos resultados obtidos pela pesquisa (SCHNELL, 2015).
PUBLICAÇÕES AMPLIADAS
COMPARTILHAMENTO
As potencialidades dos acervos digitais
podem ser ampliadas se eles forem
reconfigurados como matéria-prima para o
empacotamento, ressignificação,
reinterpretação e agregações em novos
contextos e com novos propósito,
estabelecendo espaços de colaboração e
interlocução que definem o conceito de
reuso.
COLEÇÕES
DIGITAIS
00110010100
011001001
ATRIBUTOS
DOS OBJETOS DIGITAIS QUE OS
DIFEREM DE OBJETOS
FÍSICOS
EDITÁVEL
INTERATIVO
ABERTO E
REPROGRAMÁVEL
DISTRIBUÍDOS
(KALLINIKOS, 2010)
NOVAS FORMAS DE
AGREGAÇÃO,
APRESENTAÇÃO,
CONTEXTUALIZAÇÃO
E INTERPRETAÇÃO
CONECTÁVEL
BITS
&
BYTES
ÁTOMOS
&
MOLÉCULAS AUTOCONTIDO/
SUPORTE FIXO
“compreender o meio digital como um facilitador de acesso e precursor de novas possibilidades de imersão nos
lugares de memória, afastando-se de uma concepção simplista do digital como mero repositório de
informação” (REIS et al, 2016)
As potencialidades dos acervos digitais podem ser ampliadas se eles forem reconfigurados como matéria-
prima para o empacotamento, ressignificação, reinterpretação e agregações em novos contextos e com novos
propósito, estabelecendo espaços de colaboração e interlocução que definem o conceito de reuso.
AUTOCORREÇÃO
EM OUTROS CONTEXTOS
Por que diários de bordo de navios de séculos passados são tão
importantes para a pesquisa atual sobre o clima?
EM OUTROS CONTEXTOS
Centenas de diários de bordo
digitalizados, registrando viagens
marítimas de três séculos
ARQUIVOLOGIA CLIMATOLOGIA
se tornam uma base de
dados rica sobre a
fauna, flora,
corrente e ventos
oceânicos
DATA MINING
Cientistas reconstroem a história
dos sistemas dinâmicos da Terra
e melhoram as projeções sobre
o futuro do clima
Tornar um conteúdo que foi criado para uma audiência útil para outra é um problema complexo, porque cada
disciplina tem seu próprio vocabulário, estrutura de dados e práticas de pesquisa e formulam
questões de forma distintas usando sua própria terminologia. Isto coloca um desafio importante para os
serviços de curadoria que é criar descrições e representações, ferramentas e serviços que tornem viável o
compartilhamento entre diferentes audiências (BORGMAN,2007).
A probabilidade de uma coleção de dado ser
reusada no futuro por outras audiências,
estabelece o critério mais simples de valor para
a coleção. Embora não seja algo simples, a partir
daí pode-se estimar se vale pena arquivá-la por
longo prazo
NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE
INFORMAÇÃO & CONHECIMENTO
NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE
INFORMAÇÃO & CONHECIMENTO
GESTÃO DE DADOS DE PESQUISA
COMPARTILHAMENTO
REUSO
PRESERVAÇÃO
CONTEXTUALIZAÇÃO
PROVENIÊNCIA
AUTENTICIDADE
VERSIONAMENTO
COMPARTILHAMENTO
CURADORIA
ORGANIZAÇÃO
PRESERVAÇÃO
CONJUNTO DE ATIVIDADES
GERENCIAIS E
TECNOLÓGICAS, APOIADAS
POR POLÍTICASGERAIS
E ESPECÍFICAS DESTINADAS
A GARANTIR:
ARQUIVAMENTO
CURADORIA,
IDENTIFICAÇÃO,
CONTEXTO,
PRESERVAÇÃO,
ACESSO CONTINUO E
CONFORMIDADE LEGAL E
ÉTICA AOS DADOS DE
PESQUISA
PÚBLICO-ALVO
ÉTICA
Aumento do potencial de compartilhamento/reuso
de dados de pesquisa, minimizando a necessidade de
duplicar trabalho no laboratório, no campo ou na
biblioteca.
Assegura que os dados obtidos por meio de altos custos não
sejam perdidos ou inadvertidamente destruídos e
mantenham sua integridade, autenticidade e confiabilidade.
Permitir que a recuperação, comparação e meta
análise dos dados proveniente de múltiplas fontes possa
levar a novos importantes conhecimentos.
Possibilita a verificação ou repetição de experimentos,
validação de trabalhos acadêmicos e a verificação de
descobertas, particularmente importante em meio a
preocupação nacional e internacional sobre integridade da
pesquisa.
Novos temas de pesquisa – em particular temas
interdisciplinares – podem emergir a partir da reanálise
de dados existentes ou comparações com novos
dados: crescentemente dados podem se tornar ponto de
partida para novas pesquisas, bem como um produto para
as pesquisas correntes.
SÃO SIGNIFICANTES OS
BENEFÍCIOS POTENCIAIS
PARA O MUNDO
ACADÊMICO DA GESTÃO
DE DADOS DE PESQUISA
MELHORES DADOS >> MELHORES PESQUISAS
CICLO DE VIDA DOS DADOS DE PESQUISA
PLANEJAMENTO
GERAÇÃO/COLETA
PROCESSAMENTO
ANÁLISE PRESERVAÇÃO
REUSOPUBLICAÇÃO
EXISTEM DUAS ÁREAS DE REQUISITOS NA GESTÃO DADOS CIENTÍFICOS:
a primeira está relacionada com as infraestruturas – sistemas, normas e protocolos - necessárias para assegurar a
coleta, preservação e acesso, e ainda a disponibilidade de serviços de amplo espectro;
A SEGUNDA CONSIDERA OS ASPECTOS POLÍTICOS, LEGAIS E ÉTICOS DECORRENTES DO ACESSO E
REUSO DOS DADOS ALÉM DO CONTEXTO INICIAL PARA QUE FORAM GERADOS.
MARCOS
POLÍTICOS
ÉTICOS
LEGAIS E
DE PRIVACIDADE
INFRAESTRUTURAS:
SISTEMAS, NORMAS E
PROTOCOLOS -
NECESSÁRIAS PARA
ASSEGURAR A COLETA,
PRESERVAÇÃO E
ACESSO, E AINDA A
DISPONIBILIDADE DE
SERVIÇOS PRIVACIDADE &
SEGURANÇADA INFORMAÇÃO
QUESTÕES LEGAIS
QUESTÕES ÉTICAS
ARCABOUÇO POLÍTICO
1
2
SOLUÇÕES DE TI
PLANEJAMENTO
SUPORTE
INFORMACIONAL
Planejamento:
Projeto de pesquisa
Plano de Gestão de Dados
Coleta/geração de dados
Processamento
Controle de qualidade
Metadados disciplinares
Armazenamento seguro
Backups
Análise
Avaliação
Catalogação
Contextualização
Questões éticas e legais
Publicação
Preservação de longo prazo
Compartilhamento/
acesso/reuso
ANTES DA PESQUISA COMEÇAR DURANTE A PESQUISA PESQUISA FINALIZADA
GESTÃO DE DADOS DE PESQUISA
DADOS QUE SERÃO GERADOS
PADRÕES DE METADADOS
PADRÕES DE CONTROLE/GARANTIA
DA QUALIDADE DOS DADOS
PLANO DE COMPARTILHAMENTO
QUESTÕES ÉTICAS E LEGAIS
RESTRIÇÕES AO COMPARTILHAMENTO
ARMAZENAMENTO/PRESERVAÇÃO DE
CURTO PRAZO
PROPRIEDADE INTELECTUAL E LICENÇAS
CUSTOS
PAPÉIS E RESPONSABILIDADES
PRESERVAÇÃO DE LONGO PRAZO
PLANO DE
GESTÃO DE
DADOS DE
PESQUISA
INCORPORAR OS
ITENS DA GESTÃO DE
DADOS COMO PARTE
IMPORTANTE DO
CICLO DA PESQUISA
IMPLEMENTAR A
GESTÃO DE DADOS DE
ACORDO COM AS
NECESSIDADES E
PROPÓSITOS DA
PESQUISA
1
2
As bibliotecas de pesquisa
tem que capturar dados em
diferentes estágios da
geração e processamento dos
dados de pesquisa.
O planejamento da gestão de
dados se torna parte do
processo de investigação
científica
PÓS-PUBLICAÇÃO  PRÉ-PUBLICAÇÃO
PLANO DE DADOS DE PESQUISA
Financiamento
Política de ct & i
Treinamento
Aquisição/desenvolvimento de coleções
Segurança/armazenamento
Preservação
Boas práticas/qualidade
Conformidade legal/responsabilidades
Infraestrutura tecnológica
tipos de dados
formatos
Identificadores persistentes
curadoria
serviços
Políticas mandatórias
metadados/documentação
interoperabilidade
Arquivamento
depósito/acesso
Publicação
tempo de embargo
INSTITUCIONAL
Sustentabilidade
Licenças
REPOSITÓRIOS
Transparência
POLÍTICA DE
COMUNIDADES/DISCIPLINAS/COLEÇÕES
POLÍTICAS
DE DADOS
NACIONAL
GOVERNAMENTAL
Proteção à propriedade intelectual
Ética
FOMENTO À
PESQUISA
Prioridades
Prioridades estratégicas
TIPOS ESPECÍFICOS DE
DADOS
(ex: modelos biológicos)
REPOSITÓRIOS
INSTITUCIONAIS
As PLATAFORMAS DISCIPLINARES se voltam para domínios
específicos ou para tipos particulares de dados. Em geral
possuem modelos de dados adequados à representação das
coleções de dados e oferecem uma CARTEIRA DE
SERVIÇOS mais orientadas, como curadoria e visualização.
Essas plataformas estão abertas para publicar qualquer
tipo de dados, e são especialmente desenvolvida para
dar apoio a publicação de datasets produzidas no
âmbito da ciência chamada de “CAUDA LONGA” –
domínios científicos nos quais um grande número de
relativamente pequenos laboratórios ou de
pesquisadores individuais produzem a maioria
resultados científicos
TIPOS DE PLATAFORMAS DE
GESTÃO DE DADOS
DISCIPLINARES
MULTIDISCIPLINARES
O sucesso dos novos serviços de
informação para a pesquisa está
relacionado à sua capacidade de
dar apoio às práticas e culturas
das comunidades científicas da
instituição.
PADRÃO DE QUALIDADE DOS DADOS
SERVIÇOS ESPECIALIZADOS
VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO,
CURADORIA, ANOTAÇÃO, ETC
PRESERVAÇÃO DE LONGO PRAZO
ARMAZENAMENTO SEGURO
CONTROLE DE ACESSO
BACK-UPS
BUSCAS PRECISAS E PERSONALIZADAS
ACESSO EM FORMATOS POPULARES
MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE
ACESSOS
PLATAFORMA
DISCIPLINAR
DE GESTÃO
DE DADOS
DE PESQUISA
FERRAMENTAS DE CITAÇÃO PADRONIZADA
PROMOÇÃO DOS DADOS/INTERAÇÃO
LICENÇAS APROPRIADAS
,
~
´
TECNOLOGIAS
PLATAFORMAS
DE SOFTWARE
HARDWARE
INSTALAÇÃO
LOCAL ARMAZENAMENTO
BASE INSTALADA
LICENÇA
ESQUEMA DE METADADOS
METADADOS
EXPORTAÇÃO (ex. METS)
INTEROPERABILIDADE
PROGRAMAÇÃO (ex. API)
BUSCA
CUSTOMIZAÇÃO
AMBIENTE DE PESQUISA
PERIODO DE EMBARGO
REVISÃO POR PARES
VERSIONAMENTO
VALIDAÇÃO
COMUNIDADES
CONSULTORIA
TIPOS DE
DADOS
INSTITUIÇÃO
AG. FOMENTO
ÁREA
PESQUISADORES
REQUISITOS
INFRAESTRUTURA TI
Processamento
Armazenamento
Networking
Padrões
SEGURANÇA
POLÍTICA
PESSOAL
ADMINSITRAÇÃO
SUSTENTABILIDADE
AVALIAÇÃO
RISCO
PROMOÇÃO
CRIAÇÃO
DESCRIÇÃO
ARQUIVAMENTO
IDENTIFICAÇÃO
CONTEXTUALIZAÇÃO
REUSO
QUALIDADE
ANOTAÇÃO
COMUNIDADE-ALVOCURADORIA
GESTÃO DE
DADOS
GESTÃO &
CURADOR
ALGUÉM QUE MANTÉM ALGUMA
COISA PARA O BEM PÚBLICO,
CUJO VALOR FREQUENTEMENTE
NECESSITA SER REVELADO.
Seleção, cuidado e preservação de coleções de objetos de arte estáveis, como pintura
e esculturas, livros e manuscritos raros e únicos; espécimes naturais e físicos
importantes, e outros artefatos considerados de valor cultural ou científico. Em
termos espaciais, a curadoria ocorre em contextos organizacionais relativamente
limitados como bibliotecas, arquivos, museus, galerias de arte, herbários e
instituições similares (NRC, 2015).
Além do mais, curadoria está preocupada também em promover a disponibilidade
dos objetos para audiências apropriadas (JISC).
Independente de uma coleção ser constituídas de objetos físicos ou digitais – ou seja, de
átomos e moléculas ou de bits e bytes - um curador deve avaliar seu valor e relevância para a
comunidade de usuários reais e potenciais; determinar a necessidade de preservação;
documentar a origem e autenticidade; descrever, registrar e catalogar seu conteúdo;
providenciar armazenamento e preservação a longo prazo; e proporcionar um meio de acesso e
uso para os conteúdos (NRC, 2015).
A CURADORIA
DIGITAL difere, em
termos de significado e
amplitude conceitual, da
CURADORIA como ela
vem sendo compreendida
ao longo do tempo!
Entretanto, a curadoria
digital mostra alguma
continuidade com as
praticas tradicionais
de curadoria!
Antes das práticas
acadêmicas se
deslocarem para o
reino digital ou para
o paradigma do big
data, os museus de
história natural já
tinham ampliado o seu
conceito de curadoria
antecipando a demanda
por gestão e
aprimoramento dos
dados digitais (PALMER
et al., 2013, p. 2).
oferece um
arcabouço pratico e
conceitual que permite a
elaboração de fluxos de
trabalho voltados para a
uma gestão dinâmica de
coleções digitais...
...que podem
ser aplicados aos
acervos digitais
CULTURAIS e
CIENTÍFICOS
ampliando o
seu potencial de
reuso e de
concepção e
desenvolvimento
NOVOS
PRODUTOS
SERVIÇOS
ON-LINE
INOVADORES
ESPAÇOS DE
INTERAÇÃO
METODOLOGIAS ACERVOS DIGITAIS
REUSO
AGORA E NO FUTURO
METODOLOGIAS ACERVOS DIGITAIS ADICIONANDO
VALOR
QUE PRESSUPÕE
ADICIONAR VALOR
ORGANIZAÇÕES EM COLEÇÕES
DOCUMENTAÇÃO
ATRIBUIÇÃO DE METADADOS
IDENTIFICAÇÃO
ARQUIVAMENTO
PRESERVAÇÃO
SEGURANÇA FÍSICA
AVALIAÇÃO (AUTENTICAÇÃO E
VERIFICAÇÃO)
CONTROLE DE QUALIDADE
ANOTAÇÃO
CONTEXTUALIAÇÃO
AÇÕES
GERENCIAIS,
TECNOLÓGICAS E
POLÍTICAS
NECESSÁRIAS PARA
MANTER OS DADOS
POR TODO O SEU CICLO
DE VIDA – DESDE A SUA
CRIAÇÃO -VISANDO O
USO CORRENTE E
FUTURO
AVALIAÇÃO DE RISCO
PARA GARANTIR
INTELIGENTEMENTE
ABERTOS
COMPREENSÍVEIS
LONGEVOS
DISPONÍVEIS
RECUPERÁVEIS
ACESSÍVEIS
AVALIÁVEIS
(PROVENIÊNCIA/
INTEGRIDADE/
QUALIDADE)
CONFORMIDADE LEGAL
E ÉTICA
PADRONIZADOS
INTEROPERÁVEIS
COM OBJETIVO
FINAL
USABILIDADE/REUSO
REPRODUTIBILIDADE
INTERDISCIPLINARIDADE
INPUT PARA NOVAS
PESQUISAS
ENSINO DAS CIÊNCIAS
MEMÓRIA ACADÊMICA
VALIDAÇÃO DA PESQUISA
VOLTADO PARA
UM PÚBLICO-ALVO
ALINHADO COM O
FLUXO DE PESQUISA
CURADORIA DIGITAL
ATIVIDADE DE GESTÃO E DE PROMOÇÃO DE USO
DE ACERVOS DIGITAIS DESDE A
CRIAÇÃO/SELEÇÃO, ASSEGURANDO A SUA
ADEQUAÇÃO PARA PROPÓSITOS ATUAIS E
FUTUROS E TORNANDO-OS
DISPONÍVEIS PARA
DESCOBERTA E REUSO.
ARQUIVAMENTO
ATIVIDADE DE CURADORIA QUE ASSEGURA QUE O
OBJETO DIGITAL ESTÁ SELECIONADO, ARMAZENADO
E PODE SER ACESSADO E QUE A SUA
INTEGRIDADE FÍSICA E LÓGICA ESTÁ
MANTIDA AO LONGO DO TEMPO
PRESERVAÇÃO DIGITAL
ATIVIDADE INCLUÍDA NA CURADORIA ATRAVÉS DA QUAL ITENS
ESPECÍFICOS SÃO MANTIDOS AO LONGO DO TEMPO DE FORMA
QUE ELES POSSAM SER ACESSADOS E COMPREENDIDOS
NO FUTURO A DESPEITO DAS MUDANÇAS
TECNOLÓGICAS
GESTÃO DE
MUDANÇAS AO
LONGO DO TEMPO E
DO ESPAÇO
PLANO DE
GESTÃO DE
DADOS
DE PESQUISA
IDENTIFICADO
CITADO
VISÍVELLOCALIZADO
RECUPERADO
ACESSADO
INTERPRETADO
CONTEXTUALIZADO
AVALIADO
PROVENIÊNCIA
COMPARTILHADO
ON-LINE
LINKADO COM
PUBLICAÇÃO
CONSIDERA PRIVACIDADE/ÉTICA
LICENÇA APROPRIADA
REUSADO
DADO DE
PESQUISA
MANEIRO
ANOTADO
ATIVA COLABORAÇÃO
INTEROPERÁVEL
ARQUIVADO
PRESERVADO
ENCONTRÁVEL:
Fácil de achar por humanos e
computadores por meio de metadados
que facilitem a busca por datsets
específicos.
ACESSÍVEL:
Armazenado por longo prazo de forma
que ele pode ser facilmente acessado
e/ou baixado com licenças e condições
de acesso bem definidas (acesso aberto
quando possível)
INTEROPERÁVEL
Pronto para combinar com outros
dados por seres humanos ou por
computadores
REUSÁVEL
Pronto para ser usado para
pesquisas futuras, e para ser
processado usando métodos
computacionais.
PRINCÍPIOS FAIR
• Os seus dados estão associados a um identificador persistente?
• Existem metadados ricos descrevendo os seus dados?
• Os metadados estão acessíveis online em uma ferramenta de busca? Ex: catálogo ou repositório
dedados
• O registro do metadado especifica o identificador persistente?
• O acesso ao identificador persistente levará o usuário ao dado ou aos metadado associados?
• Os protocolos adotados seguem padrões reconhecidos? Ex: html
• Os procedimentos de acesso incluem autenticação e graus de autorização?
• Os metadados estão acessivies, mesmo quando os dados não estão disponíveis?
• Os dados estão em formatos claramente compreendidos e de preferência abertos
• Os metadados seguem normas relevantes?
• Os vocabulários controlados, palavras-chave, tesauros ou ontologias são utilizados sempre que
possível?
• Referências e links qualificados são fornecidos para uso por outros?
• Os dados são precisos e bem descritos com muitos atributos relevantes?
• Os dados possuem uma licença de uso de dados clara e acessível?
• Está claro como, por que e por quem os dados foram criados e processados?
• Os dados e os metadados atendem a padrões e domínio relevantes?
ENCONTRÁVELENCONTRÁVEL
ACESSÍVEL
INTEROPERÁVEL
REUSÁVEL
DADOS QUE SERÃO GERADOS
PADRÕES DE METADADOS
PADRÕES DE CONTROLE/GARANTIA
DA QUALIDADE DOS DADOS
PLANO DE COMPARTILHAMENTO
QUESTÕES ÉTICAS E LEGAIS
RESTRIÇÕES AO COMPARTILHAMENTO
ARMAZENAMENTO/PRESERVAÇÃO DE
CURTO PRAZO
PROPRIEDADE INTELECTUAL E LICENÇAS
CUSTOS
PAPÉIS E RESPONSABILIDADES
PRESERVAÇÃO DE LONGO PRAZO
PLANO DE
GESTÃO DE
DADOS DE
PESQUISA
INCORPORAR OS
ITENS DA GESTÃO DE
DADOS COMO PARTE
IMPORTANTE DO
CICLO DA PESQUISA
IMPLEMENTAR A
GESTÃO DE DADOS DE
ACORDO COM AS
NECESSIDADES E
PROPÓSITOS DA
PESQUISA
1
2
PADRÃO DE QUALIDADE DOS DADOS
SERVIÇOS ESPECIALIZADOS
VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO,
CURADORIA, ANOTAÇÃO, ETC
PRESERVAÇÃO DE LONGO PRAZO
ARMAZENAMENTO SEGURO
CONTROLE DE ACESSO
BACK-UPS
BUSCAS PRECISAS E PERSONALIZADAS
ACESSO EM FORMATOS POPULARES
MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE
ACESSOS
PLATAFORMA
DISCIPLINAR
DE GESTÃO
DE DADOS
DE PESQUISA
FERRAMENTAS DE CITAÇÃO PADRONIZADA
PROMOÇÃO DOS DADOS/INTERAÇÃO
LICENÇAS APROPRIADAS
GESTÃO DE DADOS DE
PESQUISA ENFATIZA TODOS
OS FUNDAMENTOS DA
BIBLIOTECONOMIA DIGITAL
MEMÓRIA CIENTÍFICA
BIBLIOTECAS: PROVEDORES
DE NOVOS SERVIÇO
EXPANSÃO DO ESCOPO DA
PROFISSÃO
AGENDA DE PESQUISA
DADOS DE PESQUISA
eScience - O quarto paradigma científico

Weitere ähnliche Inhalte

Ähnlich wie eScience - O quarto paradigma científico

slides_gestao_dados_pesquisa_sayao.pdf
slides_gestao_dados_pesquisa_sayao.pdfslides_gestao_dados_pesquisa_sayao.pdf
slides_gestao_dados_pesquisa_sayao.pdfKablo Skater Rail
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosSIBiUSP
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...Cristiane Marcelino
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...Cristiane Marcelino
 
Da ciência aos dados abertos
Da ciência aos dados abertosDa ciência aos dados abertos
Da ciência aos dados abertosFabrício Garrido
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...CarlosMarcondes17
 
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDA preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDpascal aventurier
 
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...Liber UFPE
 
Gestão de dados científicos: o papel das bibliotecas
Gestão de dados científicos: o papel das bibliotecasGestão de dados científicos: o papel das bibliotecas
Gestão de dados científicos: o papel das bibliotecasPedro Príncipe
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...CarlosMarcondes17
 
07-02-22-Fundamentos do pensamento científico.pptx
07-02-22-Fundamentos do pensamento científico.pptx07-02-22-Fundamentos do pensamento científico.pptx
07-02-22-Fundamentos do pensamento científico.pptxtaloGardner
 
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...Projeto RCAAP
 
O desafio de abrir a caixa preta nem sempre acontece abcj07
O desafio de abrir a caixa preta nem sempre acontece abcj07O desafio de abrir a caixa preta nem sempre acontece abcj07
O desafio de abrir a caixa preta nem sempre acontece abcj07FAAT - Faculdades Atibaia
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Fabio Silva
 
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...http://bvsalud.org/
 

Ähnlich wie eScience - O quarto paradigma científico (20)

slides_gestao_dados_pesquisa_sayao.pdf
slides_gestao_dados_pesquisa_sayao.pdfslides_gestao_dados_pesquisa_sayao.pdf
slides_gestao_dados_pesquisa_sayao.pdf
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
 
Da ciência aos dados abertos
Da ciência aos dados abertosDa ciência aos dados abertos
Da ciência aos dados abertos
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDA preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
 
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...
Dados de pesquisa (infraestrutura para publicação, compartilhamento e preserv...
 
Gestão de dados científicos: o papel das bibliotecas
Gestão de dados científicos: o papel das bibliotecasGestão de dados científicos: o papel das bibliotecas
Gestão de dados científicos: o papel das bibliotecas
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
SciELO: Acesso Aberto em alinhamento com a Ciência Aberta
SciELO: Acesso Aberto em alinhamento com a Ciência AbertaSciELO: Acesso Aberto em alinhamento com a Ciência Aberta
SciELO: Acesso Aberto em alinhamento com a Ciência Aberta
 
aula-091.ppt
aula-091.pptaula-091.ppt
aula-091.ppt
 
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
 
Há futuro para as bibliotecas de pesquisa?
Há futuro para as bibliotecas de pesquisa?Há futuro para as bibliotecas de pesquisa?
Há futuro para as bibliotecas de pesquisa?
 
07-02-22-Fundamentos do pensamento científico.pptx
07-02-22-Fundamentos do pensamento científico.pptx07-02-22-Fundamentos do pensamento científico.pptx
07-02-22-Fundamentos do pensamento científico.pptx
 
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...
Inserção da produção científica da Ficocruz nas iniciativas de promoção do ac...
 
O desafio de abrir a caixa preta nem sempre acontece abcj07
O desafio de abrir a caixa preta nem sempre acontece abcj07O desafio de abrir a caixa preta nem sempre acontece abcj07
O desafio de abrir a caixa preta nem sempre acontece abcj07
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...
 
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...
Compartilhamento de dados de pesquisa na FIOCRUZ: diagnóstico e percepção do ...
 
Aula 4
Aula 4Aula 4
Aula 4
 

eScience - O quarto paradigma científico

  • 1. Luana Farias Sales ARQUIVO NACIONAL PPGCI IBICT/ECO-UFRJ Luis Fernando Sayão CNEN/CIN PPGCI IBICT/ECO-UFRJ GESTÃO E CURADORIA
  • 2. PROTAGONSMOS DOS DADOS NA CIÊNCIA CONTEMPORÂNEA O QUE É DADO DE PESQUISA GESTÃO DE DADOS DE PESQUISA CURADORIA DE DADOS DE PESQUISA DEZ PASSOS PARA COMEÇAR A GESTÃO DE SEUS DADOS Luís Sayão e Luana Sales
  • 3.
  • 4.
  • 5. Os registros claros e cuidadosos de suas observações e seu estilo de publicação não somente permitiu que ele compreendesse o Sistema Solar como permitiu também que seus leitores compreendessem como ele chegou as suas descobertas. Isto por que o caderno de notas de Galileu integravam seus dados (desenhos de Júpiter e suas luas), metadados chaves (cronometragem de cada observação, condições meteorológicas, propriedades do telescópio) e texto (descrição dos métodos, análises e conclusões). Quando Galileu inclui as informações de suas notas no Siderius Nuncius, a integração entre texto, dado e metadado foi preservada. De forma diferente de como Galileu reportou em Siderius Nuncius o resultado de suas pesquisas, a quantidade de dados reais e de descrição de dados nas publicações modernas quase nunca são suficientes para repetir ou mesmo estatisticamente verificar o estudo que está sendo apresentado (Goodman, 2014; Sayão e Sales. 2018) GALILEU GALILEI
  • 7. BIG DATA CIENTÍFICO Grandes projetos Observatórios Instalações complexas Dados distribuídos Simulação por computador Ciência aberta DADOS ABERTOS Metodologias Equipamentos Software Cadernos de laboratório Roteiro de entrevistas Resultados negativos DADOS DOS DO GRANDE NÚMERO DE PEQUENOS LABORATÓRIOS Heterogêneos Não tratados Invisíveis Coletivamente é o maior volume TECNOLOGIA COMPUTACIONAL APLICADAS A ESTUDOS EM HUMANIDADES. Humanidades estudando Tecnologias digitais (Bobley) PROTAGONISMODE DADOS NA CIÊNCIA
  • 8. OS PARADIGMAS CIENTÍFICOS 1º PARADIGMA: Ciência experimental ou empírica estuda a relação entre fenômenos por meio de experimentos; descreve os fenômenos naturais 2º PARADIGMA: Ciência teórica ou descritiva formula modelos para descrição, explicação e generalização dos fenômenos naturais 3º PARADIGMA: Ciência computacional baseada em simulação de fenômenos complexos por meio de uso de software, gera grande quantidade de dados 4º PARADIGMA: Ciência exploratória baseado no uso intensivo de dados, exploração estatística e mineração de dados Unifica teorias, experimentos e simulação - Dados capturados por instrumentos ou gerados por simulação; - Processados por software - Informação/conhecimento armazenadas em computadores - Análise de base de dados por estatística e mineração Pré-Renascença Pré-computação Pré-big data Agora Experimentos Leis da mecânica clássica, eletromagnetismo, etc Simulação da natureza, Método Monte Carlo Deteção de padrões, relações e anomalias. Big Data Inteligência Artificial 1600 1950 2010
  • 9. ABSTRAÇÃO MODELO MATEMÁTICO ALGORÍTMO NUMÉRICO SOFTWARE PREDIÇÕES CLIMÁTICAS REALIDADE SIMULAÇÃO POR COMPUTADOR É análogo a um experimento físico, mas usa equações matemáticas para representar o mundo real No eScience a simulação deixa de ser uma ferramenta que auxilia o pesquisador a fazer ciência para transformar o modo de fazer ciência e definir um novo PARADIMA CIENTÍFICO. Muitos dados!!!
  • 10. COMPUTAÇÃO NOVAS DESCOBERTAS BIG DATA DADOS ESTRUTURADOS E NÃO ESTRUTURADOS integrar visualizar analisar
  • 11. CAPTURA GESTÃO/CURADORIA ANÁLISE BASE DE DADOS COMPUTAÇÃO PADRÕES RELAÇÕES HIPÓTESES TEORIAS MODELOS NOVOSS DESCOBERTAS COMBINAÇÃO DE MÚLTIPLAS FONTES DE DADOS PROVENIENTES DE DOMÍNIOS DIFERENTES Análises exploratórias Exploração de coleções de dados Mineração de dados Modelagem Simulação interativa Realidade virtual Workflow científico
  • 12. CIÊNCIA PRODUZIDA A PARTIR DO USO, ARMAZENAMENTO, PROCESSAMENTO, ANÁLISE E COMPARTILHAMENTO DE DADOS DE PESQUISA (GRAY, 2005). eScience O QUARTO PARADIGMA CIENTÍFICO O poder dos computadores modernos permite que relações altamente complexas e até então despercebidas possam ser identificadas e se tornem o motor do quarto paradigma [ [
  • 13.
  • 14. eScience O QUARTO PARADIGMA CIENTÍFICO ACELERAR A PESQUISA CIENTÍFICA E GERAR CONHECIMENTO COM BASE NA EXPLORAÇÃO DESSE ACÚMULO DE DADOS Ferramentas avançadas de software e de mineração de dados ajudam a interpretar e transformar os dados brutos em configurações ilimitadas de informação e conhecimento. Perguntas instigantes e recursivas colocadas perante os vários segmentos científicos podem agora ser endereçadas, pela combinação de múltiplas fontes de dados provenientes de domínios diferentes, através da aplicação de modelos complexos e de métodos inéditos de análise.
  • 15. eScience O QUARTO PARADIGMA CIENTÍFICO O MODO DE FAZER CIÊNCIA MUDA.... A computação não é mais meramente um suporte para o padrão tradicional de se conduzir a investigação científica em determinadas disciplinas, mas pode mudar fundamentalmente o desenvolvimento dessas disciplinas. Ao invés de hipóteses serem testadas e desenvolvidas a partir de dados coletados para este propósito, hipóteses são construídas após a identificação relações nos conjuntos de dados. Neste abordagem os dados vem primeiro, incorporados numa sequencia de captura de dados, curadoria e análises FORMULAÇÃO DE HIPÓTESES
  • 16. Illustration: Marian Bantjes "All models are wrong, but some are useful." O DILÚVIO DE DADOS TORNA O MÉTODO CIENTÍFICO OBSOLETO Chris Anderson (2008) As the title indicates, Anderson asserted that in the era of petabyte information and supercomputing, the traditional, hypothesis‐driven scientific method would become obsolete. No more theories or hypotheses, no more discussions whether the experimental results refute or support the original hypotheses. In this new era, what counts are sophisticated algorithms and statistical tools to sift through a massive amount of data to find information that could be turned into knowledge.
  • 17. O método científico tradicional está superado? O big data pode substituir a ciência orientada por hipótese por sofisticados algoritmos e massivas coleções de dados? Dada a quantidade de dados científicos disponíveis é possível descartar o papel das formulações teóricas e de hipóteses? Em vez de buscar resultados precisos sob condições controladas e de campo simplificado, os cientistas são levados a ver na desordem dos dados um reflexo da complexidade da natureza “
  • 18. Ciência aberta Quando há compartilhamento de ideias e abertura do conhecimento a ciência avança mais rapidamente O compartilhamento e o intercâmbio permitem descobrir conexões no que estava antes desconectado
  • 19. Reprodutibilidade dos experimentos científicos é um dos fundamentos da ciência. Os dados científicos devem estar disponíveis para qualquer pessoa sem restrições de copyright, patentes ou outros mecanismos de controle. Dados abertos incentivam o reuso em outras áreas diferentes da original, o que pode levar a descobertas surpreendentes. Os pesquisadores devem divulgar suas descobertas de forma que elas estejam acessíveis para todos os usuários potenciais sem qualquer barreira. Colaboração crescente entre cientistas efetivada por meio das mídias sociais e da internet. Um número crescente de cientistas estão encontrando novas estratégias para comunicar seus trabalhos usando wikis, blogs, twitter Códigos fontes para reproduzir dos dados; uso de software livres e formatos abertos; ferramentas de pesquisa abertas; Dados de entrada e metadados Cadernos de pesquisa abertos A avaliação pelas instituições de pesquisa, bem como a aprovação de financiamento pelas agências deve levar em conta a preparação dos dados para disponibilidade na mesma escala em que considera artigos de periódicos e outras publicações, ou seja o nível de transparência.
  • 20.
  • 22. Número de datasets A MAIORIA DAS COLEÇÕES DE DADOS PRODUZIDAS PELA PESQUISA CIENTÍFICA É GERADO/COLETADO POR PEQUENOS LABORATÓRIOS E PESQUISADORES INDIVIDUALMENTE NAS UNIVERSIDADES E INSTITUTOS DE PESQUISA, QUE DESENVOLVEM UM GRANDE NÚMERO DE PROJETOS CIENTÍFICOS A CAUDA LONGA DA CIÊNCIA Dados da Grande Ciência são fáceis de manipular, compreender e arquivar; A Pequena Ciência é exepcionalmente heterogênea e muito mais vasta e gera 2-3 vezes mais dados do que a Big Science (MacColl, 2010) ASTRONOMIA FISICA NUCLEAR GENOMA PROTEINA SENSORIAMENTO REMOTO PEQUENOS LABORATÓRIOS, EQUIPES E PESQUISADORES INDIVIDUAIS DOMÍNOS ESPECÍFICOS VÁRIOS DOMÍNIOS E INSTITUIÇÕESVolume dos dados
  • 23. TAMANHO DAS COLEÇÕES FORMATOS DOS DADOS ESTRUTURA DOS DADOS COMPLEXIDADE DOS DADOS DOMÍNIOS DISCIPLINARES TECNOLOGIAS USADAS NA GERAÇÃO/COLETA HETEROGENEIDADE EM VÁRIAS DIMENSÕES
  • 24. Grande número de projetos científicos que geram pequenas quantidades de dados uma grande parte não está publicado ou está armazenada nos laboratórios Número de datasets Big dados organizados Dados da cauda longa da ciência Volume dos dados Pequeno número de grandes projetos científicos que geram muitos dados DADOS NÃO PUBLICADOS Limite da literatura Os dados gerados ou coletados em decorrência dos pequenos projetos de pesquisa são distribuídos por todos os domínios do conhecimento, das artes e humanidades até as áreas mais identificadas como os padrões da grande ciência como física e astronomia A CIÊNCIAINVISíVELDA CAUDA LONGA
  • 25. Parece mais provável que a ciência transformadora venha mais da cauda do que da cabeça (Heidorn, 2008)“ Inovação modelos
  • 26. BIGSCIENCE GRANDES INSTRUMENTOS ALTOS CUSTOS LONGA DURAÇÃO MUITOS COLABORADORES PESQUISA DISTRIBUÍDA PEQUENOS INSTRUMENTOS BAIXOS CUSTOS PEQUENA DURAÇÃO EQUIPES PEQUENAS PESQUISA LOCAL
  • 27. DADOS BASES DE DADOS REPOSITÓROS ACESSO GESTÃO CURADORIA MINERAÇÃO PRIVACIDADE REDES REDES DE PESQUISA/EDUCAÇÃO NACIONAIS E INTERNACIONAIS; SEGURANÇA RECURSOS COMPUTACIONAIS SUPERCOMPUTADORES NUVEM, GRID, CLUSTER; VISUALIZAÇÃO; CENTROS DE COMPUTAÇÃO INSTRUMENTOS CIENTÍFICOS TELECÓPIOS SATÉLITES COLISORES SENSORES SOFTWARE APLICAÇÕES; DESENVOLVIMENTO E SUPORTE EXPERTISESPESQUISADORES CIENTISTAS DE DADOS BIBLIOTECARIOS DE DADOS ARQUIVISTAS ORGANIZAÇÕES UNIVERSIDADES INSTITUTOS DE PESQUISA AGÊNCIAS DE FOMENTO BIBLIOTECAS, ARQUIVOS, MUSEUS ORGANIZAÇOES VIRTUAIS; COMUNIDADES CIBERINFRAESTRUTURA DE PESQUISA
  • 28.
  • 29.
  • 30. A maioria dos pesquisadores concordam em tese com os princípios de compartilhamento e reuso preconizados pela ciência aberta, mas relutam em compartilhar os seus próprios dados como parte do fluxo de pesquisa , e o fazem mais como exceção do que como regra .
  • 31. LADO OCULTO DOS DADOS DADOS NÃO PUBLICADOS INDIVIDUAIS DISCIPLINARES ORGANIZACIONAIS +50% DOS ACHADOS NÃO FORAM PUBLICADOS O COMPARTILHAMENTO PODE REVELAR VALORES IMPORTANTES OCULTOS NESSES DADOS INFRAESTRUTURAISPOLITICAS Personalidade e atitudes do pesquisador em relação aos seus dados. Cultura do compartilhamento do domínio Obstáculos inerentes às instituições de pesquisa em relação à gestão de dados Aportes tecnológicos disponíveisCondicionantes políticas voltadas para recompensa, financiamento e sustentabilidade de longo prazo
  • 32. INTERESSES ECONÔMICOS (patentes, acordos comerciais, etc) RESULTADOS NEGATIVOS, hipóteses não confirmadas CUSTO do tratamento dos dados (limpeza, catalogação, formatos, etc.) Perda da VANTAGEM COMPETITIVA de publicar mais baseado nos dados Dificuldade de garantir a PRIVACIDADE dos dados Preocupação dos dados serem ERRONEAMENTE INTERPRETADOS por outros pesquisadores Restrições culturais, DISCIPLINARES e institucionais X MOTIVOS PARA O PESQUISADOR NÃO COMPARTILHAR
  • 33. DADOS DE PESQUISA SÃO MUITO SUSCETÍVEIS A PERDAS
  • 34. MINHA TESE O TEXTO ACADÊMICO APRESENTA APENAS OS DADOS DE PESQUISA DE FORMA CONDENSADA UMA VISÃO DOS DADOS!!! VISÍVEL INVISÍVEL
  • 35. DUPLICAÇÃO DE ESFORÇOS E RECURSOS PRINCÍPIO DA REPRODUTIBILIDADE DOS EXPERIMENTOS VALIDAÇÃO E AUTOCORREÇÃO DA PESQUISA TORNAR PÚBLICO OS RESULTADOS DAS PESQUISAS FINANCIADAS POR VERBAS PÚBLICAS AVANÇO DO CONHECIMENTO E INOVAÇÃO NOVAS VISÕES SOBRE ESSES DADOS
  • 37. PESQUISADORES Iniciativas como o DataCite - que atribui identificador persistente (DOI) aos dados de pesquisa - ajudam o cientista a tornar seus dados citáveis, rastreáveis e acessíveis de modo que os dados de pesquisa, bem como as publicações baseadas nesses AGÊNCIAS FINANCIADORAS DE PESQUISA PLANOS DE COMPARTILHAMENTO DE DADOS POLÍTICAS MANDATÓRIAS Isso garante que os pesquisadores se comprometem a cuidar dos dados durante e após a pesquisa no sentido de otimizar o compartilhamento de dados. PERIÓDICOS CIENTÍFICOS Os periódicos exigem cada vez mais que os dados que sustentam a pesquisa publicada depositado dentro em uma base de dados ou repositório acessível . INSTITUIÇÕES DE PESQUISA Financiam/desenvolvem infraestruturas para gestão e serviços de dados para facilitar o compartilhamento dentro de domínios específicos.
  • 38. Há uma parcela dos produtos de pesquisa que necessita de infraestruturas INFORMACIONAIS TECNOLÓGICAS POLÍTICAS GERENCIAIS Para se tornarem visíveis para as comunidades acadêmicas, Instituições de pesquisa, agências de fomento e para o cidadão comum.
  • 39. TECNOLOGIAS Redes de computadores Banco de dados Ferramentas de software Sistemas de storage Repositórios confiáveis
  • 40. RECURSOS INTERNACIONAIS RELEVANTES WORDWILDE PROTEIN DATABANK LARGE HADRON COLLIDER EUROPEN BIOINFORMATICS INSTITUTE CENTROS DE DADOS NACIONAIS REPOSITÓRIOS MULTIDICIPLINARES/INSTITUCIONAIS COLEÇÕES INDIVIDUAIS INFRAESTRUTURA PADRÕES, SUSTENTABILIDADE PROVENIÊNCIA REAPONSABILIDADE DEMANDA POR ACESSO VALOR SOCIAL CONFIABILIDADE ESTABILIDADE REFERÊNCIAS NACIONAIS E INTERNACIONAIS IMPORTANTES COLEÇÕES DE DADOS INSUBISTITUÍVEIS COLEÇÕES DE COMUNIDADES ESPECÍFICAS MEMÓRIA CIENTÍFICA COLEÇÕES DE UM GRUPO DE PESQUISADORES PERMANÊNCIA USABILIDADE COMPARTILHAMENTO REUSO CARPE DIEN PIRÂMIDE DE GESTÃO DE DADOS NATIONAL BIODIVERSITY NETWORK REPOSITÓRIOS TEMÁTICOS/DISCIPLINARES
  • 41. DIVERSIDADE DOS DADOS Os dados da cauda longa, com sua natureza heterogênea e diversificada, devem se integrar a homogeneidade da grande ciência formando uma ecologia ou diversidade de dados. Isto por que nem sempre a grande ciência, definida por predicados homogêneos e estáveis é o modelo mais adequado para algumas das áreas mais avançadas e inovadoras da pesquisa científica. Na maioria das vezes, integrar dados formando uma diversidade de dados transversalmente rica, estabelece modelos eficientes de geração de conhecimento neurociência astronomia transdisciplinaridade A perspectiva sistêmica do espaço de dados torna a integração desses ativos chave para respostas a novas indagações da ciência. Isso acontece especialmente ao vincular a estabilidade da grande ciência ao território de alto coeficiente de autonomia e independência da cauda longa, cujas condutas desafiadoras favorecem a inovação e a geração de conhecimentos multi e interdisciplinar.
  • 42. RECONHECIMENTO/RECOMPENSA CITAÇÃO/FATOR DE IMPACTO/PUBLICAÇÃO CAPACITAÇÃO EXIGÊNCIAS PARA FINANCIAMENTO DE PROJETOS EXIGÊNCIAS DO EDITORES POLÍTICAS PESQUISADORES COMO PRODUTORES E USUÁRIOS BIBLIOTECARIOS DE DADOS CIENTISTAS DE DADOS INFRAESTRUTURA FINANCIAMENTO ORIENTAÇÃO POR PROJETOS/FINANCIMENTO PERMANENTE CUSTO-BENEFÍCIO ÊNFASE DISCIPLINAR INCENTIVOS O que o pesquisador precisa para tornar os seus dados visíveis
  • 43.
  • 44. Informação é um conceito complexo com centenas de definições [...]. Dado [por sua vez] é um conceito simples com poucas definições, porém sujeito a muitas e diferentes interpretações “ O que dificulta atribuir uma definição consensual ao dado de pesquisa é o fato idiossincrático que ele pode ser muitas coisas diferentes para pessoas e circunstancias diferentes. Isto acontece porque dado de pesquisa é dependente de interpretação CRISTINE BORGMAN (2007, P.9)
  • 45. AFINAL, O QUE É DADO DE PESQUISA ? uma sequencia de bits proveniente de um sensor sísmico é dado de pesquisa para os sismólogos; amostras de rochas são dados de pesquisa para um geomorfologista; conversas gravadas são dados de pesquisa para sociólogos; e inscrições em cuneiformes são dados de pesquisa para quem estuda linguagens do Oriente Próximo.
  • 46. Porém, os cuneiformes podem ser também dados para o arqueólogo ou para o ambientalista que buscam padrões climáticos históricos; de forma similar, os dados sísmicos podem ser úteis para biólogos que estudam comportamento animal. Borgman (2007, p.119) cuneiformes dados sísmicos biólogos arqueólogos ambientalistas ... mas podem ser reinterpretados em outros contextos “Dados são sempre registrados tomando como base de algum interesse, perspectiva, tecnologia e prática que determinam seus significados e utilidades em diferentes contextos” Nielsen e Hjorland (2014, p.225)
  • 47. ENTREVISTAS ANOTAÇÕES DADOS DE PESQUISA SÃO GERADOS PARA DIFERENTES PROPÓSITOS, POR DIFERENTES COMUNIDADES CIENTÍFICAS E POR MEIO DE DIFERENTES PROCESSOS AFINAL, O QUE É DADO DE PESQUISA ?
  • 48.
  • 50.
  • 51. O QUE E DADO DE PESQUISA?
  • 52. DADOS EXPERIMENTAIS são provenientes de situações controladas em bancadas de laboratórios. Em tese, dados experimentais provenientes de experimentos que podem ser precisamente reproduzidos e não precisam ser armazenados indefinidamente; entretanto, nem sempre é possível reproduzir precisamente todas as condições experimentais.
  • 53. Observações de fenômenos naturais e sociais Únicos e não se repetem Dados brutos são coletados por percepção humana, por instrumentos in sito ou por sensoriamento remoto Depois de coletado são processados em diferentes níveis de complexidade Observações cobrindo longos períodos são mais valiosas Para guarda permanente precisam ser avaliados: Autenticidade, confiabilidade, integridade e usabilidade (potencial de reuso); Qualidade e completeza dos metadados
  • 54. ABSTRAÇÃO MODELO MATEMÁTICO ALGORÍTMO NUMÉRICO SOFTWARE PREDIÇÕES CLIMÁTICAS REALIDADE SIMULAÇÃO POR COMPUTADOR É análogo a um experimento físico, mas usa equações matemáticas para representar o mundo real No eScience a simulação deixa de ser uma ferramenta que auxilia o pesquisador a fazer ciência para transformar o modo de fazer ciência e definir um novo modo de fazer ciência. Muitos dados!!!
  • 55. DADOS GOVERNAMENTAIS Dados provenientes de recenseamento, seguro social, levantamentos de agências governamentais etc. são críticos para as pesquisas nas áreas de saúde, ciências sociais e humanidades. DADOS ACUMULADOS POR REDES SOCIAIS, MÁQUINAS DE BUSCA, ETC. Big data Comércio Transacional baseado em dados de negócios. Humanidades digitais REGISTROS Registros médicos críticos para as pesquisas nas áreas de saúde e ciências sociais. Registros arquivísticos, históricos, jornalísticos, administrativos, etc
  • 56. DADOS BRUTOS ou DADOS PRIMÁRIOS Dados provenientes diretamente do instrumento científico .PROCESSAMENTO . CALIBRAÇÃO .VALIDAÇÃO .COMBINAÇÃO COM OUTROS DADOS
  • 57. INSTRUMENTO CIENTÍFICO DADOS BRUTOS PROCESSAMENTO DOS DADOS ANÁLISE DOS DADOS Selecionar subset Mesclar mútiplos datasets Conversão Normalização Limpeza dos dados COMPUTAÇÃO EM NUVEM COMPUTAÇÃO EM GRADE Estatísticas Simulação Plotagem Visualização Modelos Algoritmos Publicações A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA FLUXO DOS DADOS
  • 58. UM EXEMPLO DE PROCESSAMENTO DE DADOS BRUTOS FLUXO DOS DADOS
  • 59. QUANTO Á ABORDAGEM Dados qualitativos Dados quantitativos
  • 60. Antes das práticas acadêmicas se deslocarem para o reino digital ou para o paradigma do big data, os museus de história natural já tinham ampliado o seu conceito de curadoria antecipando a demanda por gestão e aprimoramento dos dados digitais (PALMER et al., 2013, p. 2).
  • 63.
  • 64.
  • 65. ~
  • 66. Em comparação com a gestão de artigos, livros e teses as funções, as descrições, os padrões e os controles são mais numerosos e complexos. Essa complexidade, no entanto, varia de acordo com os ambientes disciplinares, os tipos de objetos e as tecnologias subjacentes considerados e com a política adotada pela instituição. DADOS DE PESQUISA DEMANDAM UM GESTÃO MAIS COMPLEXA
  • 67. TAMANHO DAS COLEÇÕES FORMATOS DOS DADOS ESTRUTURA DOS DADOS COMPLEXIDADE DOS DADOS DOMÍNIOS DISCIPLINARES TECNOLOGIAS USADAS NA GERAÇÃO/COLETA HETEROGENEIDADE EM VÁRIAS DIMENSÕES
  • 68. Pela primeira vez em 3.500 anos de atividade de gestão de documentos, produzimos registros que não existem para o olho humano. Completamente diferentes das placas de argila da Babilônia, dos papiros egípcios, dos pergaminhos romanos, do papel moderno e mesmo do microfilme E pela primeira não estamos produzindo, gerenciando e guardando artefatos físicos, mas tentando entender e preservar padrões virtuais que dão a informação digital seu conteúdo, estrutura, contexto e assim o seu significado, que são completamente controlados por software
  • 69. A mesma tecnologia que muda a pesquisa científica coloca os dados gerados em risco e nos impõe o desafio estratégico, gerencial e político de criar, arquivar, preservar e tornar disponível esses dados[
  • 70. 001100011100011010100010110001011101001011001010011111010100100010100001110001001010001000101 Política de preservação O repositório estabelece o conjunto de propriedades significativas que serão asseguradas para cada classe de objeto INFORMAÇÃO Define a intensidade das medidas de preservação e o custo benefício da preservação: Seleção, Criticidade, Longevidade operacional Risco aceitável pela organização ESTRATÉGIAS DE PRESERVAÇÃO Procedimentos que devem ser realizados pelo organização sobre as diversas classes de informação. Define o conjunto de estratégias de preservação que o repositório irá adotar FORMATOS DE ARQUIVOS Definição de formatos para a preservação para cada uma das classes de informação SOFTWARE Seleção de plataforma de software que permite a produção, manipulação, gestão e preservação de objetos digitais ARMAZENMAENTO Dispositivo ou conjunto de dispositivos utilizados para armazenar primariamente os dados e as informações produzidos - SEGURANÇA Sistema de cópias de segurança (backup) – oferece garantia contra eventual perda ou corrupção dos dados primários contidos no sistema de armazenamento por desastre, mau uso ou roubo METADADOS Metadados descrevem os atributos dos documentos do repositório dando-lhes significado, contexto e organização, permitindo a produção, gestão, utilização deles ao longo do tempo Política de preservação O repositório estabelece o conjunto de propriedades significativas que serão asseguradas para cada classe de objeto
  • 72. REALIDADE VIRTUAL GAMES SIMULAÇÕES MODELOS EM 3D ESTRUTURAS QUÍMICAS SOFTWARE WEBSITE/MULTIMÍDIA VIDEOS FOTOS GRÁFICOS ESPECIFICAÇÕES ENTREVISTAS FORMÚLAS TABELAS ANOTAÇÕES DADOS NUMÉRICOS NÍVEISDEABSTRAÇÃO dispositivos de imersão e interativas apresentações sensoriais imagem em movimento imagens sons documentos letras símbolos números Texto e números não contam toda história DADOS DE PESQUISA SÃO OBJETOS COMPLEXOS, DIVERSIFICADOS E HETEROGÊNEOS. OS OBJETIVOS E OS MÉTODOS USADOS PARA PRODUZI-LOS VARIAM ENORMEMENTE DE ACORDO COM OS CAMPOS CIENTÍFICOS, ASSIM COMO OS CRITÉRIOS PARA COMPARTILHÁ-LOS,
  • 73. INSTRUMENTO CIENTÍFICO DADOS BRUTOS PROCESSAMENTO DOS DADOS ANÁLISE DOS DADOS Selecionar subset Mesclar mútiplos datasets Conversão Normalização Limpeza dos dados COMPUTAÇÃO EM NUVEM COMPUTAÇÃO EM GRADE Estatísticas Simulação Plotagem Visualização Modelos Algoritmos Publicações A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
  • 74. INSTRUMENTO CIENTÍFICO DADOS BRUTOS PROCESSAMENTO DOS DADOS ANÁLISE DOS DADOS Selecionar subset Mesclar mútiplos datasets Conversão Normalização Limpeza dos dados COMPUTAÇÃO EM NUVEM COMPUTAÇÃO EM GRADE Estatísticas Simulação Plotagem Visualização Modelos Algoritmos Publicações A MAIOR PARTE DOS DADOS NÃO É DIRETAMENTE ÚTIL NO MOMENTO EM QUE COLETADA
  • 75. É MAIS DIFÍCIL VALIDAR OS DADOS SE AS INFORMAÇÕES ENTRE A IDEIA INICIAL E RESULTADO FINAL ESTÃO FALTANDO
  • 77. DADO DE PESQUISA NÃO FALA POR SI PRÓPRIO Dados de pesquisa são incompreensíveis e portanto inúteis a menos que haja uma descrição detalhada e clara de como e quando eles foram obtidos e de como os dados derivados foram produzidos !!! Para entender os dados os usuários futuros necessitam de metadados, caso contrário eles não saberão os detalhes de como os dados foram obtidos e preparados : 1) como os instrumentos foram projetados e construídos; 2) quando, onde e como os dados foram coletados; e 3) e não terão uma descrição dos processos que levaram aos dados derivados, que são tipicamente usados para analises científicas de dados. Gray, 2002
  • 78.
  • 80. DEPENDÊNCIAS TÉCNICAS PROVENIÊNCIA AUTORIA DIREITOS ASSOCIADOS INTERVENÇÕES MODELO DE DADOS Os metadados têm um forte impacto na capacidade dos dados de pesquisa de transmitir conhecimentos e poder ser interpretados e reusados agora e no futuro LOCALIZAÇÃO GEOGRÁFICA VERSÃO DESCRITIVOS ADMINISTRATIVOS TÉCNICOS ESTRUTURAIS PRESERVAÇÃO DISCIPLINARES
  • 82. IDENTIFICAÇÃO A capacidade das coleções de dados e suas versões hospedadas nos repositórios de serem IDENTIFICADAS permanentemente torna-se essencial para o acesso, preservação e citação; é um fator importante também nos processos de interoperabilidade e de linking com outros recursos via, por exemplo, linked data. IDENTIFICADORES PERSISTENTES DOI URN HANDLES Específicos UFG – UNIVERSAL FINGERPRINT TIMESTAMPING CONTROLE DE VERSÕES
  • 83. IDENTIFICADAS/CITADAS UNF – UNIVERSAL NUMERIC FINGERPRINT TME STAMP
  • 85.
  • 86. A INTEROPERABILIDADE DE SISTEMAS É COMPREENDIDA AQUI COMO A CAPACIDADE DAS PLATAFORMAS DE REPOSITÓRIOS DE DADOS INTERCAMBIAREM INFORMAÇÕES – DADOS E METADADOS - COM SISTEMAS EXTERNOS DE FORMA HARMÔNICA E INTEGRADA E COM PROPÓSITOS ESPECÍFICOS. ARCHIVEMÁTICA SISTEMAS DE PUBLICAÇÕES DE PERIÓDICOS SISTEMA DE REPOSITÓRIO CONFIÁVEL CRIS EXPORTAÇÃO DE METADADOS - DC, MARC-XML, METS... PROGRAMAS PARA EXPOR METADADOS PROTOCOLO OAI-PMH PARA COLETA AUTOMÁTICA DE METADADOS LINKING - USO DO LINKED DATA SISTEMA DE GESTÃO DE PESQUISA INTEGRAÇÃO COM OUTROS SISTEMAS
  • 87. INTEROPERABILIDADE POSSÍVEL REPOSITÓRIOS INSTITUCIONAISSISTEMAS DE PERIÓDICOS REPOSITÓRIOS CONFIÁVEIS SISTEMAS CRIS GESTÃO DE PESQUISA GESTÃO ACADÊMICA PLATAFORMA LATTES CLOCKSS REPOSITÓRIOS DE DADOS
  • 88. O reuso confiável de dados de pesquisa só é possível se eles forem gerenciados de forma que sua autenticidade e integridade sejam mantidas ao longo do tempo, isto porque um pesquisador confia nos dados coletados ou gerado por outro pesquisador para dar prosseguimento ao seu trabalho. Isto coloca como em primeiro plano a questão da proveniência e de como ela é endereçada pelos sistemas que cuidam da curadoria de dados, da preservação digital e do arquivamento confiável. “
  • 89. PADRÕES, BOAS PRÁTICAS, GESTÃO, TECNOLOGIA, ORGANIZAÇÃO SUSTENTABILIDADE A IMPORTÂNCIA DOS PROCESSOS DE AVALIAÇÃO RESIDE NO FATO DELES PROMOVEREM A CONFIANÇA NA USABILIDADE, SUSTENTABILIDADE E PERSISTÊNCIA POR LONGO PRAZO DOS DADOS DISPONÍVEIS PARA COMPARTILHAMENTO.
  • 91. Questões éticas e de consentimento Coletar, usar e compartilhar dados no âmbito de pesquisas que envolvam pessoas exige que obrigações éticas e legais sejam respeitadas. Quando a pesquisa envolve obter dados de pessoas, o que se espera do pesquisador é que ele mantenha um comportamento pautado por um rigoroso código de ética, que seja condizente com os padrões e protocolos recomendados pelas entidades profissionais, instituições de pesquisa e organizações financiadoras de pesquisa e, sobretudo, com a legislação do país concernente a esse aspecto. Este comportamento deve permear todo o ciclo de pesquisa, incluindo especialmente a fase de compartilhamento dos dados.
  • 92. Nesse contexto a compreensão de três tipos de dados se torna essencial: DADOS PESSOAIS São dados relacionados a indivíduos vivos, que podem ser identificados a partir desses dados ou a partir desses dados combinados com outras informações. DADOS CONFIDENCIAIS São dados que não estão em domínio público tais como informações sobre negócios, lucros, saúde, detalhes médicos e opiniões políticas, entregues em confiança ou que duas partes concordam em mantê- los confidenciais, isto é, secretos. DADOS PESSOAIS SENSÍVEIS São dados sobre raça, origem étnica, opinião política, religião ou crenças similares, filiação sindical, doença física ou mental, vida sexual, etc. SENSÍVEL
  • 94. LICENÇAS APROPRIADAS AO COMPARTILHAMENTO E REUSO ESTRUTURA + CONTEÚDO ... ENTÃO, O QUE VOCÊ BAIXOU?
  • 95. PEN DRIVE NOTEBOOK WEBSITE DO PROJETO OU DA INSTITUIÇÃO PUBLICAÇÃO EM REPOSITÓRIO INSTITUCIONAL PUBLICAÇÃO EM PERIÓDICOS COMO MATERIAL SUPLEMENTAR PUBLICAÇÃO EM DATA JOURNAL PUBLICAÇÃO EM REPOSITÓRIO DE DADOS DISCIPLINAR/TEMÁTICO PUBLICAÇÃO EM REPOSITÓRIO DE DADOS MULTIDISCIPLINAR INVISIBILIDADE PUBLICAÇÃO DE DADOS VISIBILIDADE REUSO COMPARTILHAMENTO VISIBILIDADE
  • 96.
  • 97. Um crescente número de novas modalidades de publicação está surgindo como resposta ao desafio de dar visibilidade e implementar estratégias de compartilhamento de dados de pesquisa. É importante observar que os mecanismos de publicação de dados tomam como solução um alinhamento ao sistema de reputação científica As novas modalidades de publicação de dados e de suas representações descritivas demonstram com clareza que é possível de ancorar os sistemas de compartilhamento de dados às formas tradicionais de publicação, embora isso exija um alto grau de inovação e uma nova dinâmica que imponha mais velocidade nos processos de avaliação, que pode ser algo que se desenrole no tempo e se distribua no espaço de forma menos exclusiva (PAMPEL; DALLMEIR-TIESSEN, 2015). A publicação dos dados de pesquisa como objeto de informação independente, em repositórios de dados ou centros de dados. A publicação de documentação textual em data journal sobre dados de pesquisa na forma de data papers A publicação de dados de pesquisa enriquecendo um artigo por meio de links que podem ter valor semântico, nas chamadas publicações ampliadas Publicação de dados de pesquisas de experimentos que não deram certos e hipóteses não confirmadas em periódicos voltados para essa condição PUBLICAÇÃO DE DADOS
  • 98. Uma publicação periódica científica cujo objetivo principal é descrever coleções de dados ao invés de reportar uma investigação científica DESCREVE os dados em forma legível por humanos A metodologia sobre a qual os dados forma criados; Detalha o potencial de reuso dos dados DESCREVE OS DADOS e não hipóteses ou argumentos desenvolvidos sobre os dados Oferecer uma publicação que pode ser citada e que dá credito ao autor e o outros envolvidos no processo; Assegura que os dados estejam documentados para o reuso; Aumenta a visibilidade dos dados na comunidade científica DATASET DATA PAPER DATA JOURNAL REVISÃO POR PARES <LINK> A novidade interessante introduzida pelos data journals é que o modelo propõe um processo de publicação para dados que remete a publicação tradicional [...] A revisão por pares objetiva mensurar a originalidade e qualidade dos dados, ela é aplicada aos dados ao invés da publicação, e a sua “benção” é mandatória para os que os dados sejam publicados (CASTELLI et al, 2013) DATApaper REPOSITÓRIO DE DADOS “ journal
  • 99. O “viés de publicação do positivo” preocupa há décadas diversos pesquisadores. Partindo da ideia de que a comunidade científica só pode aprender com os resultados negativos se os dados forem publicados, existem alguns periódicos científicos que investem na publicação do que não deu certo em diversas áreas. Tais periódicos têm como premissa a concepção de que o suposto “fracasso” é tão importante na ciência como em outros aspectos da vida, e que o progresso científico não depende apenas das realizações de indivíduos isolados, mas requer colaboração, trabalho em equipe e comunicação aberta com todos os resultados, sejam eles positivos ou negativos. Fonte: http://www.enago.com.br/blog/motivos-para-publicar-resultados-negativos/
  • 100.
  • 102. EXISTEM CÓDIGOS INTERNACIONAIS, NACIONAIS E INSTITUCIONAIS QUE DETALHAM AS ESPECIFICAÇÕES E GUARDA DESTES CADERNOS Caderno de laboratório Cadernos convencionais Cadernos Eletrônicos auditoria | certificação Sistemas complexos integração com os equipamentos do lab Cadernos abertos disponibilização dos dados acontece em tempo real, à medida que a pesquisa vai sendo feita O caderno de laboratório é uma ferramenta de organização e de memória que serve de registro primário da pesquisa científica e das atividades relacionadas. O caderno de pesquisa registra as hipóteses, experimentos e análises iniciais ou interpretações dos experimentos; serve também como o registro legal da propriedade intelectual das ideias e dos resultados obtidos pela pesquisa (SCHNELL, 2015).
  • 105. As potencialidades dos acervos digitais podem ser ampliadas se eles forem reconfigurados como matéria-prima para o empacotamento, ressignificação, reinterpretação e agregações em novos contextos e com novos propósito, estabelecendo espaços de colaboração e interlocução que definem o conceito de reuso.
  • 107. ATRIBUTOS DOS OBJETOS DIGITAIS QUE OS DIFEREM DE OBJETOS FÍSICOS EDITÁVEL INTERATIVO ABERTO E REPROGRAMÁVEL DISTRIBUÍDOS (KALLINIKOS, 2010) NOVAS FORMAS DE AGREGAÇÃO, APRESENTAÇÃO, CONTEXTUALIZAÇÃO E INTERPRETAÇÃO CONECTÁVEL BITS & BYTES ÁTOMOS & MOLÉCULAS AUTOCONTIDO/ SUPORTE FIXO “compreender o meio digital como um facilitador de acesso e precursor de novas possibilidades de imersão nos lugares de memória, afastando-se de uma concepção simplista do digital como mero repositório de informação” (REIS et al, 2016)
  • 108. As potencialidades dos acervos digitais podem ser ampliadas se eles forem reconfigurados como matéria- prima para o empacotamento, ressignificação, reinterpretação e agregações em novos contextos e com novos propósito, estabelecendo espaços de colaboração e interlocução que definem o conceito de reuso. AUTOCORREÇÃO
  • 110. Por que diários de bordo de navios de séculos passados são tão importantes para a pesquisa atual sobre o clima?
  • 111. EM OUTROS CONTEXTOS Centenas de diários de bordo digitalizados, registrando viagens marítimas de três séculos ARQUIVOLOGIA CLIMATOLOGIA se tornam uma base de dados rica sobre a fauna, flora, corrente e ventos oceânicos DATA MINING Cientistas reconstroem a história dos sistemas dinâmicos da Terra e melhoram as projeções sobre o futuro do clima
  • 112. Tornar um conteúdo que foi criado para uma audiência útil para outra é um problema complexo, porque cada disciplina tem seu próprio vocabulário, estrutura de dados e práticas de pesquisa e formulam questões de forma distintas usando sua própria terminologia. Isto coloca um desafio importante para os serviços de curadoria que é criar descrições e representações, ferramentas e serviços que tornem viável o compartilhamento entre diferentes audiências (BORGMAN,2007). A probabilidade de uma coleção de dado ser reusada no futuro por outras audiências, estabelece o critério mais simples de valor para a coleção. Embora não seja algo simples, a partir daí pode-se estimar se vale pena arquivá-la por longo prazo
  • 113.
  • 114. NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE INFORMAÇÃO & CONHECIMENTO
  • 115. NOS ESTAMOS NOS AFOGANDO EM DADOS, MAS SEDENTOS DE INFORMAÇÃO & CONHECIMENTO
  • 116. GESTÃO DE DADOS DE PESQUISA COMPARTILHAMENTO REUSO PRESERVAÇÃO CONTEXTUALIZAÇÃO PROVENIÊNCIA AUTENTICIDADE
  • 117. VERSIONAMENTO COMPARTILHAMENTO CURADORIA ORGANIZAÇÃO PRESERVAÇÃO CONJUNTO DE ATIVIDADES GERENCIAIS E TECNOLÓGICAS, APOIADAS POR POLÍTICASGERAIS E ESPECÍFICAS DESTINADAS A GARANTIR: ARQUIVAMENTO CURADORIA, IDENTIFICAÇÃO, CONTEXTO, PRESERVAÇÃO, ACESSO CONTINUO E CONFORMIDADE LEGAL E ÉTICA AOS DADOS DE PESQUISA PÚBLICO-ALVO ÉTICA
  • 118. Aumento do potencial de compartilhamento/reuso de dados de pesquisa, minimizando a necessidade de duplicar trabalho no laboratório, no campo ou na biblioteca. Assegura que os dados obtidos por meio de altos custos não sejam perdidos ou inadvertidamente destruídos e mantenham sua integridade, autenticidade e confiabilidade. Permitir que a recuperação, comparação e meta análise dos dados proveniente de múltiplas fontes possa levar a novos importantes conhecimentos. Possibilita a verificação ou repetição de experimentos, validação de trabalhos acadêmicos e a verificação de descobertas, particularmente importante em meio a preocupação nacional e internacional sobre integridade da pesquisa. Novos temas de pesquisa – em particular temas interdisciplinares – podem emergir a partir da reanálise de dados existentes ou comparações com novos dados: crescentemente dados podem se tornar ponto de partida para novas pesquisas, bem como um produto para as pesquisas correntes. SÃO SIGNIFICANTES OS BENEFÍCIOS POTENCIAIS PARA O MUNDO ACADÊMICO DA GESTÃO DE DADOS DE PESQUISA MELHORES DADOS >> MELHORES PESQUISAS
  • 119. CICLO DE VIDA DOS DADOS DE PESQUISA PLANEJAMENTO GERAÇÃO/COLETA PROCESSAMENTO ANÁLISE PRESERVAÇÃO REUSOPUBLICAÇÃO
  • 120. EXISTEM DUAS ÁREAS DE REQUISITOS NA GESTÃO DADOS CIENTÍFICOS: a primeira está relacionada com as infraestruturas – sistemas, normas e protocolos - necessárias para assegurar a coleta, preservação e acesso, e ainda a disponibilidade de serviços de amplo espectro; A SEGUNDA CONSIDERA OS ASPECTOS POLÍTICOS, LEGAIS E ÉTICOS DECORRENTES DO ACESSO E REUSO DOS DADOS ALÉM DO CONTEXTO INICIAL PARA QUE FORAM GERADOS. MARCOS POLÍTICOS ÉTICOS LEGAIS E DE PRIVACIDADE INFRAESTRUTURAS: SISTEMAS, NORMAS E PROTOCOLOS - NECESSÁRIAS PARA ASSEGURAR A COLETA, PRESERVAÇÃO E ACESSO, E AINDA A DISPONIBILIDADE DE SERVIÇOS PRIVACIDADE & SEGURANÇADA INFORMAÇÃO QUESTÕES LEGAIS QUESTÕES ÉTICAS ARCABOUÇO POLÍTICO 1 2 SOLUÇÕES DE TI PLANEJAMENTO SUPORTE INFORMACIONAL
  • 121. Planejamento: Projeto de pesquisa Plano de Gestão de Dados Coleta/geração de dados Processamento Controle de qualidade Metadados disciplinares Armazenamento seguro Backups Análise Avaliação Catalogação Contextualização Questões éticas e legais Publicação Preservação de longo prazo Compartilhamento/ acesso/reuso ANTES DA PESQUISA COMEÇAR DURANTE A PESQUISA PESQUISA FINALIZADA GESTÃO DE DADOS DE PESQUISA
  • 122. DADOS QUE SERÃO GERADOS PADRÕES DE METADADOS PADRÕES DE CONTROLE/GARANTIA DA QUALIDADE DOS DADOS PLANO DE COMPARTILHAMENTO QUESTÕES ÉTICAS E LEGAIS RESTRIÇÕES AO COMPARTILHAMENTO ARMAZENAMENTO/PRESERVAÇÃO DE CURTO PRAZO PROPRIEDADE INTELECTUAL E LICENÇAS CUSTOS PAPÉIS E RESPONSABILIDADES PRESERVAÇÃO DE LONGO PRAZO PLANO DE GESTÃO DE DADOS DE PESQUISA INCORPORAR OS ITENS DA GESTÃO DE DADOS COMO PARTE IMPORTANTE DO CICLO DA PESQUISA IMPLEMENTAR A GESTÃO DE DADOS DE ACORDO COM AS NECESSIDADES E PROPÓSITOS DA PESQUISA 1 2
  • 123. As bibliotecas de pesquisa tem que capturar dados em diferentes estágios da geração e processamento dos dados de pesquisa. O planejamento da gestão de dados se torna parte do processo de investigação científica PÓS-PUBLICAÇÃO  PRÉ-PUBLICAÇÃO PLANO DE DADOS DE PESQUISA
  • 124. Financiamento Política de ct & i Treinamento Aquisição/desenvolvimento de coleções Segurança/armazenamento Preservação Boas práticas/qualidade Conformidade legal/responsabilidades Infraestrutura tecnológica tipos de dados formatos Identificadores persistentes curadoria serviços Políticas mandatórias metadados/documentação interoperabilidade Arquivamento depósito/acesso Publicação tempo de embargo INSTITUCIONAL Sustentabilidade Licenças REPOSITÓRIOS Transparência POLÍTICA DE COMUNIDADES/DISCIPLINAS/COLEÇÕES POLÍTICAS DE DADOS NACIONAL GOVERNAMENTAL Proteção à propriedade intelectual Ética FOMENTO À PESQUISA Prioridades Prioridades estratégicas
  • 125.
  • 126. TIPOS ESPECÍFICOS DE DADOS (ex: modelos biológicos) REPOSITÓRIOS INSTITUCIONAIS As PLATAFORMAS DISCIPLINARES se voltam para domínios específicos ou para tipos particulares de dados. Em geral possuem modelos de dados adequados à representação das coleções de dados e oferecem uma CARTEIRA DE SERVIÇOS mais orientadas, como curadoria e visualização. Essas plataformas estão abertas para publicar qualquer tipo de dados, e são especialmente desenvolvida para dar apoio a publicação de datasets produzidas no âmbito da ciência chamada de “CAUDA LONGA” – domínios científicos nos quais um grande número de relativamente pequenos laboratórios ou de pesquisadores individuais produzem a maioria resultados científicos TIPOS DE PLATAFORMAS DE GESTÃO DE DADOS DISCIPLINARES MULTIDISCIPLINARES
  • 127. O sucesso dos novos serviços de informação para a pesquisa está relacionado à sua capacidade de dar apoio às práticas e culturas das comunidades científicas da instituição.
  • 128. PADRÃO DE QUALIDADE DOS DADOS SERVIÇOS ESPECIALIZADOS VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO, CURADORIA, ANOTAÇÃO, ETC PRESERVAÇÃO DE LONGO PRAZO ARMAZENAMENTO SEGURO CONTROLE DE ACESSO BACK-UPS BUSCAS PRECISAS E PERSONALIZADAS ACESSO EM FORMATOS POPULARES MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE ACESSOS PLATAFORMA DISCIPLINAR DE GESTÃO DE DADOS DE PESQUISA FERRAMENTAS DE CITAÇÃO PADRONIZADA PROMOÇÃO DOS DADOS/INTERAÇÃO LICENÇAS APROPRIADAS
  • 130. HARDWARE INSTALAÇÃO LOCAL ARMAZENAMENTO BASE INSTALADA LICENÇA ESQUEMA DE METADADOS METADADOS EXPORTAÇÃO (ex. METS) INTEROPERABILIDADE PROGRAMAÇÃO (ex. API) BUSCA CUSTOMIZAÇÃO AMBIENTE DE PESQUISA PERIODO DE EMBARGO REVISÃO POR PARES VERSIONAMENTO VALIDAÇÃO COMUNIDADES CONSULTORIA TIPOS DE DADOS INSTITUIÇÃO AG. FOMENTO ÁREA PESQUISADORES REQUISITOS
  • 131.
  • 133. CURADOR ALGUÉM QUE MANTÉM ALGUMA COISA PARA O BEM PÚBLICO, CUJO VALOR FREQUENTEMENTE NECESSITA SER REVELADO.
  • 134. Seleção, cuidado e preservação de coleções de objetos de arte estáveis, como pintura e esculturas, livros e manuscritos raros e únicos; espécimes naturais e físicos importantes, e outros artefatos considerados de valor cultural ou científico. Em termos espaciais, a curadoria ocorre em contextos organizacionais relativamente limitados como bibliotecas, arquivos, museus, galerias de arte, herbários e instituições similares (NRC, 2015). Além do mais, curadoria está preocupada também em promover a disponibilidade dos objetos para audiências apropriadas (JISC).
  • 135. Independente de uma coleção ser constituídas de objetos físicos ou digitais – ou seja, de átomos e moléculas ou de bits e bytes - um curador deve avaliar seu valor e relevância para a comunidade de usuários reais e potenciais; determinar a necessidade de preservação; documentar a origem e autenticidade; descrever, registrar e catalogar seu conteúdo; providenciar armazenamento e preservação a longo prazo; e proporcionar um meio de acesso e uso para os conteúdos (NRC, 2015). A CURADORIA DIGITAL difere, em termos de significado e amplitude conceitual, da CURADORIA como ela vem sendo compreendida ao longo do tempo! Entretanto, a curadoria digital mostra alguma continuidade com as praticas tradicionais de curadoria!
  • 136. Antes das práticas acadêmicas se deslocarem para o reino digital ou para o paradigma do big data, os museus de história natural já tinham ampliado o seu conceito de curadoria antecipando a demanda por gestão e aprimoramento dos dados digitais (PALMER et al., 2013, p. 2).
  • 137. oferece um arcabouço pratico e conceitual que permite a elaboração de fluxos de trabalho voltados para a uma gestão dinâmica de coleções digitais... ...que podem ser aplicados aos acervos digitais CULTURAIS e CIENTÍFICOS ampliando o seu potencial de reuso e de concepção e desenvolvimento NOVOS PRODUTOS SERVIÇOS ON-LINE INOVADORES ESPAÇOS DE INTERAÇÃO METODOLOGIAS ACERVOS DIGITAIS REUSO AGORA E NO FUTURO METODOLOGIAS ACERVOS DIGITAIS ADICIONANDO VALOR
  • 138. QUE PRESSUPÕE ADICIONAR VALOR ORGANIZAÇÕES EM COLEÇÕES DOCUMENTAÇÃO ATRIBUIÇÃO DE METADADOS IDENTIFICAÇÃO ARQUIVAMENTO PRESERVAÇÃO SEGURANÇA FÍSICA AVALIAÇÃO (AUTENTICAÇÃO E VERIFICAÇÃO) CONTROLE DE QUALIDADE ANOTAÇÃO CONTEXTUALIAÇÃO AÇÕES GERENCIAIS, TECNOLÓGICAS E POLÍTICAS NECESSÁRIAS PARA MANTER OS DADOS POR TODO O SEU CICLO DE VIDA – DESDE A SUA CRIAÇÃO -VISANDO O USO CORRENTE E FUTURO AVALIAÇÃO DE RISCO PARA GARANTIR INTELIGENTEMENTE ABERTOS COMPREENSÍVEIS LONGEVOS DISPONÍVEIS RECUPERÁVEIS ACESSÍVEIS AVALIÁVEIS (PROVENIÊNCIA/ INTEGRIDADE/ QUALIDADE) CONFORMIDADE LEGAL E ÉTICA PADRONIZADOS INTEROPERÁVEIS COM OBJETIVO FINAL USABILIDADE/REUSO REPRODUTIBILIDADE INTERDISCIPLINARIDADE INPUT PARA NOVAS PESQUISAS ENSINO DAS CIÊNCIAS MEMÓRIA ACADÊMICA VALIDAÇÃO DA PESQUISA VOLTADO PARA UM PÚBLICO-ALVO ALINHADO COM O FLUXO DE PESQUISA
  • 139. CURADORIA DIGITAL ATIVIDADE DE GESTÃO E DE PROMOÇÃO DE USO DE ACERVOS DIGITAIS DESDE A CRIAÇÃO/SELEÇÃO, ASSEGURANDO A SUA ADEQUAÇÃO PARA PROPÓSITOS ATUAIS E FUTUROS E TORNANDO-OS DISPONÍVEIS PARA DESCOBERTA E REUSO. ARQUIVAMENTO ATIVIDADE DE CURADORIA QUE ASSEGURA QUE O OBJETO DIGITAL ESTÁ SELECIONADO, ARMAZENADO E PODE SER ACESSADO E QUE A SUA INTEGRIDADE FÍSICA E LÓGICA ESTÁ MANTIDA AO LONGO DO TEMPO PRESERVAÇÃO DIGITAL ATIVIDADE INCLUÍDA NA CURADORIA ATRAVÉS DA QUAL ITENS ESPECÍFICOS SÃO MANTIDOS AO LONGO DO TEMPO DE FORMA QUE ELES POSSAM SER ACESSADOS E COMPREENDIDOS NO FUTURO A DESPEITO DAS MUDANÇAS TECNOLÓGICAS GESTÃO DE MUDANÇAS AO LONGO DO TEMPO E DO ESPAÇO
  • 140.
  • 141. PLANO DE GESTÃO DE DADOS DE PESQUISA IDENTIFICADO CITADO VISÍVELLOCALIZADO RECUPERADO ACESSADO INTERPRETADO CONTEXTUALIZADO AVALIADO PROVENIÊNCIA COMPARTILHADO ON-LINE LINKADO COM PUBLICAÇÃO CONSIDERA PRIVACIDADE/ÉTICA LICENÇA APROPRIADA REUSADO DADO DE PESQUISA MANEIRO ANOTADO ATIVA COLABORAÇÃO INTEROPERÁVEL ARQUIVADO PRESERVADO
  • 142. ENCONTRÁVEL: Fácil de achar por humanos e computadores por meio de metadados que facilitem a busca por datsets específicos. ACESSÍVEL: Armazenado por longo prazo de forma que ele pode ser facilmente acessado e/ou baixado com licenças e condições de acesso bem definidas (acesso aberto quando possível) INTEROPERÁVEL Pronto para combinar com outros dados por seres humanos ou por computadores REUSÁVEL Pronto para ser usado para pesquisas futuras, e para ser processado usando métodos computacionais. PRINCÍPIOS FAIR
  • 143. • Os seus dados estão associados a um identificador persistente? • Existem metadados ricos descrevendo os seus dados? • Os metadados estão acessíveis online em uma ferramenta de busca? Ex: catálogo ou repositório dedados • O registro do metadado especifica o identificador persistente? • O acesso ao identificador persistente levará o usuário ao dado ou aos metadado associados? • Os protocolos adotados seguem padrões reconhecidos? Ex: html • Os procedimentos de acesso incluem autenticação e graus de autorização? • Os metadados estão acessivies, mesmo quando os dados não estão disponíveis? • Os dados estão em formatos claramente compreendidos e de preferência abertos • Os metadados seguem normas relevantes? • Os vocabulários controlados, palavras-chave, tesauros ou ontologias são utilizados sempre que possível? • Referências e links qualificados são fornecidos para uso por outros? • Os dados são precisos e bem descritos com muitos atributos relevantes? • Os dados possuem uma licença de uso de dados clara e acessível? • Está claro como, por que e por quem os dados foram criados e processados? • Os dados e os metadados atendem a padrões e domínio relevantes? ENCONTRÁVELENCONTRÁVEL ACESSÍVEL INTEROPERÁVEL REUSÁVEL
  • 144.
  • 145.
  • 146.
  • 147.
  • 148. DADOS QUE SERÃO GERADOS PADRÕES DE METADADOS PADRÕES DE CONTROLE/GARANTIA DA QUALIDADE DOS DADOS PLANO DE COMPARTILHAMENTO QUESTÕES ÉTICAS E LEGAIS RESTRIÇÕES AO COMPARTILHAMENTO ARMAZENAMENTO/PRESERVAÇÃO DE CURTO PRAZO PROPRIEDADE INTELECTUAL E LICENÇAS CUSTOS PAPÉIS E RESPONSABILIDADES PRESERVAÇÃO DE LONGO PRAZO PLANO DE GESTÃO DE DADOS DE PESQUISA INCORPORAR OS ITENS DA GESTÃO DE DADOS COMO PARTE IMPORTANTE DO CICLO DA PESQUISA IMPLEMENTAR A GESTÃO DE DADOS DE ACORDO COM AS NECESSIDADES E PROPÓSITOS DA PESQUISA 1 2
  • 149.
  • 150.
  • 151.
  • 152.
  • 153.
  • 154.
  • 155.
  • 156.
  • 157. PADRÃO DE QUALIDADE DOS DADOS SERVIÇOS ESPECIALIZADOS VISUALIZAÇÃO, MODELAGEM, META-ANALISE, MINERAÇÃO, CURADORIA, ANOTAÇÃO, ETC PRESERVAÇÃO DE LONGO PRAZO ARMAZENAMENTO SEGURO CONTROLE DE ACESSO BACK-UPS BUSCAS PRECISAS E PERSONALIZADAS ACESSO EM FORMATOS POPULARES MONITORAMENTO DO REUSO DOS DADOS/GESTÃO DE ACESSOS PLATAFORMA DISCIPLINAR DE GESTÃO DE DADOS DE PESQUISA FERRAMENTAS DE CITAÇÃO PADRONIZADA PROMOÇÃO DOS DADOS/INTERAÇÃO LICENÇAS APROPRIADAS
  • 158.
  • 159. GESTÃO DE DADOS DE PESQUISA ENFATIZA TODOS OS FUNDAMENTOS DA BIBLIOTECONOMIA DIGITAL MEMÓRIA CIENTÍFICA BIBLIOTECAS: PROVEDORES DE NOVOS SERVIÇO EXPANSÃO DO ESCOPO DA PROFISSÃO AGENDA DE PESQUISA DADOS DE PESQUISA

Hinweis der Redaktion

  1. INTEROPERABILIDADE COM OUTROS SISTEMAS A interoperabilidade de sistemas é compreendida aqui como a capacidade das plataformas de repositórios de dados intercambiarem informações – dados e metadados - com sistemas externos de forma harmônica e integrada e com propósitos específicos. No momento em que projeta os recursos informacionais autocontidos numa plataformas em uma escala dimensionalmente maior – em termos espaciais e temporais -, a interoperabilidade assegura que os dados possam ser disseminados, encontrados, preservados e reusados com maior intensidade e longevidade. “Expor o conteúdo do repositório para outras plataformas de pesquisa [e outros tipos de sistemas] pode aumentar a visibilidade e o reuso dos dados” reforça XXXX Troca de metadados A maioria dos sistemas permitem o desenvolvimento de clientes e ferramentas assim como oferecem seu proprio API´s para exporem seus registros de metadados para comunidades externas, but there are some diferences regarding standard complience. (#3) O protocolo OAI-PMH (citar 18) is a widely –used protocol that promotes interoperability between repositories while also streamlining data dissemination, and is a valuable resource for harvesters to index the content of the repository. OAI-PMH Oferece acesso alternativo aos dados e metadados por meio de alguma forma de API para acesso online e intercâmbio. Integração com sistemas de publicação de periódicos científicos A conexão por hiperlink dos dados com os artigos que relatam os experimentos através dos quais eles forma gerados ou coletados se tornam cada vez mais importante como forma de contextualização, visibilidade, citação e avaliação da pesquisa, além de conferir um valor adicional ao artigo. Essas ligações são importantes também na formulação de novos conceitos de documentos científicos, como são as publicações ampliadas (citar tese). Dessa forma a integração entre sistemas de publicação, como o Open Journal System e repositórios de dados, como o Dataverse, por meio do protocolo SWORD – como relatados por autores como Altman e colaboradores (2015) e Castro e Garnett (2014) - criam uma estrutura informacional organicamente interligada importante para o acesso e validação. Esse tipo de interoperabilidade permite que os sistemas de periódicos gerenciem, de forma fluida, a submissão, revisão e publicação de coleção de dados associados com um artigo, segundo um workflow específico (ALTMAN et al, 2015). Dessa forma os autores podem submeter seus artigos e as coleções de dados subjacentes aos artigos simultaneamente no sistema de gestão de periódicos, enquanto os dados são automaticamente depositados em um repositório de dados (CASTRO; GARNETT, 2014). Esta integração facilita o compartilhamento, o arquivamento das coleções de dados e, sobretudo, ainda a validação e reprodutibilidade da pesquisa. O repositório recebe do por meio de algum dispositivo, por exemplo, de um API, a submissão de dados associados a um artigo provenientes de sistemas externos de gestão de periódicos? Integração com plataformas de repositório confiável Existe um grande interesse dos principais stakeholds em preservar os dados de pesquisa usando padrões confiáveis e formatos recomendados pelas comunidades de arquivo e de preservação. Porém, o que se observa é que as plataformas voltadas para dados carecem de certos tipos de atividades de preservação, processos e padrões que são exigidos para assegurar compatibilidade com repositórios digitais confiáveis e com outros padrões de certificação. Há possibilidade que a plataforma esteja integrada a um repositório confiável aderente aos princípios do OAIS, por meio, por exemplo de um API, que permita a automação do processamento, criação de metadados de preservação e criação de pacotes independentes de repositório SIP´s e AIP´s, usando METS, PREMIS and bagit. Um exemplo disso é a integração DATAVERSE com o Archivematica “A construção de um sistema robusto de arquivamento e preservação para dados de pesquisa envolve capturar a essência e o contexto do dado de pesquisa original, incluindo os metadados descritivos e estruturais que permitem o reuso.”   Archivematica Seer EXPORTAÇÃO DE METADADOS Algumas plataformas dispõe de facilidades para a exportação de registros que são compatíveis com esquemas de metadados – Dublin Core, MARC-XML etc. (#3); plataformas baseadas em Dspace podem exportar DIPs na forma de registros de metadados METS, dessa forma permitindo a ingestão desses pacotes em fluxos de trabalho orientados para preservação de longo termo. INTEGRAÇÃO COM OUTROS SISTEMAS
  2. TIPO DE REPOSITÓRIO Quando se compara publicações acadêmicas e coleções de dados – ambos produtos de pesquisa – verifica-se que diferentemente das publicações acadêmicas, os dados variam consideravelmente. Isto porque áreas distintas de pesquisa têm diferentes exigências em relação à geração e uso dos dados, especialmente devido à diversidade estrutural que caracterizam os seus datasets. Essa heterogeneidade se reflete com intensidade nas exigências de metadados que podem variar bastante de domínio para domínio, exigindo modelos de dados flexíveis o bastante para representarem adequadamente os registros de cada área. É preciso considerar também que as práticas de compartilhamento de dados variam enormemente entre as disciplinas científicas: em algumas áreas o compartilhamento e o reuso de dados são essenciais para seu desenvolvimento, enquanto outras o compartilhamento é quase uma cultura de “troca de presentes”, conforme destaca (#4). De uma forma geral há uma diversidade de tipos de repositório que espelham afiliações acadêmicas e institucionais e as políticas e práticas próprias desses segmentos, domínios disciplinares e, sobretudo, a natureza diversificada e heterogênea das coleções de dados de pesquisa. Para a finalidade da presente análise consideram-se dois tipos: multidisciplinares (algumas vezes chamados genéricos) e os disciplinares (também chamados temáticos). O disciplinares se voltam para domínios específicos como ...; ou para tipos particulares de dados como ... Em geral possuem modelos de dados adequados à representação das coleções de dados e oferecem uma carteira de serviços mais orientadas, como curadoria e visualização. Por sua vez os repositórios multidisciplinares gerenciam coleções de dados de diversas áreas, estruturas e tipos, que implica em representação limitada e serviços básicos. “Essas plataformas são essencialmente serviços de compartilhamento e não repositórios de preservação” (#11). Essas plataformas estão abertas para publicar qualquer tipo de dados, e são especialmente desenvolvida para dar apoio a publicação de datasets produzidas no âmbito da ciência chamada de “cauda longa” – domínios científicos nos quais um grande número de relativamente pequenos laboratórios ou de pesquisadores individuais produzem a maioria resultados científicos (#2, Heidorn). Entretanto, vários levantamentos indicam que a maioria dos repositórios se identifica com um domínio particular ou com uma área de estudo bem delimitada (#1, #2,). Portanto, a escolha por parte do pesquisador deve se orientar por plataformas mais próximas de sua área de pesquisa, ou seja, repositórios temáticos que oferecem esquemas de metadados disciplinares que podem descrever e contextualizar com mais precisão os seus datasets. Porém, se não há repositórios disciplinares para a área de pesquisa dos dados, é melhor que eles sejam depositados em plataformas multidisciplinar como o Zenodo, Figshare ou Dataverse, ou ainda no Repositório da instituição....DRYAD