Dados abertos e serviços para gestão de dados de investigação
1. DADOS ABERTOS E OS
SERVIÇOS PARA A GESTÃO DE
DADOS DE INVESTIGAÇÃO
Pedro Príncipe
Universidade do Minho
pedroprincipe@sdum.uminho.pt
2. AGENDA
1ª parte (apresentação, casos
práticos, demos e debate)
■ Relevância da Gestão de Dados de
Investigação para a Ciência Aberta
■ Políticas de financiadores para a
abertura de dados e Requisitos dos
Editores para a disponibilização de
dados.
■ Casos de estudo de estratégias e
disponibilização de serviços
institucionais para apoiar a gestão
de dados.
2ª parte (apresentação, casos
práticos e muito debate)
■ Infraestruturas de dados, serviços
à gestão de dados e ferramentas
para planos de dados e acesso a
dados.
■ Refletir sobre práticas, estratégias
e serviços para a abertura de
dados nas instituições de saúde.
■ Roadmaps para a gestão de dados
nos serviços de informação e
documentação de Saúde em
Portugal.
3. Objetivos
■ Conhecer estratégias e boas práticas na criação de
serviços para a gestão de dados de investigação.
■ Identificar as políticas de financiadores e os
requisitos dos Editores para a abertura e partilha
de dados.
■ Reconhecer as principais infraestruturas e serviços
de gestão de dados disponibilizados para os
investigadores.
■ Refletir sobre práticas, estratégias e serviços para a
abertura de dados nas instituições de saúde em
Portugal.
6. Ciência Aberta
Nos resultados
■ Publicações
■ Dados
Nos métodos
■ Processos
■ Ferramentas
■ Infraestruturas
Para tornar a ciência mais
eficiente, transparente, confiável e
reprodutivel.
7. Ciência Aberta (dados abertos)
progresso da Ciência
www.nytimes.com/2010/08/13/health/research/
13alzheimer.html?pagewanted=all&_r=0
8. Ciência Aberta (dados abertos)
validar e corrigir resultados, combater a fraude
www.guardian.co.uk/politics/2013/apr/18/uncovered-error-george-osborne-austerity
9. Ciência Aberta (dados abertos)
melhorar a reproducibilidade
Begley, C. G. & Ellis, L.
M. Nature 483, 531–533 (2012).
10. good research needs good data
DigitalCurationCenter
10
http://epicgraphic.com/data-cake
12. Tornaroprocesso de
investigação maisfácil
Porquê gerir dados?
Salvaguardar osdados
Partilhar osdados para
reutilização
Obterganhos ecréditos porisso
Evitaracusações defraudeou
máciência
Cumprircomosrequisites de
financiadoresouinstituições
13. A Gestão de Dados:
CREATING DATA: designing research, DMPs, planning
consent, locate existing data, data collection and
management, capturing and creating metadata
RE-USING DATA: follow-up research,
new research, undertake research
reviews, scrutinising findings,
teaching & learning
ACCESS TO DATA: distributing data,
sharing data, controlling access,
establishing copyright, promoting
data
PRESERVING DATA: data storage, back-up & archiving,
migrating to best format & medium, creating metadata and
documentation
ANALYSING DATA: interpreting, &
deriving data, producing outputs,
authoring publications, preparing for
sharing
PROCESSING DATA: entering,
transcribing, checking, validating and
cleaning data, anonymising data,
describing data, manage and store
data
Ref: UK Data Archive: http://www.data-archive.ac.uk/create-manage/life-cycle
Criar os
dados
Processar
os dados
Analisar
os dados
Preservar
os dados
Dar
acesso
aos
dados
Reutilizar
os dados
14. Scheme from University of California- Irvine http://www.lib.uci.edu/dss
A Gestão de dados no ciclo de vida da investigação:
15. 1. Aumentar o
impacto da
investigação
2. Melhorar a
acessibilidade
3. Prevenir o uso
inadequado
4. Salvaguardar os
dados produzidos
5. Assegurar
compatibilidade
GESTÃO DE DADOS CIENTÍFICOS ADEQUADA IRÁ:
16.
17. Clarifying
terminology…
In the past our policy mainly addressed the
'accessibility' part of FAIR.
• Started off with 'open access to research data'
• Moved towards open (research) data with the
ORD pilot (which also covered further aspects)
• We are now seeing openness as one component
of FAIR data and aim to address all of the FAIR
aspects in Horizon 2020
34. Políticas de financiadores e requisitos de editores
• A FCT tem requisitos para os dados?
• Que políticas os editores têm para a disponibilização de dados?
• Quais as exceções previstas nos requisitos dos financiadores?
• Para que dados os financiadores requerem o acesso aberto?
• Quais os requisitos básicos dos dados abertos no H2020?
• Quais as razões dos financiadores para os requisitos de dados abertos?
• Quais as vantagens e desvantagens do uso dos serviços de dados dos editores?
?
35.
36. Ciência, Tecnologia e Ensino Superior
em Portugal…
REGULAMENTO DE AVALIAÇÃO E FINANCIAMENTO PLURIANUAL DE UNIDADES DE I&D
Artigo 6.º
Critérios de avaliação
1 — Os critérios de avaliação das unidades de I&D são os seguintes:
A. Qualidade, mérito, relevância e nível de internacionalização da atividade de I&D realizada no período
em avaliação, aferidos por padrões internacionais, considerando originalidade, consistência e rigor, bem
como a relevância dos resultados. Para este efeito são considerados nomeadamente: contribuições para
o avanço e aplicação do
conhecimento; publicações; formação avançada; iniciação científica de jovens estudantes; organização
de conferências, colóquios ou 7 seminários; patentes, protótipos ou produtos; transferência de
conhecimento e tecnologia; preservação, curadoria e disseminação de dados e resultados da
atividade de I&D respeitando as práticas e os princípios de ciência aberta; promoção da
cultura científica e tecnológica; ações de especial relevância para a sociedade, de natureza científica,
tecnológica, cultural, artística, social ou económica.
B. (…)
37. Requisitos que visam melhorar e
maximizar o acesso e a reutilização
dos dados de investigação gerados
por projetos financiados pela CE.
Dados abertos de Investigação no H2020
38. Desde janeiro de 2017 será o
default…
Projeto
piloto
O default …
39. DADOS para validar os resultados
apresentados em publicações
científicas.
Outros dados, conforme
especificado no plano de gestão
de dados.
Requisitos do Open Research Data no H2020
QUE DADOS?
40.
41.
42. Dados abertos no H2020 - OPT OUT
42
• Em caso de conflito com as obrigações
de confidencialidade.
• Em caso de conflito com as obrigações
nacionais de segurança.
• Em caso de conflito com as regras em
matéria de proteção de dados pessoais.
• Se o projeto não gerar/recolher dados.
• Em caso de conflito com a obrigação de
proteção dos resultados (se é esperado
que os resultados sejam comercial ou
industrialmente explorados).
• Se a realização do objetivo principal do
projeto (ação) ficar comprometido com a
disponibilização aberta dos dados.
Os projetos podem optar por sair, na fase de proposta ou durante a execução
(devidamente justificado no plano de projeto), com base em:
“opt out does not affect the evaluation…
Proposals will not be penalised for opting out”
43. Criar e manter atualizado um
plano de gestão dos dados
Assegurar o depósito dos dados
num repositório
Requisitos do Open Research Data no H2020
COMO?
44. Abordagem prática dos princípios FAIR
• Findable
Registar identificadores persistentes (PIDs), providenciar
metadados, registar num recurso pesquisável, repositório...
• Accessible
Recuperável pelo PID usando o protocolo standard, metadados
devem permanecer acessíveis mesmo que os dados não...
• Interoperable
– Usar linguagens formais e amplamente aplicáveis, usar
vocabulários padrão, referências qualificadas...
• Reusable
– Metadados com qualidade, licença e proveniência com
clareza, utilização de padrões da comunidade disciplinar...
45. Requisitos na prática (simplificados)
Criar um plano de gestão dos dados
Assegurar o depósito num repositório
Associar licenças CC
Providenciar informação sobre ferramentas
O foco deve ser o planeamento >> para a disponibilização dos dados,
facilitando o depósito e a licença para permitir a reutilização.
48. DMPonline
https://dmponline.dcc.ac.uk
• Ferramenta web para ajudar os investigadores a elaborar o seu plano de
gestão de dados.
• Disponibilizada de forma gratuita pelo DCC
• Incluiu já um template para o Horizonte 2020
49.
50. Exemplos disponíveis no Zenodo
• Helix Nebula – High Energy Physics example
• https://zenodo.org/record/48171#.WATexnriF40
• Tweether – engineering (micro-electronics) example
• https://zenodo.org/record/55791#.WATei3riF40
• AutoPost – ICT example
https://zenodo.org/record/56107#.WATefXriF40
RDM Seminar @ ISERD, Tel Aviv - Oct 1, 2016
51.
52. Onde depositar e onde encontrar um repositório?
1. Num arquivo de dados ou repositório externo e de âmbito temático ou
disciplinar
2. Num repositório de dados institucional, ou de unidade de investigação
devidamente estabelecido e com facilidades de gestão de dados.
Zenodo.org
Pesquisar no diretório de repositórios: re3data.org
54. www.dcc.ac.uk/resources/how-guides/license-research-data
Licenças associadas a dados científicos: info de apoio
Limitações CREATIVE COMMONS
NCNon-Commercial
o que é considerado comercial?
SA Share Alike
Reduz potencial de interoperabilidade!
ND No Derivatives
Restringe severamente o uso!
Horizonte 2020
recomendação de uso
ou
64. PhD student
university
research teamindividual
researcher
supra-
university
Where do I safely keep my data from
my fieldwork, as I travel home?
How can I best keep years worth
of research data secure and
accessible for when I and others
need to re-use it? How do we ensure compliance to
funders’ requirement for several
years of open access to data?
How do we ensure we have access
to our research data after some of
the team have left?
How can our research
collaborations share data,
and make them available
once complete?
Seeking the real win + win + win + win + win… Tony Weir, Director, IT Infrastructure, UoE (2014)
65. Gestão de Dados de Pesquisa: estratégias Institucionais
ÁREAS DE AÇÃO
CICLO DE VIDA DA
INVESTIGAÇÃO
Serviços do ciclo dos dados, planos de
gestão de dados, documentação,
metadados, partilhar
INFRAESTRUTURA
Sistemas para armazenamento, arquivos,
repositórios, acesso, licenças,
preservação, identificadores
GOVERNAÇÃO
Políticas, financiamento, consórcios,
requisites de financiadores, estratégias
nacionais, Protocolos
67. 7 recomendações para apoiar
a cauda longa dos dados de pesquisa
Objetivo: desenvolver um conjunto
de boas práticas para a gestão de
dados no contexto universitário.
Âmbito: dados gerados nas
universidades e instituições de
investigação e o papel dos
repositórios institucionais e das
bibliotecas enquanto agentes de
gestão de dados nas instituição.
68.
69. 7 recomendações para apoiar a
cauda longa dos dados de investigação
1. Reconhecer e compreender a diversidade dos dados criados na sua organização, ou através do
seu apoio financeiro e desenvolver estruturas adequadas para a gestão desses dados.
2. Dimensionar os mecanismos de financiamento existentes para apoiar a gestão de dados de
investigação para pequenos projetos de investigação.
3. Expandir e fortalecer o papel institucional na gestão dos dados de investigação.
4. Desenvolver e aplicar padrões comuns em instituições e domínios para garantir maior
interoperabilidade entre os conjuntos de dados.
5. Apoiar a reproducibilidade e a transparência da investigação, ligando dados, software e
literatura.
6. Estabelecer estruturas de governança que reflitam as diversas dimensões dos dados de
investigação.
7. Desenvolver princípios e políticas coerentes para a recolha e preservação da cauda longa dos
dados.
70. 7 recomendações para apoiar a
cauda longa dos dados de investigação
3. Expandir e fortalecer o papel institucional na gestão dos dados de investigação.
- Muitos conjuntos de dados de cauda longa correm o risco de serem perdidos porque não são administrados
adequadamente.
- O suporte local a investigadores aumentará a adoção de padrões e boas práticas de gestão de dados ao longo
do ciclo de vida da investigação, melhorando a probabilidade de os dados serem preservados adequadamente,
pesquisáveis e reutilizáveis por outros.
“Encorajamos universidades e instituições a oferecer serviços de gestão de dados de investigação…”
“Serviços devem fazer parte da atuação natural das bibliotecas…”
72. Casos de estudo de
estratégias e disponibilização
de serviços institucionais para
apoiar a gestão de dados.
73. AGENDA
1ª parte (apresentação,
trabalhos de grupo e debate)
■ Relevância da Gestão de Dados de
Investigação para a Ciência Aberta
■ Políticas de financiadores para a
abertura de dados e Requisitos dos
Editores para a disponibilização de
dados.
■ Casos de estudo de estratégias e
disponibilização de serviços
institucionais para apoiar a gestão
de dados.
2ª parte (apresentação,
trabalhos de grupo e debate)
■ Infraestruturas de dados, serviços
à gestão de dados e ferramentas
para planos de dados e acesso a
dados.
■ Refletir sobre práticas, estratégias
e serviços para a abertura de
dados nas instituições de saúde.
■ Roadmaps para os dados abertos
nos serviços de informação e
documentação de Saúde em
Portugal.
100. Disseminação e partilha: repositórios de dados
• Quais as plataformas, software ou serviços para repositórios de dados?
• Como citar dados?
• Que licenças para reutilização de dados?
• Identificadores para dados e autoria?
• Repositórios de dados institucionais, temáticos ou nacionais?
?
127. Debate
■ Temos infraestruturas e sistemas?
■ Temos política(s) institucional, normas e procedimentos?
■ Como fazer face às limitações legais e à necessidade de anonimização dos dados?
■ Orçamento, existe alocado às tarefas de documentação e curadoria dos dados?
■ Não há equipa de trabalho, não existe pessoal habilitado?
■ Há de certeza boas-práticas aqui representadas… partilhem pf!
128. 50 shades of “No”
■ Too expensive
■ There’s no business case
■ There’s no commercial value
■ It’s private
■ It’s secret
■ It's our data
■ We have invested a lot of money in this
■ Link enough data and one will arrive at
sensitive private information
■ It's not data, it's information
■ We don't know how to do this
■ We don't have the right people to do
this
■ We need the money
■ It’s not ours, and we don’t know who’s
data it is
■ No idea what the quality of the data is
■ We don’t know where to find it
■ It’s not our job
■ It isn’t in the right format
■ I am not authorized
■ Who is going to use this anyway
■ People are going to misuse it
■ (…)
Source
http://philarcher.org/diary/2015/50shadesofno/
132. ROADMAPS PARA OS
A GESTÃO DE DADOS NOS SERVIÇOS
DE INFO E DOCUMENTAÇÃO DE SAÚDE
6
133. Para quem está a começar:
6 regras para as Universidades/Instituições de Investigação
1. Compreender como a instituição lida com dados científicos.
2. Conceber um caso para Gestão de Dados e reunir apoios.
3. Definir o posicionamento da sua instituição sobre a GDC para instituir uma
política e estratégia.
4. Assegurar que os investigadores estão conscientes sobre os dados que
existem disponíveis.
5. Providenciar serviços robustos de armazenamento de dados e fáceis de
utilizar, permitindo documentar e partilhar os dados.
6. Tornar mais fácil aos outros encontrarem e citarem dados de investigação.
133
134. Gestão de Dados de Pesquisa: estratégias Institucionais
QUESTÕES
1. Quem está envolvido na minha instituição no apoio à gestão de
dados? Que unidades ou serviços?
2. Quem (mais) precisa de suporte à Gestão de Dados na minha
instituição?
3. Quais os serviços prioritários a desenvolver na minha
instituição? Por onde começar?
4. Os sistemas ou serviços que a minha instituição já possui são
FAIR?
135.
136. DADOS ABERTOS E OS SERVIÇOS PARA A
GESTÃO DE DADOS DE INVESTIGAÇÃO
OBRIGADO
Pedro Príncipe
pedroprincipe@sdum.uminho.pt