O documento discute os desafios do volume crescente de dados científicos e iniciativas para promover o compartilhamento e reuso desses dados, como Serviços Nacionais de Dados e a Research Data Alliance. É destacado o Australian National Data Service, que oferece serviços de armazenamento, publicação e descoberta de dados para instituições de pesquisa australianas.
Volume de dados científicos e os Serviços Nacionais de Dados
1. +
Volume de dados científicos, os Serviços Nacionais
de Dados e o Research Data Alliance
Daniela F. Brauner
dani@inf.ufpel.edu.br
2. +
Big Data
n É o termo utilizado para descrever a avalanche de dados
(grandes volumes de dados) e seus desafios.
n Atualmente, cerca de 15 petabytes de dados estruturados
e não estruturados são gerados todos os dias.
n Dados científicos, vídeos, fotos, comentários em redes sociais,
conteúdos diversos na Web etc.
Referência:
http://www.ibm.com/midmarket/br/pt/
infografico_bigdata.html
3. +
Redes Sociais Páginas Web
Bases de dados
científicas
BIG DATA
Sensores
Dispositivos
móveis
Cidades
Inteligentes
4. +
Astronomia
n Diversas coleções de dados disponibilizadas pelos
astrônomos para os astrônomos (Observatórios Virtuais).
n LSST - Large Synoptic Survey Telescope: um novo
telescópio que fará uma espécie de “filme” do céu. Cada
região do céu será revisitada a cada três dias,
permitindo que os astrônomos consigam analisar a
dinâmica dos objetos no céu.
n Localizado no Cérro Pachon – no Chile;
n Coletará cerca de 2.5 milhões de visitas (filmes)
n Cada visita resultará em uma imagem de 3.2 Gpix
n Estimativa em 10 anos: ~100 PB de dados coletados
Referências:
http://www.on.br
http://bravo.iag.usp.br
http://www.lsst.org
5. +
Física de Partículas
n LHC (Large Hadron Colider): acelerador de partículas
para obter dados sobre as colisões de feixes de
partículas.
n Localizado Laboratório CERN, próximo a Genebra na Suíça.
n Ocupa cerca de 27 Km de circunferência.
n Coleta cerca de 700 megabytes de dados por segundo (MB/s)
n Por ano o LHC recolhe ˜15 PB de dados.
n Estimativa em 10 anos: ~150 PB de dados coletados
n Os dados coletados estão sendo disponibilizados publicamente
(Open Data) Referências:
http://home.web.cern.ch/topics/large-hadron-collider
http://opendata.cern.ch
6. +
Biodiversidade
n Grandes coleções de dados com informação sobre
biodiversidade:
n Rede speciesLink : ~7,5 milhões de registros com informações
sobre espécimes da biodiversidade brasileira reunindo coleções
de diversos herbários. Fornece ferramentas e serviços online para
estimular e facilitar a publicação, acesso e uso de toda informação
disponibilizada.
n SiBBr: ~2,9 milhões de registros. Fornece uma plataforma online
para estimular e facilitar a publicação, acesso e uso da informação
sobre a biodiversidade brasileira.
Referências:
http://splink.cria.org.br
http://www.sibbr.gov.br
7. +
Impacto na rede: tráfego da Internet
(em volume de dados)
Ano Tráfego da Internet Global
1992 100 GB por dia
1997 100 GB por hora
2002 100 GB por segundo (GB ps)
2007 2000 GBps
2013 28.875 GBps
2018 50.000 GBps
FONTE: Cisco VNI, 2014
http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/VNI_Hyperconnectivity_WP.html
8. +
Quais são os desafios?
n Armazenamento: onde e como?
n Análise: onde e como?
n Uso: como utilizar grandes e diferentes conjuntos
de dados?
n Compartilhamento e reuso: como e porque
compartilhar/reusar dados de pesquisa?
n Gerenciamento: será necessário treinar pessoal
para gerenciar e manter dados científicos?
11. +
Porque temos que “cuidar” dos dados
das pesquisas científicas
European
Commission
–
Digital
Agenda
“...
taxpayers
who
are
paying
for
that
research
will
want
to
see
something
back.
...
That's
why
we
will
require
open
access
to
all
publica<ons
stemming
from
EU-‐funded
research.
That's
why
we
will
progressively
open
access
to
the
research
data,
too.
And
why
we're
asking
na<onal
funding
bodies
to
do
the
same.”
Neelie
Kroes,
Vice-‐President
of
the
European
Commission
responsible
for
the
Digital
Agenda
Opening
Up
Scien<fic
Data
,
speech
by
Nellie
Kroes
given
at
the
Launch
of
the
Research
Data
Alliance/Stockholm,
18
March
2013
hTp://europa.eu/rapid/press-‐release_SPEECH-‐13-‐236_en.htm
Slide
created
by
Natasha Simons for the Central Queensland University Workshop, Rockhampton, Feb. 11, 2015.
More
reasons:
hTp://www.ands.org.au/presenta<ons/big_pic_cqu_ns11022015.pptx
12. +
Iniciativas que promovem o
compartilhamento e reuso de dados
científicos
n Iniciativas individuais de pesquisadores/
instituições
n Agências de fomento
n Serviços Nacionais de Dados
n Consórcios internacionais
n Research Data Alliance
n National Data Services Consortium
13. +
Serviços Nacionais de Dados
Oferecem serviços para armazenamento de dados e metadados de
coleções de dados de pesquisa, para promover e facilitar a
descoberta e reuso das informações. Além disso, fornecem
treinamento e assessoria em gerenciamento de dados científicos.
n Austrália: http://ands.org.au
n Holanda: http://dans.knaw.nl
n Suécia: http://snd.gu.se/en
n Reino Unido: http://www.data-archive.ac.uk (Social sciences and
humanities data only)
n Outros.
15. +
Australian
Na>onal
Data
Service
n Em
operação
desde
2009
para
oferecer
serviços
de
dados
para
ins<tuições
públicas
de
pesquisa
da
Austrália
n Financiado
pelo
Australian
Commonwealth
Government
debaixo
da
Na>onal
Collabora>ve
Research
Infrastructure
Strategy
(NCRIS)
n Governança:
n Comitê
diretor
formado
por
representantes
das
ins<tuições
(universidades,
ins<tutos
de
pesquisa
e
ins<tuto
nacional
de
esta<s<ca)
e
possui
além
do
chair,
um
diretor
execu<vo.
16. +A
liTle
more
about
ANDS…
Obje8vo:
Liderar
a
criação
de
uma
coleção
coesa
de
recursos
de
pesquisa
e
um
ambiente
de
dados
mais
ricos
para:
n Proporcionar
melhor
uso
dos
resultados
das
pesquisas
australianas;
n Viabilizar
que
os
pesquisadores
australianos
possam
facilmente
publicar,
descobrir
e
reusar
dados;
n Viabilizar
pesquisas
novas
e
mais
eficientes;
16
Australian
Na>onal
Data
Service
18. +A
liTle
more
about
ANDS…
Australian
Research
Data
Commons
(ARDC):
Infraestrutura
que
provê
acesso
a
coleções
de
dados,
suas
descrições,
conectando
coleções
de
dados
man<das
pelos
pesquisadores,
informações
sobre
os
pesquisadores,
suas
pesquisas,
instrumentos
e
suas
ins<tuições.
Mais
informações:
hTp://ands.org.au/about/approach.html
hTp://ands.org.au/ardc.html
18
Australian
Na>onal
Data
Service
19. +A
liTle
more
about
ANDS…
19
Australian
Na>onal
Data
Service
20. +A
liTle
more
about
ANDS…
Serviços
Iden8ficadores
persistentes:
n Cite
My
Data:
serviço
para
assinalar
Digital
Object
Iden<fiers
(DOIs)
para
contribuições
de
pesquisa
referenciáveis.
n Iden8fy
My
Data:
serviço
que
provê
um
iden<ficador
persistente
global
para
bases
de
dados,
coleções,
ar<gos
e
outros
recursos
de
pesquisa.
A
referencia
é
man<da
mesmo
se
a
localização
nsica
do
recurso
for
alterada.
Publicação
e
descoberta
de
dados:
n Research
Data
Australia:
portal
para
coleções
de
dados
fornecidas
por
pesquisadores
australianos.hTp://researchdata.ands.org.au
n Controlled
Vocabulary
Service:
serviço
de
catálogo
para
publicação
e
descoberta
dos
vocabulários
controlados
u<lizados
pelas
organizações
de
pesquisa.
Outros:
hTp://ands.org.au/services/index.html
20
Australian
Na>onal
Data
Service
21. +A
liTle
more
about
ANDS…
Outras
a8vidades
Capacitação
e
assessoria:
n Guias
e
assessoria
em
gerenciamento,
produção
e
reuso
de
dados
hTp://www.ands.org.au/guides/index.html
Comunidades
de
prá8ca:
n Construção
de
comunidades
de
prá<ca
para
fornecer
suporte
e
compar<lhar
ou
alinhar
planos
de
desenvolvimento.
Algumas
das
comunidades
existentes
são:
n citação
de
dados
n desenvolvedores
n gerentes
de
dados
de
pesquisa
das
ins<tuicoes
parceiras
n dados
de
setor
público,
n proveniência
de
dados
de
pesquisa
21
Australian
Na>onal
Data
Service
22. +Data
Archiving
and
Networked
Services
n Em operação desde 2005;
n É vinculado a 2 instituições:
n É um departamento da Royal Netherlands Academy of Arts and
Sciences (KNAW) - um órgão consultivo do governo holandês
n Netherlands Organisation for Scientific Research (KWO) - agência
de fomento
n Governança:
n Comitê diretor: responsável por supervisionar a gestão e políticas
aplicadas pelo diretor, bem como os resultados alcançados pela
organização. O comitê é composto por membros da KNAW e da
NOW.
n Comitê Científico Consultivo: oferece aconselhamento ao comitê
diretor e no gerenciamento do plano de trabalho do DANS. Ele é
composto por membros das universidades e institutos.
23. +Data
Archiving
and
Networked
Services
Obje8vo:
Promover
e
fornecer
acesso
permanente
a
informações
digitais
sobre
pesquisas
cienoficas.
Oferecer
serviços
para
acesso
a
dados
de
pesquisas
cienoficas
na
Holanda.
O
DANS
encoraja
os
pesquisadores
cienoficos
a
compar<lhar
e
reusar
dados
através
de
seus
serviços,
além
de
oferecer
treinamento
e
assessoria.
24. +A
liTle
more
about
ANDS…
Serviços
Publicação
e
descoberta
de
dados:
n EASY:
repositório
de
dados
para
as
mais
diversas
áreas.
hTps://easy.dans.knaw.nl
n DataverseNL:
oferece
um
nó
da
rede
Dataverse
para
armazenamento
de
dados
cienoficos
para
facilitando
o
compar<lhamento
e
reuso
de
coleções
de
dados,
código
fonte,
documentação,
ar<gos,
metadados
e
outros.
hTps://dataverse.nl
n NARCIS
(Na<onal
Academic
Research
and
Collabora<ons
Informa<on
System):
sistema
de
informação
para
registro
e
busca
de
pesquisadores,
publicações,
projetos
de
pesquisa
e
noocias
sobre
pesquisas
das
Universidades.
hTp://www.narcis.nl
24
Data
Archiving
and
Networked
Services
25. +A
liTle
more
about
ANDS…
Outras
a8vidades
Pesquisa
e
desenvolvimento:
n Par<cipa
e
realiza
projetos
em
temas
relacionados
ao
gerenciamento
e
armazenamento
de
dados
n LABS:
hTp://labs.dans.knaw.nl
n Plano
2012-‐2015:
hTp://dans.knaw.nl/en/about/research-‐and-‐innova<on/DANSeresearchprogrammeUK.pdf
Capacitação
e
assessoria:
n Treinamento
em
Gerenciamento
de
Dados
de
Pesquisa:
em
conjunto
com
o
Research
Data
Netherlands
hTp://datasupport.researchdata.nl/en/
n Consultoria:
assistência
às
ins<tuições
que
desejam
construir
suas
polí<cas
de
gerenciamento
de
dados
e
para
obtenção
de
cer<ficação
DSA
(Data
Seal
Approval),
que
garante
que
os
repositórios
são
sustentáveis
e
confiáveis:
hTp://datasealofapproval.org/media/filer_public/
2014/10/03/20141003_dsa_overview_defweb.pdf
25
Data
Archiving
and
Networked
Services
27. +
Research Data Alliance (RDA)
https://rd-alliance.org
n Objetivo: construir conexões técnicas e sociais para
viabilizar o compartilhamento aberto de dados entre
diferentes tecnologias, disciplinas e países, de forma a
endereçar grandes desafios da sociedade em escala global.
n Criada em 2013 por um grupo de agências interessadas no
tema:
n Comissão Europeia,
n National Science Foundation
n National Institute of Standards and Technology (NIST)
n Australian Government’s Department of Innovation
28. +
Research Data Alliance (RDA)
n Sem fins lucrativos
n Composição:
+ de 1600 indivíduos de + de 70 países
A participação é aberta
Get involved: https://rd-alliance.org/about/get-involved.html
29. +
Research Data Alliance (RDA)
n Governança:
n Através de um Conselho:
n Formado por representantes de algumas instituiçòes de
diferentes países interessados;
n Atuação estratégica: aconselhando nos caminhos da RDA;
n Podem influenciar os governos locais e as agências de fomento
a incluirem ações em seus planos que promovam os temas
discutidos no RDA;
n A RNP faz parte do conselho, por indicação do MCTI;
30. +
Research Data Alliance (RDA)
Promove a criação de grupos com
especialistas de todo o mundo, reunindo
representantes da academia, indústria e
governo, de dois tipos:
n Grupos de Trabalho:
n Testa tecnologias, metodologias e elabora recomendações
n de curto prazo (de 12 - 18 meses)
n Grupos de Interesse
n Discutir e estruturar temas de interesse comum
n de mais longo prazo
31. +
Pesquisadores Brasileiros:
52% compartilham
48% não compartilham
Motivação:
Garantia de crédito e
atribuição;
Mais informações sobre o levantamento feito pela Wiley:
http://exchanges.wiley.com/blog/2014/11/03/how-and-why-researchers-share-data-and-why-they-dont/
Compartilhamento de dados no Brasil