Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Praktyczne aspekty udostępniania danych badawczych
1. Praktyczne aspekty
udostępniania danych
badawczych
Natalia Gruenpeter
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego
Uniwersytetu Warszawskiego, Krajowe Biuro Otwartego Dostępu OpenAIRE
CC-BY
Treść licencji dostępna na stronie:
https://creativecommons.org/licenses/by/4.0/legalcode.pl
2. Plan wystąpienia
• Udostępnianie danych badawczych – korzyści i polityki otwartości
• Plan zarządzania danymi badawczymi (DMP)
• Zasady FAIR w zarządzaniu danymi badawczymi
• Infrastruktura służąca do przechowywania i udostępniania danych badawczych
• Open Research Data Pilot w PR UE Horyzont 2020
4. Deklaracja
sorbońska
27.01.2020
w sprawie danych badawczych;
podpisana przez przedstawicieli 9 sieci
uniwersytetów badawczych z całego świata
https://www.leru.org/files/Sorbonne-declaration.pdf
6. Polityki otwartości
➔ mogą dotyczyć publikacji i/lub danych badawczych
➔ wymogi grantodawcy, np. Komisja Europejska, program Horyzont 2020
➔ polityka przyjęta przez wydawcę czasopisma
➔ wymogi pracodawcy, uczelni lub instytutów naukowo-badawczych
➔ wymogi prawne: dane badawcze jako dane sektora publicznego
w politykach otwartości zakres danych
wymaganych do udostępnienia może
być ograniczony do danych niezbędnych
do weryfikacji wyników badań
zaprezentowanych w publikacjach
7. dane w formie nadającej
się do odczytu
maszynowego
6.06.2019 - dyrektywa
zatwierdzona przez
Radę Unii Europejskiej
8. Dyrektywa w sprawie otwartych danych…
https://eur-lex.europa.eu/legal-content/PL/TXT/PDF/?uri=CELEX:32019L1024&from=EN
9. Dane badawcze w
dyrektywie dot.
udostępniania
danych sektora
publicznego
„Dane badawcze” zdefiniowano jako
„dokumenty w formie cyfrowej, inne niż
publikacje naukowe, które są
gromadzone lub opracowywane w
ramach działalności
badawczo-naukowej i są
wykorzystywane jako dowody w
procesie badawczym bądź też są
powszechnie akceptowane w
środowisku naukowym jako konieczne
do weryfikacji poprawności ustaleń i
wyników badań”.
https://eur-lex.europa.eu/legal-content/PL/TXT/PDF/
?uri=CELEX:32019L1024&from=EN
13. Korzyści płynące z udostępniania danych
❖ dla społeczeństwa: rozwój społeczny i ekonomiczny, np. innowacje, rozwiązywanie
globalnych problemów, ponowne wykorzystanie w innych kontekstach niż naukowy,
❖ dla nauki: przejrzystość, wiarygodność i integralność nauki, powtarzalność wyników
badań, możliwość weryfikacji wyników badań i przeprowadzenia nowych analiz z
wykorzystaniem udostępnionych danych,
❖ dla badaczy: promocja dorobku naukowego, możliwość powiązania danych z
publikacją → większa widoczność i wpływ badań
14. „W sytuacji braku jasnego i wiarygodnego sygnału,
że naukowcy udostępniający zgromadzone przez
siebie dane otrzymają za to uznanie, zrozumienie
oraz nagrodę, trudno będzie podjąć ten wysiłek w
sposób spontaniczny.”
Bernard Rentier, Open Science, the Challenge of Transparency (2019)
15. Zarządzanie
danymi
badawczymi
❖ właściwa organizacja danych:
→ ułatwia korzystanie z danych w
przyszłości lub udostępnienie ich (np.
na prośbę),
→ minimalizuje ryzyko w
nieprzewidzianych sytuacjach (utrata
lub zniszczenie danych/sprzętu)
❖ otwarte udostępnianie danych:
→ oszczędza czas, który trzeba
poświęcić na obsługę wniosków o
udostępnienie danych
korzyści dla naukowców
17. Udostępnianie danych badawczych:
co należy wziąć pod uwagę?
❖ Do czego jesteśmy zobowiązani?
❖ Jaka jest wartość naukowa lub historyczna danych?
❖ Jak unikalne są nasze dane? Czy istnieje możliwość ich ponownego zebrania/wytworzenia?
❖ Czy dane mogą wykorzystać inni?
❖ Jakie koszty wiążą się z zarządzaniem i przechowywaniem danych?
❖ … ?
19. Data Management
Plan (DMP)
❖ różne wymogi → różne wzory;
❖ mogą być dostosowane do
wymogów instytucji, grantodawcy
❖ żywy dokument, który może
wspierać realizację projektu na
każdym etapie: planowania,
prowadzenia badań,
upowszechniania wyników badań
Formalny dokument, który
zawiera zarys tego, co będziemy
robić z danymi w trakcie
projektu badawczego i po jego
zakończeniu.
20. DMP w wytycznych
Narodowego
Centrum Nauki
❖ opis danych oraz pozyskiwanie lub
ponowne wykorzystanie
dostępnych danych
❖ dokumentacja i jakość danych
❖ przechowywanie i tworzenie kopii
zapasowych podczas badań
❖ wymogi prawne, kodeksy
postępowania
❖ udostępnianie i długotrwałe
przechowywanie danych
❖ zadania związane z zarządzaniem
danymi oraz zasoby
21. DMP w programie
Horyzont 2020
❖ sposób zajmowania się danymi
badawczymi podczas realizacji i po
zakończeniu projektu
❖ jakie dane będą zbierane,
wytwarzane, przetwarzane?
❖ jakie metodologie i standardy będą
używane?
❖ czy dane będą udostępniane w
sposób otwarty?
❖ jak dane będą przechowywane?
❖ uwzględnienie zasad FAIR
23. Dane w całym
cyklu projektu
badawczego
Zarządzanie danymi badawczymi to
sposób, w jaki organizujemy pracę z
danymi badawczymi w toku całego
projektu i po jego zakończeniu.
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
24. Planowanie → DMP
❖ przemyślenie kwestii prawnych
na jak najwcześniejszym etapie
❖ przyjęcie jednolitego i spójnego
sposobu organizacji i
nazewnictwa plików
❖ wybór odpowiednich formatów
zapisu danych
❖ tworzenie dokumentacji
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
25. Pozyskiwanie
❖ Jakie dane i w jaki sposób
będziemy pozyskiwać?
❖ Jakie standardy, metody i/lub
oprogramowanie posłużą do
pozyskiwania danych?
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
26. Opis danych
➔ Rodzaj danych
dane liczbowe, tekstowe, wizualne,
audio, wideo, geolokalizacyjne...
➔ Źródło danych
sposób pozyskania/wytworzenia
danych: eksperyment, obserwacja,
symulacja…, wykorzystanie
istniejących danych
➔ Forma i format danych
➔ Rozmiar i złożoność danych
27. Dokumentacja i
analiza danych
❖ Co jest niezbędne do właściwego
zrozumienia danych?
❖ Dokumentacja ułatwia
odpowiednie zacytowanie i
ponowne wykorzystanie danych
❖ Osobne pliki z dokumentacją:
readme.txt
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
28. Dokumentacja:
projekt
❖ W jakim celu/kontekście dane zostały
wytworzone? Kto i kiedy to zrobił?
❖ Jak dane zostały
wytworzone/pozyskane? Co zawierają
zestawy danych?
❖ Jak dane były
przetwarzane/opracowywane?
❖ Jakie zastosowano metody
sprawdzania jakości danych?
❖ Jakie dane nie zostały udostępnione i
dlaczego?
❖ Inne istotne elementy
29. Dokumentacja:
zestawy danych
❖ Opis przyjętego nazewnictwa,
skrótów, zmiennych, schematów
klasyfikacyjnych itp.
❖ Informacje o urządzeniach
pomiarowych, aparaturze, kalibracji,
ustawieniach, parametrach itp.
❖ Testy jakości
❖ Informacje o brakujących danych i
dodatkowe informacje
❖ Inne istotne elementy
30. Przechowywanie
❖ Jak bezpiecznie przechowywać
dane w czasie realizacji projektu?
❖ Jak zapewnić dostęp do danych
dla zespołu, osób uprawnionych?
❖ Tworzenie kopii zapasowych i
procedur kontroli danych.
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
31. Udostępnianie
❖ Jakie dane jesteśmy zobowiązani
udostępnić?
❖ Jakie dane chcemy i mamy
możliwość udostępnić niezależnie
od zobowiązań?
❖ Na jakich zasadach udostępniamy
dane badawcze?
❖ Gdzie udostępnimy dane
badawcze?
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
32. Archiwizacja
❖ Określenie zasad długotrwałego
przechowywania danych,
❖ Wybór danych do długotrwałej
archiwizacji,
❖ Okres przechowywania danych
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
33. Archiwizacja
❖ Określenie zasad długotrwałego
przechowywania danych
❖ Wybór danych do długotrwałej
archiwizacji
❖ Okres przechowywania danych
wytwarzanie/
pozyskanie
danych
dokumentacja
danych
analiza,
wykorzystanie
danych
przechowywanie
danych
udostępnianie
danych
archiwizacja
danych
https://www.ncn.gov.pl/sites/default/files/pliki/regulaminy/wytyczne_zarzadzanie_danymi.pdf
36. FAIR w politykach otwartości
❖ Polityka Komisji Europejskiej, Horyzont
2020 (zasady FAIR uwzględnione w
DMP),
❖ Dyrektywa o otwartych danych i
ponownym wykorzystywaniu informacji
sektora publicznego,
❖ wytyczne Narodowego Centrum Nauki
do sporządzania DMP
https://ec.europa.eu/info/sites/info/files/turning_fair_into_reality_1.pdf
37. https://ec.europa.eu/info/sites/info/files/turning_fair_into_reality_1.pdf
2.2 Definition of FAIR The FAIR guiding principles: https://doi.org/10.1038/sdata.2016.18
To be Findable:
F1. (meta)data are assigned a globally unique and persistent identifier
F2. data are described with rich metadata (defined by R1 below)
F3. metadata clearly and explicitly include the identifier of the data it describes
F4. (meta)data are registered or indexed in a searchable resource
To be Accessible:
A1. (meta)data are retrievable by their identifier using a standardized communications protocol
A1.1. the protocol is free, open and universally implementable
A1.2. the protocol allows for an authentication and authorization procedure, where necessary
A2. metadata are accessible, even when the data are no longer available
To be Interoperable:
I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation
I2. (meta)data uses vocabularies that follow FAIR principles
I3. (meta)data include qualified references to other (meta)data
To be reusable:
R1. (meta)data are richly described with a plurality of accurate and relevant attributes
R1.1. (meta)data are released with a clear and accessible data usage license
R1.2. (meta)data are associated with data provenance
R1.3. (meta)data meet domain relevant community standards
38. https://ec.europa.eu/info/sites/info/files/turning_fair_into_reality_1.pdf
2.2 Definition of FAIR The FAIR guiding principles: https://doi.org/10.1038/sdata.2016.18
To be Findable:
F1. (meta)data are assigned a globally unique and persistent identifier
F2. data are described with rich metadata (defined by R1 below)
F3. metadata clearly and explicitly include the identifier of the data it describes
F4. (meta)data are registered or indexed in a searchable resource
To be Accessible:
A1. (meta)data are retrievable by their identifier using a standardized communications protocol
A1.1. the protocol is free, open and universally implementable
A1.2. the protocol allows for an authentication and authorization procedure, where necessary
A2. metadata are accessible, even when the data are no longer available
To be Interoperable:
I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation
I2. (meta)data uses vocabularies that follow FAIR principles
I3. (meta)data include qualified references to other (meta)data
To be reusable:
R1. (meta)data are richly described with a plurality of accurate and relevant attributes
R1.1. (meta)data are released with a clear and accessible data usage license
R1.2. (meta)data are associated with data provenance
R1.3. (meta)data meet domain relevant community standards
https://www.go-fair.org/fair-principles/
40. Findable
Czy dane opatrzone zostaną
metadanymi? Czy będą opisane
zgodnie z przyjętymi standardami?
Czy dane będą posiadać trwałe
identyfikatory (DOI)?
Czy (meta)dane będą zamieszczone
lub indeksowane w serwisie, którego
zasoby można przeszukiwać?
http://www.dcc.ac.uk/resources/metadata-standards
41. Accesible
Które dane zostaną udostępnione
w sposób otwarty? Jeśli część danych
nie może zostać udostępniona -
dlaczego? Czy w takiej sytuacji
udostępnione zostaną metadane?
W jaki sposób i gdzie dane zostaną
udostępnione? Czy warunki dostępu
będą jasno określone?
42. FAIR jako
kontinuum
FAIR a otwartość
Turning FAIR into reality. Final Report and Action Plan from the European
Commission Expert Group on FAIR Data. European Union, 2018.
https://ec.europa.eu/info/sites/info/files/turning_fair_into_reality_1.pdf
43. Formaty plików
W jakich formatach zostaną zapisane dane?
Czy wymagają specjalnego, płatnego
oprogramowania? Czy będzie można
skorzystać z nich w przyszłości?
❖ rekomendowane: formaty otwarte,
bezstratne,
❖ akceptowane: formaty powszechnie
używane https://www.ukdataservice.ac.uk/manage-data/forma
t/recommended-formats.aspx
44. Interoperable
Czy możliwe będzie połączenie
danych z innymi zbiorami
pochodzącymi z innych źródeł?
https://public.flourish.studio/visualisation/213291/?utm_source=embed&utm_campaign=visualisation/213291
45. Rola dokumentacji
Czy do danych dołączona zostanie
dokumentacja? Czy wskazane
zostanie źródło (pochodzenie)
danych: kto i w jaki sposób je
wytworzył? Jak były przetwarzane?
Czy zawierają dane z innych źródeł?
46. Reusable
Czy dane zostaną opatrzone licencją,
która pozwoli na ich ponowne
wykorzystanie w stopniu tak
szerokim jak to możliwe?
Czy sposób pozyskiwania danych i
kontekst, w jakim zostały
wytworzone zostały dostatecznie
dobrze opisane?
Licencje Creative Commons - trzy warstwy:
● tekst prawny,
● przystępne podsumowanie,
● dane (kod) do odczytu maszynowego.
47. Unusable data „otwarty zbiór danych”
„dane publicznie dostępne”
„dane ogólnodostępne”
„brak ograniczeń”
„freely available”
„dane dostępne na licencji Creative
Commons”
49. Grafika pełnoekranowa
https://researchdata.springernature.com/channels/2428-updates-in-data/posts/59542-4-barriers-to-an-open-data-world
➔ Most labs have developed their
own individual, non-standardised
data collection and storage
practices. This culminates in
poorly-named files (saved in a
hurry on shared drives) or a
whirlwind of different file types.
➔ Without clear information on
experimental conditions, data
collection methods and so on,
reproducibility is reduced.
➔ Knapen identified a gap in the
open science pipeline - the
methodology of data analysis or
experimentation are not well
documented.
Barrier 1: Non-standard practices
Barrier 2: Incomplete metadata
Barrier 3: Data security
Barrier 4: The methodology blackbox
Researchers need more training for open
science, regardless of career stage.
51. Repozytoria danych badawczych
❖ bezpieczne długoterminowe przechowywanie danych,
❖ stały adres internetowy, możliwość uzyskania trwałego identyfikatora, np. DOI,
❖ łatwość wyszukiwania danych,
❖ łatwość cytowania danych,
❖ podstawowe statystyki, informacje o tym, jak często dane były pobierane i oglądane.
52. Grafika pełnoekranowa
Beneficjent projektu: Uniwersytet Warszawski,
jednostki realizujące: ICM UW, ISS UW
Partnerzy projektu: Instytut Filozofii i Socjologii PAN,
Uniwersytet Adama Mickiewicza w Poznaniu
Okres realizacji: 1 sierpnia 2018 r. - 31 lipca 2021 r.
Kwota dofinansowania: 4 998 889 PLN
(w tym UE 4 230 559,76 PLN,
budżet państwa 768 329,24 PLN).
53. RepOD
● Repozytorium otwarte dla wszystkich
zainteresowanych użytkowników.
● Zastąpi działającą pilotażową wersję repozytorium.
54. RDS: Repozytorium
Danych Społecznych
● Repozytorium otwarte dla wszystkich
zainteresowanych użytkowników.
● 400 zbiorów danych (jakościowych i ilościowych)
udostępnionych w ramach projektu.
55. MX-RDR: Repozytorium
Danych Krystalograficznych
● Repozytorium otwarte dla wszystkich
zainteresowanych użytkowników.
● 200 zbiorów surowych danych krystalograficznych
udostępnionych w ramach projektu.
57. Jak wybrać repozytorium?
4. Katalog
repozytoriów danych
ponad 2 400
repozytoriów
możliwość przeszukiwania
katalogu wg różnych
kryteriów
58. Data journals ❖ czasopisma publikujące opisy
zestawów danych badawczych,
❖ artykuły są recenzowane, czasopisma
działają na wzór tradycyjnych
czasopism publikujących artykuły,
❖ zestawy danych zwykle deponowane
są w repozytoriach, czasami
publikowane jako załączniki do
artykułu
60. Polityka Komisji
Europejskiej
„Komisja Europejska jest przekonana, że
nie powinno się płacić za dostęp lub
wykorzystanie informacji, których
uzyskanie zostało już sfinansowane z
publicznych pieniędzy. Europejskie
przedsiębiorstwa i obywatele powinni
móc w pełni z nich korzystać.”
https://ec.europa.eu/research/participants/data/ref/h
2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-g
uide_en.pdf
61. Horyzont 2020:
polityka otwartości
Otwarte udostępnianie publikacji:
❖ wszystkie recenzowane publikacje
naukowe,
❖ wersje: opublikowana lub
zaakceptowana do druku po
ostatecznej recenzji i poprawkach,
❖ w repozytorium,
❖ natychmiast (publikacja open
access) lub najpóźniej 6 miesięcy po
publikacji /12 miesięcy dla nauk
społecznych i humanistycznych/
PUBLIKACJE
62. Horyzont 2020:
polityka otwartości
Dwa elementy:
❖ sporządzanie planu zarządzania
danymi badawczymi,
❖ udostępnianie danych, w takim
zakresie w jakim jest to możliwe
DANE BADAWCZE
63. Dane
badawcze
Udostępnianie co
najmniej w zakresie
wymaganym do
weryfikacji wyników
badań zaprezentowanych
w publikacjach
naukowych.
https://www.openaire.eu/how-to-comply-to-h2020-mandates-for-data
64. Dane badawcze
➔ open by default
➔ as open as possible,
as closed as
necessary
➔ zasady FAIR
Ilustracja: OpenAIRE CC BY,
https://www.exeter.ac.uk/research/openresearc
h/opendata