Activitat de formació, impartida pel CSUC, per sensibilitzar de la importància de fer una bona gestió de les dades de recerca i, sobretot, de la necessitat de publicar les dades seguint els principis FAIR (trobables, accessibles, interoperables i reutilitzables).
Publicar dades de recerca amb el Repositori de Dades de Recerca
1. Formació RDM:
Publicar dades de recerca amb el
Repositori de Dades de Recerca
Àrea d’Aprenentatge, Recerca i Ciència Oberta
2. Sumari
1. Ciència oberta i gestió de dades de recerca
2. Els requeriments de les agències de finançament
3. Les dades de recerca i la seva publicació
4. RDR, el repositori per publicar dades FAIR
3. Sumari
1. Ciència oberta i gestió de dades de recerca
2. Els requeriments de les agències de finançament
3. Les dades de recerca i la seva publicació
4. RDR, el repositori per publicar dades FAIR
4. 1.1 Què és la ciència oberta?
Nou enfocament del procés de recerca basat en un entorn obert, és a dir, en un
ecosistema de comunicació que faciliti que els resultats de la recerca siguin
transparents, accessibles, interoperables i reutilitzables, i que la ciència sigui feta
amb i per a la societat.
https://cora.csuc.cat/
5. 1.2 Ciència Oberta al CSUC
Impuls
ciència
oberta Accés
obert
Gestió de dades de recerca
Repositoris
Portal de la Recerca de
Catalunya
https://cora.csuc.cat/
6. 1.3 Què tenen en comú? Recull del percentatge d’abstenció en diferents països europeus
Fotografies d’una excavació
Làmines d’una intervenció arqueològica
Guions d’entrevistes
Mostres de pacients amb càncer de colon
7. 1.4 Per tant… què entenem per?
(CT CORA.RDR)
DATASET: “conjunt de fitxers, metadades descriptives,
documentació associada, juntament amb els drets i la llicència
d’ús, que valida una activitat de recerca”(CT CORA.RDR)
DADES DE RECERCA EN OBERT: “són en línia, sense cost
d’ús, accessibles i que es poden reutilitzar i distribuir sempre
que se’n citi la font de les dades”(FOSTER)
DADA o DADA DE RECERCA: “qualsevol informació que ha
estat recollida, observada, generada o creada per validar un
procés de recerca” (FOSTER)
DADES FAIR: “són dades que han estat tractades per a que
siguin trobables, accesibles, interoperables i reutilitzables”
Terms
Medium
8. Gestió de dades de recerca
És el conjunt de pràctiques relacionades
amb la creació, organització,
estructuració, emmagatzematge,
preservació i compartició de dades
Research Data Management (RDM)
1.5 Per què cal gestionar les dades?
9. 1.7 Tipus de dades
Existeixen diferents tipus de dades:
• Observacionals: dades capturades en temps real
• Experimentals: dades capturades en equips de laboratori
• Simulació: dades generades a partir de models de prova
• Derivades o compilades: dades reproduïbles, però de difícil reproducció
• De referència: conglomerat o conjunt de dades
I aquestes, solen passar per diferents estadis:
• Dades en brut o (raw data): dades tal i com es
recopilen originalment, sense processament
ni análisis.
• Dades curades: dades processades i analitzades
• Dades publicades: que son públiques en un entorn
• Metadades: aquelles dades que acompanyen
les dades i que descriuen el recurs
10. Sumari
1. Ciència oberta i gestió de dades de recerca
2. Els requeriments de les agències de finançament
3. Les dades de recerca i la seva publicació
4. RDR, el repositori per publicar dades FAIR
11. 2.1 Una voluntat europea d’implementació nacional i institucional
12. 2.2 Els requeriments de les agències de finançament
Generalment, les agències de
finançament demanen:
• Fer un pla de gestió de dades (Data
Management Plan, DMP) i actualitzar-lo
periòdicament
• Dipositar les dades seguint els principis
FAIR en un repositori de confiança
OpenAIRE
13. Sumari
1. Ciència oberta i gestió de dades de recerca
2. Els requeriments de les agències de finançament
3. Les dades de recerca i la seva publicació
4. RDR, el repositori per publicar dades FAIR
14. 3.1 Procés de recerca
Planificació
1
Acceptació
2
Anàlisi i
gestió
3
Publicació
(preservació)
4
Descoberta
5
15. 3.2.1 Criteris per seleccionar un repositori
Què passa en cada cas?
Cedim els drets
de les dades i
repliquem el
model de
negoci actual de
les revistes
Finalitza el projecte i
perdem tota la informació
Desconeixem la viabilitat del
projecte i solen no tenir
processos de qualitat
16. 3.2 Criteris per seleccionar un repositori
Què cal tenir en compte quan triem?
• Existeix un repositori específic de la disciplina?
• Coincideixen les necessitats amb els requeriments? (formats, mida, nivell obertura, etc.)
• Assignen un identificador persistent? DOI?
• Està certificat com a repositori de confiança?
17. 3.2.2 Criteris per seleccionar un repositori
Re3Data, el catàleg per
excel·lència
• Més de 3.000 repositoris
• Cerca per nom o disciplina
• Possibilitat d’afegir filtres
(certificació, llicència, PID...)
18. Sumari
1. Ciència oberta i gestió de dades de recerca
2. Els requeriments de les agències de finançament
3. Les dades de recerca i la seva publicació
4. RDR, el repositori per publicar dades FAIR
19. Repositori federat per datasets
• Universitats
• Centres de recerca CERCA
Multidisciplinari
Per a PDI i doctorands
En obert (tan obert com sigui
possible però tan tancat com sigui
necessari)
Compleix amb els requisits de les
agències de finançament i els
principis FAIR
100 GB per dataset per defecte
4.1 Què és CORA.RDR?
https://dataverse.csuc.cat/
22. 4.4 Registre a l’RDR
Existeixen dues maneres de registrar-se A) Si la teva institució disposa
d'UNIFICAT:
23. 4.4 Registre a l’RDR
Existeixen dues maneres de registrar-se B) Si la teva institució no disposa
d'UNIFICAT:
24. 4.5 Començar a dipositar
Amb els permisos adequats, podreu començar a depositar datasets
25. 4.6 Primer de tot, cal afegir metadades essencials
Informació predefinida
Cal un títol descriptiu;
si és el mateix que l’article, afegir a
l’inici “Replication Data for”
Afegeix tants autors/es com siguin
necessaris ORCID!
Designa un contacte per tal de rebre
comunicacions d’altres investigadors
Descriu el dataset (contingut,
formats, fitxers, variables, etc.)
No és l’abstract de l’article!
26. 4.7 Afegir més metadades per disciplines
Tria la teva disciplina des d’una llista desplegable
Afegeix tantes paraules claus com
necessitis Si és d’un llenguatge controlat,
millor!
Relaciona el dataset amb les
publicacions associades
Explica tot allò que vulguis a les notes
Indica la llengua del dataset
El productor i el distribuidor ve preestablert
Es pot donar crèdit al dipositant
La data de dipòsit ve predefinida
Cal indicar el tipus de dades
27. 4.8 Afegir fitxers
Afegeix tot els fitxers que necessitis!
Atenció!
Tot dataset ha de contenir un
Readme.txt que descrigui el
contingut de les dades
(etiquetes de variables i de
valor, unitats de mesura,
etc.)
Si el teu dataset té una
estructura de fitxers
determinada, penja’l en ZIP
per a conservar-ne
l’estructura
Desa el dataset
[encara no és públic]
28. 4.9 Dataset en esborrany
A la part superior de la pantalla, apareixeran
diferents missatges informatius
El dataset s’ha creat
El dataset és un esborrany
El fitxer tabular s’està ingestant
Títol del dataset
Estat del
dataset
Citació
(amb DOI!)
del dataset
Metadades
Llicència
Versions
Fitxers
29. 4.10 A partir d’aquí…
Es poden afegir MOLTES MÉS
metadades
Sobretot per disciplina
La llicència per defecte és CC0
Però es pot modificar
30. 4.11 El procés de dipòsit i publicació
El personal investigador...
DIPOSITA ENVIA A REVISIÓ
Dataset en esborrany
Contacteu amb la
vostra institució la
primera vegada que
vulgueu fer un
dipòsit!
32. 4.13 El procés de dipòsit i publicació
El personal investigador...
DIPOSITA ENVIA A REVISIÓ
Si cal fer canvis...
ES RETORNA AL
PERSONAL
INVESTIGADOR
Dataset en esborrany
Dataset en revisió i
sense publicar
Dataset públic o restringit
REVISA EL DATASET
El personal dedicat a la
curació de dades...
Si està complet...
PUBLICA EL DATASET!
33. 4.14 Dataset publicat de manera FAIR
Citació de les dades amb
identificador persistent
(DOI)
F
Condicions d’ús i llicències
Versioning
R
R
Metadades
I
Accés als fitxers
Oberts Embargats Restringits
A
Però, què entenem per dada? Doncs una dada és qualsevol informació que ha estat recollida, observada, generada o creada per validar un procés de recerca. Si el que volem és entendre que són les dades de recerca en obert, també hi haurem d’afegir conceptes com que son en línia, sense cost d’ús, accessibles i que es poden reutilitzar i redistribuir, sempre que se’n citi la font. I què entenem per dataset? Doncs aquell conjunt de fitxers (que poden ser dades, codi, documentació) i les metadades que les descriuen. Per tant, aquest conjunt de fitxers, per la raó que sigui, té sentit que estiguin agrupats. A vegades, la raó pot ser que formen part d’un mateix projecte, pot ser que donen veracitat, validen els resultats d’un article, etc.
I finalment, a mesura que s’anava estenent la publicació de dades es va veure que no totes les dades sempre s’havien de publicar en obert i, per aquest motiu, al al 2014 va sorgir aquest concepte que ha tingut molt d’èxit i que és el FAIR. FAIR no és res més que un acrònim de Findable, Accessible, Interoperable and Reusable i el que fa és que, per cadascun d’aquests conceptes, hi ha un conjunt bàsic de principis per tal d’optimitzar la reutilització de les dades. Per exemple, per a que les dades siguin trobables, és a dir, la F, cal que se’ls hi assignin un identificador únic, com és el DOI, per a que siguin accessibles, han d’estar disponibles , per a que siguin reutilitzables, han de seguir les convencions i les normes de la disciplina i s’han de poder exportar de manera automàtica entre diferents portals i, finalment, per a que siguin reutilitzables, han de tenir definida clarament la llicència i quin ús se’n podrà fer.