Let's do data research work: the creation of a portal with research informati...
Repositorios de datos
1. Repositorios de datos
Ingrid Bárcena, Área de Cálculo y Archivo
Ricard de la Vega, Área de Portales y Repositorios
Centro de Supercomputación de Catalunya (CESCA)
4ª reunión plenaria e-Ciencia
2 de diciembre de 2010
2. Agenda
1. Introducción
2. Los repositorios de datos
3. Hoja de ruta en repositorios
4. Conclusiones
3. Centre de Supercomputació de Catalunya
Consorcio público
Creado en 1991
Formado por:
• Generalitat de Catalunya
• Fundació Catalana per a la
Recerca i la Innovació
• 9 universidades catalanas
• Consejo Superior de
Investigaciones Científicas
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
5. El CESCA, facilitador de la actividad I+D+I
TEST DE LA HIPÓTESIS
HIPÓ
EXPERIMENTAL
SI
O TE
DO
OS
CU
I C PÓ
AD
M
ÒR HI
LT EN
TA
TE LA
SU
CI
RE
ÓN
DE
E
ST
ID
TE
IS
ÁL
AN
DIFUSIÓN DE LA
DIFUSIÓ
PRODUCCIÓN CIENTÍFICA
PRODUCCIÓ CIENTÍ
Tesis, páginas web, revistas
SUPERCOMPUTACIÓN
SUPERCOMPUTACIÓ documentos de investigación,N
REPOSITORIOS e-INFORMACIÓ …
e- INFORMACIÓ
Y ALMACENAMIENTO
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
6. Taxonomia de los repositorios
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
7. Repositorios de datos?
Existe la necesidad ? Hay una tendencia? Existen iniciativas?
Aprox. 500 EB en 2020
Necesidades: Mandato del NWO
holandés para firmar un
Gestión
contrato con DANS (Data
Preservación Archiving and Networked
Services) para gestionarlos
Difusión
según el DSA (Data Seal of
Reutilitzación Approval), unas guías para
la calidad de los datos.
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
8. El CESCA, facilitador de la actividad I+D+I
TEST DE LA HIPÓTESI
HIPÓ
EXPERIMENTAL
SI
O TE
DO
OS
CU
I C PÓ
AD
M
ÒR HI
LT EN
TA
TE LA
SU
CI
RE
ÓN
DE
E
ST
ID
TE
IS
ÁL
AN
Storage
Repository
DIFUSIÓN DE LA
DIFUSIÓ
PRODUCCIÓN CIENTÍFICA
PRODUCCIÓ CIENTÍ
Repositorios de datos
Gestión de los datos Data citation
SUPERCOMPUTACIÓN
SUPERCOMPUTACIÓ Preservación Reutilización REPOSITORIOS e-INFORMACIÓN
e- INFORMACIÓ
Y ALMACENAMIENTO
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
9. La Red Española de e-Ciencia
TEST DE LA HIPÓTESIS
HIPÓ
EXPERIMENTAL
SI
O TE
DO
OS
CU
I C PÓ
AD
M
ÒR HI
LT EN
TA
TE LA
SU
CI
RE
ÓN
DE
E
ST
ID
TE
IS
ÁL
AN
Storage
Repository REPOSITORIOS e-INFORMACIÓN
e- INFORMACIÓ
DIFUSIÓN DE LA
DIFUSIÓ
PRODUCCIÓN CIENTÍFICA
PRODUCCIÓ CIENTÍ
Repositorios de datos
Gestión de los datos Data citation Tesis, páginas web, revistas
SUPERCOMPUTACIÓN
SUPERCOMPUTACIÓ Preservación documentos de investigación, …
Reutilización
Y ALMACENAMIENTO
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
10. Hoja de ruta repositorios de datos
2008 2009 2010 2011 2012
Exploración
Análisis de
referentes
JOCS’09
Grupo trabajo
REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
11. Hoja de ruta
2008 2009 2010 2011 2012
Exploración
Análisis de
referentes
JOCS’09
Grupo trabajo
REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
12. Análisis de requisitos
Procedimiento de gestión y ciclo de vida de los datos
Tipo y formatos de los datos
Metadatos e interoperatibilidad
Propiedad intelectual
Sostenibilidad
Modelo de repositorio, específico o generalista
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
13. Ciclo de vida de los datos
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
14. Datos en investigación
Origen Topologia
Experimentos científicos Según NSF :
Mediciones Observacionales, Experimentales y
Computacionales
Simulaciones
Según RIN:
Derivadas y Canónicas
Ciencias de la Tierra Ciencias sociales Medicina
Mediciones de lluvias Encuesta de opinión Neuroimagenes del cerebro
Observaciones astronómicas Estudios demográficos Estudios genéticos
Bases de modelos genéticos Mapas de censo Historiales médicos
Estructuras cristalograficas Mamografias
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
15. Análisis de referentes
En España
Internacionales
• PIC
• Meteosix
• Data Archive UK
• CETA-CIEMAT
• DataShare
• NCAD
• Ebank Uk
• ICC
• RepoMMan
• GRyCAP
• eCrystals
• ...
• Observatorio Virtual
• ...
Ibergrid
• Iniciativas
16. Arquitectura: repositorios generalistas
Specific Aproximación Top-Down
metadata
harvester
Repositorios de propósito general
Storage CESCA tiene experiencia
Repository La mayoria de informes y
directivas van en esta linea
Facilita la interoperabilidad y
Storage
compatibilidad de los datos
Repository
General Data Repository
Guidelines and best practices of Costosos de implementar
• Data management and curation
• Intellectual property
• Long term preservation
General OAI-PMH metadata harvester
Subject specific metadata harvesters
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
17. Arquitectura: repositorios temáticos
Specific Aproximación Bottom-Up
metadata
harvester
Storage Repositorios temáticos
Repository
Storage La mayoría de experiencias van
en esta línia
Repository
Són más sencillos de implementar
Suelen serStorage
repositorios aislados
Repository
Subject Specific Data Repository
Data management and curation
Data dissemination
Long term preservation
Metadata provider
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
18. Nuestra visión de los repositorios de datos
Specific Federated Data Repositories Network
metadata
harvester For specific metadata schema by subject:
Environmental Science
Astrophysics
Storage Social Science
…
Repository
Storage
Repository
General Data Repository
Guidelines and best practices of
• Data management and curation Subject Specific Data Repository
• Intellectual property Data management and curation
• Long term preservation Data dissemination
General OAI-PMH metadata harvester Long term preservation
Subject specific metadata harvesters Metadata provider
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
19. Repositorios distribuidos
Red de repositorios temáticos QC
Recolector metadatos generals
Procedimientos y normatives
• Data management
• Metadatos (reded)
• Preservación
Red de repositorios temáticos x
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
20. Hoja de ruta
2008 2009 2010 2011 2012
Exploración
Análisis de
referentes
JOCS’09
Grupo trabajo
REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
21. JOCS’2009
Repositorios de datos en Oxford: servicios institucionales
federados Luis Martínez Uribe, University of Oxford
Proyecto Meteosix: repositorio de información
meteorológica y oceanográfica para Galicia Carlos
Fernández, CESGA
Repositorios digitales sobre infraestructura Grid Raúl
Ramos, CETA-CIEMAT
EL PIC, un centro de superalmacenamiento y gestión de
datos científicos Gonzalo Merino, PIC
NCAD: Non-Coded Amino Acids Database Carlos Alemán,
UPC
Grans bases de dades i mineria de dades en astronomia:
l'observatori virtual Xavier Luri, UB
Mapas en la Web: podemos competir con Google? Josep
Lluís Colomer, Institut Cartogràfic de Catalunya
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
22. Grupo de trabajo REeC
Objetivo: elaborar un documento en el que se proponga la creación de
una àrea de repositorios de datos dentro del la Red de e-Ciencia
Participantes:
• BSC, David Vicente
• CESCA, Miquel Huguet (Coordinador del documento)
• CESGA, Carlos Fernández
• CETA-CIEMAT, Guillermo Díaz
• MICINN, Víctor Castelo
• PIC, Yolanda Vives
• RedIRIS, Diego Lopez
• UNED, Jordi Serrano
• UPV, Vicente Hernández
Hitos e instrumentos recogidos en el documento
• Explorar la comunidad de la Red e Ibergrid
• Fomentar la colaboración entre los grupos
• Estudiar y desarrollar documentación y guias generales
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
23. Hoja de ruta
2008 2009 2010 2011 2012
Exploración
Análisis de
referentes
JOCS’09
Grupo trabajo
REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
24. Plan de trabajo 2011
T1 T2 T3 T4
Estudio de usuarios
Elaboración y distribución de la encuesta
Entrevistas individuales
Análisis de los resultados
Desarrollo del piloto
Informe de experiencias
Propuesta de viabilidad y diseño del repositorio
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
25. Conclusiones
Oportunidades Retos
• Reutilización • Data deluge
• Data citation • Interoperabilidad
• Preservación • Relevancia y selección
• Colaboración • Preservación
• Sostenibilidad
Servicios
• Gestión de los datos • Data clearing • Sharing plans
• Legales y éticos • Metadatos • Recomendación de
• Buenas prácticas • Visualización formatos
• Data curation • Búsquedas • etc.
26. ¡Gracias por su atención!
¿Preguntas?
ibarcena@cesca.cat
rdelavega@cesca.cat
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre