1. Implementación de estrategias para el
acceso abierto en una institución de
investigación agrícola: la experiencia de
la Embrapa: aspectos tecnológicos.
2. Acceso Abierto
Experiencia Embrapa: aspectos
tecnológicos
Isaque Vacari
isaque@cnptia.embrapa.br
- RIBDA 2009 -
Reunión Interamericana de Bibliotecarios, Documentalistas y
Especialistas en Información Agrícola
Lima - Peru
Octubre del 2009
3. Programa
• Introducción;
• Parte I: Software Ainfo;
• Parte II: Experiencia de adecuación
del DSpace;
• Parte III: Harvester OAI-PMH;
• Parte IV: Resultados obtenidos.
6. Parte I
Ainfo: sistema para gestión de la
información técnica y científica; integra
bases de datos de registros y
procedimientos bibliográficos.
7. Ainfo
• Historico:
– 1991 a 1997: desde la versión 1.0 se han
implementado 4 versiones - 2.0. 2,1 y
3,0. Entorno DOS y Unix (monousuario).
Base de datos Paradox;
– 1999 a 2003: 4 versiones (1.0, 1.1, 1.2 e
1.3). Windows Desktop Cliente/Servidor
Local. Base de datos Firebird.
– 2006: retomada de la numeración
original y lanzamiento del Ainfo 5.
8. Ainfo
• Historico:
– La creciente evolución del acceso a
Internet, la mejora de la red de
infraestructura de los centros de
investigación de Embrapa (40) y la
demanda por la gestión de la información
llevó el proyecto a una nueva versión de
AINFO, apropiada a la web (acceso en
línea).
9. Ainfo
• Ainfo 6.0: Lanzado en Febrero de
2009.
– Creado con Software Libre:
– Arquitectura J2EE (Java Server Faces,
Hibernate);
– Sistema de Gestión de Banco de Datos:
MySQL;
– Servidor WEB: Tomcat.
– Acceso en línea, entorno WEB con
recursos de la WEB 2.0.
10. BDPA: Literatura adquirida PRODEMB: Literatura
y producida por Embrapa producida por el sector de
investigación
“Upload” de las
publicaciones
digitales Bibliotecario
Repositorio Tecnológico Repositorio Científico
(OAI) (OAI)
Actualización automática
de los metadatos dos
Repositorios: Tecnologico Catalogación
y completa
Científico
Gestión de bibliotecas (acervo bibliográfico, periódicos,
préstamos, inventario etc.).
11. Ainfo: Sistema de bibliotecas creado por Embrapa.
Infoteca (DSpace): Servicio que reúne y permite acceso
en línea al acervo digital de informacioes sobre
tecnologías producidas y editadas por Embrapa (formato
digital). http://www.embrapa.br/infoteca
Repositório Científico (DSpace): Servicio que reúne y
oferece acceso en línea a la colección digital de la
información científica producida por Embrapa. (formato
digital). Desarrollo: software, procesos, flujos, etc.
BDPA – Bases de Dados da Pesquisa Agropecuária: Base
de datos que oferece acceso a la literatura técnico y
científica de las bibliotecas de Embrapa.
http://www.bdpa.cnptia.embrapa.br
PRODEMB – Produção Científica Embrapa: Apresenta la
literatura producida pelo sector de P&D.
http://www.prodemb.cnptia.embrapa.br
12. Infoteca
(información tecnológica)
• Comunidades: 40 (todos los centros
de investigación de Embrapa);
• Colecciones: 41 (futuro 240);
• Itens: 16.624 (PDF: 16.310 DOC: 313
MP3: 1);
• Downloads: 168.524 (Julho de 2009);
• Tamaño de los archivos: 33GB.
13. Repositorio Científico
(información cientifica)
• Comunidades: 40 (todos los centros
de investigación de Embrapa);
• Colecciones: 200;
• Itens: 7.267 (PDF: 6.976 DOC: 291);
• Tamaño de los archivos: 12.5GB;
• Acceso la Embrapa (desarrollo).
15. DSpace
• Experiencia de adaptación:
– Importación (rescate) automatizada de
publicaciones digitales já existentes para
el DSpace;
– Atualización automatizada de los
metadatos do DSpace;
– Adapatación (modificación) de la interfaz
(JSPUI) y del código-fuente del DSpace;
16. DSpace
• Experiencia de adaptación:
– Atualización de los metadatos y flujo de
trabajo de sometimiento de publicaciones
digitales hacia el DSpace.
– Indexación y búsqueda en el texto
completo (FULL-TEXT);
– Estadísticas de la Universidade do Minho
(Portugal).
17. DSpace
Banner
Internacionalización
Menú lateral
Noticias
Área de búsqueda
Publicaniones digitales
recientes
18. Thumbnail
Colores y layout
Tamaño del arquivo
(File Size)
26. Proveedor de Servicios
• Estudio de software libre para
creación del Proveedor de Servicios
OAI-PHM:
– Etapa 1: Identificación y selección de
softwares libres existentes;
– Etapa 2: Instalación y configuraión de las
soluciones elejidas;
– Etapa 3: Testes – mecanismos de colecta
de datos, búsqueda y recursos de
interfaz;
27. Proveedor de Servicios
• Estudio de software libre para
creación del Proveedor de Servicios
OAI-PHM:
– Etapa 4: Elección de la herramienta más
apropiada.
28. Proveedor de Servicios
Soluciones tecnológicas Open Source
(código abierto)
ARC JOAI PKP OBSERVAÇÕES
Última versão 2006 2009 2009 Arc: descontinuado.
Colecta de Datos
Interfaz de
WARN OK OK
administración Arc: coleta de dados por linha de comando.
Programación (shedule) OK OK OK
Formato de los archivos MySQL XML PostgreSQL
Performance 1 2 3
PKP: o processo de coleta de dados é encerrado
Avaliação geral (erros, automáticamente quando um dos arquivos do repositório
OK OK ERRO
registro de logs etc). desejado apresenta determinado erro.
Recursos Búsqueda
Mecanismo de MySQL Full Zend Search
Lucene
indexación y búsqueda Text Lucene
Búsqueda por repositorio SIM NÃO SIM
Búsqueda por campo SIM NÃO SIM
Operadores booleanos SIM SIM SIM
Ordenação do resultado SIM NÃO NÃO
Filtro do resultado SIM NÃO SIM
Facets NÃO NÃO NÃO
29. Proveedor de Servicios
• Colecta de datos: jOAI (Java OAI):
– Administración de colecta de datos;
– Mecanismo de colecta de datos;
– Programación (shedule) de repositorios
para colecta de datos.
• Mecanismo de indexación y búsqueda:
– Identificar soluciones Open Source.
• Interfaz de búsqueda:
– Desarrollar (crear) nueva interfaz.
30. Proveedor de Servicios
Full-Text Search Server: Interfaz de búsqueda: Sistema
Indexación y búsqueda de Recuperación de
Informaciones
Colecta de datos: administración
y colecta de datos
... RI PE RI PE RI PE
...
31. Proveedor de Servicios
• Colecta de datos: jOAI
– Administración de repositorios digitales:
inclusión, modificación y exclusión;
– Programación de la colecta de datos:
hora y período de colecta;
– Campos colectados: autor, título, assunto
(tema), fecha, año, descripción, idioma,
enlace (url) original y repositorio.
32. Proveedor de Servicios
• Searcher Server: Solr
– Operadores booleanos, búsqueda por
campo, en mascaramiento (*),
truncamiento (?);
– Agrupamiento (soja o trigo) y (uva);
– Tratamiento: Stopwords, sinônimos y
acentuación;
– Ordenamiento del resultado de
búsqueda;
– Highlight, Facets, etc.
33. Proveedor de Servicios
• Interfaz de búsqueda:
– Mecanismo de búsqueda (simple y
avanzado);
– Paginación;
– Facets;
– Navegación por repositorio;
– Interfaz amigable para búsqueda.
34. Proveedor de Servicios
• Situación del desarrollo:
– Total de repositorios colectados: 23;
– Total de registros colectados: 642.775;
– Previsión de lanzamiento: Abril de 2010;
– Processo sistematizado y automatizado.