1. Architetture e protocolli
dell’OPEN ARCHIVE
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
1
2. Premesse
L’avvento delle nuove tecnologie ha:
• portato allo scoperto la crisi del modello
tradizionale di comunicazione scientifica
• fornito soluzioni alternative e innovative
per disseminare la letteratura scientifica
a costi molto più contenuti
• offerto strategie complementari e non
concorrenti per garantire l’open access
2
3. Open Archive o E-prints Server
Noti come Open Archive, o E-prints server, sono
archivi preposti al deposito dei documenti scientifici,
in forma elettronica, alla loro gestione e
conservazione.
3
4. Archivi Aperti: tipologie
Contenuti
E-prints: pre e post-prints
Materiali multimediali
Archivi Aperti Istituzionali
Collezioni che raccolgono la produzione scientifica o le attività culturali
di una istituzione (Università, centri di ricerca, etc)
Alma-DL (Università di Bologna)
M.U.S. (Università di Messina)
Archivi Aperti Disciplinari
Collezione di contributi della stessa disciplina
E-LIS (E-prints in Library and Information Science)
arXiv (E-prints in Physics, Mathematics, Computer Science and
Quantitative Biology)
4
5. Archivi Aperti: tipologie
• Organizzati a livello istituzionale o a livello
disciplinare.
• I documenti elettronici depositati direttamente
dagli autori attraverso l’auto-archiviazione.
N.B. Non va confusa l’auto-archiviazione (self-archiving)
con l’auto-pubblicazione (self-publishing) 5
6. Archivi Aperti: caratteristiche
• Software “open source” di semplice gestione,
distribuiti con licenza GNU-GPL, con interfaccia
web grafica sia per l’amministrazione che per
l’utente finale
• Funzione di “self-archiving”: l’autore deposita
autonomamente i propri lavori
• Accesso aperto ai contenuti dell’archivio:
l’utente finale recupera il “full-text”
attraverso diverse modalità di ricerca
6
7. Gli strumenti per l’Open Access
Metodi e tecnologie per garantire l’accesso aperto
alla letteratura scientifica
Sono applicativi software per archivi aperti
basati sull’interoperabilità,
ossia sulla possibilità di condividere, trasportare, scambiare
metadati
attraverso l’architettura e il protocollo
della Open Archives Initiative
Sono iniziative di editoria elettronica che garantiscono al
lettore l’accesso al full-text senza pagamento
7
8. Open Access Initiative
MISSION: miglioramento dell'accesso ai documenti
entro gli archivi e-print:
• mette a disposizione strumenti, software e
documentazione (protocolli, standard)
• promuove l'utilizzo di metadati standard
8
9. I protocolli dell’OAI
• L'Open Archives Initiative (OAI) ha sviluppato un
protocollo standard per la raccolta dei dati – metadata –
relativi ad ogni singolo documento (ad esempio, “data”,
“autore”, “titolo”, “rivista”, ecc.).
• In questo modo, anche se i documenti si trovano in
archivi e formati differenti, l'utilizzo del protocollo comune
assicura la loro interoperabilità e rende possibile la
ricerca e il recupero dei documenti proprio come se
fossero contenuti in un unico archivio globale,
accessibile a tutti.
• Grazie al comune protocollo, tutti i documenti contenuti
negli archivi che aderiscono all'OAI rispondono a criteri
di interoperabilità.
9
10. MEMO: la licenza GNU-GPL
GNU's Not Unix !!
GNU General Public License:
l’autore del software concede agli utilizzatori di eseguirlo,
copiarlo, distribuirlo, modificarlo e ridistribuire le
modifiche, nel rispetto dell’unica restrizione imposta, ossia
che ciascuna copia o modifica erediti le stesse libertà e sia
accompagnata dal codice sorgente “aperto”.
GNU è la licenza basilare del software libero.
10
11. MEMO: Creative Commons
Le licenze Creative Commons offrono sei diverse articolazioni
dei diritti d'autore per chi desideri condividere in maniera
ampia le proprie opere secondo il modello "alcuni diritti
riservati".
Il detentore dei diritti puo' non autorizzare a priori usi
prevalentemente commerciali dell'opera (opzione Non
commerciale, acronimo inglese: NC) o la creazione di opere
derivate (Non opere derivate, acronimo: ND); e se sono possibili
opere derivate, può imporre l'obbligo di rilasciarle con la stessa
licenza dell'opera originaria (Condividi allo stesso modo,
acronimo: SA, da "Share-Alike"). Le combinazioni di queste
scelte generano le sei licenze CC, disponibili anche in versione
italiana. 11
13. Archivi Aperti: architettura
Centralizzata
I contributi vengono depositati tutti in un unico
server centrale
Distribuita
I contributi vengono depositati su più servers
remoti che sono connessi tra loro da un’unica
interfaccia di ricerca
13
14. Il protocollo per OAI-PMH
OAI-PMH Protocol for Metadata Harvesting
E’ un protocollo standard, sviluppato nell'ambito
dell'Open Archive Initiative, che permette di migliorare
la raccolta delle informazioni – metadata – relative ai
documenti contenuti negli archivi di tutto il mondo.
Il protocollo PMH-OAI si basa sui protocolli HTTP per il
trasporto e XML per la rappresentazione dei dati e
garantisce la massima interoperabilità tra i sistemi che
lo utilizzano.
14
15. OAI-PMH
Open Archives Initiative
Protocol for Metadata Harvesting
“The Open Archives Initiative Protocol for Metadata Harvesting
provides an application-Independent interoperability framework
based on Metadata harvesting.”
Ci sono due tipologie di “attori”
nell’architettura OAI-PMH
http://www.openarchives.org/OAI/openarchivesprotocol.html#Definitions
Concepts 15
16. OAI: gli attori
Data Providers
Sono gli archivi dove vengono depositati sia i
metadati
che il full-text del lavoro di ricerca (articoli,
presentazioni, etc.), essi sono i contenitori “fisici”
(repository)
Service Providers
Rispetto ai Data Providers, sono sistemi che offrono
servizi a valore aggiunto, come la raccolta e
l’indicizzazione di metadati da altri Data Providers 16
17. OAI: gli attori 2
il Data Provider (repository) esporta i propri metadati in
formato Dublin Core (simple) a sua volta codificati in
uno schema XML
il Service Provider, così come i più importanti motori di
ricerca del web, raccoglie i metadati secondo il
protocollo OAI-PMH (harvesting)
17
18. Harvesting mediante OAI-PMH
• Data Providers (open archives repositories) forniscono
libero accesso ai metadati ed, eventualmente anche ai
testi (full text) o ad altre risorse
• Service Providers utilizzano le interfacce OAI dei Data
Providers per raccogliere e archiviare metadata.
– le sessioni di ricerca non avvengono
direttamente sulla repository del Data Provider
– i servizi si basano sui dati raccolti mediante
harvesting 18
20. Data providers
• metadati Dublin Core
convertiti dinamicamente mediante mappatura da un
altro schema di metadati a DC
oppure archiviati direttamente come DC
• sono disponibili mappature tra DC, EAD, MARC 21
• i dati sono codificati in XML
• tutti i record vengono contrassegnati da un
elemento cronologico (datestamp)
20
21. Service providers
• dispongono di dispositivi per l’harvesting
– software per l’harvesting automatico
– web robots, cioè programmi che scandiscono lo
spazio web automaticamente (crawlers, spiders)
• i web robot fanno uso di protocolli HTTP
• forniscono servizi relativi a tutti i dati raccolti
– interfaccia di ricerca
– sistemi di peer-review
21
22. Archivi Aperti: infrastruttura
Il software per gli archivi aperti è distribuito in modalità “open
source” così come il loro software di supporto:
• MySQL e PostgreSQL come RDBMS databases
(Relational DataBase Management System)
• Linux come sistema operativo
• Java, Perl, PHP e Python come linguaggi di
programmazione e per la loro implementazione
• Metadati standard
22
23. Il modello OAIS
SIP - (Submission Information Package) - IP di Immissione, riversato dal produttore nel
deposito.
AIP - (Archival Information Package) - IP di Archiviazione, che è il pacchetto conservato nel
deposito.
DIP - (Dissemination Information Package) - IP di Distribuzione trasferito dal deposito 23
all'utente in risposta ad una richiesta di accesso.
24. [e-prints] - archive software- 1
sviluppato dall’Università di Southampton
tra i primi progetti a sviluppare un OAS
• oltre 200 implementazioni in tutto il mondo
• “semplice” installazione e facilità d’uso
• vasta e attenta comunità di supporto
un punto di riferimento tra gli OA
24
25. [e-prints] – archive software - 2
• Facile da installare
– Script di installazione automatici nella maggior parte dei
processi di installazione
• Requisiti minimi: meno di 500 MB di spazio per lo
storage.
• Indipendenza da altri software di supporto
• Facile da usare e da amministrare: basato su Web
25
28. Repertori di Open Archive
Il CILEA raccoglie repertori relativi a Open
Archive, archivi elettronici istituzionali o
disciplinari ad architettura centralizzata o
distribuita, allestiti tramite l'impiego di
tecnologia open source e incrementati tramite
auto-deposito.
http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=211
28
29. Il caso di E-LIS
• L’archivio E-LIS è stato costituito nel 2003 per il deposito di
documenti in biblioteconomia e scienza dell'informazione (LIS
– Library and Information Science).
• E‘ la prima esperienza internazionale di e-server in questo
(
settore http://eprints.rclis.org/ )
• Deriva dal progetto DoIS (Documents in Information Science) , promosso
dal Ministero della Cultura spagnolo e ospitato su macchine del Consorzio
Interuniversitario Lombardo italiano per Elaborazione Automatica (CILEA).
• E-LIS si basa sul lavoro volontario ed è non-commerciale.
• E-LIS porta avanti la filosofia Open Access, rendendo disponibili documenti
in LIS e campi correlati.
29
31. Le regole di E-LIS
• E 'possibile depositare le opere in qualsiasi lingua,
anche se abstract e parole chiave devono essere inserite
in inglese, oltre a abstract e parole chiave nella lingua
originale del documento.
• COPYRIGHT: Tutti i lavori sul server E-LIS rimangono di
proprietà dell'autore. Le opere possono essere lette
online, scaricate per uso personale; l'URL di un
documento (da questo server) può essere inclusa in altri
documenti elettronici. Il testo stesso non può essere
pubblicato commercialmente (a stampa o in formato
elettronico) o comunque alterato senza il permesso
dell'autore.
31