Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
Lezione Feliciati ACS 2012
1. Archivio Centrale dello Stato
Corso di Archivistica Contemporanea 2011/12
Introduzione ai metadati
Prof. Pierluigi Feliciati
Università degli studi di Macerata
Pierluigi Feliciati 2012 1
2. realtà, rappresentazione, percezione
Realtà oggettiva
Realtà oggettiva
G
ar
Rappresentazione
a n ne
ge a d em
archivio / /documenti
zi l t
archivio documenti
st ell' po
i o ac
(identificazione
ne c e
(analogici oodigitali)
(analogici digitali) e descrizione)
ss
o
Formati standard e schemi descrittivi GUI - repository
Pierluigi Feliciati 2012 2
3. Dati, documenti, oggetti e metadati
Documenti disidratati?
Metadata are for documents or other information
resources as water is to human beings.
Lack of water will lead to dehydration and
malfunctioning.
ERPANET Training Seminar - Metadata in Digital Preservation -
Final report (Marburg September 3-5, 2003)
Pierluigi Feliciati 2012 3
4. Dati, documenti, oggetti e metadati
I concetti chiave
In ambiente digitale, più nettamente che in quello
analogico, gli oggetti (i dati, i documenti) hanno senso
solo se identificati, “marcati”.
Una sequenza di bit (di 0 e 1) - di per sé - non è infatti
utilizzabile se non gli si associano le informazioni che
ci permettono di DISTINGUERLA dalle altre sequenze
e di sapere prima di tutto COSA rappresenta (testo,
audio, valori matematici, immagini, video...) e COME
lo fa (il formato della codifica)
Pierluigi Feliciati 2012 4
5. Dati, documenti, oggetti e metadati
I concetti chiave
per DISTINGUERE una sequenza di bit (che se
ha un inizio e una fine e un formato si definisce
file) il sistema più semplice è assegnargli un
NOME
Questo nome, non necessariamente
autoesplicativo per utenti umani, è seguito da
un SUFFISSO che aiuta il sistema operativo a
sapere come trattarlo, cioè che tipo di
rappresentazione costituisce
Pierluigi Feliciati 2012 5
6. Dati e metadati
E' evidente che ogni oggetto/risorsa digitale non
è identificabile tramite il suo flusso di bit né
auto-esplicativo sui suoi contenuti, ma deve
“portarsi dietro” informazioni che non fanno
parte del suo contenuto informativo,
indispensabili per renderlo fruibile.
Le informazioni di base (nome, formato) non
sono certo sufficienti a GESTIRE questi oggetti
con efficienza, a identificarli, ritrovarli,
selezionarli, organizzarli, proteggerli,
conservarli
Pierluigi Feliciati 2012 6
7. Le risorse digitali e i metadati
I libri hanno un dorso e un frontespizio, le opere
d’arte in un museo hanno etichette e pannelli
esplicativi, le medicine in una farmacia hanno
informazioni sul principio attivo e codici che
distinguono quelle per cui necessita la ricetta da
quelle da banco... ecco cosa sono i metadati.
Informazioni sui dati/documenti, insomma, che
non fanno parte del contenuto ma svolgono
l'essenziale ruolo di renderli riconoscibili,
selezionabili e gestibili (se opportuno) nel
tempo.
Pierluigi Feliciati 2012 7
8. Le risorse digitali e i metadati
I Metadati possono essere inclusi nei documenti
digitali oppure essere associati ad essi
Inoltre, per i motivi che vengo a presentarvi,
possono essere associati diversi set di metadati
per uno stesso documento, con informazioni
diverse, per garantire funzioni diverse
Per capirci meglio sul rapporto tra documenti e
metadati, userò metafore “umane”, come Carta
d'identità, tessera sanitaria, stato di famiglia....
Pierluigi Feliciati 2012 8
9. Dati e metadati
Le funzioni dei metadati
sono consentire il raggiungimento di alcuni obiettivi:
● Ricerca, individuare l’esistenza di un documento;
● Localizzazione, rintracciare una particolare occorrenza del
documento;
● Selezione, analizzando, valutando e filtrando una serie
complessa di documenti;
● Disponibilità, ottenere informazioni sull’effettiva disponibilità
del documento (diritti di accesso e restrizioni all'uso);
● Gestione, gestire le raccolte di documenti;
● Conservazione, gestire l'insieme complesso di attività che
garantiscano nel tempo l'accesso ai documenti
Pierluigi Feliciati 2012 9
11. Gli strati di metadati
(in un repository)
Pierluigi Feliciati 2012 11
12. Metadati descrittivi
servono per l’identificazione ed il recupero degli oggetti
digitali; sono costituiti da descrizioni dei documenti fonte,
analogici o digitali, possono risiedere nelle basi dati dei
sistemi di Information Retrieval all’esterno dell’archivio
digitale oppure essere inseriti nelle risorse o ancora
annidati in altri metadati.
Gli esempi principali di standard internazionali per la marcatura
descrittiva di singole risorse digitali sono Dublin Core e MODS,
mentre esistono schemi per la descrizione delle collezioni digitali
(RLSP Collection Description, MICHAEL, DC Collections
Application Profile,...)
Da non dimenticare poi per il web i Meta Tag HTML (all'interno della
risorsa).
Pierluigi Feliciati 2012 12
13. Metadati descrittivi
Il processo di standardizzazione dei metadati (modelli,
semantica e sintassi) è condotto in genere all'interno
di domini specifici, ma nel tempo si è andata
consolidando una strategia che rispettando le
specificità e tenendo anche conto degli standard
descrittivi e dei profili esistenti, cercasse di
condividere un set minimo di dati.
Al fine di avere un accesso integrato a risorse diverse,
è spesso necessario dover usare più schemi di
metadati combinati tra loro, ottimizzati per una
particolare applicazione, sviluppandone i profili di
applicazione richiamando i singoli namespaces.
Pierluigi Feliciati 2012 13
14. i metadati descrittivi: Dublin Core
il Dublin Core Metadata Element Set (DCMES),
sviluppato in ambito OCLC (Online Computer
Library Center USA) ha stabilito un vocabolario
semantico per descrivere informazioni sulle
caratteristiche "core" di un oggetto web e
categorizzarlo ai fini di una ricerca semplificata da
parte dell'utente.
Fin dall'inizio però nella comunità del DC si ritenne utile il
suo utilizzo nell'ambito sia dell'oggetto digitale che di
quello reale. Ci sono state critiche (legittime) per il
rischio che DC si sovrapponga alle regole di
catalogazione
Pierluigi Feliciati 2012 14
15. i metadati descrittivi: Dublin Core
Il set minimo proposto nel dicembre 1996 è costituito
da 15 elementi di base e si è esteso anche a
sottoelementi o qualificatori
Lo standard è in via di sviluppo ma il cosiddetto
"core” dei 15 elementi della descrizione è rimasto
stabile:
Titolo, Creatore, Soggetto, Descrizione,
Pubblicatore, Autore di contributo subordinato,
Data, Tipo, Formato, Identificatore, Fonte,
Lingua, Relazione, Copertura, Gestione dei
diritti
Pierluigi Feliciati 2012 15
16. MODS
• L'acronimo vuol dire Metadata Object Description Schema
• Uno schema XML di metadati descrittivi
• Deriva dallo standard bibliografico MARC
– Usa un linguaggio basato su marcatori
– Contiene alcuni elementi di MARC
– Struttura gli elementi per eliminare ogni ridondanza
• MODS non impone la scelta di nessun particolare regola di
descrizione
• Il set di elementi è pensato per essere applicabile
particolarmente alle risorse digitali
Pierluigi Feliciati 2012 16
17. DC e MODS bastano?
Non si deve intendere che per ogni oggetto digitale
vada registrato soltanto il set elementare di
metadati DC o MODS
La capacità di fornire i metadati descrittivi semplici e
standardizzati è da valutare come requisito minimo
indispensabile per consentire l'identificazione e il
reperimento della risorsa in rete.
Nella prassi, il set base di metadati DC (o MODS per
i progetti della LOC) è generalmente un
sottoinsieme di un più ricco corredo di metadati
(sempre item level, però).
Pierluigi Feliciati 2012 17
18. Metadati descrittivi
per le collezioni digitali
Una risorsa digitale non è creata isolatamente,
ma come parte di una aggregazione/collezione
digitale, e dovrebbe essere presa in
considerazione nel contesto di quella collezione
e del suo sviluppo.
Le stesse collezioni, specie se “chiuse”, possono poi essere
viste come componenti intorno ai quali è possibile
costruire molti tipi diversi di servizi digitali.
Le collezioni dovrebbero essere descritte in modo tale da
consentire a un utente o a un'organizzazione di identificarne le
caratteristiche salienti in modo tale da poterle integrare nel più
ampio novero delle collezioni digitali esistenti e all’interno di servizi
digitali operanti attraverso queste collezioni.
Pierluigi Feliciati 2012 18
19. Metadati descrittivi e DAD
La Bozza dello schema di regole tecniche per il
protocollo informatico di cui al decreto del Presidente
della Repubblica 28 dicembre 2000 n. 445 e del decreto
legislativo 7 marzo 2005 n. 82 include:
● Bozza dell’Allegato 1 - Glossario/definizioni
● Bozza dell’Allegato 2 – Formati
● Bozza dell’Allegato 3 – Standard specifiche tecniche
● Bozza dell’Allegato 4 - Specifiche tecniche del
pacchetto di archiviazione
● Bozza dell’Allegato 5 – Metadati
Pierluigi Feliciati 2012 19
20. Allegato 5: Metadati
Questo allegato illustra la struttura dei metadati relativi al
documento informatico, al documento amministrativo
informatico e al fascicolo informatico (ovvero
l'aggregazione documentale informatica)
Il linguaggio formale adottato per schematizzare
elementi descrittivi e regole è naturalmente l'XML,
per la sua modularità e universalità e perché tali
schemi possano essere recuperati e richiamati
all'interno di schemi più complessi o
personalizzati rispetto a contesti applicativi
particolari.
Pierluigi Feliciati 2012 20
22. Metadati DAD: documento
amministrativo
● Per quanto riguarda il documento
amministrativo, si rinvia alla Circolare AIPA del
7 maggio 2001, n. 28
● In questo documento si dettagliavano
Standard, modalità di trasmissione, formato e
definizioni dei tipi di informazioni minime ed
accessorie comunemente scambiate tra le
pubbliche amministrazioni e associate ai
documenti protocollati.
● Possiamo vedere lo schema XML relativo qui
Pierluigi Feliciati 2012 22
24. Le risorse digitali complesse:
i metadati strutturali
I metadati strutturali descrivono le relazioni
logiche o fisiche che collegano le parti di un
oggetto composito.
Un libro “fisico”, ad esempio, fa parte delle offerte con
sconto, e a sua volta può consistere in una sequenza
di capitoli, che sono composti da pagine...
Il processo di digitalizzazione/aggregazione di risorse può
generare un certo numero di risorse digitali distinte, ad esempio
una immagine per ogni pagina, ma il fatto che queste risorse
formino una sequenza e che quella sequenza costituisca un
oggetto composito o faccia parte di una struttura complessa
multilivellare è evidentemente essenziale per il loro uso e la loro
interpretazione.
Pierluigi Feliciati 2012 24
25. Le risorse digitali complesse:
i metadati strutturali
Questi metadati, insomma, collegano le varie
componenti delle risorse complesse per
garantirne un’adeguata e completa gestione e fruizione.
Inoltre, forniscono dati di identificazione e
localizzazione della risorsa, come il codice
identificativo, l’indirizzo di ogni file sul server, l’archivio
digitale di appartenenza e il suo indirizzo Internet.
Ne sono esempio principale:
1. XML (inevitabile...)
2. i profili applicativi di metadati gestionali (METS,
MPEG21-DIDL, ma anche MAG)
Pierluigi Feliciati 2012 25
26. Metadati strutturali
Descrizioni Metadati
singoli doc
file 1 strutturali
oggetti 1
inizio struttura
doc “Oggetto insieme”
2 file 2
aggrega- composto da: Repository
zione “Pagina 1” (file 1) dei dati
“Pagina 2” (file 2)
“Pagina 3” (file 3) File 1, 2, 3, n
doc “Pagina n” (file 4)
file 3 + descrizioni
3
fine struttura + struttura
Descrizione
aggregazione
doc
n file n
Pierluigi Feliciati 2012 26
27. metadati strutturali: standard
In genere, XML supporta con efficacia la formalizzazione
di strutture relazionali anche complesse (pensate ad
EAD...).
I profili applicativi standard per la gestione di repository
digitali di solito comprendono una sezione di metadati
strutturali, per garantire i vincoli tra oggetti:
Il Metadata Encoding and Transmission Standard (METS),
ad esempio, è un formato di codifica per metadati descrittivi,
amministrativi e strutturali, progettato per supportare sia la
gestione di oggetti digitali che la distribuzione e lo scambio
di oggetti digitali fra i diversi sistemi.
Il MAG, standard italiano per la digitalizzazione in ambito
bibliotecario, include una sezione di metadati strutturali.
Pierluigi Feliciati 2012 27
28. Dati e metadati:
i metadati gestionali
I metadati amministrativi e gestionali, più che quelli
descrittivi, hanno una importanza preponderante per il
mantenimento e dell’accessibilità a lungo termine
della memoria documentaria digitale.
Essi documentano le modalità di generazione,
immissione, archiviazione e manutenzione degli
oggetti digitali; forniscono inoltre specifiche formali a
supporto di raccolta e archiviazione dei metadati.
Si prestano particolarmente bene a essere utilizzati
all’interno di modelli logico-funzionali dell’archivio
degli oggetti digitali standardizzati e interoperabili,
come l’Open Archival Information System (OAIS), dal
2003 standard ISO 14721.
Pierluigi Feliciati 2012 28
29. Dati e metadati:
i metadati gestionali
Vengono usati quindi per la gestione e manutenzione
dell’oggetto digitale nel tempo, fissando le
informazioni sulla sua creazione, mantenimento e su
ogni restrizione d’uso. Possono comprendere:
• metadati tecnici, che descrivono le caratteristiche
tecniche della/e risorsa/e digitale/i
• metadati per la conservazione:
metadati relativi alla fonte, che descrivono l’oggetto
dal quale è derivata la risorsa digitale
metadati relativi al ciclo di vita, che descrivono le
operazioni effettuate su un oggetto digitale nel
tempo
metadati per la gestione dei diritti di accesso/uso
Pierluigi Feliciati 2012 29
30. Metadati gestionali:
Scopi e storia di METS
Lo schema XML del METS è stato creato nel 2001 sotto la
sponsorizzazione della Digital Library Federation, è
supportato dalla Library of Congress come agenzia per il
mantenimento. Nel 2004 ha ricevuto la NISO Registration,
che è stata rinnovata nel 2006.
E’ stato progettato per la gestione delle informazioni e per
facilitare lo scambio interoperabile dei materiali
digitali tra le istituzioni (inclusi i venditori). E' un
formato di documento XML per codificare i metadati
necessari sia per la gestione degli oggetti della
biblioteca digitale contenuti in un deposito, che per lo
scambio di alcuni oggetti tra i depositi (o tra i
depositi ed i loro utenti).
Pierluigi Feliciati 2012 30
31. La struttura di METS
Un documento (ovvero un file di metadati basato sul
profilo) METS e' costituito da sette sezioni
principali:
1. Intestazione
2. Metadati Descrittivi
3. Metadati Amministrativi
4. Sezione File
5. Mappa Strutturale
6. Link Strutturali
7. Comportamento
Pierluigi Feliciati 2012 31
32. Metadati per la conservazione
● La gestione dei depositi digitali è complessa e
richiede processi di manutenzione, verifica di
integrità dei documenti, controllo degli accessi
e conservazione nel tempo. Questo è sempre
vero (es. deposito legale unità bibliografiche
digitali), ma particolarmente se si tratta di
depositi archivistici accreditati.
● In ogni caso, gestire significa seguire tutte le
azioni intervenute su i documenti per iniziativa
di tutti i soggetti autorizzati: ancora metadati!
Pierluigi Feliciati 2012 32
33. PREMIS - storia
Nel giugno 2003 OCLC e RLG hanno creato un gruppo di
lavoro internazionale sulle “strategie di implementazione dei
metadati di conservazione” che avrebbe lavorato per due anni.
Il Preservation Metadata:Implementation Strategies working
group (PREMIS WG) era composto da 30 esperti, che
rappesentavano le biblioteche, i musei, gli archivi, le agenzie
di governo ed il settore privato di 5 paesi diversi. L’obiettivo è
stato quello di definire un insieme di base di metadati di
conservazione per la comunità della conservazione digitale.
Nel Maggio 2005 è stato pubblicato un rapporto conclusivo, che ha incluso un
modello per i metadati di conservazione ed un dizionario nella versione 1.0.
Nel marzo 2008 è stato pubblicato il Data dictionary 2.0.
Pierluigi Feliciati 2012 33
34. Le premises di PREMIS
Il PREMIS WG ha identificato le cinque maggiori aree
rilevanti da coprire con i metadati di conservazione:
Provenienza: le informazioni storiche sulla custodia dell’oggetto digitale, dalla sua
creazione, ogni successivo cambio di custodia fisica e/o di proprietà.
Autenticità: le informazioni sufficienti a validare che l’oggetto digitale dell’archivio
è proprio quello che si presuppone sia e che non sia stato alterato,
intenzionalmente e non, in modo non documentato.
Attività di conservazione: le azioni intraprese per conservare l’oggetto digitale e
qualsiasi conseguenza di tali azioni che impattino su forma, percezione o
funzionalità dell’oggetto.
Ambiente tecnologico: hardware, sistema operativo e applicazioni software
necessarie a rappresentare ed usare l’oggetto digitale nello stato in cui viene
correntemente conservato nel deposito
Gestione dei diritti: qualsiasi diritto connesso e che possa limitare i poteri del
deposito di intraprendere azioni per preservare l’oggetto digitale e per rendere
accessibile l’oggetto agli utenti attuali e futuri.
Pierluigi Feliciati 2012 34
35. Il PREMIS data model
Il modello dei dati del PREMIS consiste di entità, relazioni
e proprietà, che vengono chiamate unità semantiche (per
evitare una formalizzazione di tipo Application Profile). Le
entità sono cinque:
● Entità Intellettuale – un insieme coerente di contenuto che può essere
ragionevolmente descritto come un’unità, per esempio, un libro, una mappa, una
fotografia o un database. Dal momento che questa entità è già ben descritta dai
metadati descrittivi, il dizionario dei dati non li include.
● Oggetto Digitale – un’unità discreta di informazione nella forma digitale.
● Evento – un’azione che implica almeno un oggetto o un agente noto al deposito
di conservazione.
● Agente – una persona, un’organizzazione, o un programma software associato
agli eventi di conservazione nella vita di un oggetto.
● Diritti – asserzione di uno o più diritti o dei permessi legati ad un oggetto e/o ad
un agente.
Pierluigi Feliciati 2012 35
39. Gli eventi in PREMIS
L'evento in PREMIS è un’azione che coinvolge
almeno un oggetto o un agente conosciuto dal
deposito digitale:
• Aiuta a capire la provenienza digitale dell’oggetto,
tracciando la catena di eventi occorsi nel suo ciclo di
vita
• Serve a determinare quali eventi sono di competenza
del deposito
• Serve a determinare quali Eventi devono essere
memorizzati e a quale livello di granularità
Pierluigi Feliciati 2012 39
41. Gli agenti in PREMIS
Gli agenti nel modello PREMIS sono una persona,
un’organizzazione o un programma software
associato agli eventi di conservazione nella vita
di un oggetto digitale.
Gli agenti sono associati indirettamente agli oggetti non vengono
definiti in dettaglio nel dizionario dei dati, se non per la loro
identificazione.
Pierluigi Feliciati 2012 41
42. I diritti in PREMIS
La gestione dei diritti in PREMIS si basa sull'entità
diritti, ovvero una dichiarazione di uno o più diritti
o permessi pertinenti ad un oggetto e/o un
agente.
Si tratta insomma di accordi con i detentori dei diritti per
intraprendere azioni sugli oggetti.
Pierluigi Feliciati 2012 42
43. PREMIS data model: relazioni
Relazioni
In PREMIS dichiarano le associazioni tra le istanze delle
entità. Possono essere interpretate in modo ampio o
ristretto, e qualsiasi fatto relazionale può essere espresso
in molti modi diversi. Possono essere di tre tipi:
• Strutturali. Le relazioni strutturali tra i file che costituiscono una
rappresentazione di un’entità intellettuale, sono essenziali come metadati di
conservazione. Se un deposito non può ricostruire le varie parti di un oggetto
digitale, si può affermare che non ha conservato l’oggetto.
• Di derivazione. Il contenuto intellettuale dell’oggetto di risulta è lo stesso, ma le
istanze dell’oggetto e probabilmente il suo formato, sono diversi. Molti oggetti
digitali sono complessi e sia le informazioni strutturali che di derivazione,
possono cambiare nel tempo come risultato delle attività di conservazione.
• Di dipendenza. L’oggetto di supporto formalmente potrebbe non essere parte
dell’oggetto stesso, ma è necessario alla sua rappresentazione.
Pierluigi Feliciati 2012 43
44. XMP e PDF/A
Il formato di metadati XMP, riconosciuto come
requisito obbligatorio dello standard ISO 19005-
1:2005 - Document management – Electronic
Document file format for long-term
preservation, è stato sviluppato da Adobe a
supporto del formato standard PDF/A-1.
I documenti PDF/A devono essere:
● auto-contenuti (self-containemnt),
● auto documentati (self-documentation) e
● indipendenti dal dispositivo (device-indipendent).
Pierluigi Feliciati 2012 44
45. XMP e la descrizione di proprietà
XMP, che costituisce una delle caratteristiche
obbligatorie del formato PDF/A, si basa sia su
RDF che su XML, di cui eredita la duttilità e le
potenzialità semantiche. Dichiarano che:
Context is everything. Metadata brings context to
data. XMP brings structure to metadata.
Questa affermazione è un po' forte, nel senso che
gli schemi di metadati standard hanno struttura
eccome, ma questa affermazione serve a capire lo
spirito di Adobe nello sviluppo di XMP.
Pierluigi Feliciati 2012 45
46. XMP e conclusioni
Per concludere, l'esplosione dell'informazione
digitale ha dato grande impulso alla ricerca di
metodologie moltiplicando in maniera esponenziale
standard e profili applicativi (Dublin Core, MODS,
METS, PREMIS, etc).
Adobe, partendo dalla sua potenza aziendale e dal
controllo dello standard ISO PDF, ha trovato il modo
di farli convivere all’interno di un unico formato
integrandoli un flusso di metadati in formato XML
(semanticamente rilevante e auto-esplicativo) da
includere direttamente dentro il file.
Pierluigi Feliciati 2012 46