2. Organizzare la conoscenza
«… un sistema con regole comuni
accettabili per tutti, … il più vicino possibile
alla mancanza di regole» (BERNERS-LEE
2001 p. 28).
3. Dati
WEB Invisibile
Disambiguare i dati
WEB Semantico o WEB di dati
Metadati
DublinCore,
CULTURA ITALIA
EUROPEANA
Tassonomie
SKOS
AAT
ICONCLASS
Linked Open Data (LOD)
DBPEDIA
GEONAMES
PLEIADES
5. contenuti dinamici: pagine web dinamiche,
ovvero pagine Web il cui contenuto viene generato
sul momento dal server, che possono essere
richiamati solo compilando un form o a risposta di una
particolare richiesta
pagine ad accesso ristretto: siti che richiedono
una registrazione o comunque limitano l'accesso alle
loro pagine impedendo che i motori di ricerca
possano accedervi
DEEP WEB
6. PERCHE’
DISAMBIGUARE I DATI
“A fundamental characteristic of our age is the rising tide of data –
global, diverse, valuable and complex. In the realm of science,
this is both an opportunity and a challenge” (Riding the wave,
Final Report of the High Level Expert Group on Scientific Data.
European Commission, Brussels, 2010).
Questo rapporto sui dati scientifici illustra il potenziale di efficienza
determinato dalla larga rete di distribuzione dei dati. I ricercatori
riceveranno chiari benefici potendo collaborare sugli stessi dati,
ma partendo da domini diversi. Questa collaborazione però non
poterà alla perdita di diritti e garanzie.
Usare, riusare, combinare, integrare i dati fornirà un
incremento in termini di produttività scientifica.
… una esigenza scientifica…
7. PERCHE’
DISAMBIGUARE I DATI
In un report del 2010 pubblicato da The Economist, I dati divengono “an
economic raw input almost on par with capital and labour”.
Nel Digital Britain Final Report si riconosce che I dati sono “an innovation
currency … the lifeblood of the knowledge economy”.
Nel 2008 si stimava che il mercato per il PSI fosse di €28 miliardi, mentre la
previsione è di circa 40€ per il prossimo futuro.
Un recente rapporto (2013) su “The Value and Impact of the Archaeology Data
Service: a study and methods for enhancing sustainability” (Eds. Beagrie, N.
and Houghton J.) ha evidenziato come ogni £1 investita dall’ADS dà un ricavo
fino £ 8.30 nei prossimi 30 anni.
(http://archaeologydataservice.ac.uk/research/impact).
… una esigenza economica…
8. Direttive Comunitarie
La Direttiva 2003/98/CE, recepita a livello italiano dal D. Lgs 36/2006,
nel dettare le norme in materia di dati e loro riutilizzo, esclude all’art. 1
i documenti in possesso di diverse istituzioni tra cui le università e
gli enti di ricerca, i musei, le biblioteche e gli archivi. Il quadro che
emerge dalla lettura delle norme nazionali prefigura un atteggiamento
di tipo protezionistico nel campo dei beni culturali e quindi
dell’uso e dei riuso dei dati.
La Direttiva 2013/37/CE, che andrà recepita entro 18 Luglio 2015,
estende le norme relative all’uso e al riuso dei dati anche alle
biblioteche, incluse quelle universitarie, i musei e gli archivi. Ci sono
però limitazioni e va letta anche la normativa italiana sull’argomento.
9. DATI
Consultabili
Machine Readble
Formati
ACCESS
O
RIUSO
ESCLUSION
E
Art. 124 BBCC
L. 241/90
USO
Legge Diritto
D’Autore
Licenza
Direttiva
2013/37UE
Considerazione 18)
L’estensione … dovrebbe
essere limitata a
biblioteche, musei e archivi,
poiché le loro collezioni
sono e diverranno sempre
più un materiale prezioso
per il riutilizzo in numerosi
prodotti, come le
applicazioni mobili.
10. Direttive Italiane
• il D.lgs. 33 del 14.03.2013, ribattezzato “Decreto
semplificazione” o “Decreto trasparenza” e pubblicato in
Gazzetta Ufficiale n.80 del 5-4-2013
• il Decreto Legge 22 giugno 2012, n. 83, detto “Decreto
Sviluppo” convertito in legge con modificazioni il 7 agosto
2012, n. 134 e pubblicato in Gazzetta Ufficiale n. 187 del
11-08-2012.
• il Decreto-Legge 18 ottobre 2012, n. 179 convertito in
legge il 17 dicembre 2012, n. 221 – e pubblicato in
Gazzetta Ufficiale 18 dicembre 2012, n. 294 noto come
“Decreto sviluppo bis” o anche “Decreto crescita 2.0”.
11. DISAMBIGUARE I DATI
Quali sono gli archeologi che hanno studiato all’Università
di Roma La Sapienza e hanno iniziato la loro carriera
come Funzionari del MIBAC?
Quali Funzionari hanno iniziato la loro carriera nello stesso
anno di ……… ?
Quali Funzionari sono andati all’Università di Roma La
Sapienza e sono stati colleghi di …………. ?
Qualsiasi tipo di domanda implica una diversa
formalizzazione dei dati e per queste domande Google è
insufficiente.
12. Il Web 1.0 era un sistema di documenti interconnessi
(interlinked) accessibili attraverso Internet. I Web
browsers usavano il protocollo HTTP per comunicare
con Web Servers. L’utente accedeva a pagine HTML e
usava gli hyperlinks per navigare tra le pagine. L’utente
poteva così accedere a qualsiasi documento
raggiungibile sul Web
Dal WEB 1.0 al WEB Semantico
13. Nel Web 2.0 gli utenti condividono (share) foto, video e
pensieri, interagiscono sui social networks, pubblicano
contenuti nei blogs, usano tags per dare significato ai
documenti. L’utente ha piena libertà di interagire con i siti
Web, che diventano dinamici
Se una macchina potesse comprendere il significato
dell’informazione, potrebbe aiutare l’utente a trovare ciò di
cui ha veramente bisogno. Mentre il Web attuale si basa su
documenti interconnessi, il Web semantico sarà basato su
oggetti e sulle relazioni tra di essi
Dal WEB 1.0 al WEB Semantico
14. Dal WEB 1.0 al WEB Semantico
WEB WEB
di Documenti di Dati
15. Human understandable but “only”
machine-readable
Human and machine “understandable”
Dal WEB 1.0 al WEB Semantico
17. Un metadato, letteralmente “(dato) oltre un
(altro) dato”, è un'informazione che descrive un
insieme di dati.
Un esempio tipico di metadati è costituito dalla
scheda del catalogo di una biblioteca, la quale
contiene informazioni circa il contenuto e la
posizione di un libro, cioè dati riguardanti le
risorse che si riferiscono al libro.
Metadati
18. Cos’è una risorsa?
Nel mondo del web una risorsa è tutto ciò che
può essere riferito da una URL:
oggetti digitali (un documento elettronico,
un’immagine, un servizio ...)
oggetti fisici (libri, persone, opere …)
concetti (soggetti, categorie …)
19. Funzioni dei metadati
i metadati possono essere distinti in:
Descrittivi: contengono informazioni per facilitare la
ricerca di risorse attraverso query espresse in linguaggio
naturale
Strutturali: per l’identificazione delle risorse all’interno
di strutture di sistemi informativi
Amministrativi: contengono informazioni per la
gestione delle risorse (storage, preservation ...)
20. Metadati descrittivi
Esistono vari sistemi per la descrizione delle
risorse, concepiti per domini specifici, es.:
ambito bibliotecario: MARC
ambito storico artistico: VRA, CIDOC
ambito archivistico: EAD
Nel contesto delle Digital Libraries è nata la
necessità di uno schema minimo comune, per
raggiungere l’interoperabilità tra domini diversi.
21. Dublin Core e interoperabilità
Dublin Core è uno schema di metadati sufficientemente
generico per essere utilizzato in domini diversi
I metadati DC sono espressi in XML o in RDF
Attraverso il Protocol for Metadata Harvesting della
Open Archive Initiative (OAI-PMH), consentono
l’individuazione e la “raccolta” (harvesting) di risorse
provenienti da fonti dati distinte verso uno o più
harvester, che utilizzano i dati per fornire informazioni a
valore aggiunto, come l’indicizzazione e la
classificazione automatiche
23. Dublin Core Metadata Initiative
Dublin Core Metadata Initiative è nata da una conferenza
tenuta nel 1995 a Dublin, Ohio, nell’ambito della OCLC (On
line Computer Library Center), la grande rete di servizi
americana per le biblioteche.
Lo scopo era trovare un nucleo di base di elementi per la
descrizione di tipi diversi di risorse digitali.
Con l’adozione in contesti diversi da quello esclusivamente
digitale, sono stati via via aggiunti altri descrittori.
24. DC: principi generali
Non vi sono restrizioni per l’uso del DC: questo
può essere applicato a qualsiasi tipo di risorsa
(= anything that has identity)
Nessun elemento è obbligatorio
Ogni elemento e qualificatore è ripetibile
L’ordine degli elementi è irrilevante
La ripetizione di elementi è raccomandata per
garantire le relazioni ed è d’aiuto alla ricerca.
il DC non supporta direttamente delle gerarchie
25. Simple e Qualified DC
Lo standard DC comprende due livelli: ‘Simple’ e
"Qualified".
1) Simple DC o DC Element Set - comprende 15 elementi:
title, creator, subject, description, publisher,
contributor, date, type, format, identifier, source,
language, relation, coverage, rights.
Questo set di base è stato recepito come standard: ISO
15836:2003 NISO Standard Z39.85-2001
http://it.wikipedia.org/wiki/Dublin_Core
27. Qualified Dublin Core
Il Qualfied DC aggiunge al DC Element Set:
7 elements: ulteriori descrittori aggiunti al
set di 15 elementi
33 element-refinements: qualificatori che
raffinano i singoli elementi
encoding-schemes: una serie di schemi di
codifica (come vocabolari controllati) utili a
interpretare in modo univoco un valore.
28. Qualified DC - Element refinements
Audience educationLevel - mediator spatial -
temporalCoverage
Description abstract - tableOfContents
Date available - created - dateAccepted -
dateCopyrighted - dateSubmitted - issued
modified - valid
extent - medium bibliographicCitation
conformsTo - hasFormat - hasPart - hasVersion
isFormatOf - isPartOf - isReferencedBy -
isReplacedBy - isRequiredBy - isVersionOf -
references - replaces - requires
accessRights - license
Format
Identifier
Relation
Rights
Title alternative
33. • Le ricerche sul web basate sul contenuto testuale (stringhe)
come abbiamo visto sono limitate
• L’uso di metadata può migliorare la ricerca e la gestione
delle informazioni ….
• … a patto che i metadata usino concetti condivisi
• Per supportare lo scambio, l’uso e il riuso dobbiamo
adottare un linguaggio semplice per formalizzare i concetti.
E questo linguaggio deve essere machine-understandable
Evoluzione dei metadata:
dall’XML al RDF
35. Grafo con risorse…
…Espresso con elementi DC
PURLs (Persistent Uniform Resource Locators) sono indirizzi WEB che agiscono
come permanent identifiers al posto delle pagine dinamiche di molti siti Internet.
36.
37. Qualunque cosa descritta da RDF è detta risorsa.
Principalmente una risorsa è reperibile sul web, ma RDF
può descrivere anche risorse che non si trovano
direttamente sul web.
Ogni risorsa è identificata da un URI, Universal
Resource Identifier.
Il modello di dati RDF è formato da risorse, proprietà e
valori.
Le proprietà sono delle relazioni che legano tra loro
risorse e valori, e sono anch'esse identificate da URI. Un
valore, invece, è un tipo di dato primitivo, che può essere
una stringa contenente l'URI di una risorsa.
RDF
38. L'unità base per rappresentare un'informazione in RDF è lo
statement. Uno statement è una tripla del tipo Soggetto –
Predicato – Oggetto, dove il soggetto è una risorsa, il
predicato è una proprietà e l'oggetto è un valore (e quindi
anche un URI che punta ad un'altra risorsa).
Il Data Model RDF permette di definire un modello
semplice per descrivere le relazioni tra le risorse, in termini
di proprietà identificate da un nome e relativi valori. RDF
data model non fornisce nessun meccanismo per
dichiarare queste proprietà, né per definire le relazioni tra
queste proprietà ed altre risorse. A tale compito è definito
da RDF Schema.
RDF
39. Bisogna esporre i dati in un linguaggio che ne evidenzi la
semantica disambiguando i significati e che sia
comprensibile dalle macchine.
La tripla è il perno di una rappresentazione semantica.
Essa è composta da un soggetto, un predicato e un
oggetto (asserzioni della logica dei predicati)
RDF
41. Europeana in pillole
• Progetto della Commissione Europea cui contribuiscono
gli Stati Membri
• Portale multilingue che integra le risorse digitali di oltre
1.500 musei, archivi e biblioteche d’Europa
• Contiene quasi 26 milioni di dati tra testi, filmati, audio,
immagini, 3D
• È alimentata da progetti nazionali (i portali della cultura)
ed europei
• Interfaccia in 29 lingue
43. Aggregare secondo Europeana
• Un aggregatore raccoglie metadati da altri fornitori
di contenuti per renderli interoperabili con
Europeana o con altre piattaforme
• Un aggregatore
– partecipa alla diffusione della visione e degli
obiettivi di Europeana presso la propria rete di
istituzioni;
– contribuisce al dibattito europeo sulle tematiche
tecnico-scientifiche del settore;
– promuove l’uso di standard internazionali e
l’alfabetizzazione degli operatori culturali.
44. Tipi di aggregatori
Gli aggregatori – di livello europeo, nazionale, regionale, locale –
possono essere di diversi tipi:
orizzontali o intersettoriali (cross-domain), quando i metadati
aggregati afferiscono a tipologie di istituti diversi (biblioteche,
archivi, musei ecc.)
verticali, quando i metadati aggregati afferiscono a un’unica
tipologia di istituzioni (ad esempio, le biblioteche)
tematici, quando i metadati aggregati, forniti da settori diversi, sono
legati da un tema specifico (ad esempio, la Prima Guerra Mondiale)
L’aggregatore può avere un’interfaccia pubblica di consultazione o
essere un “aggregatore cieco” (dark aggregator) che funziona solo
da repository per la memorizzazione dei metadati; il suo ruolo è
solo quello di intermediazione.
45. Anche Europeana è un aggregatore
• Europeana raccoglie e indicizza
solamente i metadati, non gli oggetti
digitali
• Gli oggetti digitali restano consultabili
sul sito dell’istituzione che li ha prodotti
– quasi 26 milioni di record
– 131 fornitori (progetti, aggregatori,
singole istituzioni) che portano
centinaia di istituti culturali europei
48. Europeana Data Model
EDM example
• Fornisce un cornice aperta cross-domain
framework che integra differenti standard
• E’ basato su un approccio semantic web
approach
• Considera i Linked Open Data
49. EDM
• Distingue “gli oggetti forniti” - painting, book,
movie, etc (edm:providedCHO) da
• Rappresentazioni digitali dell’oggetto online
(edm:webResource) e
• Raggruppa questi oggetti per rappresentare
l’insieme logicamente attraverso una
aggregazione (ore:Aggregation)
53. 3D ICONS
Aggregatore di oggetti 3D
Ha sviluppato uno schema di metadati per
oggetti 3D
54. Il progetto 3D-ICONS
• Finanziato dal programma CIP-ICT PSP programme
• 16 partner da 11 paesi
• Digitalizzazione di oggetti e siti archeologici
• Definizione di un pipeline per acquisire, processare e
pubblicare dati 3D online
– in formato user-friendly
– Con metadata
– Per Europeana
55. Metadata e il contenuto 3D
• I dati scientifici non possono essere
correttamente adoperati senza le
informazioni relativi agli strumenti che sono
stati adoperati per acquisirle e alla
condizioni in cui si è operato.
• Per I dati 3D è importante fornire
informazioni relative a :
– Strumenti, metodi e tecniche
– Processi adopeati per acquisizione e
processamento
– Motivazioni e obiettivi della ricostruzione
3D
Pompeii, Italy
56. Benefici dei Metadata
• Metadata registano informazioni sul ciclo di vita dell’oggetto
3D
– Field: possono registrare informazioni sugli strumenti,
settaggi, parametri, condizioni fisiche dell’oggetto ripreso
e sulle motivazioni del processo di scansione.
– Lab: possono registrare informazioni sul post-
processamento dei dati e fornire basi per l’interpretazione
dell’evidenza
– Access: possono supportare un uso diverso dei dati per
formazione, turismo, ricerca
– Preservation: possono supportare la long term
preservation e consentire il riuso dei dati
57. Metadata: alcuni riferimenti
• The London Charter
– Stabilisce principi sulla computer
visualisation
• CIDOC CRMdig
– Permette una semplice e chiara
decrizione dei processi realizzti per
digitalizzare e costruire un oggetto
digitrale
Pisa
58. Provenance
• Nella digitalizzazione degli oggetti culturali la provenance
copre gli aspetti tecnici del processo:
– Strumenti scelti e parametri
– Considizioni di luce
– Qualsiasi ostacolo o rumore/riflessione che può
disturbare l’acquisizione
– Software scelto e parametri
– Tecniche scelte per creare mesh, texture, decimare e
semplificare il modello, registrare e allineare le riprese
– Scala e risoluzione
59. Paradata
• I paradata forniscono informazioni relative ai processi
umani di comprensione e interpretazione dell’evidenza:
– L’evidenza usata per interpretare un oggetto e creare
una ricostruzione
– La metodologia usata nel progetto di ricerca
• Paradata consentono:
– Intepretazioni alternative o ipotesi e collegarle ad
evidenze fattuali
63. • L’uso di metadata può migliorare la ricerca e la gestione
delle informazioni ….
• … a patto che i metadata usino concetti condivisi
• Per supportare lo scambio, l’uso e il riuso dobbiamo
adottare un linguaggio semplice per formalizzare i concetti
espressi da un vocabolario.
VOCABOLARI
64. • Pittore Domenikos Theotocopoulos = “El
Greco” (soprannome)
• Altri indicizzano come “El Greco”, altri solo “D.
Theotocopoulos”
• Ricercare “El Greco” non restituisce tutti i
risultati
• Soluzione: un solo concetto con differenti
etichette
SKOS
65. • Simple Knowledge Organization System
– Strumento/Linguaggio per pubblicare descrizione di
concetti e organizzare una semplice struttura di
conoscenza
– Applicazione di RDF (Resource Description Framework)
• RDF non è un formato, ma un formalismo per il data management distribuito
http://www.w3.org/2004/02/skos/
SKOS
66. SKOS CORE
•Skos definisce classi e proprietà sufficienti a
rappresentare le caratteristiche comuni dei
Thesauri.
•Si basa su un concept- centric view nel quale le
primitive non sono i termini, ma concetti astratti
rappresentati da termini.
•I concetti possono essere organizzati in gerarchia
usando relazioni (broader-narrower) e/o
associazioni.
74. <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">
<foaf:Person rdf:about="#JW">
<foaf:name>Jimmy Wales</foaf:name>
<foaf:mbox rdf:resource="mailto:jwales@bomis.com" />
<foaf:homepage rdf:resource="http://www.jimmywales.com/" />
<foaf:nick>Jimbo</foaf:nick> <foaf:depiction rdf:resource="http://www.jimmywales.com/aus_img_small.jpg" />
<foaf:interest>
<rdf:Description rdf:about="http://www.wikimedia.org" rdfs:label="Wikipedia" /> </foaf:interest>
<foaf:knows>
<foaf:Person>
<foaf:name>Angela Beesley</foaf:name>
</foaf:Person>
</foaf:knows>
</foaf:Person>
</rdf:RDF>
Il seguente profilo FOAF (scritto in formato XML) parla di
Jimmy Wales; il suo indirizzo e-mail, la sua homepage e la
sua fotografia sono delle risorse.
Lui ha interesse in Wikipedia e conosce Angela Beesley
(che è il nome della risorsa 'Persona').
FOAF (friend of a friend)
80. Il soggetto corrisponde in genere ad un concetto
univoco, o entità, che può essere una persona, un
luogo, un’idea.
I predicati rappresentano proprietà dell’entità a cui
sono collegati
Gli oggetti possono essere: Soggetti di altre triple
Valori letterali, come stringhe o numeri
Linked Open Data
La tripla si rappresenta con
un grafo
Sostituiamo alla tripla una
risorsa WEB
81. 4 regole per la creazione di LD sul WEB
Usare URI (Universal Resource Identifier) per identificare
ogni risorsa (concetto/documento).
pleiades.stoa.org/places/579885
Usare HTTP URI per individuare in modo univico la risorsa
sulla rete: http:pleiades.stoa.org/places/579885
Fornire informazioni utili sull’oggetto usando formati
standard (es. RDF)
Includere link ad altri URI. Le interconnessioni rendono più
ricchi e visibili i nostri dati
Linked Open Data
82. Le ontologie sono le
linee che connettono
tra loro le
applicazioni (le
stazioni).
I metadati sono i
convogli che
trasportano
l’informazione (i
passeggeri) tra una
stazione e l’altra.
Tim Berners-Lee ha proposto l’analogia con una rete di
metropolitane
Linked Open Data
92. Altri LOD
DBPEDIA
http://it.dbpedia.org/
DBpedia Italiana è un progetto aperto e collaborativo per
l’estrazione e il riutilizzo di informazioni semanticamente strutturate
dalla versione italiana di Wikipedia
GEONAMES
http://www.geonames.org/
Il DB di GeoNames copre tutte le nazioni e contiene più
di 8 milioni di luoghi