1. Linked Data
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
2. Verso i Linked Data
Nell’ottobre 2011 il Library Linked Data Incubator
Group (LLD XG) creato presso il World Wide Web
Consortium (W3C) ha pubblicato la sua relazione finale.
Questa relazione sostiene con forza la necessità che
Musei, Archivi e Biblioteche a partire dalle agenzie
bibliografiche nazionali, rendano disponibili i loro dati
nel web in una forma nuova, ovvero come linked data.
3. web di documenti e web di dati
Il web ipertestuale o web di documenti = rappresentazione
piatta, lineare, degli oggetti;
il web semantico o web di dati come un contenitore di
cose, di oggetti, piuttosto che un contenitore di
rappresentazioni di oggetti: i dati afferiscono alla risorsa e ne
sono parte integrante perché la risorsa non sarebbe
rappresentabile senza questi dati.
La concretezza del web semantico
si oppone all’astrattezza del web tradizionale.
4. Linked Data: una definizione
Dati pubblicati sul web in una modalità leggibile e interpretabile da
una macchina, il cui significato sia esplicitamente definito tramite
una stringa costituita da parole e marcatori.
Si costruisce un reticolo di dati collegati (linked data, appunto)
appartenenti a un dominio (che costituisce il contesto di
partenza), collegato a sua volta ad altri set di dati esterni, ovvero
fuori dal dominio, in un contesto di relazioni sempre più estese.
(Mauro Guerrini, http://www.bibliotecheoggi.it/content/201200300701.pdf)
5. Partire dai metadati
I metadati
descrittivi (MARC, Dublin Core, PURL, HANDLE, PICO AP ecc.),
gestionali - amministrativi (MAG, DOI, CEDARS, METS ecc.)
o strutturali (SGML, XML, EAD, MOA2 ecc.),
hanno un unico obiettivo:
quello di contribuire a una gestione più chiara
di oggetti/collezioni digitali.
6. Perché il DUBLIN CORE
Nel febbraio 2009, il DC è stato approvato come lo standard ISO 15836,
che ha un ruolo fondamentale nella descrizione di risorse digitali di
diverso tipo e nella realizzazione di sistemi di reperimento delle
informazioni più efficienti sul web.
«le stringhe di testo, strutturate secondo lo schema DC (quindici
elementi nella loro forma non qualificata) e associate ai
documenti digitali, garantiscono un livello minimo di
catalogazione e indicizzazione nel web.
I metadati DC si applicano ai contenuti digitali come etichette
<tag>, che descrivono le caratteristiche principali di dati
strutturati (HTML, XML), consentendo una loro organizzazione
più efficiente e un recupero più agevole.»
7. OAI-PMH: raccolta e scambio di metadati
L’interazione (che è alla base dell’interoperabilità) tra i vari
provider per l’esposizione e la raccolta di metadati avviene
tramite il protocollo Open Archives Initiative Protocol for
Metadata Harvesting (OAI-PMH) all’interno di un’architettura
di data providers e server providers.
8. Linkare i (meta)dati
Il web, essendo uno spazio di informazione globale, deve
consistere non solo di documenti linkati, ma anche di
meta(dati) linkati. L’iniziativa Linked Data, sostenuta
dall’ideatore del World Wide Web, Tim Berners-Lee, ha
l’obiettivo di promuovere la creazione di nuovi dataset e
collegarli (linkarli) direttamente ai dataset esistenti, tenendo i
dati sempre aggiornati
9. Il progetto di W3C Linking Open Data
Il progetto di W3C Linking Open Data
(Open Definition, <http://opendefinition.org>)
fornisce tutte le informazioni necessarie per estendere il web
con Open Data Commons
(<http://www.opendatacommons.org/>).
L’estensione di dataset avviene attraverso la pubblicazione di
collegamenti (links) RDF, strumento essenziale per condividere
metadati strutturati.
10. Linking Open Data (LOD) Cloud
Nel settembre 2010, questi dati sono cresciuti a 25 miliardi di triple RDF,
interlinkate da circa 395 milioni di link RDF.
I collegamenti tra diversi dataset vengono graficamente rappresentati nella forma di
una grande ‘nuvola’ chiamata “LOD cloud diagram”, in cui vi è una visualizzazione
interattiva dei gruppi di dataset interoperabili
11. Linking Open Data (LOD) Cloud 2
Il sito http://linkeddata.org fornisce tutte le
informazioni su quest’iniziativa e pubblica la “nuvola”
aggiornata, ovvero il diagramma della situazione
corrente del Linking Open (LOD) Data Project.
12. Il modello LOD
Con il modello LOD è come se i dati, resi interoperabili, entrassero a far parte di un
immenso database “aperto” nel quale vengono pubblicati da istituzioni diverse set
di dati “grezzi” che possono essere liberamente “incrociati” da terze parti, con la
possibilità di generare valore aggiunto.
Un esempio pratico: un ente del turismo pubblica una serie di dati sintetici relativi
a strutture ricettive, ristoranti, musei e monumenti di un determinato luogo, e nello
stesso territorio alcuni musei pubblicano i dati delle opere esposte nel museo o
degli artisti delle opere.
Attraverso i LOD un terzo soggetto ha la possibilità di combinare i due set di dati
per offrire un nuovo servizio personalizzato, in base alle esigenze di una tipologia
specifica di utenti. Naturalmente, questo collegamento potrebbe anche essere
realizzato manualmente, però con maggior dispendio di tempo e con maggior
possibilità di errore.
13. LOD: alcuni esempi
C’è una grande quantità di LOD già presenti nel Web come, ad esempio,
DBPedia.org, Wikipedia e
WikiGuida, Geonames, MusicBrainz, WordNet,
la bibliografia DBLP.
Si segnalano, inoltre:
• UMBEL Web Services (<http://umbel.zitgist.com/>),
• Virtuoso Universal Server (<http://virtuoso.openlinksw.com/>)
• Linked Open Data Around-The-Clock (<http://latcproject.eu/>), le
piattaforme create su LOD che pubblicano e distribuiscono i dati sul
web, usando il modello RDF, gli URIs e il protocollo Http.
14. La DBPedia
La DBpedia Italiana è un progetto per l’estrazione e il riutilizzo di informazioni
semanticamente strutturate dalla versione italiana di Wikipedia.
Il progetto mira a rendere riutilizzabili le informazioni di Wikipedia da parte di
software e applicazioni. La DBpedia Italiana permette di eseguire query sui
contenuti di Wikipedia e di collegare altri dataset Linked Data a Wikipedia.
Oggi la versione inglese di DBpedia è al centro della Linked Open Data
Cloud e costituisce un importante riferimento per il collegamento tra diversi
dataset.
La base di conoscenza contiene ad oggi più di 1,5 milioni di entità, di cui circa
500.000 sono classificate secondo una ontologia. Tra queste vi sono più di
263.000 persone, 144.000 luoghi, 38.000 Album musicali, 29.000 film,
collegate tra di loro da oltre 25 milioni di links. Al più presto verranno inseriti
anche link verso siti web esterni e altri nodi della Linked Open Data cloud.
15. Linked Open Data Italia
Linked Open Data Italia pubblica dati aperti e facilmente accessibili da
persone e applicazioni.
I data set a disposizione, con licenze aperte e pubblicati in modalità
LinkedData, possono essere direttamente interrogati da qualsiasi
applicazione indipendentemente da linguaggi di programmazione e
tecnologie.
http://www.linkedopendata.it/
16. DBpedia Italiana
Oltre 1 milione di entità estratte da Wikipedia in
lingua italiana
Dati.camera.it
I dati storici ufficiali della camera dei deputati
pubblicati dal Parlamento Italiano
Portale Dati.Piemonte
Una piccola collezione di dataset RDF pubblicati
dalla Regione Piemonte
Geoportale Trentino
Vasta collezione di dataset geografici della Provincia
Autonoma di Trento
Provincia di Carbonia Iglesias
Il portale semantico della Provincia di Carbonia
Iglesias
Istat-Immigrazione
Tutti i dataset ISTAT su Immigrazione in formato RDF
DataCube
LinkedOpenCamera
Collaborazioni e consulenze della Camera dei
deputati vigenti al 1° gennaio 2010
loc2 Aggiornamento contratti Camera dei Deputati 2010
los
Collaborazioni e consulenze del Senato della
Repubblica, 2010
GR-Ricettività Piemonte
Strutture ricettive turistiche della regione Piemonte
in formato GoodRelations
GR-Ricettività Toscana
Strutture ricettive turistiche della regione Toscana
in formato GoodRelations
Musei Italiani Lista dei musei italiani
CAP Italia Codici Avviamento Postale
CNR-IT Organizzazione Consiglio Nazionale delle Ricerche
Scuole Italiane Le oltre 50.000 scuole statali italiane
LOIUS
The LOIUS project – Linking Italian University
Statistics
Dataset
17. Supponiamo che i due dataset (amministrazione locale e sovrintendenza) siano stati pubblicati come Linked Data.
Per identificare i monumenti, il dataset delle sovrintendenza usa URL (del tipo http://cultural-heritage-example.org/monument/XYZ).
Il contenuto digitale di tali URL corrisponde alla descrizione dettagliata dei monumenti.
Il data set dell’amministrazione locale, inserendo dei link a tali URL, permetterebbe a un software di risolvere l’URL e
ottenere la descrizione del monumento (sempre aggiornata).
Ancora, dal momento che RDF consente di specificare precisi tipi di risorse, potremmo pensare a un semplice script che
Trovi tutte le risorse di tipo “monumento” nel dataset dell’amministrazione locale, e che importi, per ciascuna,
informazioni aggiuntive, creando così un dataset misto.
Su quest’ultimo nuovo data set arricchito, si potrebbero poi fare query del tipo:
“trova tutti gli alberghi vicini a un monumento successivo al XIII secolo, in cui siano esposte sculture del Canova”.
18.
19. Anche in Italia le PA producono una enorme quantità di informazione in formato
digitale, e tuttavia spesso si tratta di informazioni difficilmente accessibili.
Questo dipende anche dal fatto che nel nostro paese mancano linee guida omogenee
che ne disciplinino l’uso e il riuso in ambiti diversi da quelli d’origine.
Ci sono però ampi margini perché ciò sia possibile, primo tra tutti l’art. 1 della legge
241/1990, fondamentale riforma sul procedimento amministrativo e sul diritto di
accesso ai documenti amministrativi che sancisce il valore giuridico della trasparenza.
Linked Open Data, insieme a dati.piemonte.it, è tra i primi progetti italiani che vanno in
questa direzione.
I benefici per i cittadini sono molti:
• Tantissimi nuovi servizi a disposizione (creati dalle PA ma anche da aziende e dagli
stessi cittadini)
• Aumento delle opportunità per essere informati (è come aprire migliaia di nuove
biblioteche)
• Partecipazione attiva (diritti ma anche responsabilizzazione)
Linked Data: benefici per i cittadini
20.
21. Quattro regole per la creazione dei linked data
sul web - 1
Tim Berners-Lee individua quattro regole per la creazione dei
linked data sul web:
1. usare URI (Uniform Resource Identifiers) per identificare
cose (oggetti): l’URI è un sistema di identificazione
globale, valido cioè per tutte le risorse contenute nell’intero
web. L’URI è una pietra miliare dell’architettura del web, in
quanto costituisce un meccanismo di identificazione delle
risorse comune a tutto il web. Ciascuna risorsa sul web (un
sito, una pagina di un sito, un documento, un qualsiasi
oggetto) dev’essere identificata da un URI se vuole essere
ricercata da altri sistemi, utilizzata, collegata, ecc.;
22. Quattro regole per la creazione dei linked data
sul web - 2
2. Usare HTTP URI in modo che gli oggetti possano essere
individuati da persone e da user agent
(browser, programmi…): lo schema utilizzato per la
costruzione di un URI è dichiarato nell’URI stesso prima dei
due punti(:); per esempio, http://weather.example.com/).
L’http che utilizza l’HyperText Transfer Protocol come
protocollo è precisamente lo schema prescritto per il web
semantico.
23. Quattro regole per la creazione dei linked data
sul web - 3
3. Fornire informazioni utili sull’oggetto (quando si individua
un URI), usando formati standard come RDF, SPARQL
(linguaggio d’interrogazione che nasce per i linked data): è
necessario definire il contesto e le caratteristiche della
risorsa, tramite l’attribuzione della risorsa stessa a una
classe, l’identificazione di proprietà e l’assegnazione di valori.
24. Quattro regole per la creazione dei linked data
sul web - 4
4. Includere link ad altri URI relativi ai dati esposti per
migliorare la ricerca nel web di altre informazioni affini a
quella di partenza: più i dati sono collegati, più sarà possibile il
loro utilizzo nell’ottica di arricchimento e deduzione delle
informazioni.
25. PER APPROFONDIRE:
Iryna Solodovnik, Comunicazione e ricerca semantica di contenuti informativi:
tra Metadati, Linked open Data e Ontologie,
<http://eprints.rclis.org/15966/1/Metad-LOD-Ontologie.pdf>