Extracting archimate views from custom ontological ea models
ODDI 2013 DCAT per descrivere gli Open Data della PA
1. Agenda
DCAT PER DESCRIVERE GLI OPEN DATA DELLA PA
Open Data Day Italia 2013 - Pubblicazione OD e LOD
Scopo dell’attività
Fonti censite
Ontologie usate: DCAT e VOID
Mapping CKAN – DCAT/VOID
Importazione con ckan2triple
Pubblicazione come LOD
Osservazioni
2. Scopo delle attività
Avviare un censimento dei cataloghi open data delle PA attualmente pubblicati
Valutare le piattaforme di pubblicazione usate e i servizi erogati per l’accesso
Sviluppare un sistema di importazione/page-scraping e allineamento (semi)
automatico rispetto ad un sub-set di fonti preselezionato
Valutare e testare gli attuali vocabolari standard per descrivere i metadati di
cataloghi e dataset
Aggregare e ripubblicare le meta informazioni acquisite in formato Linked
Open Data
Stabilire i primi punti di contatto e sovrapposizioni in termini classificazione e
tagging dei dataset pubblicati
Open Data Day 2013 – Pubblicazione OD & LOD 2
3. Fonti censite
Allo stato attuale sono state censite le seguenti fonti:
1. Open Data della Provincia di Roma
2. Open Data della Regione Toscana
3. Open Data della Regione Piemonte
4. Open Data del Comune di Firenze
Le prime tre pubblicano i dati tramite portale basato su piattaforma CKAN
[http://ckan.org/]
Dati accessibili tramite chiamate a servizi REST
Formati di risposta JSON direttamente usabili
Compatibilità con gli standard de facto per la descrizione di cataloghi OD: DCAT e VOID
Open Data Day 2013 – Pubblicazione OD & LOD 3
4. Ontologie per descrivere dataset: DCAT e VOID
Per descrivere i cataloghi e i relativi dataset sono stati utilizzati due
vocabolari definiti appositamente per tali scopi e attualmente supportati
dal W3C e da molte piattaforme Open Data.
DCAT [http://www.w3.org/TR/vocab-dcat/]: è un vocabolario RDF/OWL per descrivere cataloghi e
Dataset Open Data sul web a prescindere dai formati di distribuzione. Attualmente è un
Working Draft del W3C.
VOID [http://www.w3.org/TR/void/]: è un vocabolario RDF/OWL per la descrizione di cataloghi
e dataset di tipo Linked Open Data. E’ un “Interest Group” del W3C.
Open Data Day 2013 – Pubblicazione OD & LOD 4
5. DCAT e VOID: considerazioni
Le due ontologie non sono esplicitamente correlate fra loro
Entrambe definiscono il concetto di Dastaset
DCAT è gerneral-purpose e particolarmente adatto a descrivere qualsiasi Open
Data
VOID è specifica per chi pubblica i dati in modalità LOD e quindi usando RDF
come formato standard
VOID può essere vista come una specializzazione di DCAT. Per le nostre attività
è stata considerata proprio in questi termini
Sia DCAT che VOID utilizzano altri vocabolari standard del Semantic Web come
dc-terms e foaf.
Open Data Day 2013 – Pubblicazione OD & LOD 5
6. DCAT più in dettaglio
Esempio di catalogo e dataset inDCAT
:catalog a dcat:Catalog ;
dct:title "Imaginary catalog" ;
rdfs:label "Imaginary catalog" ;
foaf:homepage <http://example.org/catalog> ;
dct:publisher :transparency-office ;
dcat:themes :themes ;
dct:language "en"^^xsd:language ;
dcat:dataset :dataset/001 ; .
:dataset/001 a dcat:Dataset ;
dct:title "Imaginary dataset" ;
dcat:keyword "accountability","transparency"
,"payments" ;
dcat:theme :themes/accountability ;
dct:issued "2011-12-05"^^xsd:date ;
dct:updated "2011-12-05"^^xsd:date ;
dct:publisher :agency/finance-ministry ;
dct:accrualPeriodicity "every six months" ;
dct:language "en"^^xsd:language ;
dcat:Distribution :dataset/001/csv ; .
Introduzione all’approccio semantico alla governance IT 6
7. VOID più in dettaglio
Open Data Day 2013 – Pubblicazione OD & LOD 7
8. Mapping CKAN JSON –> DCAT/VOID
Open Data Day 2013 – Pubblicazione OD & LOD 8
CKAN mette a disposizione diversi servizi REST richiamabili tramite URL. In particolare due di questi sono stati usati per ottenere
l’elenco dei dataset di un catalogo e il dettaglio di ogni singolo dataset (esempio con catalogo provincia Roma):
Es. di chiamata per elenco dataset: http://www.opendata.provincia.roma.it/api/rest/package
Es. di chiamata per dettaglio di un dataset: http://www.opendata.provincia.roma.it/api/rest/package/<id_dataset>
JSON di un
dataset
Dataset descritto con DCAT (RDF)
Mapping
JSON/DCAT
9. Tabella di mapping CKAN-JSON -> DCAT
Open Data Day 2013 – Pubblicazione OD & LOD 9
10. Importazione con CKAN2Triples
CKAN2Triples interroga
prima l’url per avere la lista dei dataset di un catalogo : <provider>/api/rest/package
poi per ogni dataset nella lista restituita: <provider>/api/rest/package/<dataset-id>
CKAN2Triples ha un file di configurazione per ogni “provider” che esplicita il mapping fra i
campi dei JSON di risposta e le proprietà ontologiche da generare
Open Data Day 2013 – Pubblicazione OD & LOD 10
Per importare in maniera automatica i meta
dati dei cataloghi e dataset pubblicati su
piattaforma CKAN (Prov. Roma, Toscana e
Piemonte) è stato sviluppato un piccolo tool
con node.js chiamato CKAN2Triples
API
REST
API
REST
API
REST
JSON
JSON
JSON
provinciaRoma.n3
regioneToscana.n3
regionePiemonte.n3
RDF
RDF
RDF
11. CKAN2Triples: esempio di triple prodotte
Open Data Day 2013 – Pubblicazione OD & LOD 11
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/publisher> "Provincia di Roma".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/modified> "2012-07-16T12:22:41.252403".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/created> "2012-07-04T15:44:55.299869".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution>
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.xml>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://purl.org/dc/terms/description> "Popolazione residente nei comuni (anni
2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://rdfs.org/ns/void#format> "xml".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution>
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.csv>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://purl.org/dc/terms/description> "CSV - Popolazione residente nei comuni
(anni 2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://rdfs.org/ns/void#format> "csv".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.tsv>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://purl.org/dc/terms/description> "TSV - Popolazione residente nei comuni
(anni 2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://rdfs.org/ns/void#format> "tsv".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution>
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.xml>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://purl.org/dc/terms/description> "Residenti suddivisi per fasce di
età (anni 2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://rdfs.org/ns/void#format> "xml".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution>
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/ResidentiPerFasciaDiEtaExIta.csv>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://purl.org/dc/terms/description> "CSV Excel Ita - Residenti suddivisi per
fasce di età (anni 2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://rdfs.org/ns/void#format> "csv".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution>
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://www.w3.org/ns/dcat#Distribution>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/ns/dcat#accessURL>
<http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.tsv>.
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://purl.org/dc/terms/description> "TSV - Residenti suddivisi per fasce di
età (anni 2002-2011)".
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://rdfs.org/ns/void#format> "tsv".
12. Pubblicare i meta dati come LOD
I meta dati in formato RDF/DCAT sono poi stati importati dentro un triplestore e resi
accessibili nei seguenti modi:
Interrogabili direttamente via endpoint SPARQL : http://data.opendataday.it/sparql
Consultabile in modalità Linked Data: es. http://data.opendataday.it/page/dati.provinciaRoma
Consultabile in modalità LOD grafica: http://lodlive.it/?http://data.opendataday.it/resource/dati.provinciaRoma
Open Data Day 2013 – Pubblicazione OD & LOD 12
VIRTUOSO
(triplestore)
SPARQL
end-point
PUBBY
(Linked Data Browsing)
LODLive
(LD Browsing grafico)
RDF
RDF
RDF
13. Il portale dei dati censiti
Open Data Day 2013 – Pubblicazione OD & LOD 13
Per vedere i risultati vistate
http://data.opendataday.it
Il portale dell’Open Data Day Italiano
http://opendataday.it/
14. Considerazioni …
Non esiste una piattaforma unica di pubblicazione degli Open Data della PA e quindi neanche un formato
comune di interoperabilità
DCAT e VOID sono vocabolari sufficientemente ricchi e completi per descrivere gli open data e quindi
potenzialmente candidabili come standard
DCAT e VOID devono essere integrati in modo da poter essere uno la generalizzazione dell’altro.
Open Data Day 2013 – Pubblicazione OD & LOD 14
I dati importati si sono dimostrati immediatamente sovrapponibili e
integrabili rispetto ad alcuni tag di classificazione comune:
il tag "turismo" via SPARQL (link alla query)
il tag "università" via Pubby (http://data.opendataday.it/page/tag/universita)
Si possono immediatamente avere alcune metriche rispetto al campione
considerato su:
Numero di dataset pubblicati (link alla query)
Numero di file distribuiti (link alla query)
15. Contributors
Diego Valerio Camarda (Regesta.com)
Infrastruttura del portale http://data.opendataday.it
Homepage del portale http://data.opendataday.it
LODLive
Ideazione e sviluppo CKAN2Triples
Matteo Busanelli (Imola Informatica)
Integrazione DCAT - VOID
Mapping semantico JASON – DCAT/VOID
Configurazione Linked Data Browser tool (Pubby)
Ideazione e sviluppo RSS2RDF_DCAT
Open Data Day 2013 – Pubblicazione OD & LOD 15
16. Riferimenti utili
Open Data Day 2013 – Pubblicazione OD & LOD 16
CKAN: http://ckan.org/
ckan2Triples: https://github.com/dvcama/ckan2triples
data.openadataday.it: http://data.opendataday.it/
DCAT: http://www.w3.org/TR/vocab-dcat/
DCTerms: http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=terms#
FOAF: http://www.foaf-project.org/
Linked Open Data: http://linkeddata.org/
LODLive: http://lodlive.it/
Node.js: http://nodejs.org/
Open Data Day 2013: http://opendataday.org/
Open Data Day Italia 2013: http://opendataday.it/
OWL: http://www.w3.org/TR/owl-features/
Pubby: http://wifo5-03.informatik.uni-mannheim.de/pubby/
RDF: http://www.w3.org/RDF/
SPARQL: http://www.w3.org/TR/rdf-sparql-query/
Virtuoso: http://virtuoso.openlinksw.com/
VOID: http://www.w3.org/TR/void/