Incontro del 15/10/2018
Un'unica strada ci porta solo a luoghi tra due località; il valore reale delle strade deriva dall'essere parte di una rete. I dati funzionano allo stesso modo: non è solo avere più dati che ne abilita il valore, ma anche collegarli tra loro” riporta l’autorità di statistica inglese.
A oggi, sempre più realtà industriali strutturano dati attraverso standard del web semantico (linked data). Basti pensare a Google e al suo “knowledge graph” largamente utilizzato e costruito sull’ontologia schema.org, conforme alla specifica JSON-LD.
E nel settore pubblico?
La presentazione mira a illustrare OntoPiA – la rete di ontologie e vocabolari controllati della pubblica amministrazione italiana. La rete fornisce gli schemi per creare e interrogare il knowledge graph della pubblica amministrazione, consentendo anche il suo collegamento nel web dei dati. Verranno presentati sia la metodologia adottata per la creazione di OntoPiA sia il processo di costruzione del knowledge graph, basato su OntoPiA, attraverso il Data & Analytics Framework (DAF) realizzato dal Team per la Trasformazione Digitale.
Speaker: Giorgia Lodi
Link video: https://youtu.be/B3dM_WMPi2Q
Costruiamo un motore di raccomandazione con Neo4J - Workshop 25/1/2018
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
1. OntoPiA e il knowledge Graph della
Pubblica Amministrazione Italiana
Giorgia Lodi
Meetup #AperiTech di GraphRM
2. Data is a network
“A single road only takes us to places between two locations; roads real value
comes from being part of a network. Data works in the same way: it is not just
having more data that unlocks its value, but linking it together. Data is not
individual datasets, it is a network”
2
3. Standard del Web Semantico
3
Href link non tipato)
Risorse: Documenti Web
HTML con link non tipati (href)
4. Standard del Web Semantico
4
E se facessimo la stessa cosa con i dati?
Href link non tipato)
Risorse: Documenti Web
HTML con link non tipati (href)
7. Standard Web Semantico: RDF
7
• Un modello per I dati nel web dove I dati sono espressi sottoforma di Triple
• Soggetto Predicato Oggetto
• Ogni entità è identificata univocamente da un URI (Uniform Resource Identifier)
• Il Soggetto e il Predicato hanno sempre un URI
• L’Oggetto può anche essere un valore predefinito (Literale)
• Le triple sono interconnesse quando condividono la stessa entità
• Il risultato è un grafo interconnesso di triple (Linked Data)
dpedia:Rome
dbpedia:Italy
dbpedia:country foaf:homepage
“Roma”
http://www.italia.it/en/home.html
Potete provare a navigare
http://dbpedia.org/page/Rome
8. Vantaggi dell’RDF
• E’ un modello di rappresentazione dei dati pensato per il Web
• E’ basato su standard del Web
• Consente nativamente di abilitare l’integrazione tra I dati
• Fornisce un meccanismo per risolvere l’identitià delle cose
• Nativamente fornisce meccanismi per garantire
interoperabilità semantica
• E’ usato insieme al linguaggio per interrogare I dati (i.e.,
SPARQL)
• I dati sono così associati a delle API che facilitano
l’interrogazione da parte delle macchine
14. Da dove iniziare?
Nel 2012 AgID
pubblicava le linee
guida per
“Interoperabilità
semantica
attraverso I Linked
Open Data”
15. OntoPiA – la rete di ontologie e
vocabolari controllati della Pubblica
Amministrazione
Meetup #AperiTech di GraphRM
16. 16
Cos’è OntoPiA e a cosa serve
• Definisce un linguaggio comune per l’interscambio di dati
(interoperabilità semantica)
• Definisce un modello formale, elaborabile da dispositivi digitali e
leggibile da umani (i.e., superamento della logica delle specifiche
scritte in soli file PDF!)
• Apre la strada alla creazione di dati nativamente collegati, i.e.,
fornisce gli schemi dati per creare, interrogare il “grafo della
conoscenza” (knowledge graph) della PA italiana
17. • ONTOLOGIA: una specifica formale ed
esplicita di rappresentazione
(concettualizzazione) condivisa di un
dominio di conoscenza, definita sulla
base di requisiti specifici
• VOCABOLARIO CONTROLLATO: una serie
di termini e codici standard predefiniti e
autorizzati, preselezionati al fine di
indicizzare e recuperare informazioni
.
17
17
OntoPiA- rete di ontologie e vocabolari controllati
18. 18
FACILITARE LO SVILUPPO
DI NUOVI SISTEMI
INFORMATIVI
AGEVOLARE LO SCAMBIO DI
DATI
ABILITARE L’INTEGRAZIONE
TRA DATI PROVENIENTI DA
SORGENTI DIVERSE
STANDARDIZZAZIONE DEI
DATI (APERTI)
OntoPiA – perché?
19. 19
OntoPiA e i principi del modello FAIR
• Findable: si usano URI permanenti per identificare concetti e relazioni
nella rete di ontologie e termini nei vocabolari controllati
• Accessible: si utilizzano protocolli standard aperti per l’accesso sul
Web (i.e. HTTP(S)) and per l’interrogazione dei dati (i.e. SPARQL)
• Interoperable: si utilizzano protocolli standard aperti per modellare i
dati i.e. RDF e OWL
• Reusable: tutte le ontologie e i vocabolari controllati sono pubblici,
rilasciati secondo una licenza aperta (CC-BY 4.0) e sono collegati ad
altre ontologie standard (de facto) disponibili nel Web dei Dati
20. Più serializzazioni disponibili
RDF/XML, RDF/turtle, JSON-LD
URI in inglese e persistenti – uso di w3id.org
https://w3id.org/italia/onto/… , https://w3id.org/italia/controlled-vocabulary/…
https://w3id.org/italia/data/….
Riuso indiretto di ontologie esistenti
Multilinguismo (etichette e descrizioni in ITA e ENG)
Navigazione html delle ontologie e dei vocabolari e interrogazione via
SPARQL
http://ontopia.daf.teamdigitale.it/sparql
o
Agile eXtreme Design, Ontology Design Pattern
F
A
I
R
OntoPiA - Principi
21. .
21
21
OntoPiA – Approccio tecnico in a nutshell
Vocabolari
controllati
Ontologie Profilo
Applicativo
Italiano
(AP_IT)
Classe Proprietà
Restrizione
Concetto
Ontologie e vocabolari controllati esterni del Web Semantico
Allineamenti esterni (aligns)
Componente
Ontologia
coinvoltaIn
associataA
importa
closeMatch, exactMatch,
relatedMatch, sameAs
importa
subClassOf, subPropertyOf, equivalent*
25. .
25
25
L’attuale OntoPiA in numeri
25 ONTOLOGIE PUBBLICATE 1 IN FASE DI SVILUPPO
2 IN FASE DI REVISIONE 2 ONTOLOGIE PER METADATI
264 CLASSES
22 VOCABOLARI CONTROLLATI
1 MAPPING TRA DUE VOCABOLARI CONTROLLATI
~10800 AXIOMS
26. 26
OntoPiA-UI
Navigazione
HTML via LODE
(open source)
Navigazione HTML
via LodView
(open source) Interrogazione
machine-to-machine
via SPARQL endpoint
Visualizzazione
grafica (WebOWL)
https://github.com/italia/OntoPiA-UI
28. • COLLABORAZIONE CON CENTRI DI RICERCA
STLab – Semantic Technologies Laboratory del CNR, Sapienza
Università di Roma
• COLLABORAZIONE CON PUBBLICHE AMMINISTRAZIONI
e.g.,ISTAT, MIBAC, Regione Piemonte, ANAC, Comuni di
Palermo e Udine, Provincia Autonoma di Trento
• COINVOLGIMENTO DEGLI UTENTI FINALI
Disponibile su Github: chiunque può SEMPRE commentare e/o
proporre cambiamenti e correzioni
https://github.com/italia/daf-ontologie-vocabolari-controllati
.
28
28
OntoPiA- coinvolgimento PA e utenti
29. OntoNetHub
• Un’applicazione web implementata per la gestione della rete di
ontologie
• Consente operazione di caricamento, cancellazione e
indicizzazione degli elementi delle ontologie della rete
• Progettata come estensione di Apache Stanbol e rilasciata come
container Docker
https://github.com/teamdigitale/ontonethub
30. OntoPiA – chi la usa
• DAF - Catalogo ontologie e vocabolari
controllati
• DAF semantic tagging
• Harvesting di metadati
• Alcuni interessanti riusi da PA e Aziende
30
31. DAF – Data & Analytics Framework
Meetup #AperiTech di GraphRM
32. DAF – Data & Analytics Framework
• Sistema legale
• presupposti normativi alle attività di valorizzazione del patrimonio informativo
pubblico, preservando la privacy
• Gruppo di specialisti (data scientist + data engineer)
• disegna la strategia, usa ed evolve la piattaforma
• analizza i dati, creando storie e data application
• supporta le PA
• Piattaforma Nazionale Digitale dei Dati
• conserva, integra e standardizza i dati delle PA
• Implementa meccanismi di apprendimento automatico
• Redistribuisce dati (API) e li visualizza (portale dei dati)
33. Data & Analytics Framework
https://dataportal.daf.teamdigitale.it/
35. 35
35
Federazione di cataloghi usando OntoPiA
35
Ministero Beni e Attività culturali
http://dati.beniculturali.it/
Regione Toscana – piattaforma CKAN
http://dati.toscana.it/catalog.rdf Comune di Palermo – piattaforma
proprietaria
https://opendata.comune.palermo.it/
dcat/dcat.php
DCAT-AP_IT – estensione
per CKAN implementata
sull’ontologia di
metadatazione di OntoPiA
Uso del vocabolario
controllato delle licenze
DAF
36. Creare il knowledge graph dal DAF –
Data & Analytics Framework
Meetup #AperiTech di GraphRM
42. Primi risultati preliminari
• Linked Open Data dell’archivio storico dei comuni utilizzando 3 dataset
• Tabella dei Comuni ANPR (storico) – file principale
• Dataset degli ultimi Comuni d’Italia di ISTAT
• Dataset dell’archivio storico dei Comuni
Il dataset finale è modellato secondo l’ontologia CLV-AP_IT (Core Location
Vocabulary – Italian Application Profile)
• Linked Open Data preliminari dell’Indice della Pubblica Amministrazione
• Il Dataset è collegato al precedente
Il dataset è modellato secondo l’ontologia COV-AP_IT (Core Organization
Vocabulary – Italian Application Profile)
Non ancora pubblicati nello SPARQL endpoint - nelle prossime settimane
43. 43
43
Attuali e futuri lavori
SVILUPPO ONTOLOGIE
Stabilizzazione di alcune ontologie
Definizione di nuove sulla base degli ecosistemi del piano triennale
Definizione della documentazione online
PRODUZIONE E PUBBLICAZIONE DEI LINKED (OPEN) DATA
Produzione di altri Linked Open Data per estendere l’attuale knowledge
graph
SVILUPPO CATALOGO ONTOLOGIE
Abilitare la ricerca generale e per singoli elementi delle ontologie, in
quest’ultimo caso via indicizzatore già disponibile OntonetHub