1. IASUMMIT 2007
Trento, 16-17/11/2007
Catalogazione, inferenza di
conoscenza, semantica ed
uso di ontologie
Carlo Batini, Matteo Palmonari,
Gialuigi Viscusi / Riccardo Grosso
Universita’ di Milano Bicocca / CSI Piemonte
2. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Indice
Storia dell’esperienza CSI nella catalogazione
metadati (infodir, sitad)
Il passaggio al “nuovo infodir” modello “facet-based”
Origine delle tassonomie, metadati e ontologie
Navigazione di infodir mediante uso di ontologie
Sperimentazione con metodi e tool per la mappatura
di schemi concettuali PA con schemi logici delle basi
dati catalogate (in collaborazione con l’universita’ di
Milano Bicocca )
Estensioni di Infodir
16-17/11/2007
2
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
4. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Il CSI-Piemonte:
consorzio pubblico regionale
con organizzazione privatistica
Fondato nel 1977 da:
Universita’ di Torino
Politecnico di Torino
4
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
5. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Il CSI-Piemonte, come corpo ICT della Pubblica Amministrazione Locale piemontese,
gestisce una grande quantita’ di dati, sia alfanumerici che geografici, che insieme
rappresentano una biblioteca di descrizioni dettagliate del patrimonio regionale dei dati
16-17/11/2007
5
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
6. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Information Directory
Infodir e’ il catalogo dei metadati delle istituzioni PA
locali
Infodir contiene informazioni correlate a dati,
applicazioni, componenti e prodotti dei seguenti enti
principali ed altri:
Regione Piemonte
Provincia di Torino
Comune di Torino
6
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
7. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Il catalogo puo’ essere navigato per:
Istituzione (Organizzazione)
Statistica (classificazione ISTAT)
Tematismo trasversale
Novita’ (dal meno recente al piu’ recente)
Ricerca libera
Ricerca per parole (vocabolario di lemmi)
Ricerca avanzata (con l’uso di criteri SQL di uguaglianza e/o
somiglianza)
7
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
8. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
L’oggetto cardine del catalogo metadati è la
collezione, intesa come tralcio del grappolo di
metadati ad essa associato, costituito da:
Data base
• Tavole (componenti informative, archivi)
– Attributi
Applicativi
• Componenti
8
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
10. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Ad inizio 2007 è stata rilasciata una nuova versione di
Information Directory che supera alcuni limiti architetturali del
vecchio infodir nato nel 1999.
Esso è stato infatti generalizzato e potenziato, nonchè condiviso
tra le 3 principali pubbliche amministrazioni piemontesi (Regione,
Città e Provincia di Torino), e riconosciuto come “il nuovo
infodir”.
Il nuovo infodir annovera tra le sue principali caratteristiche le
seguenti:
10
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
11. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Caratteristiche principali:
backend decentrato (data stewardship) presso i centri di
competenza per materia presenti in CSI e presso gli enti
viste separate e viste condivise dei metadati, sia di business
che tecnici
oggetti generalizzati
modello dimensionale o facet-based (a faccette e focus)
classificazioni dinamiche, ovvero tassonomie, generalizzate,
ed associabili a criteri di text mining che permettono di
classificare automaticamente gli oggetti via via censiti
search, browse e ricerche avanzate tra loro intersecabili
11
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
13. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Classificazione automatica in infodir
Nella migrazione di una delle tassonomie previste, si
e’ fatto un esperimento di text mining
Clusterizzando gli oggetti in automatico classificandoli
nella vecchia tassonomia
Confrontando i risultati automatici con quelli manuali
dati dagli oggetti classificati manualmente nella
vecchia tassonomia
Usando i risultati del confronto per affinare gli
algoritmi automatici
Usando infine gli algoritimi automatici affinati
applicandoli alla nuova tassonomia e migrando in
automatico gli oggetti
Chiedendo ai power-user di verificare la migrazione
risparmiando loro manualita’
13
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
14. 16-17/11/2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Searching & Browsing in infodir
Le ricerche sono possibili partendo indifferentemente
da searching e da browsing di:
Tassonomie
Tipi di oggetto
Partendo ad esempio da un search, posso affinare la
ricerca per
Tassonomia
Tipo di oggetto
Singolo metadato (ad esempio fase)
Di seguito si mostra una sequenza di screenshot di
esempio
14
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
19. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Metadati e ontologie: finalità
Per valorizzare il patrimonio di metadati censiti, a supporto di
Infodir è stata sperimentata una metodologia, implementata in un
tool, che fa uso di ontologie “leggere”.
In particolare, la metodologia sfrutta tassonomie derivate dalle
gerarchie di generalizzazione di un’ontologia della conoscenza
gestita dalle pubbliche amministrazioni centrali (PAC).
La metodologia e il tool hanno come principali obiettivi:
fornire nuovi metadati che arricchiscano le tassonomie esistenti
attraverso un processo matching supportato da criteri di somiglianza
(implementati nel tool come criteri ‘like’ di SQL) tra
• i nomi degli elementi presenti nelle tassonomie PAC
• i nomi degli elementi estratti dalla nuove sorgenti informative.
Sfruttare le tassonomie PAC e i constraints presenti nelle strutture
delle basi dati logiche censite per strutturare il patrimonio di
metadati estratto dalla nuove sorgenti informative (abilitando
un’attività di Data Reverse Engineering).
16-17/11/2007
19
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
20. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Ontologie “leggere” e ontologia PAC
L’ontologia PAC è stata costruita a partire da un insieme di schemi
concettuali relativi alla PAC, integrati/astratti a diversi livelli, e dalle
gerarchie di generalizzazione definite dal livello di
integrazione/astrazione degli schemi.
Ciascuno schema contiene:
• Entità e attributi
• Gerarchie di generalizzazione Is-A
• Relazioni tra entità
Relazioni interschema definiscono le relazioni di generalizzazione tra
concetti e i rapporti tra i diversi schemi
Le ontologie “leggere” di infodir sono costituite da :
Entità e attributi
Relazioni tra entità
Gerarchie di generalizzazione
16-17/11/2007
20
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
21. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Duplice uso delle ontologie in infodir
Ontologie in infodir usate in duplice senso:
16-17/11/2007
1. Creazione di tassonomie di concetti di rilievo per le PA a
supporto della navigazione e del recupero delle informazioni
presenti nelle basi di dati locali
2. Estrazione di conoscenza da schemi logici di basi di dati
locali, con inferenza di ontologie specifiche relative a tali
basi di dati
21
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
23. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Inferenza di Supertipi di Entità PAL
Riutilizzando la tassonomia derivata dall’ontologia PAC sono stati
derivati supertipi di entita’ degli schemi logici delle basi di dati locali
Mapping dinamici tra concetti della tassonomia PAC e entita’ degli schemi
logici delle basi PAL
Utilizzo di tali mapping per per recuperare concetti e informazioni delle
basi di dati PAL
Sono stati ottenuti 261 supertipi specializzati per tematica di business (ad
es. Imprese) riguardanti principalmente:
• La tematica di business “Imprese”
• La gerarchia “soggetto”
• La gerarchia “bene”
• La gerarchia “documento”
• La gerarchia “geografia” (luogo, urbanistica, territorio)
Ciascun livello delle singole tassonomie ha associato un criterio di
16-17/11/2007
somiglianza che “pesca” dai metadati descrittivi tecnici delle
componenti delle basi dati (tavole, campi).
23
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
24. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Risultati
In questo modo è possibile ricondurre concetti molto
specifici di dominio a concetti più astratti quali
Soggetto, Documento, Proprietà, Luogo e utilizzare
criteri di ricerca più intuitivi per l’utente.
Questa tecnica di inferenza tassonomico-ontologica
16-17/11/2007
attuata su infodir, consente, per ogni singolo concetto
della PA, di verificare in quali basi dati questo
concetto e’ fisicamente istanziato, come e’ correlato o
correlabile sia top-down che bottom-up.
24
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
26. Sperimentazione con metodi e tool per la
mappatura di schemi concettuali PA con schemi
logici delle basi dati catalogate (in
collaborazione con l’universita’ di Milano
Bicocca )
27. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Utilizzo dell’ontologia PAC per la costruzione di ontologie specifiche PAL
Per incrementare e valorizzare il patrimonio esistente di
metadati, abbiamo quindi sperimentato tali vie metodologiche e
progettuali, per permettere poi lo sviluppo di un tool per la
creazione di uno schema repository
E’ stato preso come riferimento il repository della PA centrale
(realizzato alcuni anni or sono), con l’obiettivo di costruirne uno
specifico per la PA locale piemontese, fondato sulle similitudini
concettuali dei due diversi livelli di PA
In CSI abbiamo ideato e realizzato metodo e tool grazie ad una
collaborazione molto importante con il professor Carlo Batini
dell’Universita’ di Milano Bicocca, che ringrazio pubblicamente di
cuore, depositario degli schemi concettuali PA centrale rilevati in
passato. Con Manuel Garasi abbiamo realizzato il tool che
implementa il metodo.
16-17/11/2007
27
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
28. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Tipi di conoscenza estratta a partire dagli schemi logici locali
La metodologia sfrutta due approcci principali:
16-17/11/2007
Approccio top-down (a partire da ontologie PAC):
• Entità affini a concetti delle ontologie PAC e loro attributi
• Gerarchie IS-A tra entità (inferenza super-tipi)
• Relazioni tra entità
Approccio bottom-up (a partire da tabelle PAL):
• Relazioni tra entità
28
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
29. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Gerarchie di generalizzazione, Constraints e ontologie
Si sfruttano le relazioni tra le tassonomie/gerarchie, ad esempio:
cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico,
tributo elemento della gerarchia bene)
per inferire dall’alto al basso relazioni tra gli oggetti censiti
Con questi metodi abbiamo creato numerose ontologie.
Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di
16-17/11/2007
loro dei constraints, forniscono inferenza dal basso all’alto, quindi
relazioni, tra gli elementi delle tassonomie/gerarchie.
29
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
30. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Subject
Physical
subject/ person
“Good”
Juridical
person/
legal entity
pay
Tax/Tribute
Citizen
like “cittadin”
like “tribut”
CONCETTUALE
FISICO
DATA BASE
NOME,DESC
CAMPO
NOME,DESC
TAVOLA
16-17/11/2007
(Da 1 database recupero N concetti)
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
30
31. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Agricolture
Breeding
Health
Sheep
farming
Vaccination
Bovine
Text mining retrieval
CONCETTUALE
FISICO
DATA BASE
NOME,DESC
CAMPO
NOME,DESC
TAVOLA
16-17/11/2007
(Da 1 database recupero N concetti)
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
31
33. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Estensioni future: verso uno strumento semantico integrato
Verso infodir come strumento semantico integrato:
Estendere l’approccio proposto alla navigazione delle basi
integrate di conoscenza nell’ambito del Web
Fornire strumenti di navigazione di arbitrari oggetti disponibili via
web (dati semi-strutturati, non strutturati e multimediali), sfruttando
l’ontologia creata
Fornire strumenti di navigazione non basati solo su tassonomie
ma su mappe concettuali più estese sfruttando la natura
ontologica dei modelli creati
Arricchimento della semantica delle ontologie utilizzate per
16-17/11/2007
supportare tecniche di ragionamento più sofisticato
33
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
34. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Subject
Physical
subject/ person
“Good”
Juridical
person/
legal entity
pay
Tax/Tribute
Citizen
Text mining retrieval
CONCETTUALE
FISICO
PORTALE
Oggetti del
portale
16-17/11/2007
Metadati testuali
degli oggetti
34
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
35. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Agricolture
Breeding
Health
Sheep
farming
Vaccination
Bovine
Text mining retrieval
CONCETTUALE
FISICO
PORTALE
Oggetti del
portale
16-17/11/2007
Metadati testuali
degli oggetti
35
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
36. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Analizzando i risultati delle nostre sperimentazioni, ed
16-17/11/2007
altre soluzioni presenti sul web e descritte in
letteratura, e’ possibile classificare le
soluzioni
ontologico-semantiche in livelli, precisando che il
numero di livello crescente NON vuole essere indice
di miglior soluzione:
1 livello ne’ ontologico ne’ semantico
2 livello solo ontologico
3 livello solo semantico
4 livello ontologico e semantico
36
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
37. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
1 livello ne’ ontologico ne’ semantico
sviluppare la navigazione tassonomica sotto forma di
mappe concettuali, come in questo esempio (
http://oasisvilweb01.csi.it/RelationBrowser/
RelationBrowser.html ).
Tale livello per cosi’ dire "alla moda" e' solo un altro
modo di vedere rappresentata una tassonomia con i
suoi oggetti collegati, non aggiunge nulla in termini di
intelligenza
16-17/11/2007
37
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
38. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
2 livello solo ontologico:
http://www.diviana.net
http://arianna.diviana.net/Arianna/default.asp
3 livello solo semantico
16-17/11/2007
http://www.expertsystem.net/
38
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
39. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
4 livello ontologico e semantico
ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in
16-17/11/2007
base a criteri di somiglianza cerco nel portale gli oggetti che
somigliano alle entita' dello schema. Con un esempio, se dico
cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e
quelli che somigliano a tributo, sfrutto la relazione che gia'
conosco (paga) e metto in relazione le 2 famiglie di oggetti.
Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle
basi dati insieme al professor Batini (vedi ad esempio
http://www.iseing.org/egov/eGOV05/Source%20Files/Papers
/CameraReady-7-P.pdf ).
39
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
40. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
4 livello ontologico e semantico
In tali sperimentazioni descritte e' l'ontologia che prevale sulla
semantica, cioe' ho delle ontologie ricche e della semantica
povera (criteri sql like, gerarchie di generalizzazione)
La semantica povera non e’ sufficientemente bilanciata rispetto
alle ontologie, cioe’ non riesce ad arricchire ulteriormente
quest’ultime.
E’ necessario creare meccanismi di autoapprendimento dove i
16-17/11/2007
criteri semantici piu’ sofisticati “creano” o perfezionano le
ontologie esistenti.
40
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
41. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
4 livello ontologico e semantico
In altre parole un portale ontologico-semantico
16-17/11/2007
generalizzato, ovvero un qualcosa che ha nella parte
alta le ontologie, e nella parte bassa gli oggetti dei
portali. Le ontologie a disposizione guidano la parte
bassa, ma anche la parte bassa con opportune
inferenze induttive (vedi Cogito) e' in grado di
"apprendere" nuove ontologie da regalare alla parte
alta.
41
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
42. Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
Grazie... Domande?
"'Carlo Batini'" batini@disco.unimib.it
"Matteo Palmonari" matteo.palmonari@disco.unimib.it
"'Gianluigi Viscusi'" viscusi@disco.unimib.it
Riccardo.Grosso@csi.it
16-17/11/2007
42
C.Batini,M.Palmonari,G.
Viscusi/R.Grosso
IASUMMIT 2007
Hinweis der Redaktion
CSI-Piemonte (Consortium for Information Systems) was founded in 1977 as “Consorzio Piemontese per il trattamento automatico dell'informazione” (Piedmont Consortium for Automatic Information Processing and Management), before changing to its current name in 1981.
Two regional laws provided the basis for the public nature of the Consortium:
law no. 48 dated September 4, 1975 ("Incorporation of the Consortium")
law no. 13 of March 15, 1978 ("Definition of relations between Region and Consortium").