Andrea Gazzarini "Linked Data in Practice: risorse, strumenti ed utilizzi"

Copyright 2009-2010 @CULT. All rights reserved
Practical Linked Data
Risorse, strumenti, utilizzi
Andrea Gazzarini
Software Architect, @Cult
Convegno Stelline 2015
Sala Chagall – Milano
13 marzo 2015
c
c
c

Andrea Gazzarini
Software Architect, @Cult
Convegno Stelline 2015 - 13 marzo 2015
http://www.atcult.it
http://people.apache.org/map.html?person=agazzarini
https://twitter.com/agazzarini
https://www.linkedin.com/in/andreagazzarini
http://andreagazzarini.blogspot.it
https://github.com/agazzarini
http://www.slideshare.net/AndreaGazzarini
https://www.packtpub.com/big-data-and-business-intelligence/apache-solr-essentials

Copyright 2009-2010 @CULT. All rights reserved 3
Linked Open Data

BioPortal
BioPortal [1] è un portale che fornisce servizi di ricerca, browsing, annotazione,
mappatura su un dataset di ontologie di dimensioni rilevanti .
Tutte le informazioni ed i servizi sono consultabili tramite l'interfaccia grafica del portale e tramite servizi REST [2].
Tra i servizi offerti troviamo:
●
Browsing: consultazione delle ontologie presenti nel database;
●
Search: ricerca full text (“semplice” ed “avanzata”);
●
Mapping: relazioni tra termini in differenti ontologie;
●
Recommender: proposizioni di ontologie da utilizzare a partire da un testo;
●
Annotator: annotazione automatica, all'interno di un testo, dei termini censiti all'interno delle ontologie.
[1] http://bioportal.bioontology.org
[2] http://www.bioontology.org/wiki/index.php/NCBO_REST_services

Linked Life Data (1/3)
Linked Life Data [1] è un Data-As-A-Service (DAAS) che fornisce l'accesso pubblico
ed unico a 25 database biomedici.
Sono previste due modalità di fruizione [2]: gratuita ed a sottoscrizione. Quest'ultima prevede
servizi aggiuntivi come ad esempio accesso via HTTPS, nessun limite di ricerche al minuto,
maggiore frequenza negli aggiornamenti.
Oltre ad uno SPARQL endpoint [3], per l'integrazione machine-to-machine, il portale offre
anche una interfaccia di ricerca [4] che include funzionalità tipiche dei motori fulltext, quali
autocompletamento, faceted search, ricerca semplice ed avanzata.
[1] http://linkedlifedata.com/about
[2] http://linkedlifedata.com/about#linked-life-data
[3] http://linkedlifedata.com/sparql
[4] http://linkedlifedata.com/search/quick

Esempio di SPARQL: selezione del gene “TP53” e dei suoi legami all'interno
dell'ontologia GeneOntology.
PREFIX psys: <http://proton.semanticweb.org/2006/05/protons#>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX gene: <http://linkedlifedata.com/resource/entrezgene/>
SELECT ?gene ?go
WHERE {
?gene rdf:type gene:Gene;
?gene:geneSymbol "TP53" .
?gene:goTerm ?go .
}

Bio2RDF
Bio2RDF [1] è un progetto open-source che utilizza le tecnologie del Web
Semantico per costruire e fornire una rete di risorse Linked Data afferenti al dominio
delle scienze biomediche.
I dataset [2] presenti sono consultabili e posso essere prelevati per un utilizzo su una propria
applicazione.
Il progetto mette inoltre a disposizione uno SPARQL endpoint [3] interrogabile,
presumibilmente con limiti di utilizzo (non riportati all'interno del sito).
[1] http://bio2rdf.org
[2] http://download.bio2rdf.org/release/3/release.html
[3] https://github.com/bio2rdf/bio2rdf-scripts/wiki/Query-repository

DBPedia
DBpedia è un progetto aperto e collaborativo per l’estrazione e il riutilizzo di
informazioni semanticamente strutturate da Wikipedia.
Oltre alla fruizione dei dati tramite export o SPARQL endpoint, il progetto, all'interno del suo portale,
racchiude numerose risorse e progetti legati al mondo dei Linked Data (e.g. faceted browsers,
Natural Language Processing, strumenti di disambiguazione)
Fornisce uno SPARQL endpoint pubblico e gratuito, soggetto a delle limitazioni d'uso.
I dump dell'intera base dati sono disponibili e pertanto possono essere prelevati e memorizzati in un
RDF store proprio.
[1] http://www.dbpedia.org

DBPedia Spotlight
Spotlight [1] è uno strumento in grado di riconoscere all'interno di un testo le
risorse censite in Dbpedia. Rappresente una soluzione semplice ed efficace
per classificazione o estrarre entità da contenuti testuali non strutturati.
Il team di sviluppo di Spotlight ha creato una applicazione web [2] dove è possibile provare le
funzionalità di annotazione e disambiguazione su dei testi inseriti manualmente.
Per utilizzi in scenari reali, Spotlight è mette a disposizione un Web Service [3] online, con delle
limitazione d'uso; è possibile inoltre prelevare il software ed installarlo su un proprio server [4].
[1] https://github.com/dbpedia-spotlight/dbpedia-spotlight
[2] http://dbpedia-spotlight.github.io/demo
[3] https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Web-service
[4] https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Installation

VIAF
Il Virtual International Authority File [1] è un progetto internazionale
promosso dalla Library of Congress e dalla Deutsche Nationalbibliothek,
attualmente sostenuto dall'Online Computer Library Center (OCLC), che ha
l'obiettivo di costituire un'unica base dati di voci di autorità controllate dove il
servizio di ricerca delle entità (authority record) può essere effettuato
dall'utente utilizzando forme e terminologie native (e.g. lingua, scrittura,
alfabeto).
Non è presente al momento uno SPARQL endpoint, ma i dump prodotti periodicamente sono
disponibili [2] sotto licenza ODC http://opendatacommons.org/licenses/by/1.0
Questo significa che oltre alla consultazione, eventuali servizi di integrazione con le proprie
applicazioni devono essere realizzati importando i dati “in casa propria”.
[1] http://viaf.org
[2] http://viaf.org/viaf/data

ALIADA (1/2)
L'obiettivo del progetto ALIADA [1] è la realizzazione di una pipeline di
gestione, conversione e pubblicazione automatica dei dati di istituzioni
appartenenti al mondo dei beni culturali.
Il progetto, approvato e finanziato dall'Unione Europea nell'ambito del Seventh Framework
Programme for Research (FP7) prevede la partecipazione di cinque partner dislocati in tre diverse
nazioni (Spagna, Italia ed Ungheria)
Il piano di progetto prevede un ciclo di implementazione, suddiviso in differenti iterazioni, che
terminerà nella seconda metà del 2015.
Il software è open source, licenziato sotto GPL V3, e di conseguenza prelevabile [2] gratuitamente.
[1] http://aliada-project.eu
[2] https://github.com/ALIADA/aliada-tool

ALIADA (2/2)
http://camel.apache.org
http://www.enterpriseintegrationpatterns.com

Proof of Concept
L'obiettivo del POC è quello di combinare una serie di strumenti / tecnologie che, a
partire dal dato bibliografico, espresso in formato MARC, permettano la creazione
e la gestione, in maniera efficace ed efficiente, di una base dati semantica con
collegati una serie di servizi di fruizione aventi lo scopo di aumentare il livello di
qualità dell'esperienza di ricerca utente in termini di :
●
Correttezza: affidabilità e pertinenza dei risultati restituiti;
●
Significatività: aderenza dei risultati rispetto agli obiettivi;
●
Capacità informativa: legami con altre risorse

Il dato di partenza: Le avventure di Pinocchio
000 00694nam a2200241 i 4500
008 971205s1997 it j 000 0 ita c
020 a 880921191X
082 1 a 853.8
100 1 a Collodi, Carlo.
245 13 a Le avventure di Pinocchio /
c C. Collodi ; illustrazioni di Attilio Mussino.
260 a Firenze :
b Giunti,
c 1997.
440 0 a Collana favolosa / [Giunti]
521 a Letteratura per ragazzi
700 1 a Mussino, Attilio.

Pipeline di conversione
INPUT
OUTPUT
INPUT I record MARC da processare
OUTPUT I dati convertiti in accordo alle caratteristiche di ciascuno store

Pinocchio nell'RDF Store
<bibo:Book rdf:about="http://www.cbt.trentinocultura.net/biblio/000002577949">
<dcterms:identifier>000002577949</dcterms:identifier>
<bibo:isbn10>880921191X</bibo:isbn10>
<dcterms:shortTitle>Le avventure di Pinocchio</dcterms:shortTitle>
<dcterms:title>
Le avventure di Pinocchio / C. Collodi ; illustrazioni di Attilio Mussino
</dcterms:title>
<dc:creator rdf:resource="http://www.cbt.trentinocultura.net/person/collodi_carlo"/>
<dcterms:language>ita</dcterms:language>
<dcterms:audience rdf:resource="http://www.cbt.trentinocultura.net/subject/opera_per_bambini"/>
<dcterms:isPartOf rdf:resource="http://www.cbt.trentinocultura.net/biblio/2378129373323" />
<dcterms:extent>186 p.</dcterms:extent>
<isbd:hasPlaceOfPublicationProductionDistribution>
Firenze
</isbd:hasPlaceOfPublicationProductionDistribution>
<dcterms:issued>1997</dcterms:issued>
<dcterms:publisher rdf:resource="http://www.cbt.trentinocultura.net/organisations/giunti"/>
</bibo:Book>
<foaf:Person rdf:about="http://www.cbt.trentinocultura.net/person/collodi_carlo">
<foaf:name>Collodi, Carlo</foaf:name>
</foaf:Person>
<foaf:Organization rdf:about="http://www.cbt.trentinocultura.net/organisations/giunti">
<foaf:name>Giunti</foaf:name>
</foaf:Organization>

Pinocchio all'interno dell'inverted index (1/2)
Le avventure di Pinocchio
Le avventure di Pinocchio
avventure Pinocchio
avventure pinocchio
avventur pinocchio
ATFN PNX
Tokenization
Stopwords
Lowercase
Stemming (light)
Fonemi (!)
Le di

Pinocchio all'interno dell'inverted index (2/2)
ATFN PNX
KRL KLT

In pratica... (1/2)

In pratica... (2/2)
Autocompletamento
Faccette

Silk Framework (1/2)
Silk Framework [1] è un progetto open source, coordinato dall'Università di
Mannheim, e serve per collegare dataset diversi tra di loro (interlinking).
Il progetto, disponibile sotto licenza Apache Version 2.0, può essere prelevato gratuitamente.
Mette a disposizione uno strumento grafico per creare le regole di interlinking ed istruire così il
sistema durante la ricerca dei legami.
Una delle caratteristiche fondamentali è la possibilità di effettuare un tuning incrementale delle regole
di matching che determinano l'equivalenza di due entità.
[1] http://wifo5-03.informatik.uni-mannheim.de/bizer/silk

Aggiungiamo Silk
INPUT
OUTPUT
</foaf:Person>
<owl:sameAs rdf:resource=”http://dbpedia.org/resource/Carlo_Collodi”/>
</foaf:Person>

Utilizzo pratico: Informazioni sull'Autore

Utilizzo pratico: Informazioni sull'Editore

Utilizzo pratico: Nuovo Soggettario

Utilizzo pratico: Informazioni sui luoghi

Practical Linked Data
Risorse, strumenti, utilizzi
Grazie!
Convegno Stelline 2015
13 marzo 2015
c
c
c

Andrea Gazzarini "Linked Data in Practice: risorse, strumenti ed utilizzi"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (7)

Ähnlich wie Andrea Gazzarini "Linked Data in Practice: risorse, strumenti ed utilizzi"

Ähnlich wie Andrea Gazzarini "Linked Data in Practice: risorse, strumenti ed utilizzi" (20)

Mehr von GIDIF-RBM

Mehr von GIDIF-RBM (13)

Andrea Gazzarini "Linked Data in Practice: risorse, strumenti ed utilizzi"