Presentazione marco giannone240607

Università degli studi Roma Tre

Corso di Laurea Magistrale in
Ingegneria Informatica

UA Service Provider – Un service provider OAI per la raccolta di
metadata e la condivisione della conoscenza

Relatore Laureando
Prof. Paolo Merialdo Marco Giannone

Obiettivi

 Sviluppo di un service provider per la raccolta di metadata riguardanti documenti
open access pubblicati nei repository olandesi

 Creazione di un servizio Web per la ricerca dei documenti

 Garantire la scalabilità del sistema

Diffusione documenti Open Access

 33 914 611 item disponibili

 2311 repository sparsi sul
globo

 Il 20% degli articoli peer-review
pubblicati nel 2010

Il protocollo OAI-PMH (1)

 Data Provider :
amministrano I sistemi che
supportano l'OAI-PMH come
mezzo per poter esporre I
metadata
 Service Provider :
usano I metadata raccolti
attraverso l'OAI-PMH come
base per costruire servizi a
valore aggiunto
 Harvester :
applicazione client per la
raccolta dei metadata
 Repository :
server accessibile in rete in
grado di elaborare le 6
richieste OAI-PMH.

Il protocollo OAI-PMH (2)

 Richieste gestite via HTTP GET/POST

 Metadata restituiti in codifica XML

I record raccolti

 Header:
informazioni necessarie per poter
effettuare l'harvesting

 Metadata:
espressi in formato Dublin Core;
15 elementi descrittivi della
risorsa

 About:
campo opzionale per informazioni
riguardanti i termini di utilizzo e la
provenienza dei metadata

UA Service Provider

Architettura:
 Action Manager
 Scraper
 OAI Connection
Manager
 Publication Manager
 Repository Manager
 Scan Manager
 Normalizer
 Database Manager
 MongoDB
 Solr Search Engine

Il modulo Normalizer

 Normalizzazione del campo
language agli standard ISO 639

 Utilizzo di un algoritmo di
classificazione basato su N-Gram
per l'identificazione della lingua

Analisi metadata raccolti

Alcuni dati:

300000 40
 Harvest effettuato sui 36
21 repository presenti 250000
32
sul territorio olandese 28
200000
24
 740 067 pubblicazioni
150000 20
collezionate
16
100000
 434 929 pubblicazioni 12

prive del campo 50000
8

language 4
0 0
 104 identificatori di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

lingue differenti trovati Number of Publications
Publications without Language
Languages retrieved

Il Database NoSQL
MongoDB:

 Documenti JSON
composti da coppie
chiave=valore

 Partizione dei dati su
diverse macchine
(Sharding) preservando
l'ordine degli stessi. Le
operazioni sono indirizzate
ai soli nodi interessati

 Replica Set per la
distribuzione del carico
nelle operazioni di lettura

 Le transazioni non
garantiscono le proprietà
ACID

La form di ricerca delle pubblicazioni

 Una semplice form di
ricerca full text
possibile grazie all'uso
del full text search
engine Solr
 Possibilità di filtrare i
risultati in base alla
data, la casa di
pubblicazione, la
lingua e l'autore
(Haystack)
 Link ad una pagina
dedicata alla
pubblicazione o diretto
alla risorsa

La pagina dedicata

 Metadata della
pubblicazione

 Link diretto alla
risorsa

 'Social button' per
la condivisione
attraverso i più noti
social network

Conclusioni

 Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21
repository olandesi.

 La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni,
è risultata efficace nel 98,54% dei casi.

 L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive
del campo language, ha riportato un risultato di successo per il 95.86% dei casi.

 Scalabilità e velocità di query garantite grazie all'uso di MongoDB.

Sviluppi futuri

 Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo
europeo, partendo da quelli tedeschi.

 Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione
di un nome univoco per ogni singolo autore.

 Raccolta di metadata in formati differenti dal Dublin Core.

Presentazione marco giannone240607

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Empfohlen

Empfohlen (20)

Presentazione marco giannone240607