Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Presentazione marco giannone240607
1. Università degli studi Roma Tre
Corso di Laurea Magistrale in
Ingegneria Informatica
UA Service Provider – Un service provider OAI per la raccolta di
metadata e la condivisione della conoscenza
Relatore Laureando
Prof. Paolo Merialdo Marco Giannone
2. Obiettivi
Sviluppo di un service provider per la raccolta di metadata riguardanti documenti
open access pubblicati nei repository olandesi
Creazione di un servizio Web per la ricerca dei documenti
Garantire la scalabilità del sistema
3. Diffusione documenti Open Access
33 914 611 item disponibili
2311 repository sparsi sul
globo
Il 20% degli articoli peer-review
pubblicati nel 2010
4. Il protocollo OAI-PMH (1)
Data Provider :
amministrano I sistemi che
supportano l'OAI-PMH come
mezzo per poter esporre I
metadata
Service Provider :
usano I metadata raccolti
attraverso l'OAI-PMH come
base per costruire servizi a
valore aggiunto
Harvester :
applicazione client per la
raccolta dei metadata
Repository :
server accessibile in rete in
grado di elaborare le 6
richieste OAI-PMH.
5. Il protocollo OAI-PMH (2)
Richieste gestite via HTTP GET/POST
Metadata restituiti in codifica XML
6. I record raccolti
Header:
informazioni necessarie per poter
effettuare l'harvesting
Metadata:
espressi in formato Dublin Core;
15 elementi descrittivi della
risorsa
About:
campo opzionale per informazioni
riguardanti i termini di utilizzo e la
provenienza dei metadata
8. Il modulo Normalizer
Normalizzazione del campo
language agli standard ISO 639
Utilizzo di un algoritmo di
classificazione basato su N-Gram
per l'identificazione della lingua
9. Analisi metadata raccolti
Alcuni dati:
300000 40
Harvest effettuato sui 36
21 repository presenti 250000
32
sul territorio olandese 28
200000
24
740 067 pubblicazioni
150000 20
collezionate
16
100000
434 929 pubblicazioni 12
prive del campo 50000
8
language 4
0 0
104 identificatori di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
lingue differenti trovati Number of Publications
Publications without Language
Languages retrieved
10. Il Database NoSQL
MongoDB:
Documenti JSON
composti da coppie
chiave=valore
Partizione dei dati su
diverse macchine
(Sharding) preservando
l'ordine degli stessi. Le
operazioni sono indirizzate
ai soli nodi interessati
Replica Set per la
distribuzione del carico
nelle operazioni di lettura
Le transazioni non
garantiscono le proprietà
ACID
11. La form di ricerca delle pubblicazioni
Una semplice form di
ricerca full text
possibile grazie all'uso
del full text search
engine Solr
Possibilità di filtrare i
risultati in base alla
data, la casa di
pubblicazione, la
lingua e l'autore
(Haystack)
Link ad una pagina
dedicata alla
pubblicazione o diretto
alla risorsa
12. La pagina dedicata
Metadata della
pubblicazione
Link diretto alla
risorsa
'Social button' per
la condivisione
attraverso i più noti
social network
13. Conclusioni
Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21
repository olandesi.
La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni,
è risultata efficace nel 98,54% dei casi.
L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive
del campo language, ha riportato un risultato di successo per il 95.86% dei casi.
Scalabilità e velocità di query garantite grazie all'uso di MongoDB.
14. Sviluppi futuri
Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo
europeo, partendo da quelli tedeschi.
Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione
di un nome univoco per ogni singolo autore.
Raccolta di metadata in formati differenti dal Dublin Core.