SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
Università degli studi Roma Tre

               Corso di Laurea Magistrale in
                       Ingegneria Informatica




 UA Service Provider – Un service provider OAI per la raccolta di
          metadata e la condivisione della conoscenza


Relatore                                                Laureando
Prof. Paolo Merialdo                                Marco Giannone
Obiettivi



   Sviluppo di un service provider per la raccolta di metadata riguardanti documenti
    open access pubblicati nei repository olandesi


   Creazione di un servizio Web per la ricerca dei documenti


   Garantire la scalabilità del sistema
Diffusione documenti Open Access



    33 914 611 item disponibili


    2311 repository sparsi sul
     globo

    Il 20% degli articoli peer-review
     pubblicati nel 2010
Il protocollo OAI-PMH (1)


   Data Provider :
    amministrano I sistemi che
    supportano l'OAI-PMH come
    mezzo per poter esporre I
    metadata
   Service Provider :
    usano I metadata raccolti
    attraverso l'OAI-PMH come
    base per costruire servizi a
    valore aggiunto
   Harvester :
    applicazione client per la
    raccolta dei metadata
   Repository :
    server accessibile in rete in
    grado di elaborare le 6
    richieste OAI-PMH.
Il protocollo OAI-PMH (2)




   Richieste gestite via HTTP GET/POST




   Metadata restituiti in codifica XML
I record raccolti


   Header:
    informazioni necessarie per poter
    effettuare l'harvesting


   Metadata:
    espressi in formato Dublin Core;
    15 elementi descrittivi della
    risorsa


   About:
    campo opzionale per informazioni
    riguardanti i termini di utilizzo e la
    provenienza dei metadata
UA Service Provider

Architettura:
    Action Manager
    Scraper
    OAI Connection
     Manager
    Publication Manager
    Repository Manager
    Scan Manager
    Normalizer
    Database Manager
    MongoDB
    Solr Search Engine
Il modulo Normalizer




   Normalizzazione del campo
    language agli standard ISO 639


   Utilizzo di un algoritmo di
    classificazione basato su N-Gram
    per l'identificazione della lingua
Analisi metadata raccolti

Alcuni dati:

                                  300000                                                                             40
     Harvest effettuato sui                                                                                         36
      21 repository presenti      250000
                                                                                                                     32
      sul territorio olandese                                                                                        28
                                  200000
                                                                                                                     24
     740 067 pubblicazioni
                                  150000                                                                             20
      collezionate
                                                                                                                     16
                                  100000
     434 929 pubblicazioni                                                                                          12

      prive del campo             50000
                                                                                                                     8

      language                                                                                                       4
                                      0                                                                              0
     104 identificatori di                1   2   3   4   5   6   7   8   9   10 11 12 13 14 15 16 17 18 19 20 21

      lingue differenti trovati                                        Number of Publications
                                                                       Publications without Language
                                                                       Languages retrieved
Il Database NoSQL
MongoDB:

   Documenti JSON
    composti da coppie
    chiave=valore

   Partizione dei dati su
    diverse macchine
    (Sharding) preservando
    l'ordine degli stessi. Le
    operazioni sono indirizzate
    ai soli nodi interessati

   Replica Set per la
    distribuzione del carico
    nelle operazioni di lettura

   Le transazioni non
    garantiscono le proprietà
    ACID
La form di ricerca delle pubblicazioni


   Una semplice form di
    ricerca full text
    possibile grazie all'uso
    del full text search
    engine Solr
   Possibilità di filtrare i
    risultati in base alla
    data, la casa di
    pubblicazione, la
    lingua e l'autore
    (Haystack)
   Link ad una pagina
    dedicata alla
    pubblicazione o diretto
    alla risorsa
La pagina dedicata



   Metadata della
    pubblicazione


   Link diretto alla
    risorsa


   'Social button' per
    la condivisione
    attraverso i più noti
    social network
Conclusioni


   Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21
    repository olandesi.


   La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni,
    è risultata efficace nel 98,54% dei casi.


   L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive
    del campo language, ha riportato un risultato di successo per il 95.86% dei casi.


   Scalabilità e velocità di query garantite grazie all'uso di MongoDB.
Sviluppi futuri



   Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo
    europeo, partendo da quelli tedeschi.


   Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione
    di un nome univoco per ogni singolo autore.


   Raccolta di metadata in formati differenti dal Dublin Core.

Weitere ähnliche Inhalte

Empfohlen

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Presentazione marco giannone240607

  • 1. Università degli studi Roma Tre Corso di Laurea Magistrale in Ingegneria Informatica UA Service Provider – Un service provider OAI per la raccolta di metadata e la condivisione della conoscenza Relatore Laureando Prof. Paolo Merialdo Marco Giannone
  • 2. Obiettivi  Sviluppo di un service provider per la raccolta di metadata riguardanti documenti open access pubblicati nei repository olandesi  Creazione di un servizio Web per la ricerca dei documenti  Garantire la scalabilità del sistema
  • 3. Diffusione documenti Open Access  33 914 611 item disponibili  2311 repository sparsi sul globo  Il 20% degli articoli peer-review pubblicati nel 2010
  • 4. Il protocollo OAI-PMH (1)  Data Provider : amministrano I sistemi che supportano l'OAI-PMH come mezzo per poter esporre I metadata  Service Provider : usano I metadata raccolti attraverso l'OAI-PMH come base per costruire servizi a valore aggiunto  Harvester : applicazione client per la raccolta dei metadata  Repository : server accessibile in rete in grado di elaborare le 6 richieste OAI-PMH.
  • 5. Il protocollo OAI-PMH (2)  Richieste gestite via HTTP GET/POST  Metadata restituiti in codifica XML
  • 6. I record raccolti  Header: informazioni necessarie per poter effettuare l'harvesting  Metadata: espressi in formato Dublin Core; 15 elementi descrittivi della risorsa  About: campo opzionale per informazioni riguardanti i termini di utilizzo e la provenienza dei metadata
  • 7. UA Service Provider Architettura:  Action Manager  Scraper  OAI Connection Manager  Publication Manager  Repository Manager  Scan Manager  Normalizer  Database Manager  MongoDB  Solr Search Engine
  • 8. Il modulo Normalizer  Normalizzazione del campo language agli standard ISO 639  Utilizzo di un algoritmo di classificazione basato su N-Gram per l'identificazione della lingua
  • 9. Analisi metadata raccolti Alcuni dati: 300000 40  Harvest effettuato sui 36 21 repository presenti 250000 32 sul territorio olandese 28 200000 24  740 067 pubblicazioni 150000 20 collezionate 16 100000  434 929 pubblicazioni 12 prive del campo 50000 8 language 4 0 0  104 identificatori di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 lingue differenti trovati Number of Publications Publications without Language Languages retrieved
  • 10. Il Database NoSQL MongoDB:  Documenti JSON composti da coppie chiave=valore  Partizione dei dati su diverse macchine (Sharding) preservando l'ordine degli stessi. Le operazioni sono indirizzate ai soli nodi interessati  Replica Set per la distribuzione del carico nelle operazioni di lettura  Le transazioni non garantiscono le proprietà ACID
  • 11. La form di ricerca delle pubblicazioni  Una semplice form di ricerca full text possibile grazie all'uso del full text search engine Solr  Possibilità di filtrare i risultati in base alla data, la casa di pubblicazione, la lingua e l'autore (Haystack)  Link ad una pagina dedicata alla pubblicazione o diretto alla risorsa
  • 12. La pagina dedicata  Metadata della pubblicazione  Link diretto alla risorsa  'Social button' per la condivisione attraverso i più noti social network
  • 13. Conclusioni  Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21 repository olandesi.  La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni, è risultata efficace nel 98,54% dei casi.  L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive del campo language, ha riportato un risultato di successo per il 95.86% dei casi.  Scalabilità e velocità di query garantite grazie all'uso di MongoDB.
  • 14. Sviluppi futuri  Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo europeo, partendo da quelli tedeschi.  Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione di un nome univoco per ogni singolo autore.  Raccolta di metadata in formati differenti dal Dublin Core.