Bibliografia e motori di ricerca: Google e non solo

1
Bologna, 13 maggio 2013
Michele Santoro
Bibliografia e motori di ricerca:
Google e non solo
Michele Santoro
Università di Bologna
e-mail: michele.santoro@unibo.it

2
La realtà di Internet
 Internet è un contenitore di informazioni da cui è
impossibile prescindere
 ma è proprio l’immensa mole di informazioni che
provoca i problemi maggiori quando si effettua una
ricerca bibliografica:
information overload
data deluge

3
La soluzione per eccellenza?
qual è la chiave del suo successo?
senza dubbio il suo “algoritmo di ricerca”

4
La ricerca con Google
 il criterio adottato da Google per definire il
“ranking” di una pagina
 è basato sul grado di “popolarità” della pagina
stessa
 ossia sul numero di legami (links) che essa riceve
da parte di altre pagine
più una pagina è linkata, più è conosciuta e
quindi (si suppone), più è importante e utile

5
 ben presto però si è capito che quello della
popolarità (“molti links molta importanza”) non
era l’unico criterio impiegato da Google per
indicizzare le pagine web
 e offrirle all’utente in un preciso ordine di
rilevanza
 così sono stati “scoperti” gli elementi che
compongono il famoso (anche se ufficialmente
“segreto”) algoritmo di ricerca di Google

6
L’algoritmo di ricerca di Google
 il “punteggio” ottenuto da una risorsa in seguito
ad una ricerca con Google è dato da:
 utilizzo delle parole chiave (0.3)
 importanza del dominio (0.25)
 link in ingresso (0.25)
 dati degli utenti (0.1)
 qualità del contenuto (0.1)
 altre variabili

7
 tutto bene, dunque?
 per le nostre ricerche possiamo affidarci con fiducia
alla potenza di calcolo di Google ed alla razionalità
del suo algoritmo?
 non esattamente...
 proviamo a porci qualche domanda:

8
 siamo proprio sicuri che con Google si ottenga tutto
ciò che è disponibile su Internet?
 siamo proprio sicuri che ciò che troviamo con
Google su un certo argomento sia davvero tutto ciò
che esiste su quell’argomento?
 siamo proprio sicuri che le soluzioni offerte da
Google siano autorevoli, cioè adeguate ai fini di una
seria ricerca bibliografica?
lo stesso Google ha compreso la necessità di
strumenti di ricerca più specifici
dando vita a Google Books e Google Scholar

9
Google Books
 progetto in base a cui milioni di libri sono stati
digitalizzati e messi a disposizione gratuitamente:
 per quanto il progetto abbia avuto fasi alterne a
causa di problemi legati ai diritti d’autore
 Google Books è una fonte ricchissima e utilissima
per la ricerca bibliografica
 modalità di ricerca analoghe a quelle di Google
 anche se, nella maggior parte dei casi, non è possibile
né stampare né fare il download delle pagine !!!
http://books.google.it/

15
Google Scholar
 ma, come si è visto, Google Books si rivolge alle
monografie
 mentre la maggior parte dell’informazione nei diversi
ambiti di studio è veicolata dai periodici
 per questo Google ha creato Google Scholar, un
motore di ricerca specifico che esplora le diverse
tipologie di documenti e in particolare i periodici

16
Google Scholar
 Google Scholar infatti indicizza non solo libri
 ma anche articoli di riviste liberamente disponibili in
rete o concessi a Google da autori o editori
 altri articoli sono invece accessibili sulla base di
determinati requisiti
 anche se gran parte dei documenti indicizzati sono
di ambito scientifico e in lingua inglese
 Google Scholar è uno strumento molto importante
per la ricerca bibliografica

19
Non solo Google
 per quanto raffinati, i criteri di ricerca di Google
presentano comunque numerosi limiti
Google e i suoi “derivati” (Books e Scholar) non
sono in grado di offrire una copertura esaustiva delle
risorse di rete
per cui sono comparsi nuovi strumenti che si
presentano come più “intelligenti” e
“semanticamente” affidabili

fra questi, si segnala il motore di ricerca
“computazionale” Wolphram Alpha, che interessa
soprattutto le discipline scientifico-tecniche

E per le discipline umanistiche?
 in primo luogo vediamo cosa offre il Portale delle
biblioteche dell’Università di Bologna
http://www.biblioteche.unibo.it/portale
 ed in particolare il settore delle banche dati
http://www.biblioteche.unibo.it/portale/home/portale
/risorse-elettroniche/banche-dati
(sono risorse ad accesso riservato per tutti gli utenti
Unibo)

Motori di ricerca
per le discipline umanistiche/1
JURN (http://www.jurn.org/):
 indicizza 4.507 free e-journals (vantaggi e limiti)
 UK-centrico: le risorse sono indicizzate con una
specifica attenzione agli interessi degli studiosi inglesi
 presenta una lista integrale dei titoli indicizzati
(http://www.jurn.org/jurn-listoftitles.pdf)
 e una directory più sintetica
(http://www.jurn.org/directory/)
 utilizza Google CSE (Custom Search Engine), uno
strumento che permette di creare - anche in modo
sofisticato - motori di ricerca personalizzati

Motori di ricerca
per le discipline umanistiche/2
ISIDORE (http://www.rechercheisidore.fr/)
 piattaforma di ricerca sviluppata in Francia
 indicizza una quantità di risorse digitali ad
accesso aperto relative alle scienze umane e
sociali
 e quindi permette l’accesso a milioni di documenti
 comprese le tesi di dottorato e i contributi
scientifici disponibili su Revues.org, Cairn, Persée

31
Oltre i motori di ricerca
 Google e i suoi derivati, così come i motori di
ricerca specifici, sono strumenti molto importanti
per il reperimento dell’informazione
 essi infatti rendono disponibile un patrimonio
conoscitivo enorme
 ma…
 la ricerca sul web continua ad essere ancora
problematica

32
Problemi del web
 problemi legati al linguaggio naturale:
 polisemia (termini con più significati)
 sinonimia (diversi termini con lo stesso
significato)
 integrazione di informazioni provenienti da più fonti
 assenza di “macchine intelligenti”
 cioè in grado di comprendere le informazioni
strutturate in maniera differente e di “ragionarci
sopra”

33
Il web profondo
 oltre al web “di superficie”, ossia quello visibile e
ricercabile attraverso i motori di ricerca
 esiste un “web profondo”, detto anche “web
invisibile” o “web sommerso”
 che risulterebbe essere molto più grande (da 400 a
550 volte) rispetto a quello di superficie
 deep web: parte del web che non è accessibile ai
motori di ricerca
 per diversi motivi tra cui:

34
Il web profondo
1. il sito è protetto da password (ad esempio un
periodico elettronico non accessibile
gratuitamente)
2. il contenuto informativo del sito è raggiungibile
solo attraverso una ricerca interattiva in una base
di dati (esempio tipico: gli opac!)
 numerosi studi rilevano che il web profondo è il
più consultato (ha il 50% del traffico in più)
 cresce più velocemente
 ed è di qualità più elevata

35
Possibili soluzioni
1) individuare dei criteri per “forzare” il web
profondo
2) perfezionare la tecnologia e rendere le macchine
più intelligenti
3) migliorare gli algoritmi di ricerca dei motori
4) accrescere la “significatività” delle parole
utilizzate per le ricerche

36
Possibili soluzioni
 tutte queste possibilità sono state sviluppate negli
anni più recenti
 in particolare, l’idea di migliorare i criteri di
recupero per termini significativi ha trovato una
sua realizzazione attraverso l’impiego dei metadati
 che permettono di descrivere le risorse elettroniche,
i testi e i documenti multimediali
 rendendo meno caotico l’ambiente digitale
 e consentendo un più efficace recupero
dell’informazione ricercata

37
I metadati
 si tratta di un criterio assai simile a quello della
tradizionale descrizione bibliografica
 ma diversamente dalla catalogazione tradizionale
 che dà vita a prodotti “esterni” ai documenti descritti
(e cioè schede catalografiche o record bibliografici)
 i metadati sono inclusi nella stessa risorsa che
descrivono

Un esempio di “vecchi” metadati/1

Campbell, Ann-Jeanette
Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette
Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. –
Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205)
Trad. di Elena Joli
ISBN 88-220-6205-1
Serie: Nuova biblioteca Dedalo, 205.
CDD: 520(21.)
1. Astronomia 2. Universo I. Foresta Martin, Franco

41
Un esempio di “nuovi” metadati

42
Metadati “descrittivi”
 fra i molti set di metadati predisposti per la
descrizione delle risorse di Internet
 si è imposto (in particolare nel mondo bibliotecario)
il modello Dublin Core (http://dublincore.org/)
 sviluppato a partire dal Metadata Workshop del
marzo 1995 tenutosi presso la sede dell’OCLC a
Dublin (Ohio)
 e sponsorizzato da Online Computer Library Center
(OCLC) e dal National Center for Supercomputing
Applications (NCSA)

43
I quindici elementi del Dublin Core “simple”
1. Title Titolo della risorsa
2. Subject Parole chiave o termini tratti da un vocabolario controllato
3. Description Descrizione o abstract
4. Creator Persona o organizzazione primariamente responsabile del contenuto
intellettuale della risorsa
5. Publisher Editore
6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa
7. Date Data associata con la creazione o la disponibilità della risorsa
8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)
9. Format Normalmente di tipo MIME (ad es. text/html)
10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore
11. Source Risorsa da cui deriva la risorsa descritta
12. Language Lingua della risorsa
13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta
14. Coverage Caratteristiche spazio-temporali della risorsa
15. Rights Condizioni di copyright della risorsa

44
Una pagina XML con metadati
…_

45
Web semantico
 il termine “Semantic Web” è stato proposto per la
prima volta nel 2001 da Tim Berners Lee
 da allora il termine è stato associato all’idea di un
web nel quale vi siano applicazioni in grado di
comprendere il significato dei documenti presenti
sulla rete
 quindi guidare l’utente direttamente verso
l’informazione ricercata
 o sostituirsi a lui nello svolgimento di alcune
operazioni

46
Web semantico
 il web semantico quindi rende possibile una ricerca
più evoluta
 attraverso la costruzione di reti di relazioni e
connessioni tra documenti
 in base a logiche più elaborate rispetto a quella
basata sui semplici link ipertestuali
 difatti, è vero che il web è un insieme di testi
collegati tra loro
 ma questi collegamenti sono “deboli”, nel senso che
sono troppo generici e vaghi

47
Web semantico
 con il web semantico invece è possibile recuperare
documenti esprimendo query complesse:
 partendo da concetti semplici, si può raffinare
la ricerca esprimendo vere e proprie asserzioni
 composte da un soggetto, un predicato e un
oggetto
 si può quindi fare una richiesta del tipo: aziende
(soggetto) che hanno come servizio (predicato)
la fornitura di scarpe (oggetto)

48
Web semantico
 tale possibilità è radicalmente diversa
dall’interrogazione effettuata con un motore di
ricerca
 attraverso il quale si possono indicare i tre
concetti di azienda, di servizio e di scarpe
 ma non si può esprimere in nessun modo il
legame esistente fra essi
e da ciò derivano tutte le imprecisioni tipiche
dei motori di ricerca

Web semantico e linked data
 oggi per la realizzazione del web semantico viene
impiegata la tecnologia dei linked data
 ossia dati pubblicati sul web in una modalità leggibile,
interpretabile e utilizzabile da una macchina
 il cui significato deve essere esplicitamente definito da
un insieme di parole e marcatori (tags)
 importanza bibliografico-documentale dei linked data:
 i metadati bibliotecari possono “uscire” dal deep
web
 aumenta la qualità delle ricerche sul web 49

50
Michele Santoro
Bibliografia e motori di ricerca:
Google e non solo
Grazie per l’attenzione!

Bibliografia e motori di ricerca: Google e non solo

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (8)

Ähnlich wie Bibliografia e motori di ricerca: Google e non solo

Ähnlich wie Bibliografia e motori di ricerca: Google e non solo (20)

Bibliografia e motori di ricerca: Google e non solo