Bibliografia e motori di ricerca: Google e non solo
1. 1
Bologna, 13 maggio 2013
Michele Santoro
Bibliografia e motori di ricerca:
Google e non solo
Michele Santoro
Università di Bologna
e-mail: michele.santoro@unibo.it
2. 2
La realtà di Internet
Internet è un contenitore di informazioni da cui è
impossibile prescindere
ma è proprio l’immensa mole di informazioni che
provoca i problemi maggiori quando si effettua una
ricerca bibliografica:
information overload
data deluge
3. 3
La soluzione per eccellenza?
qual è la chiave del suo successo?
senza dubbio il suo “algoritmo di ricerca”
4. 4
La ricerca con Google
il criterio adottato da Google per definire il
“ranking” di una pagina
è basato sul grado di “popolarità” della pagina
stessa
ossia sul numero di legami (links) che essa riceve
da parte di altre pagine
più una pagina è linkata, più è conosciuta e
quindi (si suppone), più è importante e utile
5. 5
La ricerca con Google
ben presto però si è capito che quello della
popolarità (“molti links molta importanza”) non
era l’unico criterio impiegato da Google per
indicizzare le pagine web
e offrirle all’utente in un preciso ordine di
rilevanza
così sono stati “scoperti” gli elementi che
compongono il famoso (anche se ufficialmente
“segreto”) algoritmo di ricerca di Google
6. 6
L’algoritmo di ricerca di Google
il “punteggio” ottenuto da una risorsa in seguito
ad una ricerca con Google è dato da:
utilizzo delle parole chiave (0.3)
importanza del dominio (0.25)
link in ingresso (0.25)
dati degli utenti (0.1)
qualità del contenuto (0.1)
altre variabili
7. 7
La ricerca con Google
tutto bene, dunque?
per le nostre ricerche possiamo affidarci con fiducia
alla potenza di calcolo di Google ed alla razionalità
del suo algoritmo?
non esattamente...
proviamo a porci qualche domanda:
8. 8
La ricerca con Google
siamo proprio sicuri che con Google si ottenga tutto
ciò che è disponibile su Internet?
siamo proprio sicuri che ciò che troviamo con
Google su un certo argomento sia davvero tutto ciò
che esiste su quell’argomento?
siamo proprio sicuri che le soluzioni offerte da
Google siano autorevoli, cioè adeguate ai fini di una
seria ricerca bibliografica?
lo stesso Google ha compreso la necessità di
strumenti di ricerca più specifici
dando vita a Google Books e Google Scholar
9. 9
Google Books
progetto in base a cui milioni di libri sono stati
digitalizzati e messi a disposizione gratuitamente:
per quanto il progetto abbia avuto fasi alterne a
causa di problemi legati ai diritti d’autore
Google Books è una fonte ricchissima e utilissima
per la ricerca bibliografica
modalità di ricerca analoghe a quelle di Google
anche se, nella maggior parte dei casi, non è possibile
né stampare né fare il download delle pagine !!!
http://books.google.it/
15. 15
Google Scholar
ma, come si è visto, Google Books si rivolge alle
monografie
mentre la maggior parte dell’informazione nei diversi
ambiti di studio è veicolata dai periodici
per questo Google ha creato Google Scholar, un
motore di ricerca specifico che esplora le diverse
tipologie di documenti e in particolare i periodici
16. 16
Google Scholar
Google Scholar infatti indicizza non solo libri
ma anche articoli di riviste liberamente disponibili in
rete o concessi a Google da autori o editori
altri articoli sono invece accessibili sulla base di
determinati requisiti
anche se gran parte dei documenti indicizzati sono
di ambito scientifico e in lingua inglese
Google Scholar è uno strumento molto importante
per la ricerca bibliografica
17.
18.
19. 19
Non solo Google
per quanto raffinati, i criteri di ricerca di Google
presentano comunque numerosi limiti
Google e i suoi “derivati” (Books e Scholar) non
sono in grado di offrire una copertura esaustiva delle
risorse di rete
per cui sono comparsi nuovi strumenti che si
presentano come più “intelligenti” e
“semanticamente” affidabili
fra questi, si segnala il motore di ricerca
“computazionale” Wolphram Alpha, che interessa
soprattutto le discipline scientifico-tecniche
20. E per le discipline umanistiche?
in primo luogo vediamo cosa offre il Portale delle
biblioteche dell’Università di Bologna
http://www.biblioteche.unibo.it/portale
ed in particolare il settore delle banche dati
http://www.biblioteche.unibo.it/portale/home/portale
/risorse-elettroniche/banche-dati
(sono risorse ad accesso riservato per tutti gli utenti
Unibo)
21.
22.
23. Motori di ricerca
per le discipline umanistiche/1
JURN (http://www.jurn.org/):
indicizza 4.507 free e-journals (vantaggi e limiti)
UK-centrico: le risorse sono indicizzate con una
specifica attenzione agli interessi degli studiosi inglesi
presenta una lista integrale dei titoli indicizzati
(http://www.jurn.org/jurn-listoftitles.pdf)
e una directory più sintetica
(http://www.jurn.org/directory/)
utilizza Google CSE (Custom Search Engine), uno
strumento che permette di creare - anche in modo
sofisticato - motori di ricerca personalizzati
24.
25.
26.
27. Motori di ricerca
per le discipline umanistiche/2
ISIDORE (http://www.rechercheisidore.fr/)
piattaforma di ricerca sviluppata in Francia
indicizza una quantità di risorse digitali ad
accesso aperto relative alle scienze umane e
sociali
e quindi permette l’accesso a milioni di documenti
comprese le tesi di dottorato e i contributi
scientifici disponibili su Revues.org, Cairn, Persée
31. 31
Oltre i motori di ricerca
Google e i suoi derivati, così come i motori di
ricerca specifici, sono strumenti molto importanti
per il reperimento dell’informazione
essi infatti rendono disponibile un patrimonio
conoscitivo enorme
ma…
la ricerca sul web continua ad essere ancora
problematica
32. 32
Problemi del web
problemi legati al linguaggio naturale:
polisemia (termini con più significati)
sinonimia (diversi termini con lo stesso
significato)
integrazione di informazioni provenienti da più fonti
assenza di “macchine intelligenti”
cioè in grado di comprendere le informazioni
strutturate in maniera differente e di “ragionarci
sopra”
33. 33
Il web profondo
oltre al web “di superficie”, ossia quello visibile e
ricercabile attraverso i motori di ricerca
esiste un “web profondo”, detto anche “web
invisibile” o “web sommerso”
che risulterebbe essere molto più grande (da 400 a
550 volte) rispetto a quello di superficie
deep web: parte del web che non è accessibile ai
motori di ricerca
per diversi motivi tra cui:
34. 34
Il web profondo
1. il sito è protetto da password (ad esempio un
periodico elettronico non accessibile
gratuitamente)
2. il contenuto informativo del sito è raggiungibile
solo attraverso una ricerca interattiva in una base
di dati (esempio tipico: gli opac!)
numerosi studi rilevano che il web profondo è il
più consultato (ha il 50% del traffico in più)
cresce più velocemente
ed è di qualità più elevata
35. 35
Possibili soluzioni
1) individuare dei criteri per “forzare” il web
profondo
2) perfezionare la tecnologia e rendere le macchine
più intelligenti
3) migliorare gli algoritmi di ricerca dei motori
4) accrescere la “significatività” delle parole
utilizzate per le ricerche
36. 36
Possibili soluzioni
tutte queste possibilità sono state sviluppate negli
anni più recenti
in particolare, l’idea di migliorare i criteri di
recupero per termini significativi ha trovato una
sua realizzazione attraverso l’impiego dei metadati
che permettono di descrivere le risorse elettroniche,
i testi e i documenti multimediali
rendendo meno caotico l’ambiente digitale
e consentendo un più efficace recupero
dell’informazione ricercata
37. 37
I metadati
si tratta di un criterio assai simile a quello della
tradizionale descrizione bibliografica
ma diversamente dalla catalogazione tradizionale
che dà vita a prodotti “esterni” ai documenti descritti
(e cioè schede catalografiche o record bibliografici)
i metadati sono inclusi nella stessa risorsa che
descrivono
39. Un esempio di “vecchi” metadati/2
Campbell, Ann-Jeanette
Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette
Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. –
Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205)
Trad. di Elena Joli
ISBN 88-220-6205-1
Serie: Nuova biblioteca Dedalo, 205.
CDD: 520(21.)
1. Astronomia 2. Universo I. Foresta Martin, Franco
42. 42
Metadati “descrittivi”
fra i molti set di metadati predisposti per la
descrizione delle risorse di Internet
si è imposto (in particolare nel mondo bibliotecario)
il modello Dublin Core (http://dublincore.org/)
sviluppato a partire dal Metadata Workshop del
marzo 1995 tenutosi presso la sede dell’OCLC a
Dublin (Ohio)
e sponsorizzato da Online Computer Library Center
(OCLC) e dal National Center for Supercomputing
Applications (NCSA)
43. 43
I quindici elementi del Dublin Core “simple”
1. Title Titolo della risorsa
2. Subject Parole chiave o termini tratti da un vocabolario controllato
3. Description Descrizione o abstract
4. Creator Persona o organizzazione primariamente responsabile del contenuto
intellettuale della risorsa
5. Publisher Editore
6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa
7. Date Data associata con la creazione o la disponibilità della risorsa
8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)
9. Format Normalmente di tipo MIME (ad es. text/html)
10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore
11. Source Risorsa da cui deriva la risorsa descritta
12. Language Lingua della risorsa
13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta
14. Coverage Caratteristiche spazio-temporali della risorsa
15. Rights Condizioni di copyright della risorsa
45. 45
Web semantico
il termine “Semantic Web” è stato proposto per la
prima volta nel 2001 da Tim Berners Lee
da allora il termine è stato associato all’idea di un
web nel quale vi siano applicazioni in grado di
comprendere il significato dei documenti presenti
sulla rete
quindi guidare l’utente direttamente verso
l’informazione ricercata
o sostituirsi a lui nello svolgimento di alcune
operazioni
46. 46
Web semantico
il web semantico quindi rende possibile una ricerca
più evoluta
attraverso la costruzione di reti di relazioni e
connessioni tra documenti
in base a logiche più elaborate rispetto a quella
basata sui semplici link ipertestuali
difatti, è vero che il web è un insieme di testi
collegati tra loro
ma questi collegamenti sono “deboli”, nel senso che
sono troppo generici e vaghi
47. 47
Web semantico
con il web semantico invece è possibile recuperare
documenti esprimendo query complesse:
partendo da concetti semplici, si può raffinare
la ricerca esprimendo vere e proprie asserzioni
composte da un soggetto, un predicato e un
oggetto
si può quindi fare una richiesta del tipo: aziende
(soggetto) che hanno come servizio (predicato)
la fornitura di scarpe (oggetto)
48. 48
Web semantico
tale possibilità è radicalmente diversa
dall’interrogazione effettuata con un motore di
ricerca
attraverso il quale si possono indicare i tre
concetti di azienda, di servizio e di scarpe
ma non si può esprimere in nessun modo il
legame esistente fra essi
e da ciò derivano tutte le imprecisioni tipiche
dei motori di ricerca
49. Web semantico e linked data
oggi per la realizzazione del web semantico viene
impiegata la tecnologia dei linked data
ossia dati pubblicati sul web in una modalità leggibile,
interpretabile e utilizzabile da una macchina
il cui significato deve essere esplicitamente definito da
un insieme di parole e marcatori (tags)
importanza bibliografico-documentale dei linked data:
i metadati bibliotecari possono “uscire” dal deep
web
aumenta la qualità delle ricerche sul web 49