Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche

la biblioteca bayesiana
manifesto per una terza fase di digitalizzazione delle biblioteche.
in biblioteca
Giulio Blasi 1

•  tre fasi di digitalizzazione delle
biblioteche
•  la terza fase sta accadendo fuori
dalle biblioteche
•  come fare a coinvolgerle?
il tema
2

e-lending e OPAC…
5
API
aperte
OPAC
Gestionale
…
E-lending

•  “Machine Learning is the study of computer algorithms that
improve automatically through experience”
•  “A computer program is said to learn from experience E with
respect to some class of task T and performance measure P,
if its performance at tasks in T, as measured by P, improves
with experience E” *
6
dalla ricerca booleana al “Machine Learning”
* Tom M. Mitchell, Machine Learning, McGraw Hill, 1997

machine learning + big data
7
La ricerca
“biblioteca” come
primo risultato
propone la biblioteca
della città in cui mi
trovo.
La ricerca Google
include centinaia di
parametri contestuali
che profilano il
risultato per il singolo
utente. L’algoritmo di
ranking è basato su
meccanismi di
intelligenza artificiale
che migliorano
l’adattamento dei
risultati di una query
alla richiesta
dell’utente.

8
Parameter type
Domain (16)
Domain History:
Domain Age
Domain Ownership changes
Domain Registration:
Domain Length of time
Domain Owner information hidden/anonymous
Domain Top level domain (TLD):
Domain Geography (e.g. .com versus co.uk)
Domain Non-geographical (e.g. .com versus .info)
Domain Subdomain?
Domain Keyword(s) in name
Domain Non-linked citations/mentions
Domain Presence in Google News
Domain Presence in Google Blog Search
Domain Use of Google products:
Domain AdWords
Domain AdSense
Domain Analytics
Domain Custom Search
Domain Webmaster Tools
Domain Geographically targeted?
Server-side (5)
Server-side Server geographical location
Server-side Server reliability / uptime
Server-side Server speed
Server-side Domain IP:
Server-side Changes in
Server-side Neighbors
Architecture (13)
Architecture URL structure
Architecture HTML structure
200
parametri
contestuali
nell’algoritmo
di ricerca di
Google

10
“Chi ha acquistato
questo articolo ha
acquistato anche”.
Le raccomandazioni
di Amazon e di tanti
altri Content Provider
sul web sono basate
su sistemi di
filtrazione
collaborativa che
contribuiscono in
modo decisivo
all’usabilità di
cataloghi di milioni di
item (come spesso
quelli delle
biblioteche sono)

11
Il sistema di Captcha di Google sfrutta sistemi di intelligenza
artificiale per categorizzare immagini con etichette semantiche e
sfrutta la validazione degli utenti per aumentare il numero di
immagini etichettate e aumentare quindi la precisione del sistema.

Perché è necessario
l’apprendimento dai dati
in biblioteca?
●  il concetto corrente di ricerca documentale è basato sul machine
learning e non più sui principi bilioteconomici della catalogazione e
sulla logica booleana: nel giro di 10 anni, “cercare un documento”
sarà nella nostra cultura qualcosa di non più collegato alle
biblioteche (se continuiamo così)
●  i concetti di community e di user-centered design (oggi centrali in
biblioteconomia) non possono più essere basati sui soli indicatori
biblioteconomici tradizionali (prestiti, impatto, trend qualitativi nei
prestiti, carta delle collezioni…): questi numeri (pur importanti) non
sono adeguati a “rappresentare” la complessità dell’utenza di una
biblioteca
12

da Borges a Bayes :)
13
ʹDn,k = n⋅n⋅⋅⋅⋅⋅n
k volte
! "# $# = nk
P A| B( )=
P(B| A)P(A)
P(B)
disposizioni con ripetizione teorema di Bayes

Thomas Bayes
(1701-1761)
14
“An Essay towards Solving a Problem in the
Doctrine of Chances. By the Late Rev. Mr.
Bayes, F. R. S. Communicated by Mr. Price,
in a Letter to John Canton, A. M. F. R. S.”,
1763.
[https://archive.org/details/
philtrans09948070]

il teorema di Bayes
15
P A | B( )=
P(B | A)P(A)
P(B)
P a posteriori
P condizionale
P a priori
Evidenze (test)

Basic Bayes: interpretare
correttamente un test
clinico
16
Test clinico
U/Ū = malato/non malato
+/- = test positivo/negativo
P(U)
0.5%
P(+ | U) 99% P(U ∩ +) 0.495%
P(- | U)
1%
P(U ∩ -) 0.005%
P(Ū)
99.5%
P(+ | Ū)
1%
P(Ū ∩ +) 0.995%
P(- | Ū) 99% P(Ū ∩ -) 98.505%

Basic Bayes: interpretare
correttamente un test
clinico
17
P(U |test+)=
P(test+|U)P(U)
P(test+)
=
0.495
1.49
= 0.332 =33.2%
N.B. un secondo test positivo
darebbe come risultato l’84.2%
di probabilità di aver contratto
la malattia

algoritmi di ML
•  Regressione
•  Alberi di classificazione
•  K-Nearest-Neighbours
•  Support Vector Machines
•  Reti Neurali
•  Naive Bayes
•  Random Forest
•  Gradient Boosting Trees
•  ...
18

esempio: soggettazione
automatica
19
P(soggettoCCE |"Bacone","Saggi","Morali")=
P("Bacone"I"Saggi"I"Morali"|soggettoCCE)P(soggettoCCE)
P("Bacone"I"Saggi"I"Morali")

automatica (e filtri anti-
spam)
20
CCE = H
Morali
Saggi
Bacone

automatica (e filtri anti-
spam)
21
P(soggettoCCE |keyword)=
P(keyword |soggettoCCE)P(soggettoCCE)
P(keyword)

classificare risorse OPEN
con l’algoritmo NB
22

altre applicazioni del ML
in biblioteca?
•  raccomandazioni (per gli utenti e per… i bibliotecari)
•  analisi delle relazioni tra collezione, acquisti e prestiti
•  algoritmi per l’adattamento della collezione ai profili dei lettori
•  sviluppare un “social graph” bibliotecario in grado di
connettere utenti, contenuti, biblioteche con relazioni
predittive
•  connettere ontologie (metadati, LOD) e utenti
•  visualizzazione della community analytics
•  profili demografici di utenti anonimizzati
•  ...
24

su quali dati si lavora?
Record
catalografici
Transazioni utente
anonimizzate
Transazioni
acquisti
bibliotecari
Dati anagrafici
utenti
anonimizzati
Collezione
analogica
Collezione
digitale

che fare (1)? i dati
Open Data
26

che fare (2)? competenze
•  le competenze catalografiche e sui metadati dei
bibliotecari vanno integrate con competenze di Data
Science e Machine Learning
•  la progettazione di servizi bibliotecari data driven
non può essere demandata a sole competenze
“esterne”
27

che fare (3) ? fare
•  Sperimentare
•  Condividere
•  Contest
28

proposta operativa (1)
data-set di prova
•  un data set per ciascuno dei sistemi bibliotecari
oggi presenti: chi partecipa?
•  procedura di anonimizzazione e analisi legale
•  12 mesi di tempo per un “contest” cui partecipano
tutti soggetti interessati
•  ci ritroviamo nel novembre 2017 per capire cosa
è accaduto e cosa siamo stati capaci di fare
29

proposta operativa (2)
gruppo di lavoro per un manifesto
sugli open data bibliotecari
•  creiamo oggi stesso un gruppo di lavoro FB
•  condividiamo un manifesto per gli open data
bibliotecari
•  coinvolgiamo AIB per una posizione ufficiale
dell’associazione
•  raccogliamo una lista di best practice nel
mondo sui vari fronti
30

Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Empfohlen

Empfohlen (20)

Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche