6. • “Machine Learning is the study of computer algorithms that
improve automatically through experience”
• “A computer program is said to learn from experience E with
respect to some class of task T and performance measure P,
if its performance at tasks in T, as measured by P, improves
with experience E” *
6
dalla ricerca booleana al “Machine Learning”
* Tom M. Mitchell, Machine Learning, McGraw Hill, 1997
7. machine learning + big data
7
La ricerca
“biblioteca” come
primo risultato
propone la biblioteca
della città in cui mi
trovo.
La ricerca Google
include centinaia di
parametri contestuali
che profilano il
risultato per il singolo
utente. L’algoritmo di
ranking è basato su
meccanismi di
intelligenza artificiale
che migliorano
l’adattamento dei
risultati di una query
alla richiesta
dell’utente.
8. machine learning + big data
8
Parameter type
Domain (16)
Domain History:
Domain Age
Domain Ownership changes
Domain Registration:
Domain Length of time
Domain Owner information hidden/anonymous
Domain Top level domain (TLD):
Domain Geography (e.g. .com versus co.uk)
Domain Non-geographical (e.g. .com versus .info)
Domain Subdomain?
Domain Keyword(s) in name
Domain Non-linked citations/mentions
Domain Presence in Google News
Domain Presence in Google Blog Search
Domain Use of Google products:
Domain AdWords
Domain AdSense
Domain Analytics
Domain Custom Search
Domain Webmaster Tools
Domain Geographically targeted?
Server-side (5)
Server-side Server geographical location
Server-side Server reliability / uptime
Server-side Server speed
Server-side Domain IP:
Server-side Changes in
Server-side Neighbors
Architecture (13)
Architecture URL structure
Architecture HTML structure
200
parametri
contestuali
nell’algoritmo
di ricerca di
Google
10. machine learning + big data
10
“Chi ha acquistato
questo articolo ha
acquistato anche”.
Le raccomandazioni
di Amazon e di tanti
altri Content Provider
sul web sono basate
su sistemi di
filtrazione
collaborativa che
contribuiscono in
modo decisivo
all’usabilità di
cataloghi di milioni di
item (come spesso
quelli delle
biblioteche sono)
11. machine learning + big data
11
Il sistema di Captcha di Google sfrutta sistemi di intelligenza
artificiale per categorizzare immagini con etichette semantiche e
sfrutta la validazione degli utenti per aumentare il numero di
immagini etichettate e aumentare quindi la precisione del sistema.
12. Perché è necessario
l’apprendimento dai dati
in biblioteca?
● il concetto corrente di ricerca documentale è basato sul machine
learning e non più sui principi bilioteconomici della catalogazione e
sulla logica booleana: nel giro di 10 anni, “cercare un documento”
sarà nella nostra cultura qualcosa di non più collegato alle
biblioteche (se continuiamo così)
● i concetti di community e di user-centered design (oggi centrali in
biblioteconomia) non possono più essere basati sui soli indicatori
biblioteconomici tradizionali (prestiti, impatto, trend qualitativi nei
prestiti, carta delle collezioni…): questi numeri (pur importanti) non
sono adeguati a “rappresentare” la complessità dell’utenza di una
biblioteca
12
13. da Borges a Bayes :)
13
ʹDn,k = n⋅n⋅⋅⋅⋅⋅n
k volte
! "# $# = nk
P A| B( )=
P(B| A)P(A)
P(B)
disposizioni con ripetizione teorema di Bayes
14. Thomas Bayes
(1701-1761)
14
“An Essay towards Solving a Problem in the
Doctrine of Chances. By the Late Rev. Mr.
Bayes, F. R. S. Communicated by Mr. Price,
in a Letter to John Canton, A. M. F. R. S.”,
1763.
[https://archive.org/details/
philtrans09948070]
15. il teorema di Bayes
15
P A | B( )=
P(B | A)P(A)
P(B)
P a posteriori
P condizionale
P a priori
Evidenze (test)
17. Basic Bayes: interpretare
correttamente un test
clinico
17
P(U |test+)=
P(test+|U)P(U)
P(test+)
=
0.495
1.49
= 0.332 =33.2%
N.B. un secondo test positivo
darebbe come risultato l’84.2%
di probabilità di aver contratto
la malattia
18. algoritmi di ML
• Regressione
• Alberi di classificazione
• K-Nearest-Neighbours
• Support Vector Machines
• Reti Neurali
• Naive Bayes
• Random Forest
• Gradient Boosting Trees
• ...
18
24. altre applicazioni del ML
in biblioteca?
• raccomandazioni (per gli utenti e per… i bibliotecari)
• analisi delle relazioni tra collezione, acquisti e prestiti
• algoritmi per l’adattamento della collezione ai profili dei lettori
• sviluppare un “social graph” bibliotecario in grado di
connettere utenti, contenuti, biblioteche con relazioni
predittive
• connettere ontologie (metadati, LOD) e utenti
• visualizzazione della community analytics
• profili demografici di utenti anonimizzati
• ...
24
25. su quali dati si lavora?
Record
catalografici
Transazioni utente
anonimizzate
Transazioni
acquisti
bibliotecari
Dati anagrafici
utenti
anonimizzati
Collezione
analogica
Collezione
digitale
27. che fare (2)? competenze
• le competenze catalografiche e sui metadati dei
bibliotecari vanno integrate con competenze di Data
Science e Machine Learning
• la progettazione di servizi bibliotecari data driven
non può essere demandata a sole competenze
“esterne”
27
28. che fare (3) ? fare
• Sperimentare
• Condividere
• Contest
28
29. proposta operativa (1)
data-set di prova
• un data set per ciascuno dei sistemi bibliotecari
oggi presenti: chi partecipa?
• procedura di anonimizzazione e analisi legale
• 12 mesi di tempo per un “contest” cui partecipano
tutti soggetti interessati
• ci ritroviamo nel novembre 2017 per capire cosa
è accaduto e cosa siamo stati capaci di fare
29
30. proposta operativa (2)
gruppo di lavoro per un manifesto
sugli open data bibliotecari
• creiamo oggi stesso un gruppo di lavoro FB
• condividiamo un manifesto per gli open data
bibliotecari
• coinvolgiamo AIB per una posizione ufficiale
dell’associazione
• raccogliamo una lista di best practice nel
mondo sui vari fronti
30