SlideShare ist ein Scribd-Unternehmen logo
1 von 32
la biblioteca bayesiana
manifesto per una terza fase di digitalizzazione delle biblioteche.
in biblioteca
Giulio Blasi 1
•  tre fasi di digitalizzazione delle
biblioteche
•  la terza fase sta accadendo fuori
dalle biblioteche
•  come fare a coinvolgerle?
il tema
2
dagli schedari all’OPAC
3
e-lending
4
e-lending e OPAC…
5
API
aperte
OPAC
Gestionale
…
E-lending
•  “Machine Learning is the study of computer algorithms that
improve automatically through experience”
•  “A computer program is said to learn from experience E with
respect to some class of task T and performance measure P,
if its performance at tasks in T, as measured by P, improves
with experience E” *
6
dalla ricerca booleana al “Machine Learning”
* Tom M. Mitchell, Machine Learning, McGraw Hill, 1997
machine learning + big data
7
La ricerca
“biblioteca” come
primo risultato
propone la biblioteca
della città in cui mi
trovo.
La ricerca Google
include centinaia di
parametri contestuali
che profilano il
risultato per il singolo
utente. L’algoritmo di
ranking è basato su
meccanismi di
intelligenza artificiale
che migliorano
l’adattamento dei
risultati di una query
alla richiesta
dell’utente.
machine learning + big data
8
Parameter type	
Domain (16)	
Domain	 History:	
Domain	 Age	
Domain	 Ownership changes	
Domain	 Registration:	
Domain	 Length of time	
Domain	 Owner information hidden/anonymous	
Domain	 Top level domain (TLD):	
Domain	 Geography (e.g. .com versus co.uk)	
Domain	 Non-geographical (e.g. .com versus .info)	
Domain	 Subdomain?	
Domain	 Keyword(s) in name	
Domain	 Non-linked citations/mentions	
Domain	 Presence in Google News	
Domain	 Presence in Google Blog Search	
Domain	 Use of Google products:	
Domain	 AdWords	
Domain	 AdSense	
Domain	 Analytics	
Domain	 Custom Search	
Domain	 Webmaster Tools	
Domain	 Geographically targeted?	
Server-side (5)	
Server-side	 Server geographical location	
Server-side	 Server reliability / uptime	
Server-side	 Server speed	
Server-side	 Domain IP:	
Server-side	 Changes in	
Server-side	 Neighbors	
Architecture (13)	
Architecture	 URL structure	
Architecture	 HTML structure	
200
parametri
contestuali
nell’algoritmo
di ricerca di
Google
machine learning + big data
9
machine learning + big data
10
“Chi ha acquistato
questo articolo ha
acquistato anche”.
Le raccomandazioni
di Amazon e di tanti
altri Content Provider
sul web sono basate
su sistemi di
filtrazione
collaborativa che
contribuiscono in
modo decisivo
all’usabilità di
cataloghi di milioni di
item (come spesso
quelli delle
biblioteche sono)
machine learning + big data
11
Il sistema di Captcha di Google sfrutta sistemi di intelligenza
artificiale per categorizzare immagini con etichette semantiche e
sfrutta la validazione degli utenti per aumentare il numero di
immagini etichettate e aumentare quindi la precisione del sistema.
Perché è necessario
l’apprendimento dai dati
in biblioteca?
●  il concetto corrente di ricerca documentale è basato sul machine
learning e non più sui principi bilioteconomici della catalogazione e
sulla logica booleana: nel giro di 10 anni, “cercare un documento”
sarà nella nostra cultura qualcosa di non più collegato alle
biblioteche (se continuiamo così)
●  i concetti di community e di user-centered design (oggi centrali in
biblioteconomia) non possono più essere basati sui soli indicatori
biblioteconomici tradizionali (prestiti, impatto, trend qualitativi nei
prestiti, carta delle collezioni…): questi numeri (pur importanti) non
sono adeguati a “rappresentare” la complessità dell’utenza di una
biblioteca
12
da Borges a Bayes :)
13
ʹDn,k = n⋅n⋅⋅⋅⋅⋅n
k volte
! "# $# = nk
P A| B( )=
P(B| A)P(A)
P(B)
disposizioni con ripetizione teorema di Bayes
Thomas Bayes
(1701-1761)
14
“An Essay towards Solving a Problem in the
Doctrine of Chances. By the Late Rev. Mr.
Bayes, F. R. S. Communicated by Mr. Price,
in a Letter to John Canton, A. M. F. R. S.”,
1763.
[https://archive.org/details/
philtrans09948070]
il teorema di Bayes
15
P A | B( )=
P(B | A)P(A)
P(B)
P a posteriori
P condizionale
P a priori
Evidenze (test)
Basic Bayes: interpretare
correttamente un test
clinico
16
Test clinico
U/Ū = malato/non malato
+/- = test positivo/negativo
P(U)
0.5%
P(+ | U) 99% P(U ∩ +) 0.495%
P(- | U)
1%
P(U ∩ -) 0.005%
P(Ū)
99.5%
P(+ | Ū)
1%
P(Ū ∩ +) 0.995%
P(- | Ū) 99% P(Ū ∩ -) 98.505%
Basic Bayes: interpretare
correttamente un test
clinico
17
P(U |test+)=
P(test+|U)P(U)
P(test+)
=
0.495
1.49
= 0.332 =33.2%
N.B. un secondo test positivo
darebbe come risultato l’84.2%
di probabilità di aver contratto
la malattia
algoritmi di ML
•  Regressione
•  Alberi di classificazione
•  K-Nearest-Neighbours
•  Support Vector Machines
•  Reti Neurali
•  Naive Bayes
•  Random Forest
•  Gradient Boosting Trees
•  ...
18
esempio: soggettazione
automatica
19
P(soggettoCCE |"Bacone","Saggi","Morali")=
P("Bacone"I"Saggi"I"Morali"|soggettoCCE)P(soggettoCCE)
P("Bacone"I"Saggi"I"Morali")
esempio: soggettazione
automatica (e filtri anti-
spam)
20
CCE = H
Morali
Saggi
Bacone
esempio: soggettazione
automatica (e filtri anti-
spam)
21
P(soggettoCCE |keyword)=
P(keyword |soggettoCCE)P(soggettoCCE)
P(keyword)
classificare risorse OPEN
con l’algoritmo NB
22
23
Library
altre applicazioni del ML
in biblioteca?
•  raccomandazioni (per gli utenti e per… i bibliotecari)
•  analisi delle relazioni tra collezione, acquisti e prestiti
•  algoritmi per l’adattamento della collezione ai profili dei lettori
•  sviluppare un “social graph” bibliotecario in grado di
connettere utenti, contenuti, biblioteche con relazioni
predittive
•  connettere ontologie (metadati, LOD) e utenti
•  visualizzazione della community analytics
•  profili demografici di utenti anonimizzati
•  ...
24
su quali dati si lavora?
Record
catalografici
Transazioni utente
anonimizzate
Transazioni
acquisti
bibliotecari
Dati anagrafici
utenti
anonimizzati
Collezione
analogica
Collezione
digitale
che fare (1)? i dati
Open Data
26
che fare (2)? competenze
•  le competenze catalografiche e sui metadati dei
bibliotecari vanno integrate con competenze di Data
Science e Machine Learning
•  la progettazione di servizi bibliotecari data driven
non può essere demandata a sole competenze
“esterne”
27
che fare (3) ? fare
•  Sperimentare
•  Condividere
•  Contest
28
proposta operativa (1)
data-set di prova
•  un data set per ciascuno dei sistemi bibliotecari
oggi presenti: chi partecipa?
•  procedura di anonimizzazione e analisi legale
•  12 mesi di tempo per un “contest” cui partecipano
tutti soggetti interessati
•  ci ritroviamo nel novembre 2017 per capire cosa
è accaduto e cosa siamo stati capaci di fare
29
proposta operativa (2)
gruppo di lavoro per un manifesto
sugli open data bibliotecari
•  creiamo oggi stesso un gruppo di lavoro FB
•  condividiamo un manifesto per gli open data
bibliotecari
•  coinvolgiamo AIB per una posizione ufficiale
dell’associazione
•  raccogliamo una lista di best practice nel
mondo sui vari fronti
30
31
? -
-
-
-
-
+
+ +
+
+
+
32
Grazie!
+

Weitere ähnliche Inhalte

Empfohlen

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Empfohlen (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche

  • 1. la biblioteca bayesiana manifesto per una terza fase di digitalizzazione delle biblioteche. in biblioteca Giulio Blasi 1
  • 2. •  tre fasi di digitalizzazione delle biblioteche •  la terza fase sta accadendo fuori dalle biblioteche •  come fare a coinvolgerle? il tema 2
  • 6. •  “Machine Learning is the study of computer algorithms that improve automatically through experience” •  “A computer program is said to learn from experience E with respect to some class of task T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E” * 6 dalla ricerca booleana al “Machine Learning” * Tom M. Mitchell, Machine Learning, McGraw Hill, 1997
  • 7. machine learning + big data 7 La ricerca “biblioteca” come primo risultato propone la biblioteca della città in cui mi trovo. La ricerca Google include centinaia di parametri contestuali che profilano il risultato per il singolo utente. L’algoritmo di ranking è basato su meccanismi di intelligenza artificiale che migliorano l’adattamento dei risultati di una query alla richiesta dell’utente.
  • 8. machine learning + big data 8 Parameter type Domain (16) Domain History: Domain Age Domain Ownership changes Domain Registration: Domain Length of time Domain Owner information hidden/anonymous Domain Top level domain (TLD): Domain Geography (e.g. .com versus co.uk) Domain Non-geographical (e.g. .com versus .info) Domain Subdomain? Domain Keyword(s) in name Domain Non-linked citations/mentions Domain Presence in Google News Domain Presence in Google Blog Search Domain Use of Google products: Domain AdWords Domain AdSense Domain Analytics Domain Custom Search Domain Webmaster Tools Domain Geographically targeted? Server-side (5) Server-side Server geographical location Server-side Server reliability / uptime Server-side Server speed Server-side Domain IP: Server-side Changes in Server-side Neighbors Architecture (13) Architecture URL structure Architecture HTML structure 200 parametri contestuali nell’algoritmo di ricerca di Google
  • 9. machine learning + big data 9
  • 10. machine learning + big data 10 “Chi ha acquistato questo articolo ha acquistato anche”. Le raccomandazioni di Amazon e di tanti altri Content Provider sul web sono basate su sistemi di filtrazione collaborativa che contribuiscono in modo decisivo all’usabilità di cataloghi di milioni di item (come spesso quelli delle biblioteche sono)
  • 11. machine learning + big data 11 Il sistema di Captcha di Google sfrutta sistemi di intelligenza artificiale per categorizzare immagini con etichette semantiche e sfrutta la validazione degli utenti per aumentare il numero di immagini etichettate e aumentare quindi la precisione del sistema.
  • 12. Perché è necessario l’apprendimento dai dati in biblioteca? ●  il concetto corrente di ricerca documentale è basato sul machine learning e non più sui principi bilioteconomici della catalogazione e sulla logica booleana: nel giro di 10 anni, “cercare un documento” sarà nella nostra cultura qualcosa di non più collegato alle biblioteche (se continuiamo così) ●  i concetti di community e di user-centered design (oggi centrali in biblioteconomia) non possono più essere basati sui soli indicatori biblioteconomici tradizionali (prestiti, impatto, trend qualitativi nei prestiti, carta delle collezioni…): questi numeri (pur importanti) non sono adeguati a “rappresentare” la complessità dell’utenza di una biblioteca 12
  • 13. da Borges a Bayes :) 13 ʹDn,k = n⋅n⋅⋅⋅⋅⋅n k volte ! "# $# = nk P A| B( )= P(B| A)P(A) P(B) disposizioni con ripetizione teorema di Bayes
  • 14. Thomas Bayes (1701-1761) 14 “An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S.”, 1763. [https://archive.org/details/ philtrans09948070]
  • 15. il teorema di Bayes 15 P A | B( )= P(B | A)P(A) P(B) P a posteriori P condizionale P a priori Evidenze (test)
  • 16. Basic Bayes: interpretare correttamente un test clinico 16 Test clinico U/Ū = malato/non malato +/- = test positivo/negativo P(U) 0.5% P(+ | U) 99% P(U ∩ +) 0.495% P(- | U) 1% P(U ∩ -) 0.005% P(Ū) 99.5% P(+ | Ū) 1% P(Ū ∩ +) 0.995% P(- | Ū) 99% P(Ū ∩ -) 98.505%
  • 17. Basic Bayes: interpretare correttamente un test clinico 17 P(U |test+)= P(test+|U)P(U) P(test+) = 0.495 1.49 = 0.332 =33.2% N.B. un secondo test positivo darebbe come risultato l’84.2% di probabilità di aver contratto la malattia
  • 18. algoritmi di ML •  Regressione •  Alberi di classificazione •  K-Nearest-Neighbours •  Support Vector Machines •  Reti Neurali •  Naive Bayes •  Random Forest •  Gradient Boosting Trees •  ... 18
  • 20. esempio: soggettazione automatica (e filtri anti- spam) 20 CCE = H Morali Saggi Bacone
  • 21. esempio: soggettazione automatica (e filtri anti- spam) 21 P(soggettoCCE |keyword)= P(keyword |soggettoCCE)P(soggettoCCE) P(keyword)
  • 22. classificare risorse OPEN con l’algoritmo NB 22
  • 24. altre applicazioni del ML in biblioteca? •  raccomandazioni (per gli utenti e per… i bibliotecari) •  analisi delle relazioni tra collezione, acquisti e prestiti •  algoritmi per l’adattamento della collezione ai profili dei lettori •  sviluppare un “social graph” bibliotecario in grado di connettere utenti, contenuti, biblioteche con relazioni predittive •  connettere ontologie (metadati, LOD) e utenti •  visualizzazione della community analytics •  profili demografici di utenti anonimizzati •  ... 24
  • 25. su quali dati si lavora? Record catalografici Transazioni utente anonimizzate Transazioni acquisti bibliotecari Dati anagrafici utenti anonimizzati Collezione analogica Collezione digitale
  • 26. che fare (1)? i dati Open Data 26
  • 27. che fare (2)? competenze •  le competenze catalografiche e sui metadati dei bibliotecari vanno integrate con competenze di Data Science e Machine Learning •  la progettazione di servizi bibliotecari data driven non può essere demandata a sole competenze “esterne” 27
  • 28. che fare (3) ? fare •  Sperimentare •  Condividere •  Contest 28
  • 29. proposta operativa (1) data-set di prova •  un data set per ciascuno dei sistemi bibliotecari oggi presenti: chi partecipa? •  procedura di anonimizzazione e analisi legale •  12 mesi di tempo per un “contest” cui partecipano tutti soggetti interessati •  ci ritroviamo nel novembre 2017 per capire cosa è accaduto e cosa siamo stati capaci di fare 29
  • 30. proposta operativa (2) gruppo di lavoro per un manifesto sugli open data bibliotecari •  creiamo oggi stesso un gruppo di lavoro FB •  condividiamo un manifesto per gli open data bibliotecari •  coinvolgiamo AIB per una posizione ufficiale dell’associazione •  raccogliamo una lista di best practice nel mondo sui vari fronti 30