Krijgen we ooit de beschikking over slimme zoektechnologie?
Computationeel denken
1. L E Z I N G T I J D E N S D H C L I N I C S , 2 6 S E P T 2 0 1 7
COMPUTATIONEEL DENKEN
SUZAN VERBERNE
2. OVER MIJ
Achtergrond in taal- en spraaktechnologie (Katholieke Universiteit
Nijmegen, 1998-2002)
Promotie op het onderwerp van vraag-antwoordsystemen
(Radboud Universiteit Nijmegen, 2005-2009)
Onderzoeker en docent op het gebied van Text Mining en
Information Retrieval (Radboud Universiteit, 2009-2017)
Universitair docent voor het Data Science onderzoeksprogramma
(Universiteit Leiden, 2017 -…)
3. DOEL VAN DEZE PRESENTATIE
“Voor digitaal (geesteswetenschappelijk) onderzoek is het
noodzakelijk om een vraag in de echte wereld te kunnen omzetten
naar een vraag die met software beantwoord kan worden. Dit
vereist een bepaalde manier van denken: computationeel denken.”
Best een abstract onderwerp!
Computationeel denken binnen de UB?
Wat?
Hoe?
5. COMPUTATIONEEL DENKEN IN DE UB
Bibliothecaris: vroeger en nu
1987
1936
nu
(‘the digital
librarian’)
https://americanlibrariesmagazine.org/
6. ‘THE DIGITAL LIBRARIAN’
“Librarians in the Digital Age, A response to the Wall Street Journal column”,
By Sari Feldman and Julie Todaro | January 19, 2016
De bibliothecaris als informatiespecialist
Informatiedienstverlening
7. ‘THE DIGITAL LIBRARIAN’
Informatietaken van een academisch bibliothecaris:
Informatiespecialist
Selecteren, catalogiseren en classificeren van bibliotheekmaterialen
Gebruik van bibliotheek-informatiesystemen en elektronische catalogi
Informatiedienstverlening:
Het beantwoorden van vragen van lezers
Lezers helpen met het gebruik van informatiesystemen en het zoeken van
literatuur
Bron: https://targetjobs.co.uk/careers-advice/job-descriptions/275697-academic-librarian-job-description
8. COMPUTATIONEEL DENKEN IN DE UB
Computationeel denken binnen de UB?
Wat? Informatietaken van de ‘digital librarian’
Hoe? De computer als hulpmiddel
Kleine zijsprong:
De bibliotheekwetenschappen (‘library and information sciences’)
stonden aan de basis van het vakgebied Information Retrieval
Doel: de bibliothecaris ondersteunen met technologie
11. COMPUTATIONEEL DENKEN
Computationeel denken:
een probleem en de bijbehorende oplossing op een zodanige manier
formuleren dat een ‘computer’ (mens of machine) de oplossing kan
uitvoeren
Stappen:
1. Probleemformulering (abstractie/decompositie)
2. Implementatie van de oplossing
3. Uitvoeren van de oplossing en evaluatie
12. COMPUTATIONEEL DENKEN
Dus: de computer als hulpmiddel voor ‘the digital librarian’
Informatietaken:
1. categoriseren
2. zoeken en vinden
13. 1 . C AT E G O R I S E R E N
HET COMPUTATIONEEL UITVOEREN
VAN INFORMATIETAKEN
14. INFORMATIETAAK 1: CATEGORISEREN
Informatiespecialist
Selecteren, catalogiseren en classificeren van bibliotheekmaterialen
Gebruik van bibliotheek-informatiesystemen en elektronische catalogi
1. Probleemformulering (abstractie/decompositie)
Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden
gecatalogiseerd?
Wat is het genre/onderwerp/categorie?
Of: wat zijn de onderwerpen?
18. TEKSTCLASSIFICATIE
Op basis van welke kenmerken heb je je beslissing genomen?
Classificatieprobleem: kiezen tussen twee of meer categorieën
(classes)
De kenmerken die je gebruikt om je beslissing te maken zijn
features
Voor tekstclassificatie worden meestal de woorden uit het
document gebruikt als features
25. WAT IS NODIG VOOR TEKSTCLASSIFICATIE
Definitie van de taak
Voorbeelddata
Feature-extractie
Classificatiemethode
Evaluatie
26. WAT IS NODIG VOOR TEKSTCLASSIFICATIE
Definitie van de taak
Voorbeelddata
Feature-extractie
Classificatiemethode
Evaluatie
27. DEFINIEER JE TAAK
Wat is de teksteenheid die je wilt classificeren?
Hele boeken/tijdschriften? (nieuwe materialen)
Hele documenten? (denk aan een e-mailarchief: classificatie per bericht)
Secties? (denk aan notulen)
Zinnen? (denk aan taalherkenning of sentimentclassificatie)
Wat zijn de categorieën?
Zijn de categorieën vooraf gegeven?
28. WAT IS NODIG VOOR TEKSTCLASSIFICATIE
Definitie van de taak
Voorbeelddata
Feature-extractie
Classificatiemethode
Evaluatie
33. WOORDEN ZIJN FEATURES
Keuzes in het maken van de features:
Wel of niet functiewoorden weggooien
Hoeveel features gebruiken (grootte van vocabulaire van de classifier)
Wel of niet lemmatiseren (interests interest)
…
Doc id Content Class
1 request urgent interest urgent Spam
2 assistance low interest deposit Spam
3 symposium defense june No spam
4 notas symposium deadline june No spam
5 registration assistance symposium deadline ?
34. CLASSIFICATIE-METHODEN
Veel gebruikte methoden:
Bereken de kans op het voorkomen van elke term gegeven elke categorie op
basis van de voorkomens in de trainingsdata (Naïve Bayes)
Leer regels, bijvoorbeeld “als de e-mail het woord ‘urgent’ bevat dan is het
spam” (Decision Trees)
Bepaal waar precies de verschillen tussen twee categorieën zitten; zoek
voorbeelden in de trainingsdata die precies op de grens tussen twee
categorieën zitten (Support Vector Machines)
Vind de voorbeelden in de trainingsdata die het meest lijken op het te
classificeren document (kNN)
Meestal werken we met een experimentele omgeving waar we methoden
kunnen vergelijken. Bijvoorbeeld Scikit-learn in Python
35. WAT IS NODIG VOOR TEKSTCLASSIFICATIE
Definitie van de taak
Voorbeelddata
Feature-extractie
Classificatiemethode
Evaluatie
36. EVALUATIE
Hoe goed is de classifier?
Meten op voorbeelddata (want daarvan weten we de categorieën)
Splits de voorbeelddata in een trainingset en een testset
Bijvoorbeeld 80% om te trainen en 20% om te testen
Of, als je niet zoveel data hebt, steeds roterende 80-20 (cross validation)
37. EVALUATIEMATEN
Menselijke classificatie = referentie
Classificatie door automatische classsifier
8 ware categorieën
waarvan 5 toegekend
Recall = 5/8
6 toegekende
categorieën
waarvan 5 correct
Precisie = 5/6
We rapporteren
meestal het
gemiddelde:
F1 = 2×
precision ×recall
precision + recall
38. RESULTATEN: WAT KUN JE VERWACHTEN?
Waar hangt de kwaliteit van de classifier van af?
De moeilijkheid van de taak: hoe meer categorieën, hoe moeilijker
De hoeveelheid trainingsdocumenten en de kwaliteit van de handmatige
classificatie
De lengte van de documenten: korte documenten zijn moeilijker te
classificeren
39. WAT IS NODIG VOOR TEKSTCLASSIFICATIE
Definitie van de taak
Voorbeelddata
Feature-extractie
Classificatiemethode
Evaluatie
40. 2 . Z O E K E N E N V I N D E N
HET COMPUTATIONEEL UITVOEREN
VAN INFORMATIETAKEN
41. INFORMATIETAAK 2: ZOEKEN & VINDEN
Informatiedienstverlening:
Het beantwoorden van vragen van lezers
Lezers helpen met het gebruik van informatiesystemen en het zoeken
van literatuur
1. Probleemformulering (abstractie/decompositie)
Gegeven een informatie-vraag, wat zijn relevante
boeken/artikelen/bundels/tijdschriften?
Hoe wordt de vraag geformuleerd?
En hoe wordt relevantie bepaald?
42. INFORMATIEVRAGEN
Wat is de betekenis achter een zoekvraag?
De stad? De universiteit?
Vertaling van het Nederlandse woord ‘leiden’?
Een stadsplattegrond? Afbeeldingen? Nieuwsberichten?
www.leiden.nl ?
Een artikel op Wikipedia?
Toeristische informatie?
Zoekvragen in zoekmachines zijn ondergespecificeerd
De vragensteller heeft impliciet een bedoeling met zijn vraag
En verwacht dat de zoekmachine die bedoeling kent
43. INFORMATIEVRAGEN
Google lost dat op 3 manieren op:
Leren wat de meerderheid van de gebruikers bedoelt met de vraag
Leren wat de interesse van deze specifieke gebruiker is
Variatie aanbrengen in de resultaten
46. INFORMATIEVRAGEN IN CONTEXT
Een zoekvraag staat niet op zichzelf
Een gebruiker heeft een werktaak, bijvoorbeeld
literatuuronderzoek voor een artikel
De werktaak omvat een aantal informatiebehoeften
Elke informatiebehoefte wordt geuit in een reeks van zoekvragen
Soms zijn meerdere zoekvragen nodig om het juiste detailniveau te
krijgen
Soms is alleen een woordelijke zoekvraag niet genoeg filteren op
metadata
49. ACADEMISCH ZOEKEN
Waarom is academisch zoeken anders dan web search?
Langere sessies (meer queries over hetzelfde onderwerp)
Specifieke informatiebehoeften
Academici willen controle over de resultaten die ze zien (en beweren
daarom dat ze personalisatie absoluut niet willen)
Het gaat niet om het 1e relevante resultaat; de resultatenset moet
compleet zijn (high recall)
…
51. RELEVANTIE
Relevantie is gebaseerd op:
woordoverlap (documenten met het woord ‘leiden’ erin)
populariteit van pagina’s op het web (hoeveel pagina’s linken naar de
pagina)
populariteit van pagina’s in de zoekresultaten
persoonlijke geschiedenis, locatie en voorkeuren (relevantie is
persoonlijk)
52. C O N C LU S I E S
COMPUTATIONEEL DENKEN IN
DE UB
53. SAMENVATTING
De computer als hulpmiddel voor ‘the digital librarian’
Informatietaken:
1. categoriseren
2. zoeken en vinden
Computationeel denken: probleemformulering
Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden
gecatalogiseerd? tekstclassificatie
Gegeven een informatie-vraag, wat zijn relevante
boeken/artikelen/bundels/tijdschriften?