SlideShare ist ein Scribd-Unternehmen logo
1 von 54
L E Z I N G T I J D E N S D H C L I N I C S , 2 6 S E P T 2 0 1 7
COMPUTATIONEEL DENKEN
SUZAN VERBERNE
OVER MIJ
 Achtergrond in taal- en spraaktechnologie (Katholieke Universiteit
Nijmegen, 1998-2002)
 Promotie op het onderwerp van vraag-antwoordsystemen
(Radboud Universiteit Nijmegen, 2005-2009)
 Onderzoeker en docent op het gebied van Text Mining en
Information Retrieval (Radboud Universiteit, 2009-2017)
 Universitair docent voor het Data Science onderzoeksprogramma
(Universiteit Leiden, 2017 -…)
DOEL VAN DEZE PRESENTATIE
 “Voor digitaal (geesteswetenschappelijk) onderzoek is het
noodzakelijk om een vraag in de echte wereld te kunnen omzetten
naar een vraag die met software beantwoord kan worden. Dit
vereist een bepaalde manier van denken: computationeel denken.”
 Best een abstract onderwerp!
 Computationeel denken binnen de UB?
 Wat?
 Hoe?
COMPUTATIONEEL DENKEN IN
DE UB
COMPUTATIONEEL DENKEN IN DE UB
 Bibliothecaris: vroeger en nu
1987
1936
nu
(‘the digital
librarian’)
https://americanlibrariesmagazine.org/
‘THE DIGITAL LIBRARIAN’
“Librarians in the Digital Age, A response to the Wall Street Journal column”,
By Sari Feldman and Julie Todaro | January 19, 2016
 De bibliothecaris als informatiespecialist
 Informatiedienstverlening
‘THE DIGITAL LIBRARIAN’
 Informatietaken van een academisch bibliothecaris:
 Informatiespecialist
 Selecteren, catalogiseren en classificeren van bibliotheekmaterialen
 Gebruik van bibliotheek-informatiesystemen en elektronische catalogi
 Informatiedienstverlening:
 Het beantwoorden van vragen van lezers
 Lezers helpen met het gebruik van informatiesystemen en het zoeken van
literatuur
Bron: https://targetjobs.co.uk/careers-advice/job-descriptions/275697-academic-librarian-job-description
COMPUTATIONEEL DENKEN IN DE UB
 Computationeel denken binnen de UB?
 Wat?  Informatietaken van de ‘digital librarian’
 Hoe?  De computer als hulpmiddel
 Kleine zijsprong:
 De bibliotheekwetenschappen (‘library and information sciences’)
stonden aan de basis van het vakgebied Information Retrieval
 Doel: de bibliothecaris ondersteunen met technologie
 1962
 1960, Journal of the ACM
COMPUTATIONEEL DENKEN
 Computationeel denken:
 een probleem en de bijbehorende oplossing op een zodanige manier
formuleren dat een ‘computer’ (mens of machine) de oplossing kan
uitvoeren
 Stappen:
1. Probleemformulering (abstractie/decompositie)
2. Implementatie van de oplossing
3. Uitvoeren van de oplossing en evaluatie
COMPUTATIONEEL DENKEN
 Dus: de computer als hulpmiddel voor ‘the digital librarian’
 Informatietaken:
1. categoriseren
2. zoeken en vinden
1 . C AT E G O R I S E R E N
HET COMPUTATIONEEL UITVOEREN
VAN INFORMATIETAKEN
INFORMATIETAAK 1: CATEGORISEREN
 Informatiespecialist
 Selecteren, catalogiseren en classificeren van bibliotheekmaterialen
 Gebruik van bibliotheek-informatiesystemen en elektronische catalogi
1. Probleemformulering (abstractie/decompositie)
 Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden
gecatalogiseerd?
 Wat is het genre/onderwerp/categorie?
 Of: wat zijn de onderwerpen?
SPAM OF GEEN SPAM?
SPAM OF GEEN SPAM?
SPAM OF GEEN SPAM?
TEKSTCLASSIFICATIE
 Op basis van welke kenmerken heb je je beslissing genomen?
 Classificatieprobleem: kiezen tussen twee of meer categorieën
(classes)
 De kenmerken die je gebruikt om je beslissing te maken zijn
features
 Voor tekstclassificatie worden meestal de woorden uit het
document gebruikt als features
VOORBEELDEN VAN TEKSTCLASSIFICATIE
SPAMDETECTIE
TAALHERKENNING
HET INDELEN VAN NIEUWS IN SECTIES
HET INDELEN VAN BOEKEN IN GENRES
HET TOEKENNEN VAN TREFWOORDEN AAN
ARCHIEFSTUKKEN
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
DEFINIEER JE TAAK
 Wat is de teksteenheid die je wilt classificeren?
 Hele boeken/tijdschriften? (nieuwe materialen)
 Hele documenten? (denk aan een e-mailarchief: classificatie per bericht)
 Secties? (denk aan notulen)
 Zinnen? (denk aan taalherkenning of sentimentclassificatie)
 Wat zijn de categorieën?
 Zijn de categorieën vooraf gegeven?
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
VOORBEELDDATA
Voorbeelddata (trainingsdata):
 Een set van teksten met categorieën/labels
 Om een classificatiemodel mee te trainen
Build classifier
Classifier
Voorbeeld-
documenten
Representeren als
feature vectors
Een
classificatie-
model leren
Toepassen op
een nieuw
document
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
FEATURE-EXTRACTIE
Voorbeeld-
documenten
Representeren als
feature vectors
WOORDEN ZIJN FEATURES
 Keuzes in het maken van de features:
 Wel of niet functiewoorden weggooien
 Hoeveel features gebruiken (grootte van vocabulaire van de classifier)
 Wel of niet lemmatiseren (interests  interest)
 …
Doc id Content Class
1 request urgent interest urgent Spam
2 assistance low interest deposit Spam
3 symposium defense june No spam
4 notas symposium deadline june No spam
5 registration assistance symposium deadline ?
CLASSIFICATIE-METHODEN
 Veel gebruikte methoden:
 Bereken de kans op het voorkomen van elke term gegeven elke categorie op
basis van de voorkomens in de trainingsdata (Naïve Bayes)
 Leer regels, bijvoorbeeld “als de e-mail het woord ‘urgent’ bevat dan is het
spam” (Decision Trees)
 Bepaal waar precies de verschillen tussen twee categorieën zitten; zoek
voorbeelden in de trainingsdata die precies op de grens tussen twee
categorieën zitten (Support Vector Machines)
 Vind de voorbeelden in de trainingsdata die het meest lijken op het te
classificeren document (kNN)
 Meestal werken we met een experimentele omgeving waar we methoden
kunnen vergelijken. Bijvoorbeeld Scikit-learn in Python
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
EVALUATIE
 Hoe goed is de classifier?
 Meten op voorbeelddata (want daarvan weten we de categorieën)
 Splits de voorbeelddata in een trainingset en een testset
 Bijvoorbeeld 80% om te trainen en 20% om te testen
 Of, als je niet zoveel data hebt, steeds roterende 80-20 (cross validation)
EVALUATIEMATEN
 Menselijke classificatie = referentie
 Classificatie door automatische classsifier
 8 ware categorieën
 waarvan 5 toegekend
 Recall = 5/8
 6 toegekende
categorieën
 waarvan 5 correct
 Precisie = 5/6
 We rapporteren
meestal het
gemiddelde:
F1 = 2×
precision ×recall
precision + recall
RESULTATEN: WAT KUN JE VERWACHTEN?
 Waar hangt de kwaliteit van de classifier van af?
 De moeilijkheid van de taak: hoe meer categorieën, hoe moeilijker
 De hoeveelheid trainingsdocumenten en de kwaliteit van de handmatige
classificatie
 De lengte van de documenten: korte documenten zijn moeilijker te
classificeren
WAT IS NODIG VOOR TEKSTCLASSIFICATIE
 Definitie van de taak
 Voorbeelddata
 Feature-extractie
 Classificatiemethode
 Evaluatie
2 . Z O E K E N E N V I N D E N
HET COMPUTATIONEEL UITVOEREN
VAN INFORMATIETAKEN
INFORMATIETAAK 2: ZOEKEN & VINDEN
 Informatiedienstverlening:
 Het beantwoorden van vragen van lezers
 Lezers helpen met het gebruik van informatiesystemen en het zoeken
van literatuur
1. Probleemformulering (abstractie/decompositie)
 Gegeven een informatie-vraag, wat zijn relevante
boeken/artikelen/bundels/tijdschriften?
 Hoe wordt de vraag geformuleerd?
 En hoe wordt relevantie bepaald?
INFORMATIEVRAGEN
 Wat is de betekenis achter een zoekvraag?
 De stad? De universiteit?
 Vertaling van het Nederlandse woord ‘leiden’?
 Een stadsplattegrond? Afbeeldingen? Nieuwsberichten?
 www.leiden.nl ?
 Een artikel op Wikipedia?
 Toeristische informatie?
 Zoekvragen in zoekmachines zijn ondergespecificeerd
 De vragensteller heeft impliciet een bedoeling met zijn vraag
 En verwacht dat de zoekmachine die bedoeling kent
INFORMATIEVRAGEN
 Google lost dat op 3 manieren op:
 Leren wat de meerderheid van de gebruikers bedoelt met de vraag
 Leren wat de interesse van deze specifieke gebruiker is
 Variatie aanbrengen in de resultaten
INFORMATIEVRAGEN
INFORMATIEVRAGEN IN CONTEXT
 Ingwersen & Järvelin, 2005
INFORMATIEVRAGEN IN CONTEXT
 Een zoekvraag staat niet op zichzelf
 Een gebruiker heeft een werktaak, bijvoorbeeld
literatuuronderzoek voor een artikel
 De werktaak omvat een aantal informatiebehoeften
 Elke informatiebehoefte wordt geuit in een reeks van zoekvragen
 Soms zijn meerdere zoekvragen nodig om het juiste detailniveau te
krijgen
 Soms is alleen een woordelijke zoekvraag niet genoeg  filteren op
metadata
ACADEMISCH ZOEKEN
ACADEMISCH ZOEKEN
ACADEMISCH ZOEKEN
 Waarom is academisch zoeken anders dan web search?
 Langere sessies (meer queries over hetzelfde onderwerp)
 Specifieke informatiebehoeften
 Academici willen controle over de resultaten die ze zien (en beweren
daarom dat ze personalisatie absoluut niet willen)
 Het gaat niet om het 1e relevante resultaat; de resultatenset moet
compleet zijn (high recall)
 …
RELEVANTIE
1. Probleemformulering (abstractie/decompositie)
 Gegeven een informatie-vraag, wat zijn relevante
boeken/artikelen/bundels/tijdschriften
 Hoe wordt de vraag geformuleerd?
 En hoe wordt relevantie bepaald?
RELEVANTIE
 Relevantie is gebaseerd op:
 woordoverlap (documenten met het woord ‘leiden’ erin)
 populariteit van pagina’s op het web (hoeveel pagina’s linken naar de
pagina)
 populariteit van pagina’s in de zoekresultaten
 persoonlijke geschiedenis, locatie en voorkeuren (relevantie is
persoonlijk)
C O N C LU S I E S
COMPUTATIONEEL DENKEN IN
DE UB
SAMENVATTING
 De computer als hulpmiddel voor ‘the digital librarian’
 Informatietaken:
1. categoriseren
2. zoeken en vinden
 Computationeel denken: probleemformulering
 Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden
gecatalogiseerd?  tekstclassificatie
 Gegeven een informatie-vraag, wat zijn relevante
boeken/artikelen/bundels/tijdschriften?
BEDANKT!

Weitere ähnliche Inhalte

Ähnlich wie Computationeel denken

Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Ernst Thoutenhoofd
 
Webcommunicatie / college 2
Webcommunicatie / college 2Webcommunicatie / college 2
Webcommunicatie / college 2Igor ter Halle
 
Opzet Scriptie - Thema 1 Scriptieworkshop
Opzet Scriptie - Thema 1 ScriptieworkshopOpzet Scriptie - Thema 1 Scriptieworkshop
Opzet Scriptie - Thema 1 ScriptieworkshopPim Schaaf
 
Webcommunicatie / college 3
Webcommunicatie / college 3Webcommunicatie / college 3
Webcommunicatie / college 3Igor ter Halle
 
Presentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics NoordhoffPresentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics Noordhofferikwoning
 
Sessie6 module onderwijsontwerpen_v31maart2014
Sessie6 module onderwijsontwerpen_v31maart2014Sessie6 module onderwijsontwerpen_v31maart2014
Sessie6 module onderwijsontwerpen_v31maart2014Ilya Zitter
 
Workshop 2 ppt probleemanalyse[1][1]
Workshop 2  ppt probleemanalyse[1][1]Workshop 2  ppt probleemanalyse[1][1]
Workshop 2 ppt probleemanalyse[1][1]vri
 
Ooz zwolle feb11
Ooz zwolle feb11Ooz zwolle feb11
Ooz zwolle feb11Kennisnet
 
Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Alexander Stierman
 
Sessie6 module onderwijsontwerpen_v8januari2014
Sessie6 module onderwijsontwerpen_v8januari2014Sessie6 module onderwijsontwerpen_v8januari2014
Sessie6 module onderwijsontwerpen_v8januari2014Ilya Zitter
 
181009 (wr) v1 webinar activerend leren avans plus 2018
181009 (wr) v1 webinar activerend leren avans plus 2018181009 (wr) v1 webinar activerend leren avans plus 2018
181009 (wr) v1 webinar activerend leren avans plus 2018WilfredRubens.com
 
ELEC Taking the step towards e-learning
ELEC Taking the step towards e-learningELEC Taking the step towards e-learning
ELEC Taking the step towards e-learningCedric Saelens
 
0708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 10708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 1Hans Kemp
 
Sessie6 module onderwijsontwerpen_v6februari2014
Sessie6 module onderwijsontwerpen_v6februari2014Sessie6 module onderwijsontwerpen_v6februari2014
Sessie6 module onderwijsontwerpen_v6februari2014Ilya Zitter
 
Training blended learning
Training blended learningTraining blended learning
Training blended learningnielsm1978
 
230627 (WR) v1 ChatGPT Schouten en Nelissen.pdf
230627 (WR) v1  ChatGPT Schouten en Nelissen.pdf230627 (WR) v1  ChatGPT Schouten en Nelissen.pdf
230627 (WR) v1 ChatGPT Schouten en Nelissen.pdfWilfredRubens.com
 
Educatieve software - Technische Maatjes - Assistive Technologie
Educatieve software - Technische Maatjes - Assistive TechnologieEducatieve software - Technische Maatjes - Assistive Technologie
Educatieve software - Technische Maatjes - Assistive TechnologieGerard Dummer
 
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13SURF Events
 
Onderzoeksmethode scriptie
Onderzoeksmethode scriptieOnderzoeksmethode scriptie
Onderzoeksmethode scriptieMariekeStrootman
 

Ähnlich wie Computationeel denken (20)

Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
 
Webcommunicatie / college 2
Webcommunicatie / college 2Webcommunicatie / college 2
Webcommunicatie / college 2
 
Opzet Scriptie - Thema 1 Scriptieworkshop
Opzet Scriptie - Thema 1 ScriptieworkshopOpzet Scriptie - Thema 1 Scriptieworkshop
Opzet Scriptie - Thema 1 Scriptieworkshop
 
Webcommunicatie / college 3
Webcommunicatie / college 3Webcommunicatie / college 3
Webcommunicatie / college 3
 
Presentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics NoordhoffPresentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics Noordhoff
 
Sessie6 module onderwijsontwerpen_v31maart2014
Sessie6 module onderwijsontwerpen_v31maart2014Sessie6 module onderwijsontwerpen_v31maart2014
Sessie6 module onderwijsontwerpen_v31maart2014
 
Workshop 2 ppt probleemanalyse[1][1]
Workshop 2  ppt probleemanalyse[1][1]Workshop 2  ppt probleemanalyse[1][1]
Workshop 2 ppt probleemanalyse[1][1]
 
Ooz zwolle feb11
Ooz zwolle feb11Ooz zwolle feb11
Ooz zwolle feb11
 
Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626Kenta Informatievaardigheden 20070626
Kenta Informatievaardigheden 20070626
 
Sessie6 module onderwijsontwerpen_v8januari2014
Sessie6 module onderwijsontwerpen_v8januari2014Sessie6 module onderwijsontwerpen_v8januari2014
Sessie6 module onderwijsontwerpen_v8januari2014
 
181009 (wr) v1 webinar activerend leren avans plus 2018
181009 (wr) v1 webinar activerend leren avans plus 2018181009 (wr) v1 webinar activerend leren avans plus 2018
181009 (wr) v1 webinar activerend leren avans plus 2018
 
ArchitectureDevil
ArchitectureDevilArchitectureDevil
ArchitectureDevil
 
ELEC Taking the step towards e-learning
ELEC Taking the step towards e-learningELEC Taking the step towards e-learning
ELEC Taking the step towards e-learning
 
0708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 10708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 1
 
Sessie6 module onderwijsontwerpen_v6februari2014
Sessie6 module onderwijsontwerpen_v6februari2014Sessie6 module onderwijsontwerpen_v6februari2014
Sessie6 module onderwijsontwerpen_v6februari2014
 
Training blended learning
Training blended learningTraining blended learning
Training blended learning
 
230627 (WR) v1 ChatGPT Schouten en Nelissen.pdf
230627 (WR) v1  ChatGPT Schouten en Nelissen.pdf230627 (WR) v1  ChatGPT Schouten en Nelissen.pdf
230627 (WR) v1 ChatGPT Schouten en Nelissen.pdf
 
Educatieve software - Technische Maatjes - Assistive Technologie
Educatieve software - Technische Maatjes - Assistive TechnologieEducatieve software - Technische Maatjes - Assistive Technologie
Educatieve software - Technische Maatjes - Assistive Technologie
 
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13
 
Onderzoeksmethode scriptie
Onderzoeksmethode scriptieOnderzoeksmethode scriptie
Onderzoeksmethode scriptie
 

Mehr von Leiden University

‘Big models’: the success and pitfalls of Transformer models in natural langu...
‘Big models’: the success and pitfalls of Transformer models in natural langu...‘Big models’: the success and pitfalls of Transformer models in natural langu...
‘Big models’: the success and pitfalls of Transformer models in natural langu...Leiden University
 
Text mining for health knowledge discovery
Text mining for health knowledge discoveryText mining for health knowledge discovery
Text mining for health knowledge discoveryLeiden University
 
Text Mining for Lexicography
Text Mining for LexicographyText Mining for Lexicography
Text Mining for LexicographyLeiden University
 
'Het nieuwe zoeken' voor informatieprofessionals
'Het nieuwe zoeken' voor informatieprofessionals'Het nieuwe zoeken' voor informatieprofessionals
'Het nieuwe zoeken' voor informatieprofessionalsLeiden University
 
Summarizing discussion threads
Summarizing discussion threadsSummarizing discussion threads
Summarizing discussion threadsLeiden University
 
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?Leiden University
 
RemBench: A Digital Workbench for Rembrandt Research
RemBench: A Digital Workbench for Rembrandt ResearchRemBench: A Digital Workbench for Rembrandt Research
RemBench: A Digital Workbench for Rembrandt ResearchLeiden University
 
Collecting a dataset of information behaviour in context
Collecting a dataset of information behaviour in contextCollecting a dataset of information behaviour in context
Collecting a dataset of information behaviour in contextLeiden University
 
Search engines for the humanities that go beyond Google
Search engines for the humanities that go beyond GoogleSearch engines for the humanities that go beyond Google
Search engines for the humanities that go beyond GoogleLeiden University
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Leiden University
 

Mehr von Leiden University (12)

‘Big models’: the success and pitfalls of Transformer models in natural langu...
‘Big models’: the success and pitfalls of Transformer models in natural langu...‘Big models’: the success and pitfalls of Transformer models in natural langu...
‘Big models’: the success and pitfalls of Transformer models in natural langu...
 
Text mining for health knowledge discovery
Text mining for health knowledge discoveryText mining for health knowledge discovery
Text mining for health knowledge discovery
 
Text Mining for Lexicography
Text Mining for LexicographyText Mining for Lexicography
Text Mining for Lexicography
 
'Het nieuwe zoeken' voor informatieprofessionals
'Het nieuwe zoeken' voor informatieprofessionals'Het nieuwe zoeken' voor informatieprofessionals
'Het nieuwe zoeken' voor informatieprofessionals
 
kanker.nl & Data Science
kanker.nl & Data Sciencekanker.nl & Data Science
kanker.nl & Data Science
 
Tutorial on word2vec
Tutorial on word2vecTutorial on word2vec
Tutorial on word2vec
 
Summarizing discussion threads
Summarizing discussion threadsSummarizing discussion threads
Summarizing discussion threads
 
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?
 
RemBench: A Digital Workbench for Rembrandt Research
RemBench: A Digital Workbench for Rembrandt ResearchRemBench: A Digital Workbench for Rembrandt Research
RemBench: A Digital Workbench for Rembrandt Research
 
Collecting a dataset of information behaviour in context
Collecting a dataset of information behaviour in contextCollecting a dataset of information behaviour in context
Collecting a dataset of information behaviour in context
 
Search engines for the humanities that go beyond Google
Search engines for the humanities that go beyond GoogleSearch engines for the humanities that go beyond Google
Search engines for the humanities that go beyond Google
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?
 

Computationeel denken

  • 1. L E Z I N G T I J D E N S D H C L I N I C S , 2 6 S E P T 2 0 1 7 COMPUTATIONEEL DENKEN SUZAN VERBERNE
  • 2. OVER MIJ  Achtergrond in taal- en spraaktechnologie (Katholieke Universiteit Nijmegen, 1998-2002)  Promotie op het onderwerp van vraag-antwoordsystemen (Radboud Universiteit Nijmegen, 2005-2009)  Onderzoeker en docent op het gebied van Text Mining en Information Retrieval (Radboud Universiteit, 2009-2017)  Universitair docent voor het Data Science onderzoeksprogramma (Universiteit Leiden, 2017 -…)
  • 3. DOEL VAN DEZE PRESENTATIE  “Voor digitaal (geesteswetenschappelijk) onderzoek is het noodzakelijk om een vraag in de echte wereld te kunnen omzetten naar een vraag die met software beantwoord kan worden. Dit vereist een bepaalde manier van denken: computationeel denken.”  Best een abstract onderwerp!  Computationeel denken binnen de UB?  Wat?  Hoe?
  • 5. COMPUTATIONEEL DENKEN IN DE UB  Bibliothecaris: vroeger en nu 1987 1936 nu (‘the digital librarian’) https://americanlibrariesmagazine.org/
  • 6. ‘THE DIGITAL LIBRARIAN’ “Librarians in the Digital Age, A response to the Wall Street Journal column”, By Sari Feldman and Julie Todaro | January 19, 2016  De bibliothecaris als informatiespecialist  Informatiedienstverlening
  • 7. ‘THE DIGITAL LIBRARIAN’  Informatietaken van een academisch bibliothecaris:  Informatiespecialist  Selecteren, catalogiseren en classificeren van bibliotheekmaterialen  Gebruik van bibliotheek-informatiesystemen en elektronische catalogi  Informatiedienstverlening:  Het beantwoorden van vragen van lezers  Lezers helpen met het gebruik van informatiesystemen en het zoeken van literatuur Bron: https://targetjobs.co.uk/careers-advice/job-descriptions/275697-academic-librarian-job-description
  • 8. COMPUTATIONEEL DENKEN IN DE UB  Computationeel denken binnen de UB?  Wat?  Informatietaken van de ‘digital librarian’  Hoe?  De computer als hulpmiddel  Kleine zijsprong:  De bibliotheekwetenschappen (‘library and information sciences’) stonden aan de basis van het vakgebied Information Retrieval  Doel: de bibliothecaris ondersteunen met technologie
  • 10.  1960, Journal of the ACM
  • 11. COMPUTATIONEEL DENKEN  Computationeel denken:  een probleem en de bijbehorende oplossing op een zodanige manier formuleren dat een ‘computer’ (mens of machine) de oplossing kan uitvoeren  Stappen: 1. Probleemformulering (abstractie/decompositie) 2. Implementatie van de oplossing 3. Uitvoeren van de oplossing en evaluatie
  • 12. COMPUTATIONEEL DENKEN  Dus: de computer als hulpmiddel voor ‘the digital librarian’  Informatietaken: 1. categoriseren 2. zoeken en vinden
  • 13. 1 . C AT E G O R I S E R E N HET COMPUTATIONEEL UITVOEREN VAN INFORMATIETAKEN
  • 14. INFORMATIETAAK 1: CATEGORISEREN  Informatiespecialist  Selecteren, catalogiseren en classificeren van bibliotheekmaterialen  Gebruik van bibliotheek-informatiesystemen en elektronische catalogi 1. Probleemformulering (abstractie/decompositie)  Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden gecatalogiseerd?  Wat is het genre/onderwerp/categorie?  Of: wat zijn de onderwerpen?
  • 15. SPAM OF GEEN SPAM?
  • 16. SPAM OF GEEN SPAM?
  • 17. SPAM OF GEEN SPAM?
  • 18. TEKSTCLASSIFICATIE  Op basis van welke kenmerken heb je je beslissing genomen?  Classificatieprobleem: kiezen tussen twee of meer categorieën (classes)  De kenmerken die je gebruikt om je beslissing te maken zijn features  Voor tekstclassificatie worden meestal de woorden uit het document gebruikt als features
  • 22. HET INDELEN VAN NIEUWS IN SECTIES
  • 23. HET INDELEN VAN BOEKEN IN GENRES
  • 24. HET TOEKENNEN VAN TREFWOORDEN AAN ARCHIEFSTUKKEN
  • 25. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 26. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 27. DEFINIEER JE TAAK  Wat is de teksteenheid die je wilt classificeren?  Hele boeken/tijdschriften? (nieuwe materialen)  Hele documenten? (denk aan een e-mailarchief: classificatie per bericht)  Secties? (denk aan notulen)  Zinnen? (denk aan taalherkenning of sentimentclassificatie)  Wat zijn de categorieën?  Zijn de categorieën vooraf gegeven?
  • 28. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 29. VOORBEELDDATA Voorbeelddata (trainingsdata):  Een set van teksten met categorieën/labels  Om een classificatiemodel mee te trainen
  • 30. Build classifier Classifier Voorbeeld- documenten Representeren als feature vectors Een classificatie- model leren Toepassen op een nieuw document
  • 31. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 33. WOORDEN ZIJN FEATURES  Keuzes in het maken van de features:  Wel of niet functiewoorden weggooien  Hoeveel features gebruiken (grootte van vocabulaire van de classifier)  Wel of niet lemmatiseren (interests  interest)  … Doc id Content Class 1 request urgent interest urgent Spam 2 assistance low interest deposit Spam 3 symposium defense june No spam 4 notas symposium deadline june No spam 5 registration assistance symposium deadline ?
  • 34. CLASSIFICATIE-METHODEN  Veel gebruikte methoden:  Bereken de kans op het voorkomen van elke term gegeven elke categorie op basis van de voorkomens in de trainingsdata (Naïve Bayes)  Leer regels, bijvoorbeeld “als de e-mail het woord ‘urgent’ bevat dan is het spam” (Decision Trees)  Bepaal waar precies de verschillen tussen twee categorieën zitten; zoek voorbeelden in de trainingsdata die precies op de grens tussen twee categorieën zitten (Support Vector Machines)  Vind de voorbeelden in de trainingsdata die het meest lijken op het te classificeren document (kNN)  Meestal werken we met een experimentele omgeving waar we methoden kunnen vergelijken. Bijvoorbeeld Scikit-learn in Python
  • 35. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 36. EVALUATIE  Hoe goed is de classifier?  Meten op voorbeelddata (want daarvan weten we de categorieën)  Splits de voorbeelddata in een trainingset en een testset  Bijvoorbeeld 80% om te trainen en 20% om te testen  Of, als je niet zoveel data hebt, steeds roterende 80-20 (cross validation)
  • 37. EVALUATIEMATEN  Menselijke classificatie = referentie  Classificatie door automatische classsifier  8 ware categorieën  waarvan 5 toegekend  Recall = 5/8  6 toegekende categorieën  waarvan 5 correct  Precisie = 5/6  We rapporteren meestal het gemiddelde: F1 = 2× precision ×recall precision + recall
  • 38. RESULTATEN: WAT KUN JE VERWACHTEN?  Waar hangt de kwaliteit van de classifier van af?  De moeilijkheid van de taak: hoe meer categorieën, hoe moeilijker  De hoeveelheid trainingsdocumenten en de kwaliteit van de handmatige classificatie  De lengte van de documenten: korte documenten zijn moeilijker te classificeren
  • 39. WAT IS NODIG VOOR TEKSTCLASSIFICATIE  Definitie van de taak  Voorbeelddata  Feature-extractie  Classificatiemethode  Evaluatie
  • 40. 2 . Z O E K E N E N V I N D E N HET COMPUTATIONEEL UITVOEREN VAN INFORMATIETAKEN
  • 41. INFORMATIETAAK 2: ZOEKEN & VINDEN  Informatiedienstverlening:  Het beantwoorden van vragen van lezers  Lezers helpen met het gebruik van informatiesystemen en het zoeken van literatuur 1. Probleemformulering (abstractie/decompositie)  Gegeven een informatie-vraag, wat zijn relevante boeken/artikelen/bundels/tijdschriften?  Hoe wordt de vraag geformuleerd?  En hoe wordt relevantie bepaald?
  • 42. INFORMATIEVRAGEN  Wat is de betekenis achter een zoekvraag?  De stad? De universiteit?  Vertaling van het Nederlandse woord ‘leiden’?  Een stadsplattegrond? Afbeeldingen? Nieuwsberichten?  www.leiden.nl ?  Een artikel op Wikipedia?  Toeristische informatie?  Zoekvragen in zoekmachines zijn ondergespecificeerd  De vragensteller heeft impliciet een bedoeling met zijn vraag  En verwacht dat de zoekmachine die bedoeling kent
  • 43. INFORMATIEVRAGEN  Google lost dat op 3 manieren op:  Leren wat de meerderheid van de gebruikers bedoelt met de vraag  Leren wat de interesse van deze specifieke gebruiker is  Variatie aanbrengen in de resultaten
  • 45. INFORMATIEVRAGEN IN CONTEXT  Ingwersen & Järvelin, 2005
  • 46. INFORMATIEVRAGEN IN CONTEXT  Een zoekvraag staat niet op zichzelf  Een gebruiker heeft een werktaak, bijvoorbeeld literatuuronderzoek voor een artikel  De werktaak omvat een aantal informatiebehoeften  Elke informatiebehoefte wordt geuit in een reeks van zoekvragen  Soms zijn meerdere zoekvragen nodig om het juiste detailniveau te krijgen  Soms is alleen een woordelijke zoekvraag niet genoeg  filteren op metadata
  • 49. ACADEMISCH ZOEKEN  Waarom is academisch zoeken anders dan web search?  Langere sessies (meer queries over hetzelfde onderwerp)  Specifieke informatiebehoeften  Academici willen controle over de resultaten die ze zien (en beweren daarom dat ze personalisatie absoluut niet willen)  Het gaat niet om het 1e relevante resultaat; de resultatenset moet compleet zijn (high recall)  …
  • 50. RELEVANTIE 1. Probleemformulering (abstractie/decompositie)  Gegeven een informatie-vraag, wat zijn relevante boeken/artikelen/bundels/tijdschriften  Hoe wordt de vraag geformuleerd?  En hoe wordt relevantie bepaald?
  • 51. RELEVANTIE  Relevantie is gebaseerd op:  woordoverlap (documenten met het woord ‘leiden’ erin)  populariteit van pagina’s op het web (hoeveel pagina’s linken naar de pagina)  populariteit van pagina’s in de zoekresultaten  persoonlijke geschiedenis, locatie en voorkeuren (relevantie is persoonlijk)
  • 52. C O N C LU S I E S COMPUTATIONEEL DENKEN IN DE UB
  • 53. SAMENVATTING  De computer als hulpmiddel voor ‘the digital librarian’  Informatietaken: 1. categoriseren 2. zoeken en vinden  Computationeel denken: probleemformulering  Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden gecatalogiseerd?  tekstclassificatie  Gegeven een informatie-vraag, wat zijn relevante boeken/artikelen/bundels/tijdschriften?

Hinweis der Redaktion

  1. https://americanlibrariesmagazine.org/blogs/the-scoop/librarians-digital-age-wsj-response/