1. “Systematisch zoeken op
internet kan niet …. of wel?”
Workshop tijdens de VOGIN-IP lezing, 20220511
Jeroen Bosman & Bianca Kramer
Slides beschikbaar op https://tinyurl.com/syszoek2022
2. Wat gaan we doen?
● Aanleiding, inleiding
● Hands on toepassing in 3 rondes, met eigen vraag/onderwerp/casus
● Afsluitende discussie
3. Waarom systematisch zoeken?
● Meer controle over zoekproces
● Werkwijze kunnen
verantwoorden (zowel voor
zoeken als voor selectie)
● Reproduceerbare resultaten en
aanpak (voor anderen en voor
jezelf)
http://prisma-statement.org/
4. Waarom systematisch zoeken?
● Meer controle over zoekproces
● Werkwijze kunnen
verantwoorden (zowel voor
zoeken als voor selectie)
● Reproduceerbare resultaten en
aanpak (voor anderen en voor
jezelf)
http://prisma-statement.org/
5. Systematisch wetenschappelijke literatuur zoeken: hoe?
● Breed geaccepteerde opbouw, normen, standaarden
● Gebruik van hulpmiddelen bij opbouw zoekvraag
● Gebruik van gestructureerde databases met grote dekking
● Lange zoekvragen voor grote precisie en recall
● Input van veel mensuren voor handmatig selecteren zoekresultaten
● Automatische selectie in opkomst
6. Kan het ook met webinformatie?
● Laten we het proberen
● Wel heel anders want ….
○ Veelsoortige informatie, w.b. doel, herkomst, opbouw, metadata
○ Veel minder structuur in de metadata van de grootste zoekmachines
○ Dynamische informatie
○ Nauwelijks gespecialiseerde zoekmachines/databases voor webinformatie op
discipline/onderwerp/documenttype
○ En bij de grote webzoekmachines:
■ Sterk effect relevantie-ordening
■ Slechts beperkt deel resultaten wordt getoond
■ Getoonde aantallen resultaten zeer onbetrouwbaar
7. info aanbieder
sociale media
projecten, producten,
publicaties
alg. beleid,
doelen, gesch.
contact,
naam,
org.
onderw
ijs
en
gezondheid
i
n
d
i
v
i
d
u
e
n
NGOs
media
&
uitgevers
b
i
b
l
i
o
t
h
e
k
e
n
,
m
u
s
e
a
e
t
c
.
overheden
bedrijven
Belangrijkste
informatieleveranciers en
hun soorten online
informatie
Je kunt dit schema gebruiken om
vooraf te bedenken in welke
hoeken/segmenten de door jou
gezochte informatie zich bevindt en
daar mede keuzes in je zoekproces op
te baseren.
8. type info aanbieder
sociale media
projecten, producten,
publicaties
alg. beleid,
doelen, gesch.
contact,
naam,
org.
onderw
ijs
en
gezondheid
i
n
d
i
v
i
d
u
e
n
NGOs
media
&
uitgevers
b
i
b
l
i
o
t
h
e
k
e
n
,
m
u
s
e
a
e
t
c
.
overheden
bedrijven
Voorbeeld: relevante
segmenten voor het
onderwerp van de relatie
tussen drugsgebruik en
schoolprestaties !
!
!
!
!
!
!
!
13. b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
in principe ontsloten via webzoekmachines, maar ….
individuen
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
14. Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken
‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage)
P&Z-1 onderscheid hoofdelementen in je
probleemstelling
- gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental
determinant-comparator-outcome-(study type/design)
- gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv..
beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2 relevantie: vind alleen items waarin het
verband wordt gelegd
- gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen
bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt
P&Z-3 recall: neem alle varianten van
elementbeschrijvingen mee
- gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4 precisie: sluit irrelevante betekenissen /
contexten / homoniemen uit
- gebruik Booleaans AND NOT om contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
- vermijd gebruik van truncatie en wildcards
- gebruik een relevante inperking op publicatiejaar
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch)
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens
- gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5 recall: sluit aan bij geaccepteerd jargon /
vocabulair
- gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen,
publicatiejaren, geografische herkomst) dekken
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie
- kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie - kies zo min mogelijk verschillende databases
- kies databases die downloaden van metadata ondersteunen
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan)
DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws
of social media)
DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen
- kies bij voorkeur vrij beschikbare databases
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van
zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen
- kies bij voorkeur vrij beschikbare databases
UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full
text als veldspecifiek zoeken niet mogelijk is
- doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines)
UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC
UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden,
wijzigen, verwijderen of bepaalde context uit te sluiten
- overweeg om eventuele ‘auto-explode’ uit te zetten
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen
van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en
keywords
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens
100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de
pagina beschikbaar te hebben en houden
DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie
15. Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken
‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage)
P&Z-1 onderscheid hoofdelementen in je
probleemstelling
- gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental
determinant-comparator-outcome-(study type/design)
- gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv..
beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2 relevantie: vind alleen items waarin het
verband wordt gelegd
- gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen
bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt
P&Z-3 recall: neem alle varianten van
elementbeschrijvingen mee
- gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4 precisie: sluit irrelevante betekenissen /
contexten / homoniemen uit
- gebruik Booleaans AND NOT om contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
- vermijd gebruik van truncatie en wildcards
- gebruik een relevante inperking op publicatiejaar
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch)
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens
- gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5 recall: sluit aan bij geaccepteerd jargon /
vocabulair
- gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen,
publicatiejaren, geografische herkomst) dekken
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie
- kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie - kies zo min mogelijk verschillende databases
- kies databases die downloaden van metadata ondersteunen
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan)
DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws
of social media)
DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen
- kies bij voorkeur vrij beschikbare databases
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van
zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen
- kies bij voorkeur vrij beschikbare databases
UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full
text als veldspecifiek zoeken niet mogelijk is
- doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines)
UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC
UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden,
wijzigen, verwijderen of bepaalde context uit te sluiten
- overweeg om eventuele ‘auto-explode’ uit te zetten
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen
van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en
keywords
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens
100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de
pagina beschikbaar te hebben en houden
DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie
probleem en zoekvraag
database selectie
uitvoering zoekactie
evaluatie
16. Aan de slag
● 3 Rondes:
1. probleemstelling/zoekvraag (P&Z), uit te proberen in plain Google
2. database selectie (DS)
3. uitvoeren zoekactie (UZ)
● Per ronde:
○ 5 min intro
○ 20 minuten verkennen/uitproberen van één of meer van de gesuggereerde acties
○ 1 minuut om een ervaring te delen in het feedbackdocument
○ 4 min delen ervaringen
● Gebruik de handout voor overzicht
● Gebruik de presentatie voor links en eventuele verdere toelichting:
https://tinyurl.com/syszoek2022
● Gebruik het feedbackdocument voor ervaringen:
https://tinyurl.com/syszoek2022doc
17. Probleemstelling en zoekvraag
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
P&Z-1
onderscheid
hoofdelementen in je
probleemstelling
- gebruik een soort “PICO(I)”:
Population/patient - Intervention/environmental determinant - Comparator - Outcome -
(Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2
precisie: vind alleen items
waarin het verband wordt
gelegd
- gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele
aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord),
om te forceren dat de term meegenomen wordt
P&Z-3
recall: neem alle varianten
van elementbeschrijvingen
mee
- gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren
- gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon:
juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4
precisie: sluit irrelevante
betekenissen / contexten /
homoniemen uit
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
(AROUND(n) in Google websearch)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie
of dubbele aanhalingstekens
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke
bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen
of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec)
- gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5
recall: sluit aan bij
geaccepteerd jargon /
vocabulair
- overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen
(alleen bij algemene webzoekmachines)
18. Probleemstelling en zoekvraag
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
P&Z-1
onderscheid
hoofdelementen in je
probleemstelling
- gebruik een soort “PICO(I)”:
Population/patient - Intervention/environmental determinant - Comparator - Outcome -
(Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2
precisie: vind alleen items
waarin het verband wordt
gelegd
- gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele
aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord),
om te forceren dat de term meegenomen wordt
P&Z-3
recall: neem alle varianten
van elementbeschrijvingen
mee
- gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren
- gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon:
juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4
precisie: sluit irrelevante
betekenissen / contexten /
homoniemen uit
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
(AROUND(n) in Google websearch)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie
of dubbele aanhalingstekens
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke
bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen
of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec)
- gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5
recall: sluit aan bij
geaccepteerd jargon /
vocabulair
- overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen
(alleen bij algemene webzoekmachines)
19. P&Z-1 - PICO(I)
● Hulpmiddel voor het structureren van je zoekvraag
● Afkomstig uit het biomedisch domein (evidence-based medicine),
maar ook breder bruikbaar
● Meer informatie: Using frameworks to structure your search (Medium)
20. P&Z-3 - Taalthesauri
Inspiratie opdoen voor synoniemen en verwante
termen in algemene taalthesauri:
● Roget’s op thesaurus.com voor Engels
● Van Dale thesaurus (gedrukt boek)
● Het juiste woord (gedrukt boek)
● Simpeler online alternatief voor Nederlands:
synoniemen.net
21. P&Z-4 - Inperken op internetdomeinen
Je kunt inperken op domeinen gebruiken op verschillende niveaus:
● De site(s) van één of meer organisaties, of een deel of subdomein ervan daarvan
bijvoorbeeld zo:
○ site:uu.nl OR site:uva.nl
○ site:uu.nl/medewerkers
○ site:yoda.uu.nl
● Alle sites die vallen onder één of meer landsdomeinen, en bij sommige landen ook
brede subdomeinen daarvan bijvoorbeeld zo:
○ site:be OR site:nl (zie lijst landendomeinen)
○ site:ac.uk (Britse hoger onderwijs) (zie lijst 2e niveau landendomeinen)
● Alle sites in brede algemene domein (hoewel de meeste daarvan steeds minder
betekenis hebben en dus controle niet veregroten), bijvoorbeeld zo:
○ site:org
○ site:com
22. Database selectie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DS-1 dekking
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende
typen/bronnen van informatie
- kies databases die (samen) alle perspectieven op de vraag dekken
- kies databases die (samen) alle potentieel relevante bronnen
(documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen: overweeg gebruik van
Google Programmable Search (en evt. de API daarvan)
DS-3 precisie
- gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor
specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media)
DS-4 reproduceerbaarheid
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren:
- log uit bij browser/zoekmachine account
- probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL
- zet persoonlijke resultaten uit in Google instellingen
- gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
23. Database selectie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DS-1 dekking
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende
typen/bronnen van informatie
- kies databases die (samen) alle perspectieven op de vraag dekken
- kies databases die (samen) alle potentieel relevante bronnen
(documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen: overweeg gebruik van
Google Programmable Search (en evt. de API daarvan)
DS-3 precisie
- gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor
specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media)
DS-4 reproduceerbaarheid
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren:
- log uit bij browser/zoekmachine account
- probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL
- zet persoonlijke resultaten uit in Google instellingen
- gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
24. DS2 - Google Programmable search (vh. custom search)
Geeft controle over waar gezocht wordt met behoud van
grondige indexering door Google
Probeer dit voorbeeld hier:
https://cse.google.com/cse?cx=16346b540fba4a93a
25. DS3 - enkele gestructureerde databases met webinformatie
● webnieuws, blogs, meer: LexisNexis / Nexis Uni
● beleidsdocumenten wereldwijd: Policy Commons (gratis account nodig)
● datasets: DataCite Search, Mendeley data
● webarchieven, multimedia: Internet Archive
● tweets: advanced Twitter search
En uiteraard aparte databases voor kranten, patenten, jurisprudentie, wetgeving etc.
26. Uitvoering zoekacties
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie
- doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met
geïndexeerde webinformatie);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines)
UZ-4 effectiviteit, simpelheid
- zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt)
voorkomen van termen in snippets/keywords-in-context
UZ-5 precisie
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen,
verwijderen of bepaalde context uit te sluiten;
NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in
webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole
- combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie
maar kan handmatig
27. Uitvoering zoekacties
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie
- doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met
geïndexeerde webinformatie);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines)
UZ-4 effectiviteit, simpelheid
- zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt)
voorkomen van termen in snippets/keywords-in-context
UZ-5 precisie
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen,
verwijderen of bepaalde context uit te sluiten;
NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in
webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole
- combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie
maar kan handmatig
28. Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
30. Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
31. Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
32. Discussie
● Welke acties zijn bij alle informatievragen zinnig, welke slechts in bijzondere gevallen?
● In welke mate zijn de acties praktisch haalbaar?
● Voor wat voor projecten heeft het zin om ‘all the way’ te gaan?
● Hebben wij als informatiespecialisten suggesties om web search betrouwbaarder te maken?
● Is het zinnig om deze ‘aanpak’ gedetailleerder te beschrijven?
● Wat ontbreekt nog?
● Wat neem je hiervan mee?
33. “Systematisch zoeken op
internet kan niet …. of wel?”
Workshop tijdens de VOGIN-IP lezing, 20220511
Jeroen Bosman & Bianca Kramer
Slides beschikbaar op https://tinyurl.com/syszoek2022