SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
“Systematisch zoeken op
internet kan niet …. of wel?”
Workshop tijdens de VOGIN-IP lezing, 20220511
Jeroen Bosman & Bianca Kramer
Slides beschikbaar op https://tinyurl.com/syszoek2022
Wat gaan we doen?
● Aanleiding, inleiding
● Hands on toepassing in 3 rondes, met eigen vraag/onderwerp/casus
● Afsluitende discussie
Waarom systematisch zoeken?
● Meer controle over zoekproces
● Werkwijze kunnen
verantwoorden (zowel voor
zoeken als voor selectie)
● Reproduceerbare resultaten en
aanpak (voor anderen en voor
jezelf)
http://prisma-statement.org/
Waarom systematisch zoeken?
● Meer controle over zoekproces
● Werkwijze kunnen
verantwoorden (zowel voor
zoeken als voor selectie)
● Reproduceerbare resultaten en
aanpak (voor anderen en voor
jezelf)
http://prisma-statement.org/
Systematisch wetenschappelijke literatuur zoeken: hoe?
● Breed geaccepteerde opbouw, normen, standaarden
● Gebruik van hulpmiddelen bij opbouw zoekvraag
● Gebruik van gestructureerde databases met grote dekking
● Lange zoekvragen voor grote precisie en recall
● Input van veel mensuren voor handmatig selecteren zoekresultaten
● Automatische selectie in opkomst
Kan het ook met webinformatie?
● Laten we het proberen
● Wel heel anders want ….
○ Veelsoortige informatie, w.b. doel, herkomst, opbouw, metadata
○ Veel minder structuur in de metadata van de grootste zoekmachines
○ Dynamische informatie
○ Nauwelijks gespecialiseerde zoekmachines/databases voor webinformatie op
discipline/onderwerp/documenttype
○ En bij de grote webzoekmachines:
■ Sterk effect relevantie-ordening
■ Slechts beperkt deel resultaten wordt getoond
■ Getoonde aantallen resultaten zeer onbetrouwbaar
info aanbieder
sociale media
projecten, producten,
publicaties
alg. beleid,
doelen, gesch.
contact,
naam,
org.
onderw
ijs
en
gezondheid
i
n
d
i
v
i
d
u
e
n
NGOs
media
&
uitgevers
b
i
b
l
i
o
t
h
e
k
e
n
,
m
u
s
e
a
e
t
c
.
overheden
bedrijven
Belangrijkste
informatieleveranciers en
hun soorten online
informatie
Je kunt dit schema gebruiken om
vooraf te bedenken in welke
hoeken/segmenten de door jou
gezochte informatie zich bevindt en
daar mede keuzes in je zoekproces op
te baseren.
type info aanbieder
sociale media
projecten, producten,
publicaties
alg. beleid,
doelen, gesch.
contact,
naam,
org.
onderw
ijs
en
gezondheid
i
n
d
i
v
i
d
u
e
n
NGOs
media
&
uitgevers
b
i
b
l
i
o
t
h
e
k
e
n
,
m
u
s
e
a
e
t
c
.
overheden
bedrijven
Voorbeeld: relevante
segmenten voor het
onderwerp van de relatie
tussen drugsgebruik en
schoolprestaties !
!
!
!
!
!
!
!
b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
individuen
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
individuen
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
ontsloten via een klassieke bibliotheekcatalogus
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
individuen
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
ontsloten via een gezamenlijke bibliotheekcatalogus
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
individuen
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
ontsloten via bibliotheekcatalogi plus
wetenschappelijke databases
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
b
e
d
r
i
j
v
e
n
overheden
u
it
g
e
v
e
r
s
wetenschapsinstellingen,
bibliotheken
N
G
O
s
,
v
e
r
e
n
i
g
i
n
g
e
n
Full text doorzoekbaar en open beschikbaar
Alleen metadata doorzoekbaar,
full text open beschikbaar
Alleen metadata lokaal doorzoekbaar,
full text open beschikbaar
Alleen metadata doorzoekbaar,
full text tegen betaling beschikbaar
Alleen metadata doorzoekbaar,
full text niet beschikbaar
Metadata noch full text beschikbaar
in principe ontsloten via webzoekmachines, maar ….
individuen
Plaats, beschikbaarheid en
doorzoekbaarheid van informatie
Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken
‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage)
P&Z-1 onderscheid hoofdelementen in je
probleemstelling
- gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental
determinant-comparator-outcome-(study type/design)
- gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv..
beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2 relevantie: vind alleen items waarin het
verband wordt gelegd
- gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen
bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt
P&Z-3 recall: neem alle varianten van
elementbeschrijvingen mee
- gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4 precisie: sluit irrelevante betekenissen /
contexten / homoniemen uit
- gebruik Booleaans AND NOT om contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
- vermijd gebruik van truncatie en wildcards
- gebruik een relevante inperking op publicatiejaar
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch)
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens
- gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5 recall: sluit aan bij geaccepteerd jargon /
vocabulair
- gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen,
publicatiejaren, geografische herkomst) dekken
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie
- kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie - kies zo min mogelijk verschillende databases
- kies databases die downloaden van metadata ondersteunen
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan)
DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws
of social media)
DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen
- kies bij voorkeur vrij beschikbare databases
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van
zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen
- kies bij voorkeur vrij beschikbare databases
UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full
text als veldspecifiek zoeken niet mogelijk is
- doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines)
UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC
UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden,
wijzigen, verwijderen of bepaalde context uit te sluiten
- overweeg om eventuele ‘auto-explode’ uit te zetten
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen
van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en
keywords
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens
100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de
pagina beschikbaar te hebben en houden
DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie
Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken
‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage)
P&Z-1 onderscheid hoofdelementen in je
probleemstelling
- gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental
determinant-comparator-outcome-(study type/design)
- gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv..
beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2 relevantie: vind alleen items waarin het
verband wordt gelegd
- gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen
bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt
P&Z-3 recall: neem alle varianten van
elementbeschrijvingen mee
- gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4 precisie: sluit irrelevante betekenissen /
contexten / homoniemen uit
- gebruik Booleaans AND NOT om contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
- vermijd gebruik van truncatie en wildcards
- gebruik een relevante inperking op publicatiejaar
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch)
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens
- gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5 recall: sluit aan bij geaccepteerd jargon /
vocabulair
- gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen,
publicatiejaren, geografische herkomst) dekken
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie
- kies databases die (tesamen) alle perspectieven op de vraag dekken
- kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie - kies zo min mogelijk verschillende databases
- kies databases die downloaden van metadata ondersteunen
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan)
DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws
of social media)
DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen
- kies bij voorkeur vrij beschikbare databases
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van
zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen
- kies bij voorkeur vrij beschikbare databases
UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full
text als veldspecifiek zoeken niet mogelijk is
- doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines)
UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC
UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden,
wijzigen, verwijderen of bepaalde context uit te sluiten
- overweeg om eventuele ‘auto-explode’ uit te zetten
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen
van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en
keywords
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens
100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de
pagina beschikbaar te hebben en houden
DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie
probleem en zoekvraag
database selectie
uitvoering zoekactie
evaluatie
Aan de slag
● 3 Rondes:
1. probleemstelling/zoekvraag (P&Z), uit te proberen in plain Google
2. database selectie (DS)
3. uitvoeren zoekactie (UZ)
● Per ronde:
○ 5 min intro
○ 20 minuten verkennen/uitproberen van één of meer van de gesuggereerde acties
○ 1 minuut om een ervaring te delen in het feedbackdocument
○ 4 min delen ervaringen
● Gebruik de handout voor overzicht
● Gebruik de presentatie voor links en eventuele verdere toelichting:
https://tinyurl.com/syszoek2022
● Gebruik het feedbackdocument voor ervaringen:
https://tinyurl.com/syszoek2022doc
Probleemstelling en zoekvraag
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
P&Z-1
onderscheid
hoofdelementen in je
probleemstelling
- gebruik een soort “PICO(I)”:
Population/patient - Intervention/environmental determinant - Comparator - Outcome -
(Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2
precisie: vind alleen items
waarin het verband wordt
gelegd
- gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele
aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord),
om te forceren dat de term meegenomen wordt
P&Z-3
recall: neem alle varianten
van elementbeschrijvingen
mee
- gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren
- gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon:
juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4
precisie: sluit irrelevante
betekenissen / contexten /
homoniemen uit
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
(AROUND(n) in Google websearch)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie
of dubbele aanhalingstekens
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke
bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen
of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec)
- gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5
recall: sluit aan bij
geaccepteerd jargon /
vocabulair
- overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen
(alleen bij algemene webzoekmachines)
Probleemstelling en zoekvraag
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
P&Z-1
onderscheid
hoofdelementen in je
probleemstelling
- gebruik een soort “PICO(I)”:
Population/patient - Intervention/environmental determinant - Comparator - Outcome -
(Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media))
P&Z-2
precisie: vind alleen items
waarin het verband wordt
gelegd
- gebruik Booleaans AND om vereiste elementen te combineren
- gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele
aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord),
om te forceren dat de term meegenomen wordt
P&Z-3
recall: neem alle varianten
van elementbeschrijvingen
mee
- gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren
- gebruik algemene taalthesauri voor inspiratie
- denk aan verschillende relevante soorten taal/jargon:
juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc.
P&Z-4
precisie: sluit irrelevante
betekenissen / contexten /
homoniemen uit
- gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten
- gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google)
- neem samengestelde begrippen op met “... …” of een nabijheidsoperator
(AROUND(n) in Google websearch)
- schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie
of dubbele aanhalingstekens
- overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke
bestandstypen
- overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen
of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec)
- gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines)
P&Z-5
recall: sluit aan bij
geaccepteerd jargon /
vocabulair
- overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen
(alleen bij algemene webzoekmachines)
P&Z-1 - PICO(I)
● Hulpmiddel voor het structureren van je zoekvraag
● Afkomstig uit het biomedisch domein (evidence-based medicine),
maar ook breder bruikbaar
● Meer informatie: Using frameworks to structure your search (Medium)
P&Z-3 - Taalthesauri
Inspiratie opdoen voor synoniemen en verwante
termen in algemene taalthesauri:
● Roget’s op thesaurus.com voor Engels
● Van Dale thesaurus (gedrukt boek)
● Het juiste woord (gedrukt boek)
● Simpeler online alternatief voor Nederlands:
synoniemen.net
P&Z-4 - Inperken op internetdomeinen
Je kunt inperken op domeinen gebruiken op verschillende niveaus:
● De site(s) van één of meer organisaties, of een deel of subdomein ervan daarvan
bijvoorbeeld zo:
○ site:uu.nl OR site:uva.nl
○ site:uu.nl/medewerkers
○ site:yoda.uu.nl
● Alle sites die vallen onder één of meer landsdomeinen, en bij sommige landen ook
brede subdomeinen daarvan bijvoorbeeld zo:
○ site:be OR site:nl (zie lijst landendomeinen)
○ site:ac.uk (Britse hoger onderwijs) (zie lijst 2e niveau landendomeinen)
● Alle sites in brede algemene domein (hoewel de meeste daarvan steeds minder
betekenis hebben en dus controle niet veregroten), bijvoorbeeld zo:
○ site:org
○ site:com
Database selectie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DS-1 dekking
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende
typen/bronnen van informatie
- kies databases die (samen) alle perspectieven op de vraag dekken
- kies databases die (samen) alle potentieel relevante bronnen
(documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen: overweeg gebruik van
Google Programmable Search (en evt. de API daarvan)
DS-3 precisie
- gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor
specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media)
DS-4 reproduceerbaarheid
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren:
- log uit bij browser/zoekmachine account
- probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL
- zet persoonlijke resultaten uit in Google instellingen
- gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
Database selectie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DS-1 dekking
- vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine
- overweeg het gebruik van verschillende databases/zoekmachines voor verschillende
typen/bronnen van informatie
- kies databases die (samen) alle perspectieven op de vraag dekken
- kies databases die (samen) alle potentieel relevante bronnen
(documenttypen, publicatiejaren, geografische herkomst) dekken
- controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal)
- kies indien relevant databases for specifieke talen (vereist aparte zoekvragen)
DS-2 efficiëntie
- gebruik meer databases en zoekmachines als dat dekking en controle verbetert
- voor informatie uit een set specifieke domeinen: overweeg gebruik van
Google Programmable Search (en evt. de API daarvan)
DS-3 precisie
- gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor
specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media)
DS-4 reproduceerbaarheid
- probeer bij gebruik webzoekmachines personalisatie te minimaliseren:
- log uit bij browser/zoekmachine account
- probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL
- zet persoonlijke resultaten uit in Google instellingen
- gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
DS2 - Google Programmable search (vh. custom search)
Geeft controle over waar gezocht wordt met behoud van
grondige indexering door Google
Probeer dit voorbeeld hier:
https://cse.google.com/cse?cx=16346b540fba4a93a
DS3 - enkele gestructureerde databases met webinformatie
● webnieuws, blogs, meer: LexisNexis / Nexis Uni
● beleidsdocumenten wereldwijd: Policy Commons (gratis account nodig)
● datasets: DataCite Search, Mendeley data
● webarchieven, multimedia: Internet Archive
● tweets: advanced Twitter search
En uiteraard aparte databases voor kranten, patenten, jurisprudentie, wetgeving etc.
Uitvoering zoekacties
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie
- doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met
geïndexeerde webinformatie);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines)
UZ-4 effectiviteit, simpelheid
- zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt)
voorkomen van termen in snippets/keywords-in-context
UZ-5 precisie
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen,
verwijderen of bepaalde context uit te sluiten;
NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in
webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole
- combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie
maar kan handmatig
Uitvoering zoekacties
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering
UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters
UZ-3 precisie
- doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met
geïndexeerde webinformatie);
- doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines)
UZ-4 effectiviteit, simpelheid
- zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt)
voorkomen van termen in snippets/keywords-in-context
UZ-5 precisie
- kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen,
verwijderen of bepaalde context uit te sluiten;
NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in
webzoekmachines vanwege de wijze van ranking
UZ-6 flexibiliteit, procescontrole
- combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie
maar kan handmatig
Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
PRISMA reporting guidelines
http://prisma-statement.org/
Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
Documenteren proces
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
DO
reproduceerbaarheid,
verifieerbaarheid
- documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage)
Evaluatie
‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn)
EV-1 flexibiliteit, procescontrole
- overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan
vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten
- leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero
EV-2
schone data,
efficiënte evaluatie
- dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL
EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie
EV-4 reproduceerbaarheid
- sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente,
citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
Discussie
● Welke acties zijn bij alle informatievragen zinnig, welke slechts in bijzondere gevallen?
● In welke mate zijn de acties praktisch haalbaar?
● Voor wat voor projecten heeft het zin om ‘all the way’ te gaan?
● Hebben wij als informatiespecialisten suggesties om web search betrouwbaarder te maken?
● Is het zinnig om deze ‘aanpak’ gedetailleerder te beschrijven?
● Wat ontbreekt nog?
● Wat neem je hiervan mee?
“Systematisch zoeken op
internet kan niet …. of wel?”
Workshop tijdens de VOGIN-IP lezing, 20220511
Jeroen Bosman & Bianca Kramer
Slides beschikbaar op https://tinyurl.com/syszoek2022

Weitere ähnliche Inhalte

Ähnlich wie Systematisch zoeken op het web

Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3CVO_De_Nobel
 
Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3CVO_De_Nobel
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestvoginip
 
Zoeken zoekstrategie havikstraat
Zoeken zoekstrategie havikstraatZoeken zoekstrategie havikstraat
Zoeken zoekstrategie havikstraatingridkars
 
Zoeken op internet
Zoeken op internetZoeken op internet
Zoeken op internetnivelbieb
 
Zoeken zoekstrategie havik
Zoeken zoekstrategie havikZoeken zoekstrategie havik
Zoeken zoekstrategie havikhavikstraat
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruikEric Sieverts
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
Nl michel de winter swetswise dé tool om uw e books aan te kopen
Nl michel de winter   swetswise dé tool om uw e books aan te kopenNl michel de winter   swetswise dé tool om uw e books aan te kopen
Nl michel de winter swetswise dé tool om uw e books aan te kopenSwets Belgium
 
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beInhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beRosemie Callewaert
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijs
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijsGeert Driessen & Hans van Gennip (2009) Tagging in het onderwijs
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijsDriessen Research
 
Literatuurexploratie
LiteratuurexploratieLiteratuurexploratie
LiteratuurexploratieSabine Lamote
 
Haalbaarheidsstudie MMLAB en MICT
Haalbaarheidsstudie MMLAB en MICTHaalbaarheidsstudie MMLAB en MICT
Haalbaarheidsstudie MMLAB en MICTFARO
 

Ähnlich wie Systematisch zoeken op het web (20)

Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3
 
Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3
 
ZoekstrategieëN Vip
ZoekstrategieëN VipZoekstrategieëN Vip
ZoekstrategieëN Vip
 
Effectiever zoeken (PABO thema 5 - 2010)
Effectiever zoeken (PABO thema 5 - 2010)Effectiever zoeken (PABO thema 5 - 2010)
Effectiever zoeken (PABO thema 5 - 2010)
 
Van Zoeken Naar Vinden
Van Zoeken Naar VindenVan Zoeken Naar Vinden
Van Zoeken Naar Vinden
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstest
 
Zoeken zoekstrategie havikstraat
Zoeken zoekstrategie havikstraatZoeken zoekstrategie havikstraat
Zoeken zoekstrategie havikstraat
 
Segbroek2014
Segbroek2014Segbroek2014
Segbroek2014
 
Zoeken op internet
Zoeken op internetZoeken op internet
Zoeken op internet
 
Zoeken zoekstrategie havik
Zoeken zoekstrategie havikZoeken zoekstrategie havik
Zoeken zoekstrategie havik
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruik
 
Stappenplan VAC 2011-2012
Stappenplan VAC 2011-2012Stappenplan VAC 2011-2012
Stappenplan VAC 2011-2012
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
Vrije school2015
Vrije school2015Vrije school2015
Vrije school2015
 
Nl michel de winter swetswise dé tool om uw e books aan te kopen
Nl michel de winter   swetswise dé tool om uw e books aan te kopenNl michel de winter   swetswise dé tool om uw e books aan te kopen
Nl michel de winter swetswise dé tool om uw e books aan te kopen
 
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beInhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijs
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijsGeert Driessen & Hans van Gennip (2009) Tagging in het onderwijs
Geert Driessen & Hans van Gennip (2009) Tagging in het onderwijs
 
Literatuurexploratie
LiteratuurexploratieLiteratuurexploratie
Literatuurexploratie
 
Haalbaarheidsstudie MMLAB en MICT
Haalbaarheidsstudie MMLAB en MICTHaalbaarheidsstudie MMLAB en MICT
Haalbaarheidsstudie MMLAB en MICT
 

Mehr von voginip

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstravoginip
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenvoginip
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniquesvoginip
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenvoginip
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimtevoginip
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Cantervoginip
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open voginip
 
Minimal viable data reuse
Minimal viable data reuseMinimal viable data reuse
Minimal viable data reusevoginip
 

Mehr von voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingen
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open
 
Minimal viable data reuse
Minimal viable data reuseMinimal viable data reuse
Minimal viable data reuse
 

Systematisch zoeken op het web

  • 1. “Systematisch zoeken op internet kan niet …. of wel?” Workshop tijdens de VOGIN-IP lezing, 20220511 Jeroen Bosman & Bianca Kramer Slides beschikbaar op https://tinyurl.com/syszoek2022
  • 2. Wat gaan we doen? ● Aanleiding, inleiding ● Hands on toepassing in 3 rondes, met eigen vraag/onderwerp/casus ● Afsluitende discussie
  • 3. Waarom systematisch zoeken? ● Meer controle over zoekproces ● Werkwijze kunnen verantwoorden (zowel voor zoeken als voor selectie) ● Reproduceerbare resultaten en aanpak (voor anderen en voor jezelf) http://prisma-statement.org/
  • 4. Waarom systematisch zoeken? ● Meer controle over zoekproces ● Werkwijze kunnen verantwoorden (zowel voor zoeken als voor selectie) ● Reproduceerbare resultaten en aanpak (voor anderen en voor jezelf) http://prisma-statement.org/
  • 5. Systematisch wetenschappelijke literatuur zoeken: hoe? ● Breed geaccepteerde opbouw, normen, standaarden ● Gebruik van hulpmiddelen bij opbouw zoekvraag ● Gebruik van gestructureerde databases met grote dekking ● Lange zoekvragen voor grote precisie en recall ● Input van veel mensuren voor handmatig selecteren zoekresultaten ● Automatische selectie in opkomst
  • 6. Kan het ook met webinformatie? ● Laten we het proberen ● Wel heel anders want …. ○ Veelsoortige informatie, w.b. doel, herkomst, opbouw, metadata ○ Veel minder structuur in de metadata van de grootste zoekmachines ○ Dynamische informatie ○ Nauwelijks gespecialiseerde zoekmachines/databases voor webinformatie op discipline/onderwerp/documenttype ○ En bij de grote webzoekmachines: ■ Sterk effect relevantie-ordening ■ Slechts beperkt deel resultaten wordt getoond ■ Getoonde aantallen resultaten zeer onbetrouwbaar
  • 7. info aanbieder sociale media projecten, producten, publicaties alg. beleid, doelen, gesch. contact, naam, org. onderw ijs en gezondheid i n d i v i d u e n NGOs media & uitgevers b i b l i o t h e k e n , m u s e a e t c . overheden bedrijven Belangrijkste informatieleveranciers en hun soorten online informatie Je kunt dit schema gebruiken om vooraf te bedenken in welke hoeken/segmenten de door jou gezochte informatie zich bevindt en daar mede keuzes in je zoekproces op te baseren.
  • 8. type info aanbieder sociale media projecten, producten, publicaties alg. beleid, doelen, gesch. contact, naam, org. onderw ijs en gezondheid i n d i v i d u e n NGOs media & uitgevers b i b l i o t h e k e n , m u s e a e t c . overheden bedrijven Voorbeeld: relevante segmenten voor het onderwerp van de relatie tussen drugsgebruik en schoolprestaties ! ! ! ! ! ! ! !
  • 9. b e d r i j v e n overheden u it g e v e r s wetenschapsinstellingen, bibliotheken N G O s , v e r e n i g i n g e n individuen Full text doorzoekbaar en open beschikbaar Alleen metadata doorzoekbaar, full text open beschikbaar Alleen metadata lokaal doorzoekbaar, full text open beschikbaar Alleen metadata doorzoekbaar, full text tegen betaling beschikbaar Alleen metadata doorzoekbaar, full text niet beschikbaar Metadata noch full text beschikbaar Plaats, beschikbaarheid en doorzoekbaarheid van informatie
  • 10. b e d r i j v e n overheden u it g e v e r s wetenschapsinstellingen, bibliotheken N G O s , v e r e n i g i n g e n individuen Full text doorzoekbaar en open beschikbaar Alleen metadata doorzoekbaar, full text open beschikbaar Alleen metadata lokaal doorzoekbaar, full text open beschikbaar Alleen metadata doorzoekbaar, full text tegen betaling beschikbaar Alleen metadata doorzoekbaar, full text niet beschikbaar Metadata noch full text beschikbaar ontsloten via een klassieke bibliotheekcatalogus Plaats, beschikbaarheid en doorzoekbaarheid van informatie
  • 11. b e d r i j v e n overheden u it g e v e r s wetenschapsinstellingen, bibliotheken N G O s , v e r e n i g i n g e n individuen Full text doorzoekbaar en open beschikbaar Alleen metadata doorzoekbaar, full text open beschikbaar Alleen metadata lokaal doorzoekbaar, full text open beschikbaar Alleen metadata doorzoekbaar, full text tegen betaling beschikbaar Alleen metadata doorzoekbaar, full text niet beschikbaar Metadata noch full text beschikbaar ontsloten via een gezamenlijke bibliotheekcatalogus Plaats, beschikbaarheid en doorzoekbaarheid van informatie
  • 12. b e d r i j v e n overheden u it g e v e r s wetenschapsinstellingen, bibliotheken N G O s , v e r e n i g i n g e n individuen Full text doorzoekbaar en open beschikbaar Alleen metadata doorzoekbaar, full text open beschikbaar Alleen metadata lokaal doorzoekbaar, full text open beschikbaar Alleen metadata doorzoekbaar, full text tegen betaling beschikbaar Alleen metadata doorzoekbaar, full text niet beschikbaar Metadata noch full text beschikbaar ontsloten via bibliotheekcatalogi plus wetenschappelijke databases Plaats, beschikbaarheid en doorzoekbaarheid van informatie
  • 13. b e d r i j v e n overheden u it g e v e r s wetenschapsinstellingen, bibliotheken N G O s , v e r e n i g i n g e n Full text doorzoekbaar en open beschikbaar Alleen metadata doorzoekbaar, full text open beschikbaar Alleen metadata lokaal doorzoekbaar, full text open beschikbaar Alleen metadata doorzoekbaar, full text tegen betaling beschikbaar Alleen metadata doorzoekbaar, full text niet beschikbaar Metadata noch full text beschikbaar in principe ontsloten via webzoekmachines, maar …. individuen Plaats, beschikbaarheid en doorzoekbaarheid van informatie
  • 14. Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken ‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage) P&Z-1 onderscheid hoofdelementen in je probleemstelling - gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental determinant-comparator-outcome-(study type/design) - gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media)) P&Z-2 relevantie: vind alleen items waarin het verband wordt gelegd - gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren - gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt P&Z-3 recall: neem alle varianten van elementbeschrijvingen mee - gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie - denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc. P&Z-4 precisie: sluit irrelevante betekenissen / contexten / homoniemen uit - gebruik Booleaans AND NOT om contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen - neem samengestelde begrippen op met “... …” of een nabijheidsoperator - vermijd gebruik van truncatie en wildcards - gebruik een relevante inperking op publicatiejaar - gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google) - neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch) - overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen - overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec) - schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens - gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines) P&Z-5 recall: sluit aan bij geaccepteerd jargon / vocabulair - gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines) DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken - kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) - vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine - overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie - kies databases die (tesamen) alle perspectieven op de vraag dekken - kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal) - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) DS-2 efficiëntie - kies zo min mogelijk verschillende databases - kies databases die downloaden van metadata ondersteunen - gebruik meer databases en zoekmachines als dat dekking en controle verbetert - voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan) DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media) DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen - kies bij voorkeur vrij beschikbare databases - probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen - kies bij voorkeur vrij beschikbare databases UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is - doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases); - doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines) UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten - overweeg om eventuele ‘auto-explode’ uit te zetten - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en keywords - overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten - leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie
  • 15. Doelen en methode van systematisch literatuur zoeken vertaald naar de context van webzoeken ‘fase’ doel stappen in een systematische literatuurzoekactie toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (t.b.v. PRISMA-S rapportage) - documenteer het hele zoekproces (voor jezelf en t.b.v. aangepaste PRISMA-S rapportage) P&Z-1 onderscheid hoofdelementen in je probleemstelling - gebruik PICO/PECO/PICO(S): population / patient-intervention / environmental determinant-comparator-outcome-(study type/design) - gebruik een soort “PICO(I)”: population/patient-intervention/environmental determinant-comparator-outcome(-information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media)) P&Z-2 relevantie: vind alleen items waarin het verband wordt gelegd - gebruik Booleaans AND om vereiste elementen te combineren - gebruik Booleaans AND om vereiste elementen te combineren - gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt P&Z-3 recall: neem alle varianten van elementbeschrijvingen mee - gebruik Booleaans OR om alternatieve termen voor hetzelfde element te combineren - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren; gebruik algemene taalthesauri voor inspiratie - denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc. P&Z-4 precisie: sluit irrelevante betekenissen / contexten / homoniemen uit - gebruik Booleaans AND NOT om contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen - neem samengestelde begrippen op met “... …” of een nabijheidsoperator - vermijd gebruik van truncatie en wildcards - gebruik een relevante inperking op publicatiejaar - gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google) - neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch) - overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen - overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen consider (bv. .nl/.ac.uk /.edu/.gob.ec) - schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens - gebruik inperking op datum van de webbronnen alleen indien betrouwbaar (niet in webzoekmachines) P&Z-5 recall: sluit aan bij geaccepteerd jargon / vocabulair - gebruik thesaurustermen en/of indextermen - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines) DS-1 dekking - kies databases die (tesamen) alle perspectieven op de vraag dekken - kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) - vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine - overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie - kies databases die (tesamen) alle perspectieven op de vraag dekken - kies databases die (tesamen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal) - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) DS-2 efficiëntie - kies zo min mogelijk verschillende databases - kies databases die downloaden van metadata ondersteunen - gebruik meer databases en zoekmachines als dat dekking en controle verbetert - voor informatie uit een set specifieke domeinen gevonden, overweeg gebruik van Google Programmable Search (en evt. de API daarvan) DS-3 precisie - kies databases die meer dan alleen titles indexeren: abstracts, trefwoorden, full text - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media) DS-4 reproduceerbaarheid - kies databases die je zoekgeschiedenis bijhouden en opslaan daarvan ondersteunen - kies bij voorkeur vrij beschikbare databases - probeer bij gebruik webzoekmachines personalisatie te minimaliseren: log uit browser/zoekmachine account / probeer &pws=0 aan eind van URL van zoekresultaat te plakken / zet persoonlijke resultaten uit in de Google instellingen - kies bij voorkeur vrij beschikbare databases UZ-1 recall - gebruik snowballing for extra resultaten (apart te rapporteren) & zoekvraagverbetering - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering UZ-2 recall - - overweeg uitschakelen van eventuele ‘parental’ browsing filters UZ-3 precisie - doorzoek alle inhoudelijke velden: abstracts, trefwoorden, titels; doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is - doorzoek alle inhoudelijke velden: titlels, abstracts, trefwoorden (in gestructureerde databases); - doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. web search engines) UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/KWIC UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten - overweeg om eventuele ‘auto-explode’ uit te zetten - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking UZ-6 flexibiliteit, procescontrole - combineer met de zoekgeschiedenis sets van de elementen met AND - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig EV-1 flexibiliteit, procescontrole - download alle records, bv. in een reference management tool, inclusief de abstracts en keywords - overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten - leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero EV-2 schone data, efficiënte evaluatie - dedupliceer dubbele records gedownload uit verschillende databases - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie - check alle records handmatig of semi-automatisch op relevantie EV-4 reproduceerbaarheid - download en bewaar de full text van alle geselecteerde records - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden DO=documentatie / P&Z=probleem & zoekvraag / DS=databaseselectie / UZ=uitvoering zoekactie / EV=evaluatie probleem en zoekvraag database selectie uitvoering zoekactie evaluatie
  • 16. Aan de slag ● 3 Rondes: 1. probleemstelling/zoekvraag (P&Z), uit te proberen in plain Google 2. database selectie (DS) 3. uitvoeren zoekactie (UZ) ● Per ronde: ○ 5 min intro ○ 20 minuten verkennen/uitproberen van één of meer van de gesuggereerde acties ○ 1 minuut om een ervaring te delen in het feedbackdocument ○ 4 min delen ervaringen ● Gebruik de handout voor overzicht ● Gebruik de presentatie voor links en eventuele verdere toelichting: https://tinyurl.com/syszoek2022 ● Gebruik het feedbackdocument voor ervaringen: https://tinyurl.com/syszoek2022doc
  • 17. Probleemstelling en zoekvraag ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) P&Z-1 onderscheid hoofdelementen in je probleemstelling - gebruik een soort “PICO(I)”: Population/patient - Intervention/environmental determinant - Comparator - Outcome - (Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media)) P&Z-2 precisie: vind alleen items waarin het verband wordt gelegd - gebruik Booleaans AND om vereiste elementen te combineren - gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt P&Z-3 recall: neem alle varianten van elementbeschrijvingen mee - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren - gebruik algemene taalthesauri voor inspiratie - denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc. P&Z-4 precisie: sluit irrelevante betekenissen / contexten / homoniemen uit - gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google) - neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch) - schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens - overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen - overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec) - gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines) P&Z-5 recall: sluit aan bij geaccepteerd jargon / vocabulair - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
  • 18. Probleemstelling en zoekvraag ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) P&Z-1 onderscheid hoofdelementen in je probleemstelling - gebruik een soort “PICO(I)”: Population/patient - Intervention/environmental determinant - Comparator - Outcome - (Information type/origin (bv.. beleidsdocument, jaarverslag, NGO persbericht, social media)) P&Z-2 precisie: vind alleen items waarin het verband wordt gelegd - gebruik Booleaans AND om vereiste elementen te combineren - gebruik in webzoekmachines de verbatim (woord-voor-woord) optie of gebruik dubbele aanhalingstekens rond elke zoekterm (zelfs voor zoektermen bestaande uit slechts één woord), om te forceren dat de term meegenomen wordt P&Z-3 recall: neem alle varianten van elementbeschrijvingen mee - gebruik Booleaans OR om alternatieve zoektermen voor één element te combineren - gebruik algemene taalthesauri voor inspiratie - denk aan verschillende relevante soorten taal/jargon: juridisch/beleidstaal/reclametaal/straattaal/jeugdtaal etc. P&Z-4 precisie: sluit irrelevante betekenissen / contexten / homoniemen uit - gebruik Booleans NOT of (bv. in Google) het minteken om bepaalde contexten uit te sluiten - gebruik waar nodig haakjes om termen te groeperen, indien goed ondersteund (dus niet in Google) - neem samengestelde begrippen op met “... …” of een nabijheidsoperator (AROUND(n) in Google websearch) - schakel automatische stemming en fuzzy search uit met de verbatim (woord-voor-woord) optie of dubbele aanhalingstekens - overweeg in sommige gevallen om te beperken tot PDF-documenten of andere specifieke bestandstypen - overweeg in sommige gevallen om te beperken tot specifieke top-level/landendomeinen of subdomeinen (bv. .nl/.ac.uk /.edu/.gob.ec) - gebruik inperking op datum van webbronnen alleen indien betrouwbaar (niet in webzoekmachines) P&Z-5 recall: sluit aan bij geaccepteerd jargon / vocabulair - overweeg om essentiële termen twee of drie maal in de zoekvraag op te nemen (alleen bij algemene webzoekmachines)
  • 19. P&Z-1 - PICO(I) ● Hulpmiddel voor het structureren van je zoekvraag ● Afkomstig uit het biomedisch domein (evidence-based medicine), maar ook breder bruikbaar ● Meer informatie: Using frameworks to structure your search (Medium)
  • 20. P&Z-3 - Taalthesauri Inspiratie opdoen voor synoniemen en verwante termen in algemene taalthesauri: ● Roget’s op thesaurus.com voor Engels ● Van Dale thesaurus (gedrukt boek) ● Het juiste woord (gedrukt boek) ● Simpeler online alternatief voor Nederlands: synoniemen.net
  • 21. P&Z-4 - Inperken op internetdomeinen Je kunt inperken op domeinen gebruiken op verschillende niveaus: ● De site(s) van één of meer organisaties, of een deel of subdomein ervan daarvan bijvoorbeeld zo: ○ site:uu.nl OR site:uva.nl ○ site:uu.nl/medewerkers ○ site:yoda.uu.nl ● Alle sites die vallen onder één of meer landsdomeinen, en bij sommige landen ook brede subdomeinen daarvan bijvoorbeeld zo: ○ site:be OR site:nl (zie lijst landendomeinen) ○ site:ac.uk (Britse hoger onderwijs) (zie lijst 2e niveau landendomeinen) ● Alle sites in brede algemene domein (hoewel de meeste daarvan steeds minder betekenis hebben en dus controle niet veregroten), bijvoorbeeld zo: ○ site:org ○ site:com
  • 22. Database selectie ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DS-1 dekking - vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine - overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie - kies databases die (samen) alle perspectieven op de vraag dekken - kies databases die (samen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal) - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) DS-2 efficiëntie - gebruik meer databases en zoekmachines als dat dekking en controle verbetert - voor informatie uit een set specifieke domeinen: overweeg gebruik van Google Programmable Search (en evt. de API daarvan) DS-3 precisie - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media) DS-4 reproduceerbaarheid - probeer bij gebruik webzoekmachines personalisatie te minimaliseren: - log uit bij browser/zoekmachine account - probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL - zet persoonlijke resultaten uit in Google instellingen - gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
  • 23. Database selectie ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DS-1 dekking - vertrouw niet op het doen van slechts één zoekactie in één algemene webzoekmachine - overweeg het gebruik van verschillende databases/zoekmachines voor verschillende typen/bronnen van informatie - kies databases die (samen) alle perspectieven op de vraag dekken - kies databases die (samen) alle potentieel relevante bronnen (documenttypen, publicatiejaren, geografische herkomst) dekken - controleer de taalinstellingen in zoekmachines (zowel resultaattalen als interfacetaal) - kies indien relevant databases for specifieke talen (vereist aparte zoekvragen) DS-2 efficiëntie - gebruik meer databases en zoekmachines als dat dekking en controle verbetert - voor informatie uit een set specifieke domeinen: overweeg gebruik van Google Programmable Search (en evt. de API daarvan) DS-3 precisie - gebruik (ook) meer gestructureerde databases of gespecialiseerde zoekmachines voor specifieke typen bronnen (bv. voor beleidsdocumenten, nieuws of social media) DS-4 reproduceerbaarheid - probeer bij gebruik webzoekmachines personalisatie te minimaliseren: - log uit bij browser/zoekmachine account - probeer &pws=0 toe te voegen aan het eind van een Google zoekresultaat URL - zet persoonlijke resultaten uit in Google instellingen - gebruik bij voorkeur zoekmachines en databases die open beschikbaar zijn
  • 24. DS2 - Google Programmable search (vh. custom search) Geeft controle over waar gezocht wordt met behoud van grondige indexering door Google Probeer dit voorbeeld hier: https://cse.google.com/cse?cx=16346b540fba4a93a
  • 25. DS3 - enkele gestructureerde databases met webinformatie ● webnieuws, blogs, meer: LexisNexis / Nexis Uni ● beleidsdocumenten wereldwijd: Policy Commons (gratis account nodig) ● datasets: DataCite Search, Mendeley data ● webarchieven, multimedia: Internet Archive ● tweets: advanced Twitter search En uiteraard aparte databases voor kranten, patenten, jurisprudentie, wetgeving etc.
  • 26. Uitvoering zoekacties ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters UZ-3 precisie - doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met geïndexeerde webinformatie); - doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines) UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/keywords-in-context UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking UZ-6 flexibiliteit, procescontrole - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
  • 27. Uitvoering zoekacties ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) UZ-1 recall - gebruik snowballing voor extra resultaten (apart te rapporteren) en zoekvraagverbetering UZ-2 recall - overweeg uitschakelen van eventuele ‘parental’ browsing filters UZ-3 precisie - doorzoek alle inhoudelijke velden: titels, abstracts, trefwoorden (bv. in databases met geïndexeerde webinformatie); - doorzoek alleen de full text als veldspecifiek zoeken niet mogelijk is (bv. in webzoekmachines) UZ-4 effectiviteit, simpelheid - zoek eerst apart op elke zoekterm ivm tikfouten en ongewenste contexten; kijk naar (vetgedrukt) voorkomen van termen in snippets/keywords-in-context UZ-5 precisie - kijk naar irrelevante zoekresultaten per term en besluit om de term te behouden, wijzigen, verwijderen of bepaalde context uit te sluiten; NB beoordelen van relevantie van termen op basis van zoekacties op losse termen is lastig in webzoekmachines vanwege de wijze van ranking UZ-6 flexibiliteit, procescontrole - combineren van zoekacties uit de zoekgeschiedenis is in webzoekmachines geen standaardoptie maar kan handmatig
  • 28. Documenteren proces ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage) Evaluatie ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) EV-1 flexibiliteit, procescontrole - overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten - leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero EV-2 schone data, efficiënte evaluatie - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie EV-4 reproduceerbaarheid - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
  • 30. Documenteren proces ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage) Evaluatie ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) EV-1 flexibiliteit, procescontrole - overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten - leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero EV-2 schone data, efficiënte evaluatie - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie EV-4 reproduceerbaarheid - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
  • 31. Documenteren proces ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) DO reproduceerbaarheid, verifieerbaarheid - documenteer het hele zoekproces (voor jezelf en t.b.v. (aangepaste) PRISMA-S rapportage) Evaluatie ‘fase’ doel toepassing op webzoeken (niet alleen Google; details kunnen in elk zoeksysteem anders zijn) EV-1 flexibiliteit, procescontrole - overweeg resultaten van webzoekmachines te checken op relevantie voorafgaand aan vastleggen/downloaden van pagina’s/URLs; bekijk minstens 100 resultaten - leg volledige pagina’s/documenten (PDF/web) vast, bv. in Zotero EV-2 schone data, efficiënte evaluatie - dedupliceer resultaten, bv. door in een tabel met metadata te sorteren op URL EV-3 relevantie - check alle records handmatig of semi-automatisch op relevantie EV-4 reproduceerbaarheid - sla de geselecteerde pagina’s op in bv. WayBack Machine of Perma.cc om zo een permanente, citeerbare en van datum voorziene versie van de pagina beschikbaar te hebben en houden
  • 32. Discussie ● Welke acties zijn bij alle informatievragen zinnig, welke slechts in bijzondere gevallen? ● In welke mate zijn de acties praktisch haalbaar? ● Voor wat voor projecten heeft het zin om ‘all the way’ te gaan? ● Hebben wij als informatiespecialisten suggesties om web search betrouwbaarder te maken? ● Is het zinnig om deze ‘aanpak’ gedetailleerder te beschrijven? ● Wat ontbreekt nog? ● Wat neem je hiervan mee?
  • 33. “Systematisch zoeken op internet kan niet …. of wel?” Workshop tijdens de VOGIN-IP lezing, 20220511 Jeroen Bosman & Bianca Kramer Slides beschikbaar op https://tinyurl.com/syszoek2022