Taxonomieën maken en toepassen in SharePoint 2013 VOGIN-IP lezing 2015
Zin en onzin van metadata
1. photo by Shira Golding
?
ata
tad
g: e
da n m
die ige
stu r e
N- ove 12
DE as i 20
Ba jun
28
2. eric sieverts
• docent zoeken,
vinden, ontsluiten
[bij HVA, GO, VOGIN]
• [voorheen] innovatie
& ontwikkeling
[bij UB Utrecht]
Eric Sieverts, DEN, 28 juni 2012
3. agenda
• metadata in de bibliotheek
• zin en onzin van metadata om te zoeken
– de catalogus
– faceted search
• zin en onzin van standaarden voor metadata
– OAI repositories
– semantiek op het web
• noodzaak voor metadata
maar eerst een quizje ....
Eric Sieverts, DEN, 28 juni 2012
4. op welke zoekvraag
was dit het antwoord
van Google ?
filename: thesaurus.jpg
metadata waren hier
nuttig geweest
5. metadata in de
bibliotheek
• ik kijk vooral naar metadata als zoekhulpmiddel
• metadata in catalogus normaliter veel te beknopt om
zinnig zoekhulpmiddel te zijn
de mythe van de
catalogus >>
onderwerps-
zoeken in de
catalogus ? Eric Sieverts, DEN, 28 juni 2012
6.
7. voorbeeld: een boek van 480 bladzijden
met een onderwerpsindex van 14 dichtbedrukte bladzijden
met een inhoudsopgave van 5 bladzijden
met 21 hoofdstukken en 117 paragrafen
in een catalogus beschreven
met 1 onderwerpscategorie
en 1 (daaraan identiek!) trefwoord
Eric Sieverts, DEN, 28 juni 2012
8. voorbeeld: een boek van 480 bladzijden
met een onderwerpsindex van 14 dichtbedrukte bladzijden
met een inhoudsopgave van 5 bladzijden
met 21 hoofdstukken en 117 paragrafen
zelfs user-tags in Librarything bieden
maar weinig meer zinvolle ingangen
vergeleken met die inhoudsopgave
Eric Sieverts, DEN, 28 juni 2012
9. de 21 hoofdstukken op de bijbehorende website
een paar van de 117
paragrafen uit de TOC
10. metadata in de
bibliotheek
• (non-fictie) boeken gaan vaak over veel
dingen / onderwerpen / deelonderwerpen
• andere situatie dan bij erfgoed-objecten
.... hmmm .... hoewel .... how about videos?
11. metadata in de
bibliotheek
• ik kijk vooral naar metadata als
zoekhulpmiddel
• metadata in catalogus normaliter
veel te beknopt om zinnig
zoekhulpmiddel te zijn
– daardoor niet zo gek dat gebruik
van GOO trefwoorden niet wordt
voortgezet
Eric Sieverts, DEN, 28 juni 2012
12. metadata in de
bibliotheek
• ik kijk vooral naar metadata als
zoekhulpmiddel
• metadata in catalogus normaliter veel te
beknopt om zinnig zoekhulpmiddel te zijn
• digitaal meegeleverde verrijking die meer
zoekingangen oplevert?
zelfs bij e-books (studieboeken, wetenschap)
vaak nog geen (of heel summiere) inhouds-
opgave, samenvatting o.i.d.
[ook als metadata beschouwd !]
Eric Sieverts, DEN, 28 juni 2012
13. ooks'
et G oogle B
dat eens m heden!
v ergelijk ekmogelijk
t zo
full-tex
14. metadata in de
bibliotheek
• ik kijk vooral naar metadata als
zoekhulpmiddel
• metadata in catalogus normaliter veel te
beknopt om zinnig zoekhulpmiddel te zijn
• zelfs bij e-books (studieboeken, wetenschap)
vaak nog geen (of heel summiere) inhouds-
opgave, samenvatting o.i.d.
• formele metadata: goed hulpmiddel voor
facetzoeken = uitsplitsen/filteren van
verkregen zoekresultaat, zoals in de nieuwe
"webscale discovery systems"
Eric Sieverts, DEN, 28 juni 2012
15. 2011
year of the webscale discovery tools
Eric Sieverts, NVBA, Deventer, 10 mei 2012
16. 2011
year of the webscale discovery tools
Eric Sieverts, NVBA, Deventer, 10 mei 2012
17. metadata in de
bibliotheek
• ik kijk vooral naar metadata als
zoekhulpmiddel
• metadata in catalogus normaliter veel te
beknopt om zinnig zoekhulpmiddel te zijn
• zelfs bij e-books (studieboeken, wetenschap)
vaak nog geen (of summiere) inhoudsopgave,
samenvatting o.i.d. meegeleverd
• formele metadata: goed hulpmiddel voor
facetzoeken
– maar dat vereist wel dat ze consistent en
consequent zijn toegekend (om geen resultaten
kwijt te raken)
Eric Sieverts, DEN, 28 juni 2012
18. metadata in de
bibliotheek
standaardisatie
+ bijna iedereen gebruikt MARC format
- toch geen echte standaard wat betreft
toepassing en interpretatie
uitwisseling van metadata
+ ja, want iedereen wil kunnen ontlenen
(immers weinig unica)
- vaak doet men het zelf toch nog weer
dunnetjes over, vanwege lokale
idiosyncrasies
Eric Sieverts, DEN, 28 juni 2012
19. metadata in de
bibliotheek
wat mag je met die metadata uit GGC /
PICA / Worldcat?
disclaimer: ik ben geen expert op dit gebied
• vroeger alleen intern je eigen metadata
gebruiken, maar ze waren niet zo echt van
jezelf, dat je ze ook aan anderen mocht geven
• nu zijn metadata uit GGC en WorldCat
"open data" volgens de Open Data Commons
Attribution License
(her)gebruiker moet dus wel vermelden dat ze
(eigenlijk?) van OCLC zijn
Eric Sieverts, DEN, 28 juni 2012
20. metadata in de
bibliotheek
noodzaak voor metadata?
• nog altijd veel materiaal(soorten) waar niet automatisch
computerleesbare tekst bij zit en dus alleen middels
metadata vindbaar (en herkenbaar) te maken is:
– gedigitaliseerd erfgoed
– video's (weblectures)
– datasets
– .....
• formele metadata voor (o.a.) facetzoeken (filteren)
Eric Sieverts, DEN, 28 juni 2012
21. standaardisatie van
metadata
OAI in institutionele repositories (IR's)
• metadata schema = Dublin Core
• standaard harvesting protocol (OAI PMH)
maar in OAIster (zoekmachine met metadata uit >1100
lokale IR's) zeer veel variatie in
– aan-/afwezigheid van DC-velden
– mate van vulling van die velden
– wijze van vulling van die velden
geen echte standaardisatie
nogal onvolledige zoekresultaten
Eric Sieverts, DEN, 28 juni 2012
22.
23. standaardisatie van
metadata
semantisch web
• gebaseerd op standaarden
• maar dat is veelheid aan verschillende
gestandaardiseerde metadata-modellen en
semantische standaarden
• vereist dus extra kennis van de wereld
– ontologieën
– concordanties
Eric Sieverts, DEN, 28 juni 2012
24. in semantisch web
wordt van "alles"
betekenis vastgelegd
(als metadata,
computerleesbaar)
Eric Sieverts, DEN, 28 juni 2012
25. door standaard semantiek
kan Google een
receptenzoekmachine
maken
"embedded metadata"
standaardisatie van
eigenschappen/kenmerken
in beschrijving van recepten met
"microformats"/"rich snippets markup"
28. semantische
metadata
toevoegen van semantiek:
• helemaal handmatig (oeps …)
• automatisch als informatie toch al uit een database
of cms komt
• door geautomatiseerde herkenning van "entiteiten"
in de tekst >>
• welke standaard(en)?
Eric Sieverts, DEN, 28 juni 2012
32. the "linked open data cloud" - september 2011 - 31 billion data online
by standardisation of dataformats and metadata,
computers can "understand" (look-up) the meaning of these data & use them
33. metadata
zin of onzin?
soms onzinnig
vaak zinnig
mits:
• rijk
• consistent
• (semi)automatisch
- inclusief TOC's, OCR,
spraakherkenning, ...
• standaarden
• open metadata
• …
Hinweis der Redaktion
20% van totale UB bezit komt in LT voor, maar 75% van de opgevraagde boeken bevat LT informatie. Vooral oudere boeken, die nog geen isbn hebben worden niet gematched. Menno was echter plezierig verrast door het hoge percentage van boeken dat opgevraagd wordt en LT informatie bevat.