Presentasjon på KORG-dagene 2011, Høgskolen i Oslo.
http://www.hio.no/Enheter/Avdeling-for-journalistikk-bibliotek-og-informasjonsfag/Konferanser/Kunnskapsorganisasjonsdagene-2011
12. FRBR og FRBRisering
FRBR‐modellen
Modell av entiteter, relasjoner og attributter som er av
interesse for sluttbrukere av bibl. informasjon
Litt ny tankegang, litt opprydding i terminologi, men det
mest vesentlige er kanskje en ”formell” modell
FRBRisering
Populær term i prosjekter hvor vi prøver å tolke eller
konvertere eksisterende bibliografisk informasjon i
henhold til FRBR‐modellen
13. FRBRisering eksperiment
Deichmanske og IDI, NTNU
Institutt for datateknikk og inf. vitenskap
Startet med eksperimentell konvertering av BIBSYS
Og har jobbet med dette i andre prosjekter seinere
Deichmanske
Pode‐prosjektet generelt interessert i FRBR og muligheten
for FRBRisering av egne data
Ble enige om å sammen prøve ut en FRBRisering
av noen eksempler fra Deichmans katalog
15. Litt om verktøyet for frbrisering
XSLT‐basert konvertering av MARC‐poster
MARC‐poster i XML som input
Produserer FRBR‐poster i XML som output
En post for hver unike entitet (person, verk, uttrykk, ..)
Med lenker for relasjonene
Bruker en database med regler for hvilke entiteter og
relasjoner som skal opprettes under hvilke betingelser
Automatisk generering av selv XSLT‐fila som konverterer
Kan tilpasses et hvilket som helst MARC format – krever bare at du
lager reglene for å tolke formatet
16. FRBRmodellen
i praksis
Verk om
Hamsun
Verk av Hamsun
Forskjellige uttrykk Verk basert på
Oversettere, innlesere verk av Hamsun
17. Litt mer
avanserte
Samlede verker hvor enkeltbindene
inneholder 1 eller flere romaner
Bind 1: Sult
Bind 4: Pan, Victoria
Bind 6: Rosa, Benoni
Novellesamlinger
En eller flere forfattere Essay‐samlinger som hver
har separate Hamsun‐verk
som emne
19. Resultat fra
første runde
Verk av Petterson
Ut og stjæle hester
Til Sibir
I kjølvannet
Jeg forbanner tidens elv
Det er greit for meg Egentlig ikke så ille…..
‐ men det mangler mange noveller
Aske i munnen, sand i skoa
‐ og noen verk er feil
Confesiunile unei femei visatoare
Ekkoland
Fuori a rubar cavalli
Kielzog
Månen over Porten
Til Sibiru
V Sibir!
20. Hamsun
(et lite utvalg) Generelt et dårlig resultat
Bedre utnyttelse av biinførsler
Basaren siden vi kunne spesialbehandle
Benoni ”samlede verker)
Benoni og Rosa
Benoni. Rosa Men også mange feilkilder
Bjørger
Blant dyr
Brev til Marie
Børn av tiden
Dagboksblad
Damen fra tivoli
Das Sausen und Waldes; [Gedichte]
Den gaadefulde
Den gåtefulle
Den sidste glæde
Den siste glede
Den siste glæde
Det vilde kor
Det vilde kor og andre dikt
Det vilde kor, og andre dikte
22. For få verk
(fra biinnførslene)
Vanskelig å vite hvordan biinnførslene skal tolkes
Novellesamlinger med 700‐innf. for novelle‐titlene
Filmer med 700‐innf. for romanen filmen er basert på
Er en 740‐tittel en alternativ skriveform eller et
eget uttrykk/verk?
Hvis innholdet er beskrevet med 700/740
hvordan skal vi da tolke 240/245 titler og hvilke
relasjoner finnes?
Kollektiv tittel som ikke er verk (Samlede verker)
Eller eget verk (Norske perler i prosa)
23. Andre utfordringer
Uttrykk
Språk og formkode for å identifisere uttrykk
Ingen egne titler for uttrykkene (vanskelig å velge)
Relasjoner
Mange varianter av samme funksjonskode
”M:N” – problematikk
Emner
Titler i emneinnførsler er på norsk selv om org. tittel er på
annet språk
24. Runde 2
Mulighet for bedre resultat med bedre data!
Valgte å jobbe videre med Hamsun og Petterson
Redigering av postene
Retting av titler, legge til orginaltitler etc.
Bruke indikatorer for titler som identifiserer verk
Nye regler for konverteringen
Ny kjøring og nytt resultat
26. Videre…
Mer systematisk/konsekvent bruk av 700/740
740 der alle titler har samme forfatter (i 100)
Samme skriveform i 740 som man ville brukt i 240
Systematisk bruk av andre indikator i 700/740 for
å synliggjøre om dette er et eget verk
Stor antall endringer (vanskelig å tallfeste)
29. Resultatet etter andre runde
Færre ”feil” verk
Fordi det var mulig å ekskludere ikke‐verks titler
Fordi det fantes 240‐titler der det var nødvendig
Flere ”riktige” verk
Fordi det var mulig å bruke titler i 700 og 740 riktig
I tillegg var det mye enklere å lage regler
Men fortsatt er det mye informasjon i postene som er
vanskelig å tolke automatisk
30. Konklusjon
FRBR‐modellen stiller nye krav
Til MARC‐formatet, katalogiseringsreglene, data
Paradokset er at informasjonen finnes i postene,
men er vanskelig å tolke automatisk
Enkelt å forstå en og en post
Men vanskelig å lage regler for å tolke alle
Forsøket viser at MARC‐data kan bli bedre
Noen utfordringer krever mer drastiske endringer
31. RDF
I et RDF‐datasett uttrykkes all informasjon i
form av tripler
En trippel er et utsagn som består av tre deler:
– En instans (subjekt)
– En egenskap (predikat)
– En verdi (objekt)
Amund liker sjokolade