Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Integration von Normdaten in
Bibliotheksanwendungen auf der Basis
von Webservices mit Semantic Web-
Technologie
Dr. Timo Borst

IT-Entwicklung
Deutsche Zentralbibliothek für Wirtschaftswissenschaften /
Leibniz-Informationszentrum Wirtschaft
Kiel/Hamburg

I-KNOW Praxisforum
1.-3. September 2010 in Graz

Die ZBW ist Mitglied der Leibniz-Gemeinschaft

Übersicht
1. Ausgangslage: Verteiltes Datenmanagement in
Bibliotheksanswendungen

2. Bisherige Ansätze zur Aggregierung und Homogenisierung

3. Integration und Aggregation von Normdaten auf der Basis von
Semantic Web-Technologien
a) Grundidee
b) Anwendungsfall_1: Verschlagwortung
c) Anwendungsfall_2: Suche
d) Anwendungsfall_3: Erfassung von Autoren

4. “Leichtgewichtige” Integration in bestehende Systeme

5. Zusammenfassung und Fazit

Seite 2

Ausgangslage
• Klassische Bibliotheksanwendungen erzeugen und verwalten
jeweils idiosynkratische (Meta-)Datenbestände (“Datensilos”)…

• …die dann im Web über jeweils eigene Frontends verfügbar
gemacht werden

• Wie können hinsichtlich

• Formate
• Schemata
• Vokabulare zur Erschließung
• Erschließungsregeln
• Vollständigkeit (Abstract ja/nein)
• Herkunft

prinzipiell heterogene Metadaten zueinander in Beziehung
gesetzt werden?
Seite 3

Ausgangslage

Beispiel Repositorien und ihre Vernetzung
• Repositorien sind allgemein genutzte Erfassungs-/Retrieval-
/Verbreitungssysteme („Data Provider“), zumeist OSS und Community-
getrieben
• Zahlreiche Installationen an Hochschulen, Bibliotheken, Rechenzentren
• Vernetzungsinitiativen, z.B. OA-Netzwerk
• „OA-Netzwerk stellt Dienste auf der Basis von aggregierten Daten der DINI-
zertifizierten Repositorien bereit […] u.a. vorgesehen: Aggregation,
Harmonisierung und Ähnlichkeitsanalyse“
http://www.dini.de/fileadmin/workshops/oa-statistik-was-zaehlt/02_gerlach-
oas.pdf
• Einschlägige OSS-Repositoriensoftware (DSpace, EPrints, OPUS)
unterstützt derzeit noch nicht die Integration extern kontrollierter Normdaten

Seite 4

Ausgangslage
„The major difficulty we have found is with DSpace’s handling of
metadata. While we feel that the number of fields in Dublin Core is
adequate for most if not all uses (DCMI Usage Board 2006), we are
troubled by the lack of authority control when completing its fields.
Without some control over uniform titles, authors and subjects
accessing the items in the future will very problematic.“
S. Chabot (http://subjectobject.net/2006/11/09/the-dspace-digital-
repository-a-project-analysis/)
„Neither the standards nor the software unterlying
institutional repositories anticipated performing naming
authority control on widely disparate metadata from
highly unreliable sources.“
D. Salo (http://minds.wisconsin.edu/handle/1793/31735)

Seite 5

Ausgangslage

Typische Mängel
• Daten (Autorennamen, beschreibende Schlagwörter, Herausgeber,
Dokumenttypen etc.) werden ohne semantische und syntaktische
Anleitungen und Restriktionen teilweise im Freitext erfasst
• (Syntaktische) Suchen liefern nur eingeschränkte oder uneindeutige
Ergebnisse, erfordern ggf. aus Anwendersicht subtilere Suchkenntnisse
(Trunkierung etc.) (Suche nach „Abbott, Philip“ liefert nur Treffer für Nr.
2/3)
• Namensänderungen sind praktisch nicht nachvollziehbar
• Selbst wenn syntaktische und semantische Eindeutigkeit in einem
Repository lokal erzielt werden können, erneuert und verschärft sich das
Problem auf Seiten der Aggregatoren

Seite 6

Bisherige Ansätze zur Aggregierung &
Homogenisierung

Seite 7
http://www.economistsonline.org/publications?page=3&q=thys-clement&lang=de

Bisherige Ansätze zur Aggregierung &
Homogenisierung

Seite 8

Bisherige Lösungsansätze zur Aggregierung &
Homogenisierung
Homogenisierung im Vorhinein
• Festlegung eines relativ granularen Metadatenschemas
• Möglichst verbindliches und explizites Regelwerk, das auch von allen
Beteiligten konsequent befolgt wird
• Verwendung einheitlicher Namen + Vokabulare
• Lokale Anpassungen
• Zentrales Harvesting bei minimierter Datenaufbereitung
Homogenisierung im Nachhinein
• Beibehaltung der lokalen Ausprägungen bei kleinstem gemeinsamen
Nenner (etwa “Dublin Core”-Elemente)
• Nachträgliche Maßnahmen zur Homogenisierung, u.a. “Name
Disambiguation”
• Zentrales Harvesting bei aufwändiger Datenaufbereitung
Beide Ansätze sind nicht optimal!

Seite 9

Integration und Aggregation von Normdaten -
Grundidee

Seite 10

Integration und Aggregation von Normdaten -
Idee
Beispieldaten und -anfragen (zu Personen und Themen):

http://zbw.eu/beta/stw-ws/suggest?query=finanzkr
…liefert alle Terme, die mit “finanzkr” beginnen

http://zbw.eu/beta/stw-ws/stw-ws-wrapper.php?service=labels&
concept=http://zbw.eu/stw/descriptor/19664-4&lang=en
…liefert alle englischen Synonyme zu “Finanzkrise:

Seite 11

Anwendungsfall_1: Verschlagwortung mit
Normdaten
• DER Anwendungsfall für Bibliothekarinnen und Bibliothekare
• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen (?)
+ BibliotheksnutzerInnen (?)
• Vorgang: Eingabe von beschreibenden Metadaten, die häufig aus einem
kontrollierten Vokabular stammen
• Crosskonkordanzen herstellen zwischen verschiedenen kontrollierten
Vokabularen
• Bestandteil von Open Access relevanten Vorgängen wie das „self-publishing“,
das „self-archiving“ oder das „social tagging“
• Zielstellung: Den Vorgang der Verschlagwortung mit Hilfe von kontrollierten
Vokabularen und Webservices unterstützen, so dass man einerseits zu
„besseren“ im Sinne von normierten Metadaten kommt, die andererseits aber
auch Flexibilität im Rahmen eines KOS erlauben („Lokalisierung“):
• Alternative Schreibweisen bei Namen
• Synonyme sowie Ober-/Unterbegriffe bei Schlagworten
Seite 12

Anwendungsfall_1: Verschlagwortung

Erfassungsmaske unter https://econstor.eu

Seite 13

Anwendungsfall_1: Verschlagwortung
Erfassungsmaske unter https://econstor.eu

Seite 14

Anwendungsfall_2: Suche
• Der häufigste Anwendungsfall in Bibliotheksanwendungen
• Nutzergruppen: Bibliothekarinnen und Bibliothekare +
WissenschaftlerInnen + BibliotheksnutzerInnen
• Vorgang: Zumeist einfache Volltextsuche über
Metadatenfelder (Titel/Abstract) und/oder Volltexte (soweit
letztere verfügbar sind und im Suchmaschinenindex liegen)
• Zielstellung: Den Vorgang der Suche mit Hilfe von
kontrollierten Vokabularen und Webservices unterstützen,
so so dass man zu besseren Suchergebnissen gelangt
(Erhöhung von Recall + Precision)

Seite 15


Erweiterte Suche unter http://econstor.eu nach „Finanzkrise“

Seite 16


Seite 17


Seite 18

“Leichtgewichtige” Integration in bestehende Systeme

Seite 19

“Leichtgewichtige” Integration in bestehende Systeme

Vorteile
• „Leichtgewichtige“ Erweiterungen bestehender (Alt-)Systeme

• Strategie des „minimalen Eingriffs“

• Keine Änderungen am Systemkern, minimale Änderungen am
Datenmodell nötig (Erweiterung um eine Spalte für den Authority-Key)

• Typen von (Web-)Bibliotheksanwendungen, die sich auf diese Weise
zwanglos erweitern ließen:
• Repositorien (zumeist OSS, Plugin-Architektur)
• Kataloge (zumeist proprietäre SW und monolithisch)
• Portale (zumeist OSS, heterogene Inhalte hinsichtlich Art und Herkunft) ->
WebService zur Verbesserung des Retrievals und zur Erzeugung von Mash-
Ups
• …sowie alle offenen Systeme mit kollaborativ-verteilter Verschlagwortung
(z.B. Academic Linkshare)

Seite 20

Zusammenfassung und Fazit
• Bibliotheksanwendungen erzeugen und verwalten jeweils eigene
idiosynkratische Datenbestände.
• Dies erschwert die Pflege, den Austausch, die Aggregation und die
Homogenisierung der (Meta-)Daten für erweiterte Dienste.
• Vorgelagerte Webservices als Teil einer übergreifenden Normdaten-
Infrastruktur können frühzeitig zur Homogenisierung der Metadaten
beitragen (bei gleichzeitiger Lokalisierung).
• Wenn diese Webservices verbreitet entstehen und genutzt werden,
besteht die Chance zu einer weitergehenden Vernetzung lokal
gepflegter Metadaten bei gleichzeitiger Verbesserung der
datenbasierten Services.
• Die Möglichkeit zur „leichtgewichtigen Integration“ ist ein Angebot an
Betreiber von Bibliotheksanwendungen, diese Webservices mit
möglichst minimalem Aufwand in ihre Anwendungen zu integrieren.
Seite 21

Vielen Dank!

Dr. Timo Borst
Deutsche Zentralbibliothek für
Wirtschaftswissenschaften /
Leibniz-Informationszentrum
Wirtschaft (ZBW)

t.borst@zbw.eu

Seite 22

Anwendungsfall_3: Erfassung von Autoren

•Der Normalfall in Katalogen - in anderen Erfassungssystemen bisher
der Ausnahmefall
•Nutzergruppen: BibliothekarInnen + WissenschaftlerInnen (?) +
BibliotheksnutzerInnen (?)
•Vorgang: Eingabe von AutorInnen-Namen
•Zielstellung: Den Vorgang der Autorenerfassung mit Hilfe von
Normdaten zu verbessern, die durch Webservices bereit gestellt werden

Seite 23

Anwendungsfall_3: Erfassung von Autoren
•Erfassungsmaske unter http://87.106.250.18/beta/econstor/

Seite 24

Bisherige Lösungsansätze zur Aggregierung &
Homogenisierung
•Metadatensuche durch Aggregatoren
• Parallele Abfrage entfernt-verteilter Systeme
• Rückgabe und Aufbereitung des Suchergebnisses als
zusammengesetzte Trefferliste
•Harvesting
• Regelmäßiges Einsammeln von entfernt-verteilten
Metadaten
• Homogenisierung ex ante oder ex post
•Föderierte Suche
•…

Seite 25

•[1] http://wiki.dspace.org/index.php/Authority_Control_of_Metadata_Values
Literatur
•[2] http://minds.wisconsin.edu/handle/1793/31735
•[3] http://dsug09.ub.gu.se/index.php/dsug/dsug09/paper/view/22/3
•[4] http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/
•[5] http://code.google.com/p/dspace-agrisap/wiki/ThesaurusAddOn
•[6] http://edoc.hu-berlin.de/conferences/dc-2008/subirats-imma-199/PDF/subirats.pdf
•[7] http://www.jisc.ac.uk/media/documents/programmes/sharedservices/na
mes-phase-one-final-report,.pdf
•[8] http://idea.library.drexel.edu/bitstream/1860/3173/1/20070051011.pdf
•[9] http://ptsefton.com/blog/2006/06/06/the_affiliation_issue_in
_institutional_repository_software/
•[10] http://library.ust.hk/info/nac/nac-technical.html
•[11] http://www.seco.tkk.fi/publications/2009/kurki-hyvonen-onki-people-2009.pdf
•[12] http://journals.sfu.ca/archivar/index.php/archivaria/article/download/11883/12836
•[13] http://www.dini.de/fileadmin/workshops/oa-netzwerk-
juni2009/vernetzungstage_2009_malitz.pdf

Seite 26

Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Weitere ähnliche Inhalte

Was ist angesagt?

Andere mochten auch

Ähnlich wie Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Mehr von redsys

Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices