Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices
1. Integration von Normdaten in
Bibliotheksanwendungen auf der Basis
von Webservices mit Semantic Web-
Technologie
Dr. Timo Borst
IT-Entwicklung
Deutsche Zentralbibliothek für Wirtschaftswissenschaften /
Leibniz-Informationszentrum Wirtschaft
Kiel/Hamburg
I-KNOW Praxisforum
1.-3. September 2010 in Graz
Die ZBW ist Mitglied der Leibniz-Gemeinschaft
2. Übersicht
1. Ausgangslage: Verteiltes Datenmanagement in
Bibliotheksanswendungen
2. Bisherige Ansätze zur Aggregierung und Homogenisierung
3. Integration und Aggregation von Normdaten auf der Basis von
Semantic Web-Technologien
a) Grundidee
b) Anwendungsfall_1: Verschlagwortung
c) Anwendungsfall_2: Suche
d) Anwendungsfall_3: Erfassung von Autoren
4. “Leichtgewichtige” Integration in bestehende Systeme
5. Zusammenfassung und Fazit
Seite 2
3. Ausgangslage
• Klassische Bibliotheksanwendungen erzeugen und verwalten
jeweils idiosynkratische (Meta-)Datenbestände (“Datensilos”)…
• …die dann im Web über jeweils eigene Frontends verfügbar
gemacht werden
• Wie können hinsichtlich
• Formate
• Schemata
• Vokabulare zur Erschließung
• Erschließungsregeln
• Vollständigkeit (Abstract ja/nein)
• Herkunft
prinzipiell heterogene Metadaten zueinander in Beziehung
gesetzt werden?
Seite 3
4. Ausgangslage
Beispiel Repositorien und ihre Vernetzung
• Repositorien sind allgemein genutzte Erfassungs-/Retrieval-
/Verbreitungssysteme („Data Provider“), zumeist OSS und Community-
getrieben
• Zahlreiche Installationen an Hochschulen, Bibliotheken, Rechenzentren
• Vernetzungsinitiativen, z.B. OA-Netzwerk
• „OA-Netzwerk stellt Dienste auf der Basis von aggregierten Daten der DINI-
zertifizierten Repositorien bereit […] u.a. vorgesehen: Aggregation,
Harmonisierung und Ähnlichkeitsanalyse“
http://www.dini.de/fileadmin/workshops/oa-statistik-was-zaehlt/02_gerlach-
oas.pdf
• Einschlägige OSS-Repositoriensoftware (DSpace, EPrints, OPUS)
unterstützt derzeit noch nicht die Integration extern kontrollierter Normdaten
Seite 4
5. Ausgangslage
„The major difficulty we have found is with DSpace’s handling of
metadata. While we feel that the number of fields in Dublin Core is
adequate for most if not all uses (DCMI Usage Board 2006), we are
troubled by the lack of authority control when completing its fields.
Without some control over uniform titles, authors and subjects
accessing the items in the future will very problematic.“
S. Chabot (http://subjectobject.net/2006/11/09/the-dspace-digital-
repository-a-project-analysis/)
„Neither the standards nor the software unterlying
institutional repositories anticipated performing naming
authority control on widely disparate metadata from
highly unreliable sources.“
D. Salo (http://minds.wisconsin.edu/handle/1793/31735)
Seite 5
6. Ausgangslage
Typische Mängel
• Daten (Autorennamen, beschreibende Schlagwörter, Herausgeber,
Dokumenttypen etc.) werden ohne semantische und syntaktische
Anleitungen und Restriktionen teilweise im Freitext erfasst
• (Syntaktische) Suchen liefern nur eingeschränkte oder uneindeutige
Ergebnisse, erfordern ggf. aus Anwendersicht subtilere Suchkenntnisse
(Trunkierung etc.) (Suche nach „Abbott, Philip“ liefert nur Treffer für Nr.
2/3)
• Namensänderungen sind praktisch nicht nachvollziehbar
• Selbst wenn syntaktische und semantische Eindeutigkeit in einem
Repository lokal erzielt werden können, erneuert und verschärft sich das
Problem auf Seiten der Aggregatoren
Seite 6
7. Bisherige Ansätze zur Aggregierung &
Homogenisierung
Seite 7
http://www.economistsonline.org/publications?page=3&q=thys-clement&lang=de
9. Bisherige Lösungsansätze zur Aggregierung &
Homogenisierung
Homogenisierung im Vorhinein
• Festlegung eines relativ granularen Metadatenschemas
• Möglichst verbindliches und explizites Regelwerk, das auch von allen
Beteiligten konsequent befolgt wird
• Verwendung einheitlicher Namen + Vokabulare
• Lokale Anpassungen
• Zentrales Harvesting bei minimierter Datenaufbereitung
Homogenisierung im Nachhinein
• Beibehaltung der lokalen Ausprägungen bei kleinstem gemeinsamen
Nenner (etwa “Dublin Core”-Elemente)
• Nachträgliche Maßnahmen zur Homogenisierung, u.a. “Name
Disambiguation”
• Zentrales Harvesting bei aufwändiger Datenaufbereitung
Beide Ansätze sind nicht optimal!
Seite 9
11. Integration und Aggregation von Normdaten -
Idee
Beispieldaten und -anfragen (zu Personen und Themen):
http://zbw.eu/beta/stw-ws/suggest?query=finanzkr
…liefert alle Terme, die mit “finanzkr” beginnen
http://zbw.eu/beta/stw-ws/stw-ws-wrapper.php?service=labels&
concept=http://zbw.eu/stw/descriptor/19664-4&lang=en
…liefert alle englischen Synonyme zu “Finanzkrise:
Seite 11
12. Anwendungsfall_1: Verschlagwortung mit
Normdaten
• DER Anwendungsfall für Bibliothekarinnen und Bibliothekare
• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen (?)
+ BibliotheksnutzerInnen (?)
• Vorgang: Eingabe von beschreibenden Metadaten, die häufig aus einem
kontrollierten Vokabular stammen
• Crosskonkordanzen herstellen zwischen verschiedenen kontrollierten
Vokabularen
• Bestandteil von Open Access relevanten Vorgängen wie das „self-publishing“,
das „self-archiving“ oder das „social tagging“
• Zielstellung: Den Vorgang der Verschlagwortung mit Hilfe von kontrollierten
Vokabularen und Webservices unterstützen, so dass man einerseits zu
„besseren“ im Sinne von normierten Metadaten kommt, die andererseits aber
auch Flexibilität im Rahmen eines KOS erlauben („Lokalisierung“):
• Alternative Schreibweisen bei Namen
• Synonyme sowie Ober-/Unterbegriffe bei Schlagworten
Seite 12
15. Anwendungsfall_2: Suche
• Der häufigste Anwendungsfall in Bibliotheksanwendungen
• Nutzergruppen: Bibliothekarinnen und Bibliothekare +
WissenschaftlerInnen + BibliotheksnutzerInnen
• Vorgang: Zumeist einfache Volltextsuche über
Metadatenfelder (Titel/Abstract) und/oder Volltexte (soweit
letztere verfügbar sind und im Suchmaschinenindex liegen)
• Zielstellung: Den Vorgang der Suche mit Hilfe von
kontrollierten Vokabularen und Webservices unterstützen,
so so dass man zu besseren Suchergebnissen gelangt
(Erhöhung von Recall + Precision)
Seite 15
20. “Leichtgewichtige” Integration in bestehende Systeme
Vorteile
• „Leichtgewichtige“ Erweiterungen bestehender (Alt-)Systeme
• Strategie des „minimalen Eingriffs“
• Keine Änderungen am Systemkern, minimale Änderungen am
Datenmodell nötig (Erweiterung um eine Spalte für den Authority-Key)
• Typen von (Web-)Bibliotheksanwendungen, die sich auf diese Weise
zwanglos erweitern ließen:
• Repositorien (zumeist OSS, Plugin-Architektur)
• Kataloge (zumeist proprietäre SW und monolithisch)
• Portale (zumeist OSS, heterogene Inhalte hinsichtlich Art und Herkunft) ->
WebService zur Verbesserung des Retrievals und zur Erzeugung von Mash-
Ups
• …sowie alle offenen Systeme mit kollaborativ-verteilter Verschlagwortung
(z.B. Academic Linkshare)
Seite 20
21. Zusammenfassung und Fazit
• Bibliotheksanwendungen erzeugen und verwalten jeweils eigene
idiosynkratische Datenbestände.
• Dies erschwert die Pflege, den Austausch, die Aggregation und die
Homogenisierung der (Meta-)Daten für erweiterte Dienste.
• Vorgelagerte Webservices als Teil einer übergreifenden Normdaten-
Infrastruktur können frühzeitig zur Homogenisierung der Metadaten
beitragen (bei gleichzeitiger Lokalisierung).
• Wenn diese Webservices verbreitet entstehen und genutzt werden,
besteht die Chance zu einer weitergehenden Vernetzung lokal
gepflegter Metadaten bei gleichzeitiger Verbesserung der
datenbasierten Services.
• Die Möglichkeit zur „leichtgewichtigen Integration“ ist ein Angebot an
Betreiber von Bibliotheksanwendungen, diese Webservices mit
möglichst minimalem Aufwand in ihre Anwendungen zu integrieren.
Seite 21
22. Vielen Dank!
Dr. Timo Borst
Deutsche Zentralbibliothek für
Wirtschaftswissenschaften /
Leibniz-Informationszentrum
Wirtschaft (ZBW)
t.borst@zbw.eu
Seite 22
23. Anwendungsfall_3: Erfassung von Autoren
•Der Normalfall in Katalogen - in anderen Erfassungssystemen bisher
der Ausnahmefall
•Nutzergruppen: BibliothekarInnen + WissenschaftlerInnen (?) +
BibliotheksnutzerInnen (?)
•Vorgang: Eingabe von AutorInnen-Namen
•Zielstellung: Den Vorgang der Autorenerfassung mit Hilfe von
Normdaten zu verbessern, die durch Webservices bereit gestellt werden
Seite 23
25. Bisherige Lösungsansätze zur Aggregierung &
Homogenisierung
•Metadatensuche durch Aggregatoren
• Parallele Abfrage entfernt-verteilter Systeme
• Rückgabe und Aufbereitung des Suchergebnisses als
zusammengesetzte Trefferliste
•Harvesting
• Regelmäßiges Einsammeln von entfernt-verteilten
Metadaten
• Homogenisierung ex ante oder ex post
•Föderierte Suche
•…
Seite 25