Perspektivwechsel
Normdaten:
ein neues Nutzungskonzept
an der UB und HMT Leipzig
103. Bibliothekartag, Bremen, 5.6.2014
Martin Czygan, Universitätsbibliothek Leipzig
Anke Hofmann, Bibliothek der Hochschule für Musik
und Theater „Felix Mendelssohn Bartholdy“ Leipzig
Normdatenimplementierung
als finc Milestone
Normdaten = Potentiale
Großer Bestandteil klassischer Katalogisierungsarbeit
Normdaten = Potentiale
Enorme Datensammlungen
http://d-nb.info/gnd/118576291
Normdaten = Potentiale
GND als übergreifendes Normierungssystem
https://wiki.dnb.de/display/ILTIS/Informationsseite+zur+GND+neu
Normdaten = PotentialeInteressant auch für nicht-bibliothekarische Projekte
http://de.wikipedia.org/wiki/Gustav_Mahler
Normdaten = Potentiale
Steigerung des
Suchkomforts für unsere
Nutzer/innen!
Bisherige Anwendungsfelder
„klassische“ Datenauswertung: Verweissysteme
•Personennamen und Körperschaften
•Schlagworte
•(musikalische) Werktitel
Weitere Datenauswertung
•Länderbezug für Autor/innen und Komponist/innen
•Geofacette
Personennamen und
Körperschaften
Anreicherung des Titelsatzes mit den Verweisungsformen der verknüpften
Personen
https://katalog.hmt-leipzig.de/Record/0003347345 fincMARC 900
Schlagworte
Anreicherung des Titelsatzes mit Synonymverweisungen und Oberbegriffen der
verknüpften Schlagworte
https://katalog.hmt-leipzig.de/Record/0000525350 fincMARC 950
(musikalische) Werktitel
Anreicherung des Titelsatzes mit Informationen aus Werktitel: alternative Titel,
Tonart, Werkverzeichnisnummer (Besetzung)
fincMARC 920https://katalog.hmt-leipzig.de/Record/0008964807
EST: Konzerte, Vc Orch, G 479
Violoncellokonzert, Nr. 2
Cellokonzert, D-Dur
EST: Quartette, Vl 1 2 Va Vc, H 3, 31-36
Streichquartette, op. 20
(musikalische) Werktitel
Anreicherung des Titelsatzes mit Informationen aus Werktitel: alternative Titel,
Tonart, Werkverzeichnisnummer (Besetzung)
Länderbezug
Auswertung der DIN-Ländercodes am
Personen-Normsätzen --> Facettenbildung
„Haben Sie Noten von Komponisten
Rumänischer Herkunft?“
“Geofacette“ der TU Freiberg
Umsetzung einer Idee von Wiesenmüller, Maylein, Pfeffer:
http://www.ub.uni-heidelberg.de/archiv/12555
Auswertung und Indexierung der geografischen Codes an
Schlagwort-Normsätzen
Grenzen?!
• Bislang nur für lokale Bibliotheksdaten (SWB) –
externe Quellen im Discovery System werden
bislang nicht berücksichtigt
• Relativ simples Verwendungsmuster:
Synonymverweisungen
• Keine visuelle Umsetzung der Inhalte eines
Normsatzes
• GND als einziger Datenpool
Vier Beispiele
• Perspektivwechsel Normdaten: ein neues
Nutzungskonzept an der UB und HMT.
• 05.06.2014 1000
Überblick
• Intro – 1
• Namensvarianten via GND – 7
• Alternative Sucheinstiege – 1
• Knowledge Graph – 2
• Querschnittssuche – 5
• Ausblick – 3
Intro
• Ein rotes Band – die GND
• Ein anderes – Nutzung von Indizes als (NoSQL)
Datenbanken
GND-Anreicherung
externer Quellen
Datensatz der externen Quelle
„Naxos Music Library“
http://d-nb.info/gnd/118638157
Namensvarianten 1
• GND basierte Erweiterung von MARC-Records
um Namensvarianten
• gnd.es:variantNameForThePerson
• Angewendet auf: Naxos Music Library, Gallica,
RISM, IMSLP
Namensvarianten 2
• Nutzung eines Normdatenindex für
Kandidatensuche
• Nutzung einer minimalen HTTP–API für
Taxonomieabfragen
Namensvarianten 3
• Suche aller MARC 100.a Einträge der externen
Quelle im Normdatenindex
• Für alle Kandidaten–GNDs, überprüfe, ob Beruf
unter den Oberbegriff Musikerin (4040841-3)
oder Musiker (4170818-0) fällt
• Für alle Kandidaten–GNDs, überprüfe, ob
Lebensdaten in den Normdaten hinterlegt sind
Namensvarianten 4
• Naxos - 71815
• RISM - 11241
• IMSLP - 51722
• Gallica - 23754
Namensvarianten 5
• 54339 Name insgesamt
• 5051 Namen in Naxos und GND
• 719 Namen konnten zugeordnet werden
Namensvarianten 6
• Naxos – 719 Namen mit hoher
Wahrscheinlichkeit korrekt
• RISM – 415
• IMSLP – variabel
• Gallica – 268
• generelle Frage der Qualitätsprüfung
Namensvarianten 7
• Alternative Implementierung – zum Beispiel
über eine Abfrage der Normdaten vor der
eigentlichen Suche
Sucheinstiege 1
• API um die GND–Daten
• narrower terms, broader terms, [synonyms]
• siehe Namesvarianten (gehört Musikerin zu
den Oberbegriffen?)
• Anzeige von ähnlichen Begriffen in der Art von
Facetten – mit Größenabschätzung (und
anderen Metriken)
Optimierte Datennutzung
für Suchanfragen
optimierte Nutzung der Taxonomie der Schlagwörter
Darstellung der semantischer Beziehungen von GND-
Einträgen untereinander
http://melvil.d-nb.de/swd-search?term=oboenrohr
Knowledge Graph 1
• Inspiration – Google Knowledge Graph
• Indexierung von GND, VIAF und DBPedia
• technische Herausforderungen
(Dokumentenanzahl, Konvertierung,
Kompression)
Knowledge Graph 2
• Beispiel Goethe
• Lebensdaten, Wirkungsort, Einflüsse, Werke, ...
• {“birthDate”: “…”, “deathDate”: “…”,
“placeOfBirth”: “…”, “placeOfDeath”: “image”,
…}
Querschnittssuchen 1
• Menschen gruppieren Dinge auch außerhalb
von Facetten
• Wikipedia–Kategorien
Weitere Datenpools und
Services:
„Wikipedia-Querschnittssuche“
http://de.wikipedia.org/wiki/Kategorie:Komponist_(Romantik)
Querschnittssuche 2
• Zutaten: GND–Index, Wikipedia–Normdaten–
Index, Wikipedia–Category–Index
Querschnittssuche 3
• {"p": "dnb.es:placeOfBusiness", "s":
"gnd:63067-6", "o": "gnd:4005728-8"}
• {"ndl": "00575178", "gnd": "4191405-3",
"lccn": "sh/85/004443", "title": "Americium",
"typ": "s"}
• {"category": "Carbonylkomplex", "pages":
["Chromhexacarbonyl", "Metallcarbonyle",
“...”]}
Querschnittssuche 4
• {"p": "dnb.es:placeOfBusiness", "s":
"gnd:63067-6", "o": "gnd:4005728-8"}
• {"ndl": "00575178", "gnd": "4191405-3",
"lccn": "sh/85/004443", "title": "Americium",
"typ": "s"}
• {"category": "Carbonylkomplex", "pages":
["Chromhexacarbonyl", "Metallcarbonyle",
“...”]}
Querschnittssuche 5
• Beispiel – Kategorie:Romantik_(Musik)
• 1225 Seiten unter der Kategorie
• 1082 GNDs
• Mit diesen GNDs kann man eine Suchabfrage
auf einen Katalog absetzen
Ausblick 1
• verwendete Daten – GND, VIAF, DBPedia
• noch nicht einbezogen: Freebase,
Authoritydaten anderer Nationalbibliotheken,
datahub.io, ISNI, ...
• Ansätze sind nicht unbedingt allgemein
anwendbar (z.B. Berufsbezeichnung)
Ausblick 2
• Index – Elasticsearch*
• Workflowmanagement – luigi*, gluish*
• Konverter – gomarckit*, nttoldj*, wptoldj*
• SQL für TSV: textql*
• Unix – awk*, cat*, cut*, grep*, sed*
Ausblick 3
• * Open source
• Linked Data schafft neue Verbindungen
Normdaten = Potentiale!
Voraussetzungen und
Perspektiven
• Übernahme der VIAF-IDs in die Datensätze der GND
• Bereitstellung von IDs in Initiativen zur
Datenfreigabe
• Konsistentere Nutzung der GND in Bibliotheken
• Projekte zur rückwirkenden Anreicherung in
Bibliotheken
• Nachnutzung der GND / VIAF auch in
nichtbibliothekarischen Projekten
Übernahme der VIAF-IDs in
die Datensätze der GND
http://viaf.org/viaf/99258155
Bereitstellung von IDs in
Initiativen zur Datenfreigabe
https://opac.rism.info/search?id=653004096&db=251&View=rism
https://opac.rism.info/id/rismid/653004096?format=marc
Konsistentere Nutzung der
GND in Bibliotheken
Sacherschließungsquote im Buchbestand der HMT: 42,4%
Nachnutzung der GND in
nicht-bibliothekarischen
Projekten
http://pdr.bbaw.de/projekt
http://in2n.de/
Danke für Ihre Aufmerksamkeit!
http://blog.finc.info
Martin Czygan
martin.czygan@uni-leipzig.de
Anke Hofmann
anke.hofmann@hmt-leipzig.de

Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig

  • 1.
    Perspektivwechsel Normdaten: ein neues Nutzungskonzept ander UB und HMT Leipzig 103. Bibliothekartag, Bremen, 5.6.2014 Martin Czygan, Universitätsbibliothek Leipzig Anke Hofmann, Bibliothek der Hochschule für Musik und Theater „Felix Mendelssohn Bartholdy“ Leipzig
  • 2.
  • 3.
    Normdaten = Potentiale GroßerBestandteil klassischer Katalogisierungsarbeit
  • 4.
    Normdaten = Potentiale EnormeDatensammlungen http://d-nb.info/gnd/118576291
  • 5.
    Normdaten = Potentiale GNDals übergreifendes Normierungssystem https://wiki.dnb.de/display/ILTIS/Informationsseite+zur+GND+neu
  • 6.
    Normdaten = PotentialeInteressantauch für nicht-bibliothekarische Projekte http://de.wikipedia.org/wiki/Gustav_Mahler
  • 7.
    Normdaten = Potentiale Steigerungdes Suchkomforts für unsere Nutzer/innen!
  • 8.
    Bisherige Anwendungsfelder „klassische“ Datenauswertung:Verweissysteme •Personennamen und Körperschaften •Schlagworte •(musikalische) Werktitel Weitere Datenauswertung •Länderbezug für Autor/innen und Komponist/innen •Geofacette
  • 9.
    Personennamen und Körperschaften Anreicherung desTitelsatzes mit den Verweisungsformen der verknüpften Personen https://katalog.hmt-leipzig.de/Record/0003347345 fincMARC 900
  • 10.
    Schlagworte Anreicherung des Titelsatzesmit Synonymverweisungen und Oberbegriffen der verknüpften Schlagworte https://katalog.hmt-leipzig.de/Record/0000525350 fincMARC 950
  • 11.
    (musikalische) Werktitel Anreicherung desTitelsatzes mit Informationen aus Werktitel: alternative Titel, Tonart, Werkverzeichnisnummer (Besetzung) fincMARC 920https://katalog.hmt-leipzig.de/Record/0008964807
  • 12.
    EST: Konzerte, VcOrch, G 479 Violoncellokonzert, Nr. 2 Cellokonzert, D-Dur EST: Quartette, Vl 1 2 Va Vc, H 3, 31-36 Streichquartette, op. 20 (musikalische) Werktitel Anreicherung des Titelsatzes mit Informationen aus Werktitel: alternative Titel, Tonart, Werkverzeichnisnummer (Besetzung)
  • 13.
    Länderbezug Auswertung der DIN-Ländercodesam Personen-Normsätzen --> Facettenbildung „Haben Sie Noten von Komponisten Rumänischer Herkunft?“ “Geofacette“ der TU Freiberg Umsetzung einer Idee von Wiesenmüller, Maylein, Pfeffer: http://www.ub.uni-heidelberg.de/archiv/12555 Auswertung und Indexierung der geografischen Codes an Schlagwort-Normsätzen
  • 14.
    Grenzen?! • Bislang nurfür lokale Bibliotheksdaten (SWB) – externe Quellen im Discovery System werden bislang nicht berücksichtigt • Relativ simples Verwendungsmuster: Synonymverweisungen • Keine visuelle Umsetzung der Inhalte eines Normsatzes • GND als einziger Datenpool
  • 15.
    Vier Beispiele • PerspektivwechselNormdaten: ein neues Nutzungskonzept an der UB und HMT. • 05.06.2014 1000
  • 16.
    Überblick • Intro –1 • Namensvarianten via GND – 7 • Alternative Sucheinstiege – 1 • Knowledge Graph – 2 • Querschnittssuche – 5 • Ausblick – 3
  • 17.
    Intro • Ein rotesBand – die GND • Ein anderes – Nutzung von Indizes als (NoSQL) Datenbanken
  • 18.
    GND-Anreicherung externer Quellen Datensatz derexternen Quelle „Naxos Music Library“ http://d-nb.info/gnd/118638157
  • 19.
    Namensvarianten 1 • GNDbasierte Erweiterung von MARC-Records um Namensvarianten • gnd.es:variantNameForThePerson • Angewendet auf: Naxos Music Library, Gallica, RISM, IMSLP
  • 20.
    Namensvarianten 2 • Nutzungeines Normdatenindex für Kandidatensuche • Nutzung einer minimalen HTTP–API für Taxonomieabfragen
  • 21.
    Namensvarianten 3 • Suchealler MARC 100.a Einträge der externen Quelle im Normdatenindex • Für alle Kandidaten–GNDs, überprüfe, ob Beruf unter den Oberbegriff Musikerin (4040841-3) oder Musiker (4170818-0) fällt • Für alle Kandidaten–GNDs, überprüfe, ob Lebensdaten in den Normdaten hinterlegt sind
  • 22.
    Namensvarianten 4 • Naxos- 71815 • RISM - 11241 • IMSLP - 51722 • Gallica - 23754
  • 23.
    Namensvarianten 5 • 54339Name insgesamt • 5051 Namen in Naxos und GND • 719 Namen konnten zugeordnet werden
  • 24.
    Namensvarianten 6 • Naxos– 719 Namen mit hoher Wahrscheinlichkeit korrekt • RISM – 415 • IMSLP – variabel • Gallica – 268 • generelle Frage der Qualitätsprüfung
  • 25.
    Namensvarianten 7 • AlternativeImplementierung – zum Beispiel über eine Abfrage der Normdaten vor der eigentlichen Suche
  • 26.
    Sucheinstiege 1 • APIum die GND–Daten • narrower terms, broader terms, [synonyms] • siehe Namesvarianten (gehört Musikerin zu den Oberbegriffen?) • Anzeige von ähnlichen Begriffen in der Art von Facetten – mit Größenabschätzung (und anderen Metriken)
  • 27.
    Optimierte Datennutzung für Suchanfragen optimierteNutzung der Taxonomie der Schlagwörter Darstellung der semantischer Beziehungen von GND- Einträgen untereinander http://melvil.d-nb.de/swd-search?term=oboenrohr
  • 28.
    Knowledge Graph 1 •Inspiration – Google Knowledge Graph • Indexierung von GND, VIAF und DBPedia • technische Herausforderungen (Dokumentenanzahl, Konvertierung, Kompression)
  • 29.
    Knowledge Graph 2 •Beispiel Goethe • Lebensdaten, Wirkungsort, Einflüsse, Werke, ... • {“birthDate”: “…”, “deathDate”: “…”, “placeOfBirth”: “…”, “placeOfDeath”: “image”, …}
  • 30.
    Querschnittssuchen 1 • Menschengruppieren Dinge auch außerhalb von Facetten • Wikipedia–Kategorien
  • 31.
  • 33.
    Querschnittssuche 2 • Zutaten:GND–Index, Wikipedia–Normdaten– Index, Wikipedia–Category–Index
  • 34.
    Querschnittssuche 3 • {"p":"dnb.es:placeOfBusiness", "s": "gnd:63067-6", "o": "gnd:4005728-8"} • {"ndl": "00575178", "gnd": "4191405-3", "lccn": "sh/85/004443", "title": "Americium", "typ": "s"} • {"category": "Carbonylkomplex", "pages": ["Chromhexacarbonyl", "Metallcarbonyle", “...”]}
  • 35.
    Querschnittssuche 4 • {"p":"dnb.es:placeOfBusiness", "s": "gnd:63067-6", "o": "gnd:4005728-8"} • {"ndl": "00575178", "gnd": "4191405-3", "lccn": "sh/85/004443", "title": "Americium", "typ": "s"} • {"category": "Carbonylkomplex", "pages": ["Chromhexacarbonyl", "Metallcarbonyle", “...”]}
  • 36.
    Querschnittssuche 5 • Beispiel– Kategorie:Romantik_(Musik) • 1225 Seiten unter der Kategorie • 1082 GNDs • Mit diesen GNDs kann man eine Suchabfrage auf einen Katalog absetzen
  • 37.
    Ausblick 1 • verwendeteDaten – GND, VIAF, DBPedia • noch nicht einbezogen: Freebase, Authoritydaten anderer Nationalbibliotheken, datahub.io, ISNI, ... • Ansätze sind nicht unbedingt allgemein anwendbar (z.B. Berufsbezeichnung)
  • 38.
    Ausblick 2 • Index– Elasticsearch* • Workflowmanagement – luigi*, gluish* • Konverter – gomarckit*, nttoldj*, wptoldj* • SQL für TSV: textql* • Unix – awk*, cat*, cut*, grep*, sed*
  • 39.
    Ausblick 3 • *Open source • Linked Data schafft neue Verbindungen
  • 40.
    Normdaten = Potentiale! Voraussetzungenund Perspektiven • Übernahme der VIAF-IDs in die Datensätze der GND • Bereitstellung von IDs in Initiativen zur Datenfreigabe • Konsistentere Nutzung der GND in Bibliotheken • Projekte zur rückwirkenden Anreicherung in Bibliotheken • Nachnutzung der GND / VIAF auch in nichtbibliothekarischen Projekten
  • 41.
    Übernahme der VIAF-IDsin die Datensätze der GND http://viaf.org/viaf/99258155
  • 42.
    Bereitstellung von IDsin Initiativen zur Datenfreigabe https://opac.rism.info/search?id=653004096&db=251&View=rism https://opac.rism.info/id/rismid/653004096?format=marc
  • 43.
    Konsistentere Nutzung der GNDin Bibliotheken Sacherschließungsquote im Buchbestand der HMT: 42,4%
  • 44.
    Nachnutzung der GNDin nicht-bibliothekarischen Projekten http://pdr.bbaw.de/projekt http://in2n.de/
  • 45.
    Danke für IhreAufmerksamkeit! http://blog.finc.info Martin Czygan martin.czygan@uni-leipzig.de Anke Hofmann anke.hofmann@hmt-leipzig.de