Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering

Hochschule der Medien

Anreichern, abgleichen,
verknüpfen
Anwendungsideen
für das Werk-Clustering
Heidrun Wiesenmüller

(Beitrag im Workshop „Anwendung von
Clustering-Verfahren zur Verbesserung und
Analyse von Katalogdaten“)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 1


Agenda

1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering



Agenda



Individualisierung von Personen
• in angloamerikanischer Welt schon immer üblich
Lebensdaten sind sogar Teil der Ansetzungsform
• von RAK ursprünglich nicht vorgesehen
in deutschsprachigem Raum erst seit einigen Jahren
praktiziert
• erheblicher Aufwand für die Erschließung
Differenzieren von Autoren, Erfassen zusätzlicher
Informationen, Bearbeiten von Altdaten (z.B. Auflösen
von „Sammeltöpfen“)


Beispiel für Individualisierung
dreimal „Heiner Müller“


Probleme bei Individualisierung
• Altdaten
bisher nur zum Teil aufgearbeitet
• Informationen nicht ausreichend bzw. gesichert
Individualisierung z.T. anhand der vorliegenden Angaben
nicht möglich, Zuordnen zu vorhandenen Datensätzen oft
schwierig, keine Zeit für zusätzliche Recherchen
• Verzicht auf Individualisierung
aus unterschiedlichen Gründen (z.B. keine Zeit,

mangelnde Erfahrung mit GND bei kleinen Bibliotheken)
• ohne manuelle Bearbeitung eingespielte Fremddaten
z.B. E-Book-Pakete, Daten für Nationallizenzen
(oft ganz ohne Verknüpfung zu Personensätzen)
bisher noch sehr unvollkommen umgesetzt


Chance für Werk-Clustering
• Verfasser auf Werk-Ebene angesiedelt
auch bei Herausgebern von Aufsatzbänden u.ä. möglich
• ein einziger Datensatz aus dem Cluster genügt
wenn in irgendeinem Verbund eine Ausgabe mit einem
individualisierten Satz verknüpft ist, kann dies für alle
anderen Mitglieder im Cluster übernommen werden
• kann auch zum Auffinden von Fehlern dienen
z.B. könnte nach Fällen gesucht werden, in denen zwei

Mitglieder desselben Clusters mit unterschiedlichen
individualisierten Personensätzen verknüpft sind
• Einbezug angloamerikanischer Daten
könnte die Ergebnisse weiter verbessern


SWB

GBV

• SWB: nicht individualisiert
• GBV: individualisiert
(ebenso DNB und HBZ)

GND-Satz

GBV

SWB

• SWB: individualisiert
• GBV: nicht indiv. (so
auch HBZ und OBV)


SWB

• SWB: nur Online-Ausgabe, dort nicht individualisiert
(so auch im GBV und OBV)
• Daten von E-Book-Paketen
werden häufig eingekauft und ohne intellektuelle Nach-
bearbeitung eingespielt


HBZ
• HBZ: nur Druck-Ausgabe,
dort Tp-Satz

• HBZ:
nur Druck-Ausg.,
dort individualisiert


GBV

im selben Verbund:
E-Book-Ausgabe ohne
Individualisierung,
Druckausgabe mit!


GBV

Variante:
E-Book-Ausgabe steht
nicht unter Ansetzungs-
form, sondern unter
einer Verweisungsform
(im Tp-Satz enthalten)



SWB:
Titel dieser Person sind
auf nicht weniger als
drei Normsätze verteilt



SWB:
Beispiel für einen „Sammeltopf“ (Tn-
Satz für einen gängigen Namen), mit
dem über 600 Titel verknüpft sind

• bisher manuelle Bearbeitung
sehr aufwendig, im laufenden Betrieb kaum zu leisten
• Clustering könnte helfen
könnte künftig ein weitgehend automatisches
„Auseinandernehmen“ solcher Sammeltöpfe ermöglichen


Ausschnitt aus Trefferliste
zum „Sammeltopf“

bei DNB individualisiert:
Kunsthistoriker, geb. 1936

Historiker, geb. 1956

Theologe, geb. 1950


SWB

HBZ

dasselbe Werk:
einmal verknüpft mit Kunsthistoriker, geb. 1947, einmal
verknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB).
Hier kann etwas nicht stimmen!

Heidrun Wiesenmüller Wikipedia

Recherche ergibt:
beide Zuordnungen sind falsch, der Richtige ist
ein Dritter (für den es ebenfalls Datensatz gibt)

SWB

Zwei Ausgaben von Middlemarch:
E-Book-Ausgabe aus Nationallizenz-Daten,
dort ist nur der Name als Text eingetragen

SWB

LoC
Alleinbesitz im SWB:
individualisierende Informationen könnten aus
angloamerikanischen Daten übernommen werden


Kataloge
Individualisierungsinfos bisher kaum genutzt:
• in manchen Katalogen zumindest Anzeige beim Titel
z.B. über Klick auf spezielles Icon
• in Trefferlisten i.d.R. bisher nicht genutzt
Titel aller gleichnamigen Autoren zusammengeworfen
(Ausnahme: Freiburger Katalog plus)
• Suche vom Titel aus: unterschiedlich realisiert
entweder nur Anzeige der mit dieser Person verknüpften

Titel (Problem: ergibt evtl. nur Teil der relevanten Titel)
oder Recherche nach Titeln aller gleichnamigen Personen

bei besserer Qualität der Daten wären auch
verbesserte Katalog-Funktionen möglich


Beispiel für Individualisierung
dreimal „Heiner Müller“


Suche nach Heiner Müller: Personen werden
in der Trefferliste „zusammengeworfen“

der Verfasser von
Unterrichtsmaterialien

der Schriftsteller

SWB


reales Beispiel:
http://www.viaf.org

Lösungsweg 1:
Vorschläge bei
der Eingabe

Müller, Heiner
1925-1995 / Schriftsteller
Müller, Heiner
1970- / Arzt
Müller, Heiner
1982- / Publizist von Unterrichts-
materialien für die Schule
Müller, Heiner
weitere Personen dieses Namens
Müller, Heinrich
fiktiv (Designstudie), 1873-1956 / Lehrer
Müller, Heinrich
Basis: HEIDI-Katalog 1845-1910 / Apotheker
der UB Heidelberg

Lösungsweg 2: Drill-down

Treffer einschränken auf:

Müller, Heiner
1925-1995 / Schriftsteller
Müller, Heiner
1970- / Arzt
Müller, Heiner
1982- / Publizist von
Unterrichtsmaterialien
für die Schule
Müller, Heiner
weitere Personen
dieses Namens

fiktiv (Designstudie), Basis: SWB


umgesetzt im Katalog
plus der UB Freiburg



Agenda



Angloamerikanische Tradition
Stärkere Differenzierung bei Normdaten, z.B.:
• Pseudonyme
schreibt jemand teils unter einem Pseudonym, teils unter
seinem wirklichen Namen (oder unter mehreren Pseudo-
nymen), so werden unterschiedliche „bibliographische
Identitäten“ angenommen
• Person in offizieller Funktion
Unterscheidung zwischen einer Person als Amtsträger
und derselben Person als „Privatmann/-frau“

Aufspaltung in mehrere Normdatensätze
mit Siehe-auch-Verweisung (5XX)
dagegen bei uns jeweils nur ein Normsatz



Normdatensatz 1 (Personensatz, stark gekürzt):

100 1# |a Hobb, Robin
500 1# |a Lindholm, Megan

• Autorin veröffentlicht teils unter dem Pseudonym „Robin
Hobb“, teils unter „Megan Lindholm“




100 1# |a Lindholm, Megan
500 1# |a Hobb, Robin



Beispiel für Titel
am Normsatz 1

Beispiel für Titel
am Normsatz 2


GND

GND: nur ein Datensatz, der für alle Titel verwendet
wird; Pseudonym ist eine normale Verweisung (400)


Beispiel für einen Titel
am Normsatz 1


Hochschule der Medien Beispiel für einen Titel
am Normsatz 2


RDA-Umstieg
• Wenn entschieden wird, RDA voll zu implementieren
Aufspaltung der betroffenen Normsätze sowie neue
Zuordnung nötig
• Clustering könnte Zuordnungsprozess unterstützen
alle Ausgaben eines Werkes sollten am selben Normsatz
hängen
• Einbezug angloamerikanischer Daten ins Clustering
könnte bei korrekter Zuordnung helfen



Agenda



Clustering von Ausgaben
• bisher nur als Funktion von Recherchesystemen
nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt

Primo Mannheim

funktioniert jeweils nur in bestimmten System

Datentechnische Verknüpfung
bisher nur in wenigen Fällen praktiziert:
• Verknüpfung von Ausgaben nur in besonderen Fällen
z.B. parallele Druck- und Online-Ausgabe


Werknormsätze
• in Formalerschließung bisher nur für Musik-Werke
werden manuell erstellt und verknüpft

nicht nur Text, sondern
echte Verknüpfung


Hochschule der Medien zugehöriger Normsatz
für das Werk in der GND


RDA
• basiert auf FRBR
Abbildung der Primärbeziehungen zwischen einem Werk,
seinen Expressionen, Manifestationen und Exemplaren ist
grundsätzlich angestrebt
• wichtig ist insbesondere die Beziehung zum Werk
das „manifestierte Werk“ ist ein Kern-Element
(d.h. muss stets erfasst werden)
• RDA erlaubt zwar ein Weitermachen wie bisher
in der sog. „composite description“ kann die Beschreibung

der Manifestation mit Informationen der Werk- und
Expressionsebene kombiniert werden
• aber: wünschenswert wären Werk-Verknüpfungen
jedoch: manuelle Erstellung und Verknüpfung wäre zu
aufwendig, nötig ist maschinelle Lösung

Automatische Werkverknüpfung
Grundidee für den Ablauf:
1. Erstellen von Werkclustern
gemäß Pfeffer-Algorithmus (evtl. noch optimiert)
2. Extrahieren werkrelevanter Informationen
jeweils aus dem Gesamtcluster
3. maschinelles Erzeugen eines Werknormsatzes
gemäß festgelegter Ableitungsregeln (z.B. könnte das
Jahr der frühesten Manifestation im Cluster als Jahr des

Werkes behandelt werden)
4. maschinelles Eintragen der Identnummer des Werks
bei allen Titelsätzen, die zum Cluster gehören


1100 1972
1500 ger

2000 3-7940-2607-1
3000 !PPN!Hacker, Rupert*1935-*
4000 Bibliothekarisches Grundwissen$hRupert Hacker
4030 München-Pullach [u.a.]$nVerl. Dokumentation
4060 368 S. Beispiel 1:
1100 2008 zwei Mitglieder desselben
1500 ger Clusters (SWB, gekürzt)
2000 978-3-598-11771-8
3000 !PPN!Gantert, Klaus*1968-*

4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
Rupert Hacker
4020 8., vollst. neu bearb. und erw. Aufl.
4030 München$nSaur
4060 414 S.

aus dem Cluster erzeugter Werknormsatz

005 Tu7 neuer Code „7“: maschinell
006 http://d-nb.info/gnd/xyz erstellt aus Clustering
008 wit
011 f
neues Nutzungskennzeichen „q“:
012 q
für maschinelle Verknüpfungen
035 gnd/xyz
130 Bibliothekarisches Grundwissen
377 ger
500 !PPN!Hacker, Rupert*1935-* $4aut1

500 !PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj



005 Tu7
006 http://d-nb.info/gnd/xyz
Werktitel: Sachtitel der
008 wit
frühesten Manifestation
011 f
012 q
035 gnd/xyz
377 ger
500 mutmaßliche Sprache des Werks
!PPN!Hacker, Rupert*1935-* $4aut1

500 (nur deutsche Manifestationen)
!PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj

Jahr der frühesten Manifestation
als mutmaßliches Jahr des Werks



005 Tu7
008 wit
011 f erster Verfasser der
012 q frühesten Manifestation
035 gnd/xyz
377 ger
500 !PPN!Hacker, Rupert*1935-* $4aut1

500 !PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj
weiterer Verfasser (aus
späterer Manifestation)


alle Mitglieder des Clusters werden
mit Werknormsatz verknüpft
1100 2008
1500 ger
2000 978-3-598-11771-8
3000 !PPN!Gantert, Klaus*1968-*
3012 !PPN!Bibliothekarisches Grundwissen / Hacker,
Rupert*1935-*
4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
Rupert Hacker

4020 8., vollst. neu bearb. und erw. Aufl. zum Werk-
Verknüpfung
4030 München$nSaur normsatz über Identnummer
4060 414 S.


1100 2012
1500 eng

2000 978-1-4087-0420-2
3000 !PPN!Rowling, Joanne K.*1965-*
4000 The @casual vacancy$hJ. K. Rowling
4030 London$nLittle, Brown
4060 503 S. Beispiel 2:
1100 2012 zwei Mitglieder desselben
1500 ger$ceng Clusters (SWB, gekürzt)
2000 978-3-551-58888-3

3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
3211 The @casual vacancy <dt.>
4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.
Rowling. Aus dem Engl. von Susanne Aeckerle ...
4030 Hamburg$nCarlsen
4060 574 S.


005 Tu7
008 wit Werktitel: Einheitssachtitel
011 f
012 q
035 gnd/xyz
130 The @casual vacancy
377 eng
430 Ein @plötzlicher Todesfall$vger

500 !PPN!Rowling, Joanne K.*1965-* $4aut1
548 $c2012$4datj
Sachtitel einer Manifestation, der
nicht mit Werktitel übereinstimmt
(mit Sprachcode)


alle Mitglieder des Clusters werden
mit Werknormsatz verknüpft
1100 2012
1500 ger$ceng
2000 978-3-551-58888-3
3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
3211 The @casual vacancy <dt.>
3212 !PPN!The @casual vacancy / Rowling,
Joanne K.*1965-*
4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.

Rowling. Aus dem Engl. von Susanne Aeckerle ...
4030 Hamburg$nCarlsen Verknüpfung zum Werk-
4060 574 S. normsatz über Identnummer


offene Fragen
• intellektuell erstellter Werknormsatz vorhanden
(z.B. aus Sacherschließung), Feststellen durch Abgleich
der maschinell erstellten Werknormätze mit GND;
Merging oder Verknüpfung der beiden Normsätze?
• Werke mit nur einer Manifestation (Einer-Cluster)
sollte auch in diesen Fällen ein Werknormsatz angelegt
werden?
• technische Umsetzbarkeit

lässt sich das geschilderte Szenario unter den derzeitigen
technischen Rahmenbedingungen (mehreren Verbund-
kataloge) umsetzen?



Agenda



Optimierungsmöglichkeiten
• bisher sehr scharfes Clustern
z.B. exakte Übereinstimmung von Sachtitel und Zusätzen
notwendig

vermeidet Fehl-Zusammenführungen
umgekehrt: nicht alles wird zusammengeführt

Verbesserungsansätze:
• Einbezug von Verweisungsformen

z.B. Person einmal „Hills, John“, einmal „Hills, John R.“
• Auswertung von Fußnoten
insbes. bei Titeländerungen
• keine 100%-ige Übereinstimmung bei Zusätzen
diese ändern sich vergleichsweise oft


Hochschule der Medien Fußnote bei Titeländerung
als Text oder mit Verknüpfung


Hochschule der Medien Unterschiede bei Zusätzen
Zusatz fehlt in manchen Ausgaben

SWB


Unterschiede bei Zusätzen
vier deutsche Ausgaben, drei Varianten

SWB


Unterschiede bei Zusätzen
drei Ausgaben, drei Varianten
(z.T. auch erfassungsbedingt)

SWB

Verfeinerung des Algorithmus sinnvoll
evtl. mit intellektueller Überprüfung, wenn
das System sich nicht sicher ist



Vielen Dank für
Ihre Aufmerksamkeit!

Kontakt: wiesenmueller@hdm-stuttgart.de


Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering

Weitere ähnliche Inhalte

Andere mochten auch

Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering