Altbestandserschließung Automatische Übernahme von RVK  und SWD über Verbundgrenzen hinweg Prof. Magnus Pfeffer [email_add...
Überblick <ul><li>Ausgangslage
Projekt
Ergebnisse
Bewertung
Ausblick </li></ul>
Ausgangslage Ausgangslage  ->  Projekt  ->  Ergebnisse  ->  Bewertung  ->  Ausblick
Anlass <ul><li>Retroklassifikation Freihandbestand UB Mannheim </li><ul><li>Seit 2001
5 große Bibliotheksbereiche statt 11 kleine Bereichsbibliotheken
RVK als einheitliche Klassifikation
Wunsch nach mehr Fremddaten </li><ul><li>2004: Weniger als 50% der Titel mit RVK </li></ul></ul></ul>Ausgangslage  ->  Pro...
Vorarbeiten <ul><li>Automatische Vergabe von RVK-Notationen </li><ul><li>Projekt seit 2004
Ansatz: Vergabe aufgrund Ähnlichkeit zu bereits klassifizierten Titeln
Ergebnisse </li><ul><li>Verfahren funktioniert grundsätzlich
Hoher Rechenaufwand
Liefert meist mehrere Klassen pro Titel </li><ul><li>Darunter fast immer eine gute Klassifikation
Filtern oder Reduzierung der Klassen trifft auch die „guten“ Ergebnisse </li></ul></ul><li>-> Anteil „Rauschen“ zu groß fü...
Kenngrößen (Stand 2010) <ul><li>SWB </li><ul><li>12.777.191 Monografien
3.979.796 (31,1%) mit SWD-Schlagwörtern
3.235.958 (25,3%) mit RVK-Notationen </li></ul><li>HeBIS </li><ul><li>8.844.188 Monografien
2.237.659 (25,3%) mit SWD-Schlagwörtern
1.933.081 (21,8%) mit RVK-Notationen </li></ul></ul>Ausgangslage  ->  Projekt  ->  Ergebnisse  ->  Bewertung  ->  Ausblick
Mehr Statistik <ul><li>Verteilung der Titel auf Jahre (SWB) </li></ul>Jahr Anzahl SWD RVK sonstige 95.740 9.699 9.746 1000...
Mehr Statistik <ul><li>Verteilung der Titel auf Jahre (Hebis) </li></ul>Jahr Anzahl SWD RVK sonstige 205.651 35.133 5.670 ...
Projekt Ausgangslage   ->  Projekt   ->  Ergebnisse  ->  Bewertung  ->  Ausblick
Aktuelles Projekt <ul><li>Grundidee: Übernahme von SWD und RVK aus </li><ul><li>Vorauflagen
Parallelausgaben
Nächste SlideShare
Wird geladen in …5
×

Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundgrenzen hinweg

1.046 Aufrufe

Veröffentlicht am

Ein kurzer Bericht über den aktuellen Stand des Projekts zur Altbestandserschließung im Südwestverbund und Hebis.
In diesem Projekt werden über einen im Grunde recht einfachen Vergleichsalgorithmus Titel identifiziert, die aus Sicht der Sacherschließung identischen oder sehr ähnlichen Inhalt haben. Die können u.a. andere Auflagen und Ausgaben sein.

Innerhalb einer solchen Gruppe von äquivalenten Titeln werden die nicht erschlossenen Titel mit den Sacherschließungselementen (hier: RVK und SWD-Schlagwörter) der erschlossenen Titel angereichert.

In den Verbundkataloge von Südwestverbund und Hebis können durch die Übernahme der Informationen jeweils mehr als eine Million Titel mit Sacherschließungselementen angereichert werden.

In Stichproben und systematischen Untersuchungen durch Arbeitsgruppen in beiden Verbünde wurde die hohe Qualität der übernommenen Elemente und die Validität des Verfahrens bestätigt. Beide Verbünde spielen aktuell die Daten ein.

Vortrag im Rahmen der Veranstaltung "Gegenwart und Zukunft der Sacherschließung". Die interdisziplinäre Fortbildung für Fachreferentinnen und Fachreferenten wurde veranstaltet von der Kommission für Fachreferatsarbeit mit Unterstützung der Deutschen Nationalbibliothek in Leipzig und fand am 6. und 7. Oktober 2011 statt.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.046
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundgrenzen hinweg

  1. 1. Altbestandserschließung Automatische Übernahme von RVK und SWD über Verbundgrenzen hinweg Prof. Magnus Pfeffer [email_address]
  2. 2. Überblick <ul><li>Ausgangslage
  3. 3. Projekt
  4. 4. Ergebnisse
  5. 5. Bewertung
  6. 6. Ausblick </li></ul>
  7. 7. Ausgangslage Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  8. 8. Anlass <ul><li>Retroklassifikation Freihandbestand UB Mannheim </li><ul><li>Seit 2001
  9. 9. 5 große Bibliotheksbereiche statt 11 kleine Bereichsbibliotheken
  10. 10. RVK als einheitliche Klassifikation
  11. 11. Wunsch nach mehr Fremddaten </li><ul><li>2004: Weniger als 50% der Titel mit RVK </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  12. 12. Vorarbeiten <ul><li>Automatische Vergabe von RVK-Notationen </li><ul><li>Projekt seit 2004
  13. 13. Ansatz: Vergabe aufgrund Ähnlichkeit zu bereits klassifizierten Titeln
  14. 14. Ergebnisse </li><ul><li>Verfahren funktioniert grundsätzlich
  15. 15. Hoher Rechenaufwand
  16. 16. Liefert meist mehrere Klassen pro Titel </li><ul><li>Darunter fast immer eine gute Klassifikation
  17. 17. Filtern oder Reduzierung der Klassen trifft auch die „guten“ Ergebnisse </li></ul></ul><li>-> Anteil „Rauschen“ zu groß für direkte Nutzung </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  18. 18. Kenngrößen (Stand 2010) <ul><li>SWB </li><ul><li>12.777.191 Monografien
  19. 19. 3.979.796 (31,1%) mit SWD-Schlagwörtern
  20. 20. 3.235.958 (25,3%) mit RVK-Notationen </li></ul><li>HeBIS </li><ul><li>8.844.188 Monografien
  21. 21. 2.237.659 (25,3%) mit SWD-Schlagwörtern
  22. 22. 1.933.081 (21,8%) mit RVK-Notationen </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  23. 23. Mehr Statistik <ul><li>Verteilung der Titel auf Jahre (SWB) </li></ul>Jahr Anzahl SWD RVK sonstige 95.740 9.699 9.746 1000-1599 105.473 1.338 767 1600-1699 194.825 8.078 2.044 1700-1799 367.529 21.406 11.532 1800-1899 890.558 58.683 84.977 1900-1949 1.490.137 152.883 248.658 1950-1979 2.954.648 638.932 802.363 1980-1999 4.304.732 1.846.295 1.354.512 2000- 2.373.515 1.242.461 721.358 Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  24. 24. Mehr Statistik <ul><li>Verteilung der Titel auf Jahre (Hebis) </li></ul>Jahr Anzahl SWD RVK sonstige 205.651 35.133 5.670 1000-1599 31.454 534 54 1600-1699 110.596 1.886 332 1700-1799 248.218 4.331 4.800 1800-1899 340.859 26.128 21.605 1900-1949 648.814 54.883 35.351 1950-1979 1.688.942 105.062 306.824 1980-1999 3.260.544 912.868 1.031.428 2000- 2.294.910 1.096.588 526.097 Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  25. 25. Projekt Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  26. 26. Aktuelles Projekt <ul><li>Grundidee: Übernahme von SWD und RVK aus </li><ul><li>Vorauflagen
  27. 27. Parallelausgaben
  28. 28. Übersetzungen </li></ul><li>Vorhanden aus Vorprojekt </li><ul><li>Datenaufbereitung
  29. 29. Programme
  30. 30. Generierte Indexe </li></ul><li>-> „fast gleiche“ Titel suchen </li></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  31. 31. Daten <ul><li>Ausgangsdaten </li><ul><li>Verbunddatenbank Südwestverbund und Hebis
  32. 32. MAB2 Format
  33. 33. ca. 14 GB </li></ul><li>Aufbereitung </li><ul><li>Datenreduktion auf relevante Felder
  34. 34. Expansion von Titelinformation </li><ul><li>Information von Gesamtaufnahme in Stücktitel </li></ul><li>ca. 4,2 GB </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  35. 35. Umsetzung <ul><li>Vergleich auf Basis von </li><ul><li>Einheitssachtitel </li><ul><li>Feld 304_ </li></ul><li>Titel und Untertitel </li><ul><li>Felder 331_, 335_ </li></ul><li>Autoren und Urheber </li><ul><li>Felder 100_, 104a, 108a, 200_, 204a, 208a </li></ul><li>beteiligte Personen und Körperschaften </li><ul><li>Felder 100b, 104b, 108b, 200b, 204b, 208b </li></ul></ul><li>Ansatz: Identischer (Einheitsach-)Titel plus eine Übereinstimmung bei Person/Körperschaft = Match </li></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  36. 36. Umsetzung <ul><li>Algorithmus </li><ul><li>Berechne für alle Titel </li><ul><li>Wenn Feld 304_ vorhanden </li><ul><li>Suche Titel mit identischem Feld 304_
  37. 37. Vergleiche Autoren, Urheber und beteiligte </li><ul><li>MATCH, wenn eine Übereinstimmung vorhanden </li></ul></ul><li>Sonst (nur Feld 331_ und 335_ vorhanden) </li><ul><li>Suche Titel mit identischen Feldern 331_ und 335_
  38. 38. Vergleiche Autoren, Urheber und beteiligte </li><ul><li>MATCH, wenn eine Übereinstimmung vorhanden </li></ul></ul></ul></ul><li>Technische Umsetzung </li><ul><li>Perl unter Linux
  39. 39. Indexstrukturen im Hauptspeicher (>4GB) </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  40. 40. Ergebnisse Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  41. 41. Ergebnisse: SWD <ul><li>5.809.349 Titel mit mindestens einem Match </li><ul><li>Davon </li><ul><li>3.269.340 ohne SWD
  42. 42. 3.627.017 ohne RVK </li></ul><li>Anreicherung durch Übernahme möglich bei </li><ul><li>636.462 mit SWD
  43. 43. 959.419 mit RVK </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  44. 44. Ergebnisse: Hebis <ul><li>4.535.618 Titel mit mindestens einem Match </li><ul><li>Davon </li><ul><li>3.068.968 ohne SWD
  45. 45. 3.071.022 ohne RVK </li></ul><li>Anreicherung durch Übernahme möglich bei </li><ul><li>1.179.133 mit SWD
  46. 46. 992.046 mit RVK </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  47. 47. Verteilung der neuen Daten <ul><li>Exemplarisch am SWB </li></ul>Jahr Anzahl Titel SWD RVK sonstige 205.651 4.027 6.464 1000-1599 31.454 5.162 6.094 1600-1699 110.596 8.253 3.984 1700-1799 248.218 17.020 15.612 1800-1899 340.859 36.135 51.303 1900-1949 648.814 71.309 96.607 1950-1979 1.688.942 161.587 221.072 1980-1999 3.260.544 197.147 328.531 2000- 2.294.910 135.822 229.752 Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  48. 48. Bereitstellung <ul><li>Daten zum Download </li><ul><li>Textformat, bz2-Archiv
  49. 49. Titel-ID und gefundene Matches </li></ul><li>Linked Open Data </li><ul><li>RDF-Tripel der Form ID-equalsForClassification-ID
  50. 50. http://data.bib.uni-mannheim.de </li><ul><li>Mehr dazu morgen früh :-) </li></ul></ul><li>Daten an die Verbundzentralen </li><ul><li>Titel und gefundene SWD-IDs und RVK-Notationen </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  51. 51. Bewertung Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  52. 52. Prüfung <ul><li>Online im Linked-Data Web </li><ul><li>Verbünde erlaubten Titeldarstellung
  53. 53. Matches untereinander verlinkt
  54. 54. Wer: Externe Interessierte </li></ul><li>Testdatenbanken der Verbünde </li><ul><li>Einspielung der gelieferten Daten in Auszügen
  55. 55. Stichproben und Recherchen möglich
  56. 56. Wer: Sacherschließer und interessierte Verbundnutzer </li></ul><li>-> Hohe Qualität der Ergebnisse bestätigt </li></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  57. 57. Mehr Quellen – mehr Daten? <ul><li>Beispiel Schlagwörter im SWB </li><ul><li>451.677 angereicherte Titel bei Daten nur aus SWB
  58. 58. 636.462 bei SWB plus Hebis </li></ul><li>Beispiel RVK UB Mannheim </li><ul><li>Bibliotheksbereich A5, Sozialwissenschaften
  59. 59. 63.300 Titel zu bearbeiten
  60. 60. 44.991 Titel mit RVK-Notationen im SWB
  61. 61. 45.610 Titel mit Übernahme aus SWB und Hebis
  62. 62. 48.454 Titel mit Übernahme aus SWB, Hebis, BVB </li><ul><li>(Nur experimentell; Suchen der Titel über den BVB-Verbundkatalog) </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  63. 63. Mehr Quellen – mehr Daten? <ul><li>Beispiel Schlagwörter im SWB </li><ul><li>451.677 angereicherte Titel bei Daten nur aus SWB
  64. 64. 636.462 bei SWB plus Hebis </li></ul><li>Beispiel RVK UB Mannheim </li><ul><li>Bibliotheksbereich A5, Sozialwissenschaften
  65. 65. 63.300 Titel zu bearbeiten
  66. 66. 44.991 Titel mit RVK-Notationen im SWB
  67. 67. 45.610 Titel mit Übernahme aus SWB und Hebis
  68. 68. 48.454 Titel mit Übernahme aus SWB, Hebis, BVB </li><ul><li>(Nur experimentell; Suchen der Titel über den BVB-Verbundkatalog) </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  69. 69. Ausblick Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  70. 70. Realisierung <ul><li>Hebis </li><ul><li>Daten im Testsystem geprüft
  71. 71. Einspielung ins Produktivsystem geplant/erfolgt </li></ul><li>SWB </li><ul><li>Daten im Testsystem geprüft
  72. 72. Einspielung ins Produktivsystem läuft aktuell </li></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  73. 73. Weitere Arbeiten <ul><li>Verbesserungen Algorithmus </li><ul><li>Übersetzungen erkennen
  74. 74. Personen in unterschiedlicher Ansetzung erkennen
  75. 75. Transitive Hülle bilden </li><ul><li>Wenn A = B und B = C, dann auch A = C
  76. 76. Wichtig, wenn z.B. nur A erschlossen </li></ul></ul><li>Verbesserungen Datenmodell </li><ul><li>Art der Verknüpfung explizit dokumentieren </li><ul><li>Vorauflage
  77. 77. Parallelausgabe
  78. 78. Übersetzung
  79. 79. Verlagswechsel </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  80. 80. Mehr Daten <ul><li>Weitere Verbünde </li><ul><li>Nur Verbundabzug und Erlaubnis zur Weitergabe der Sacherschließungselemente erforderlich </li><ul><li>Ideal: Open Data </li></ul></ul><li>Erweiterung auf andere Erschließungsarten </li><ul><li>Dewey Decimal Classification
  81. 81. LoC Classification
  82. 82. LoC Subject Headings </li><ul><li>British National Bibliography ist als Open Data verfügbar
  83. 83. Erste Abgleichversuche gestartet </li></ul></ul></ul>Ausgangslage -> Projekt -> Ergebnisse -> Bewertung -> Ausblick
  84. 84. Fragen und Diskussion ?

×