Automatisches Generieren von Konkordanzen

927 Aufrufe

Veröffentlicht am

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Veröffentlicht in: Technologie
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
927
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
11
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Automatisches Generieren von Konkordanzen

  1. 1. Automatisches Generieren von Konkordanzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
  2. 2. Überblick Grundidee Optimierung durch Clustering Projekt: Konkordanz RVK ↔ DDC 13. März 2013 5. Kongress Bibliothek und Information
  3. 3. Grundidee13. März 2013 5. Kongress Bibliothek und Information
  4. 4. Instanzbasierter Vergleich Datenbasis: Mehrfach erschlossene Einträge in Katalogen 13. März 2013 5. Kongress Bibliothek und Information
  5. 5. Instanzbasierter Vergleich Annahmen  Inhaltlich überlappende Klassen treten zusammen auf  Häufigkeit des Auftretens ist ein Indiz für die Stärke des Zusammenhangs Aufbereitung  Extraktion aller Paare aus zwei Erschließungssystemen  Aufsummieren der vorkommenden Paare 13. März 2013 5. Kongress Bibliothek und Information
  6. 6. Beispiel 13. März 2013 5. Kongress Bibliothek und Information
  7. 7. Beispiel Titel 1  Paare  DDC: 179.9  179.9 / CC 7200  RVK: CC 7200  179.9 / CC 7250  RVK: CC 7250  179.9 / CC 7200 Titel 2  DDC: 179.9  RVK: CC 7200 13. März 2013 5. Kongress Bibliothek und Information
  8. 8. Instanzbasierter Vergleich Auswertung  am Beispiel zweier Klassifikationen A und B  Zwei Klassen treten ausschließlich als Paar auf  1:1 Zuordnung = exakte Übereinstimmung  Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A  N:1 Zuordnung = Klasse aus A ist engeres Konzept  Klasse aus A tritt mit mehreren Partnern auf  1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept  Aber: Klasse tritt nicht auf  Keine Folgerung möglich 13. März 2013 5. Kongress Bibliothek und Information
  9. 9. Beispiel Auswertung für DDC  2 mal 179.9 / CC 7200  1 mal 179.9 / CC 7250 Ergebnis  179.9 narrowMatch CC 7200  179.9 narrowMatch CC 7250 13. März 2013 5. Kongress Bibliothek und Information
  10. 10. Beispiel Auswertung für RVK  2 mal CC 7200 / 179.9  1 mal CC 7250 / 179.9 Ergebnis  CC 7200 broadMatch 179.9  CC 7250 broadMatch 179.9 13. März 2013 5. Kongress Bibliothek und Information
  11. 11. Optimierung durch Clustering13. März 2013 5. Kongress Bibliothek und Information
  12. 12. Titeldaten sind anders Mehrere Auflagen Mehrere Ausgaben 13. März 2013 5. Kongress Bibliothek und Information
  13. 13. Titeldaten Mehrere Ausgaben und Auflagen verfälschen die Statistik  Paare werden mehrfach erfasst  Keine Vergleichbarkeit der absoluten Häufigkeiten Lösung: Auswertung der Cluster anstelle der einzelnen Titel  Häufigkeiten werden direkt vergleichbar  „Stärke“ der Korrelationen können ermittelt werden  „Ausreißer“ können sicher erkannt und entfernt werden 13. März 2013 5. Kongress Bibliothek und Information
  14. 14. Projekt: Konkordanz RVK ↔ DDC13. März 2013 5. Kongress Bibliothek und Information
  15. 15. Datenbasis Alle deutschen Verbundkataloge  SWB  BVB  GBV  HeBIS  HBZ DNB 13. März 2013 5. Kongress Bibliothek und Information
  16. 16. Umsetzung Metafactory  Aufbereiten von MAB2 und MARC21 Daten  Clustering auf Werksebene  Keygenerierung für Matching-Prozess  Matching und Clusterbildung (transitive Hülle)  Sammeln der Erschließungsinformationen im Cluster  Statistik  Auszählen des gemeinsamen Auftretens von Klassen  Ausgabe  Mappings einzelner Klassen  Beide Richtungen 13. März 2013 5. Kongress Bibliothek und Information
  17. 17. Offene Fragen Enthalten die Titeldaten nach dem Clustering genügend auswertbare Erschließungen? Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen?  Oder ist es besser, jede Klasse gesondert auszuwerten? Wie kann eine effiziente Qualitätssicherung betrieben werden? 13. März 2013 5. Kongress Bibliothek und Information
  18. 18. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.13. März 2013 5. Kongress Bibliothek und Information

×