Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Automatisches Generieren von       Konkordanzen        Prof. Magnus Pfeffer   Hochschule der Medien, Stuttgart    pfeffer@...
Überblick   Grundidee   Optimierung durch Clustering   Projekt: Konkordanz RVK ↔ DDC 13. März 2013      5. Kongress Bib...
Grundidee13. März 2013   5. Kongress Bibliothek und Information
Instanzbasierter Vergleich    Datenbasis:     Mehrfach erschlossene Einträge in Katalogen    13. März 2013    5. Kongress...
Instanzbasierter Vergleich    Annahmen         Inhaltlich überlappende Klassen treten zusammen auf         Häufigkeit d...
Beispiel 13. März 2013   5. Kongress Bibliothek und Information
Beispiel    Titel 1                                     Paare         DDC: 179.9                                   179...
Instanzbasierter Vergleich    Auswertung         am Beispiel zweier Klassifikationen A und B         Zwei Klassen trete...
Beispiel    Auswertung für DDC         2 mal 179.9 / CC 7200         1 mal 179.9 / CC 7250    Ergebnis         179.9 ...
Beispiel    Auswertung für RVK         2 mal CC 7200 / 179.9         1 mal CC 7250 / 179.9    Ergebnis         CC 720...
Optimierung durch Clustering13. März 2013        5. Kongress Bibliothek und Information
Titeldaten sind anders    Mehrere Auflagen    Mehrere Ausgaben    13. März 2013   5. Kongress Bibliothek und Information
Titeldaten    Mehrere Ausgaben und Auflagen verfälschen die     Statistik         Paare werden mehrfach erfasst        ...
Projekt:                Konkordanz RVK ↔ DDC13. März 2013      5. Kongress Bibliothek und Information
Datenbasis    Alle deutschen Verbundkataloge         SWB         BVB         GBV         HeBIS         HBZ    DNB  ...
Umsetzung    Metafactory         Aufbereiten von MAB2 und MARC21 Daten         Clustering auf Werksebene              ...
Offene Fragen    Enthalten die Titeldaten nach dem Clustering     genügend auswertbare Erschließungen?    Macht es Sinn,...
Danke für Ihre Aufmerksamkeit!                               Folien online unter                    http://www.slideshare....
Nächste SlideShare
Wird geladen in …5
×

Automatisches Generieren von Konkordanzen

1.088 Aufrufe

Veröffentlicht am

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

Automatisches Generieren von Konkordanzen

  1. 1. Automatisches Generieren von Konkordanzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
  2. 2. Überblick Grundidee Optimierung durch Clustering Projekt: Konkordanz RVK ↔ DDC 13. März 2013 5. Kongress Bibliothek und Information
  3. 3. Grundidee13. März 2013 5. Kongress Bibliothek und Information
  4. 4. Instanzbasierter Vergleich Datenbasis: Mehrfach erschlossene Einträge in Katalogen 13. März 2013 5. Kongress Bibliothek und Information
  5. 5. Instanzbasierter Vergleich Annahmen  Inhaltlich überlappende Klassen treten zusammen auf  Häufigkeit des Auftretens ist ein Indiz für die Stärke des Zusammenhangs Aufbereitung  Extraktion aller Paare aus zwei Erschließungssystemen  Aufsummieren der vorkommenden Paare 13. März 2013 5. Kongress Bibliothek und Information
  6. 6. Beispiel 13. März 2013 5. Kongress Bibliothek und Information
  7. 7. Beispiel Titel 1  Paare  DDC: 179.9  179.9 / CC 7200  RVK: CC 7200  179.9 / CC 7250  RVK: CC 7250  179.9 / CC 7200 Titel 2  DDC: 179.9  RVK: CC 7200 13. März 2013 5. Kongress Bibliothek und Information
  8. 8. Instanzbasierter Vergleich Auswertung  am Beispiel zweier Klassifikationen A und B  Zwei Klassen treten ausschließlich als Paar auf  1:1 Zuordnung = exakte Übereinstimmung  Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A  N:1 Zuordnung = Klasse aus A ist engeres Konzept  Klasse aus A tritt mit mehreren Partnern auf  1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept  Aber: Klasse tritt nicht auf  Keine Folgerung möglich 13. März 2013 5. Kongress Bibliothek und Information
  9. 9. Beispiel Auswertung für DDC  2 mal 179.9 / CC 7200  1 mal 179.9 / CC 7250 Ergebnis  179.9 narrowMatch CC 7200  179.9 narrowMatch CC 7250 13. März 2013 5. Kongress Bibliothek und Information
  10. 10. Beispiel Auswertung für RVK  2 mal CC 7200 / 179.9  1 mal CC 7250 / 179.9 Ergebnis  CC 7200 broadMatch 179.9  CC 7250 broadMatch 179.9 13. März 2013 5. Kongress Bibliothek und Information
  11. 11. Optimierung durch Clustering13. März 2013 5. Kongress Bibliothek und Information
  12. 12. Titeldaten sind anders Mehrere Auflagen Mehrere Ausgaben 13. März 2013 5. Kongress Bibliothek und Information
  13. 13. Titeldaten Mehrere Ausgaben und Auflagen verfälschen die Statistik  Paare werden mehrfach erfasst  Keine Vergleichbarkeit der absoluten Häufigkeiten Lösung: Auswertung der Cluster anstelle der einzelnen Titel  Häufigkeiten werden direkt vergleichbar  „Stärke“ der Korrelationen können ermittelt werden  „Ausreißer“ können sicher erkannt und entfernt werden 13. März 2013 5. Kongress Bibliothek und Information
  14. 14. Projekt: Konkordanz RVK ↔ DDC13. März 2013 5. Kongress Bibliothek und Information
  15. 15. Datenbasis Alle deutschen Verbundkataloge  SWB  BVB  GBV  HeBIS  HBZ DNB 13. März 2013 5. Kongress Bibliothek und Information
  16. 16. Umsetzung Metafactory  Aufbereiten von MAB2 und MARC21 Daten  Clustering auf Werksebene  Keygenerierung für Matching-Prozess  Matching und Clusterbildung (transitive Hülle)  Sammeln der Erschließungsinformationen im Cluster  Statistik  Auszählen des gemeinsamen Auftretens von Klassen  Ausgabe  Mappings einzelner Klassen  Beide Richtungen 13. März 2013 5. Kongress Bibliothek und Information
  17. 17. Offene Fragen Enthalten die Titeldaten nach dem Clustering genügend auswertbare Erschließungen? Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen?  Oder ist es besser, jede Klasse gesondert auszuwerten? Wie kann eine effiziente Qualitätssicherung betrieben werden? 13. März 2013 5. Kongress Bibliothek und Information
  18. 18. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.13. März 2013 5. Kongress Bibliothek und Information

×