Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Dynamische Kataloganreicherung auf Basis von Linked Open Data

1.005 Aufrufe

Veröffentlicht am

Vortrag auf dem 101. Deutschen Bibliothekartag, Hamburg, 24.05.2012
Heiko Jansen, Pascal Christoph
Hochschulbibliothekszentrum des Landes NRW

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Dynamische Kataloganreicherung auf Basis von Linked Open Data

  1. 1. Heiko Jansen / Pascal ChristophDYNAMISCHEKATALOGANREICHERUNGAUF BASIS VON LINKED OPENDATA101. Deutscher BibliothekartagHamburg, 24.05.2012
  2. 2. Dieser Vortrag - inklusive der durch die Autoren erstellten Grafikenauf den Folien 17, 18 und 22 - steht unter einerCreative Commons Namensnennung 3.0 Deutschland Lizenzhttp://creativecommons.org/licenses/by/3.0/de/Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilderund Screenshots, deren individuelle Rechte und Lizenzbedingungenfortgelten.
  3. 3. ÜBERSICHT3  Definition  Methoden  Projekt-Praxis  Technik  Matching  Verlinkung  Mögliche Weiterentwicklung  Fazit & Anwendungsbeispiel Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  4. 4. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…KATALOGANREICHERUNG?
  5. 5. DEFINITION5  Jegliche Ergänzung vorhandener Datensätze um zusätzliche Informationen  Links zum Volltext  Schlagwörter  Umschlagbilder  ...  Herkunft egal (Benutzer, Bibliotheken, Firmen...)  Neue Funktionen: nur mittelbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  6. 6. „INSTANT GRATIFICATION“ Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…
  7. 7. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.http://www.istockphoto.com/license.php) zunächst entfernt, bis wirKlarheit über die Nutzungsbedingungen haben…
  8. 8. TYPISCHE8 ANREICHERUNGSMETHODEN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012 http://findicons.com/pack/1014/ivista
  9. 9. VOR- UND NACHTEILE9 Dynamisches Mashup: Lokale DB: + Aktuell + Aufwendigere Zusammenführungen möglich + Relativ geringer Aufwand je Quelle + Daten nutzbar für Recherche und weitere Funktionen − Benötigt (performante) API − Keine Recherche über die − Hoher kontinuierlicher Aufwand für jede Quelle Daten Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  10. 10. GRUNDIDEE DES PROJEKTS10  Aggregation von LOD aus verteilten Quellen  Daten für beide Wege verfügbar machen  Lokalen Aufwand minimieren  Homogenisierte Daten zum Import  Eine API für viele Bestände Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  11. 11. INFRASTRUKTUR11 RDF-basierte Speicherung mit SPARQL Endpoint  Einfaches Hinzufügen neuer Daten  Nachnutzbar  „Selbst-beschreibender“ Dump  „API“ inbegriffen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  12. 12. 12 Praxis
  13. 13. AUSGANGSLAGE – LOBID.ORG13  RDF Store mit SPARQL Endpoint: 4store  Open Data aus dem Verbundkatalog „hbz01“  10 M Titeldatensätze <=> 300 M Triple  Bereits bestehende Verknüpfungen des Katalogs:  58.000 zu b3kat  103.000 zur Dewey DC  192.000 zu DNB Titeldaten  702.886 zur ZDB  5.500.000 zur LOC Iso-639-2  9.600.000 zur GND Normdatei  18.000.000 zu lobid-organisation Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  14. 14. VERLINKUNGSSOFTWARE14  Silk  Culturegraph  Google Refine  TEL: „Unified Ingestion Manager“ (Service)  ...  eigene einfache Programme Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  15. 15. MATCHINGALGORITHMEN15  Abhängig von Daten  Spannende Daten liegen „woanders“ => andere Regelwerke  Beispiel DBpedia:  Autor, ISBN usw. fehlt meistens => bleibt Titel  Eingrenzungen:  deutsche DBpedia  category:Literarisches_Werk , category:Lexikon,_Enzyklopädie Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  16. 16. PROBLEME: DISAMBIGUIERUNG16  Matching zu ungenau  Postprozessierung: nur Bündel mit gleichem Autor zulassen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  17. 17. BÜNDEL MIT GLEICHEM AUTOR17 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  18. 18. BÜNDEL MIT VERSCHIEDENEN18 AUTOREN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  19. 19. LOW-HANGINGKai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  20. 20. TRIPLIFIZIERUNG20  Properties finden oder selber prägen  rdrel:workManifested  => Triple: < lo b id -re so u rce > rdrel:workManifested < d b p e d ia-re so u rce > Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  21. 21. INDEXIERUNG21  Lizenzfragen klären  Triples importieren in SPARQL-Endpoint  Eigener „named Graph“ bietet Vorteile:  Leicht löschbar/veränderbar  Provenienz verfolgbar  Eingrenzung von Abfragen auf Named Graphs Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  22. 22. NAMED GRAPHS
  23. 23. WAS WURDE ERREICHT?23  12.000 „sichere“ Links zu 4.000 DBpedia Ressourcen => 4000 neue „Work“-Ebenen (von 33.000 möglichen)  Durchschnittliche Bündelgröße: 3  Links nach freebase: 3.000  1 Link zur linkedmdb  0,1 % Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  24. 24. WAS WURDE ERREICHT?24  5.500 Links zu 400 Project Gutenberg Ressourcen (Volltexte) => 0,05% Anreicherung  1.200.000 Links zur Work-Ebene der Open Library => 12,5% Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  25. 25. LOW-HANGINGKai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  26. 26. BEISPIELDBpedia:„Die Heilige Johanna der Schlachthöfe“
  27. 27. BEISPIEL31 Open Library „Der Herr der Ringe“ Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  28. 28. INTEGRATION IN KATALOGE35  Was darf übernommen werden, was nicht?  Was sollte übernommen werden, was nicht?  Menschen-lesbare Anzeige der Links/URIs  (Manche) Daten sollten lokal indexiert werden (zur Recherche)  ... Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  29. 29. WARUM LINKED OPEN DATA ?36  Richtig ist: „Warum nicht LOD?“  Gute Tools wie SILK basieren auf SPAQRL  Linked Data impliziert kontrolliertes Vokabular, Identifier, weitere Links … <= ideal!  Linked Open Data: Daten lassen sich nachnutzen/zwischenspeichern/verändern … <= ideal! Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  30. 30. HINTERGRUND37  Prefix-Auflösung: http://prefix.cc/rdrel  Blog Beitrag mit SILK Konfigurationsbeispiel https://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia  49 bibliographische Datenquellen als LOD http://thedatahub.org/group/bibliographic?tags=lod Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  31. 31. 38 Weiterentwicklung
  32. 32. 39 Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/
  33. 33. POTENTIALE40  Mehr Datenquellen  Vokabular-Mapping  Mehr Verknüpfungen (FRBR-Werke oder coref oder ...) Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  34. 34. AUSBAUSTUFEN / A41  Sammlung von Informationen zu nicht im NRW-VK nachgewiesenen Titeln => Dienstleistung für Dritte  (Stabile) API  Abstraktionsebene für Datenhaltung und Suche  Einfacher für Anwender Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  35. 35. AUSBAUSTUFEN / B42 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  36. 36. AUSBAUSTUFEN / C43  Sammelstelle für kollaborativen Content, z. B. Tagging?  Upload von Identifier/Tag Informationen aus verteilten Systemen  „Kritische Masse“ gemeinsam erreichbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  37. 37. 44 Fazit
  38. 38. 45 The Library of Congress, http://www.flickr.com/photos/library_of_congress/4037490394/
  39. 39. http://app.cheezburger.com/TemplateView.aspx?ciid=1131803
  40. 40. 50 Vielen Dank! Rückfragen jederzeit: jansen@hbz-nrw.de christoph@hbz-nrw.de +49 221 400 75 – 150 +49 221 400 75 – 139

×