SlideShare ist ein Scribd-Unternehmen logo
1 von 50
Heiko Jansen / Pascal Christoph




DYNAMISCHE
KATALOGANREICHERUNG
AUF BASIS VON LINKED OPEN
DATA
101. Deutscher Bibliothekartag
Hamburg, 24.05.2012
Dieser Vortrag - inklusive der durch die Autoren erstellten Grafiken
auf den Folien 17, 18 und 22 - steht unter einer
Creative Commons Namensnennung 3.0 Deutschland Lizenz
http://creativecommons.org/licenses/by/3.0/de/


Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilder
und Screenshots, deren individuelle Rechte und Lizenzbedingungen
fortgelten.
ÜBERSICHT
3



       Definition
       Methoden
       Projekt-Praxis
            Technik
            Matching
            Verlinkung
       Mögliche Weiterentwicklung
       Fazit & Anwendungsbeispiel
    Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
  http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
  Klarheit über die Nutzungsbedingungen haben…




KATALOGANREICHERUNG?
DEFINITION
5



       Jegliche Ergänzung vorhandener Datensätze
        um zusätzliche Informationen
            Links zum Volltext
            Schlagwörter
            Umschlagbilder
            ...
       Herkunft egal (Benutzer, Bibliotheken,
        Firmen...)
       Neue Funktionen: nur mittelbar
    Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
„INSTANT GRATIFICATION“




   Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
   http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
   Klarheit über die Nutzungsbedingungen haben…
Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
Klarheit über die Nutzungsbedingungen haben…
TYPISCHE
8
     ANREICHERUNGSMETHODEN




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
    http://findicons.com/pack/1014/ivista
VOR- UND NACHTEILE
9


    Dynamisches Mashup:                                Lokale DB:
    +   Aktuell                                        +   Aufwendigere
                                                           Zusammenführungen möglich
    +   Relativ geringer Aufwand je
        Quelle                                         +   Daten nutzbar für Recherche
                                                           und weitere Funktionen
    −   Benötigt (performante) API
    −   Keine Recherche über die
                                                       −   Hoher kontinuierlicher
                                                           Aufwand für jede Quelle
        Daten




    Jansen / Christoph - Kataloganreicherung mit LOD                      24.05.2012
GRUNDIDEE DES PROJEKTS
10



        Aggregation von LOD aus verteilten Quellen
        Daten für beide Wege verfügbar machen
        Lokalen Aufwand minimieren
             Homogenisierte Daten zum Import
             Eine API für viele Bestände




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
INFRASTRUKTUR
11



     RDF-basierte Speicherung mit SPARQL Endpoint
        Einfaches Hinzufügen neuer Daten
        Nachnutzbar
        „Selbst-beschreibender“ Dump
        „API“ inbegriffen




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
12   Praxis
AUSGANGSLAGE – LOBID.ORG
13


        RDF Store mit SPARQL Endpoint: 4store
        Open Data aus dem Verbundkatalog „hbz01“
        10 M Titeldatensätze <=> 300 M Triple
        Bereits bestehende Verknüpfungen des Katalogs:
             58.000 zu b3kat
             103.000 zur Dewey DC
             192.000 zu DNB Titeldaten
             702.886 zur ZDB
             5.500.000 zur LOC Iso-639-2
             9.600.000 zur GND Normdatei
             18.000.000 zu lobid-organisation

     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
VERLINKUNGSSOFTWARE
14



        Silk
        Culturegraph
        Google Refine
        TEL: „Unified Ingestion Manager“ (Service)
        ...
        eigene einfache Programme


     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
MATCHINGALGORITHMEN
15



        Abhängig von Daten
             Spannende Daten liegen „woanders“
              => andere Regelwerke
        Beispiel DBpedia:
             Autor, ISBN usw. fehlt meistens => bleibt Titel
             Eingrenzungen:
                deutsche DBpedia
                category:Literarisches_Werk ,
                 category:Lexikon,_Enzyklopädie

     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
PROBLEME: DISAMBIGUIERUNG
16



        Matching zu ungenau
        Postprozessierung:
         nur Bündel mit gleichem Autor zulassen




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
BÜNDEL MIT GLEICHEM AUTOR
17




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
BÜNDEL MIT VERSCHIEDENEN
18
     AUTOREN




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
LOW-HANGING
Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
TRIPLIFIZIERUNG
20



        Properties finden oder selber prägen
             rdrel:workManifested
             => Triple:
              < lo b id -re so u rce > rdrel:workManifested < d b p e d ia-re so u rce >




     Jansen / Christoph - Kataloganreicherung mit LOD                                      24.05.2012
INDEXIERUNG
21



        Lizenzfragen klären
        Triples importieren in SPARQL-Endpoint
        Eigener „named Graph“ bietet Vorteile:
             Leicht löschbar/veränderbar
             Provenienz verfolgbar
             Eingrenzung von Abfragen auf Named Graphs




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
NAMED GRAPHS
WAS WURDE ERREICHT?
23



        12.000 „sichere“ Links zu 4.000 DBpedia
         Ressourcen => 4000 neue „Work“-Ebenen (von
         33.000 möglichen)
        Durchschnittliche Bündelgröße: 3
        Links nach freebase: 3.000
        1 Link zur linkedmdb
        0,1 % Anreicherung


     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
WAS WURDE ERREICHT?
24



        5.500 Links zu 400 Project Gutenberg
         Ressourcen (Volltexte)
         => 0,05% Anreicherung
        1.200.000 Links zur Work-Ebene der
         Open Library
         => 12,5% Anreicherung




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
LOW-HANGING
Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
BEISPIEL

DBpedia:


„Die Heilige Johanna der Schlachthöfe“
BEISPIEL
31



     Open Library


     „Der Herr der Ringe“




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
INTEGRATION IN KATALOGE
35



        Was darf übernommen werden, was nicht?
        Was sollte übernommen werden, was nicht?
        Menschen-lesbare Anzeige der Links/URIs
        (Manche) Daten sollten lokal indexiert
         werden (zur Recherche)
        ...



     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
WARUM LINKED OPEN DATA ?
36



        Richtig ist: „Warum nicht LOD?“
        Gute Tools wie SILK basieren auf SPAQRL
        Linked Data impliziert kontrolliertes
         Vokabular, Identifier, weitere Links …
         <= ideal!
        Linked Open Data: Daten lassen sich
         nachnutzen/zwischenspeichern/verändern
         … <= ideal!

     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
HINTERGRUND
37



        Prefix-Auflösung: http://prefix.cc/rdrel
        Blog Beitrag mit SILK Konfigurationsbeispiel
         https://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia


        49 bibliographische Datenquellen als LOD
         http://thedatahub.org/group/bibliographic?tags=lod




     Jansen / Christoph - Kataloganreicherung mit LOD                                        24.05.2012
38   Weiterentwicklung
39




     Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/
POTENTIALE
40



        Mehr Datenquellen
        Vokabular-Mapping
        Mehr Verknüpfungen
         (FRBR-Werke oder coref oder ...)




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
AUSBAUSTUFEN / A
41



        Sammlung von Informationen zu nicht im
         NRW-VK nachgewiesenen Titeln
         => Dienstleistung für Dritte
        (Stabile) API
             Abstraktionsebene für Datenhaltung und Suche
             Einfacher für Anwender




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
AUSBAUSTUFEN / B
42




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
AUSBAUSTUFEN / C
43



        Sammelstelle für kollaborativen Content,
         z. B. Tagging?
             Upload von Identifier/Tag Informationen aus
              verteilten Systemen
             „Kritische Masse“ gemeinsam erreichbar




     Jansen / Christoph - Kataloganreicherung mit LOD   24.05.2012
44   Fazit
45




     The Library of Congress, http://www.flickr.com/photos/library_of_congress/4037490394/
http://app.cheezburger.com/TemplateView.aspx?ciid=1131803
50   Vielen Dank!

     Rückfragen jederzeit:

     jansen@hbz-nrw.de       christoph@hbz-nrw.de
     +49 221 400 75 – 150    +49 221 400 75 – 139

Weitere ähnliche Inhalte

Was ist angesagt?

Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
kostaedt
 

Was ist angesagt? (7)

Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
 
Produce & Publish Cloud Edition
Produce & Publish Cloud EditionProduce & Publish Cloud Edition
Produce & Publish Cloud Edition
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...
 
Jetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehörtJetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehört
 
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked Data
 

Andere mochten auch

CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
NAXOS Deutschland GmbH
 
Auditfactory pit persoenlichkeitsinventar
Auditfactory pit persoenlichkeitsinventarAuditfactory pit persoenlichkeitsinventar
Auditfactory pit persoenlichkeitsinventar
TheAuditFactory
 
NAXOS Deutschland CD-Neuheiten Oktober 2011
NAXOS Deutschland CD-Neuheiten Oktober 2011NAXOS Deutschland CD-Neuheiten Oktober 2011
NAXOS Deutschland CD-Neuheiten Oktober 2011
NAXOS Deutschland GmbH
 

Andere mochten auch (20)

Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...
 
Congreso Educativo INACAP 2014 - Kattia Henríquez
Congreso Educativo INACAP 2014 - Kattia HenríquezCongreso Educativo INACAP 2014 - Kattia Henríquez
Congreso Educativo INACAP 2014 - Kattia Henríquez
 
Foro
ForoForo
Foro
 
NAXOS Music Library Benutzerhandbuch 2011
NAXOS Music Library Benutzerhandbuch 2011NAXOS Music Library Benutzerhandbuch 2011
NAXOS Music Library Benutzerhandbuch 2011
 
CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
CD-Neuheiten Mai 2011 (Im Vertrieb der Naxos Deutschland GmbH)
 
15 04 28 referat_tourismuspolitik_hochschule_rottenburg
15 04 28 referat_tourismuspolitik_hochschule_rottenburg15 04 28 referat_tourismuspolitik_hochschule_rottenburg
15 04 28 referat_tourismuspolitik_hochschule_rottenburg
 
Blu-ray, DVD- und CD-Neuheiten März 2015 Nr. 1 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten März 2015 Nr. 1 (Im Vertrieb der NAXOS Deutsch...Blu-ray, DVD- und CD-Neuheiten März 2015 Nr. 1 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten März 2015 Nr. 1 (Im Vertrieb der NAXOS Deutsch...
 
WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Art...
WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Art...WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Art...
WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Art...
 
8 Tipps für den Sommer daheim
8 Tipps für den Sommer daheim8 Tipps für den Sommer daheim
8 Tipps für den Sommer daheim
 
José cabezas
José cabezasJosé cabezas
José cabezas
 
Formatos diligenciados guía
Formatos diligenciados guíaFormatos diligenciados guía
Formatos diligenciados guía
 
Lo que cambia lo que queda
Lo que cambia lo que quedaLo que cambia lo que queda
Lo que cambia lo que queda
 
Darwin Recruitment GmbH
Darwin Recruitment GmbHDarwin Recruitment GmbH
Darwin Recruitment GmbH
 
Nach.ba pitch 20140909
Nach.ba pitch 20140909Nach.ba pitch 20140909
Nach.ba pitch 20140909
 
Auditfactory pit persoenlichkeitsinventar
Auditfactory pit persoenlichkeitsinventarAuditfactory pit persoenlichkeitsinventar
Auditfactory pit persoenlichkeitsinventar
 
Wellness Today International Brochure 2015
Wellness Today International Brochure 2015Wellness Today International Brochure 2015
Wellness Today International Brochure 2015
 
Andreas Weyenberg - Die Bedeutung des Lebensfeuer Impulses am Übergang von de...
Andreas Weyenberg - Die Bedeutung des Lebensfeuer Impulses am Übergang von de...Andreas Weyenberg - Die Bedeutung des Lebensfeuer Impulses am Übergang von de...
Andreas Weyenberg - Die Bedeutung des Lebensfeuer Impulses am Übergang von de...
 
NAXOS Deutschland CD-Neuheiten Oktober 2011
NAXOS Deutschland CD-Neuheiten Oktober 2011NAXOS Deutschland CD-Neuheiten Oktober 2011
NAXOS Deutschland CD-Neuheiten Oktober 2011
 
Netlution Adaptive Managed Services
Netlution Adaptive Managed ServicesNetlution Adaptive Managed Services
Netlution Adaptive Managed Services
 
Was ist Wissensarbeit? Session beim #GKC14
Was ist Wissensarbeit? Session beim #GKC14Was ist Wissensarbeit? Session beim #GKC14
Was ist Wissensarbeit? Session beim #GKC14
 

Ähnlich wie Dynamische Kataloganreicherung auf Basis von Linked Open Data

Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Felix Ostrowski
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
kostaedt
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
redsys
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
redsys
 

Ähnlich wie Dynamische Kataloganreicherung auf Basis von Linked Open Data (20)

Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open Projects
 
2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Data2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Data
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der Bibliothekswelt
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
SWIB 2010: Linked Open Projects
SWIB 2010: Linked Open ProjectsSWIB 2010: Linked Open Projects
SWIB 2010: Linked Open Projects
 
Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von MetadatenmanagementOpen Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Semantische Annotationen mit Plone
Semantische Annotationen mit PloneSemantische Annotationen mit Plone
Semantische Annotationen mit Plone
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAFWiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
 
DSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) DataDSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) Data
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobidIntegration der gemeinsamen Normdatei in DSpace auf Basis von lobid
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobid
 
Open Access im Bibliothekskatalog (Wisskom2016 - Jülich)
Open Access im Bibliothekskatalog (Wisskom2016 - Jülich)Open Access im Bibliothekskatalog (Wisskom2016 - Jülich)
Open Access im Bibliothekskatalog (Wisskom2016 - Jülich)
 
Linked Open Data (LOD)
Linked Open Data (LOD)Linked Open Data (LOD)
Linked Open Data (LOD)
 
Eine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und EntwicklungEine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
 

Dynamische Kataloganreicherung auf Basis von Linked Open Data

  • 1. Heiko Jansen / Pascal Christoph DYNAMISCHE KATALOGANREICHERUNG AUF BASIS VON LINKED OPEN DATA 101. Deutscher Bibliothekartag Hamburg, 24.05.2012
  • 2. Dieser Vortrag - inklusive der durch die Autoren erstellten Grafiken auf den Folien 17, 18 und 22 - steht unter einer Creative Commons Namensnennung 3.0 Deutschland Lizenz http://creativecommons.org/licenses/by/3.0/de/ Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilder und Screenshots, deren individuelle Rechte und Lizenzbedingungen fortgelten.
  • 3. ÜBERSICHT 3  Definition  Methoden  Projekt-Praxis  Technik  Matching  Verlinkung  Mögliche Weiterentwicklung  Fazit & Anwendungsbeispiel Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 4. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben… KATALOGANREICHERUNG?
  • 5. DEFINITION 5  Jegliche Ergänzung vorhandener Datensätze um zusätzliche Informationen  Links zum Volltext  Schlagwörter  Umschlagbilder  ...  Herkunft egal (Benutzer, Bibliotheken, Firmen...)  Neue Funktionen: nur mittelbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 6. „INSTANT GRATIFICATION“ Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…
  • 7. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…
  • 8. TYPISCHE 8 ANREICHERUNGSMETHODEN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012 http://findicons.com/pack/1014/ivista
  • 9. VOR- UND NACHTEILE 9 Dynamisches Mashup: Lokale DB: + Aktuell + Aufwendigere Zusammenführungen möglich + Relativ geringer Aufwand je Quelle + Daten nutzbar für Recherche und weitere Funktionen − Benötigt (performante) API − Keine Recherche über die − Hoher kontinuierlicher Aufwand für jede Quelle Daten Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 10. GRUNDIDEE DES PROJEKTS 10  Aggregation von LOD aus verteilten Quellen  Daten für beide Wege verfügbar machen  Lokalen Aufwand minimieren  Homogenisierte Daten zum Import  Eine API für viele Bestände Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 11. INFRASTRUKTUR 11 RDF-basierte Speicherung mit SPARQL Endpoint  Einfaches Hinzufügen neuer Daten  Nachnutzbar  „Selbst-beschreibender“ Dump  „API“ inbegriffen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 12. 12 Praxis
  • 13. AUSGANGSLAGE – LOBID.ORG 13  RDF Store mit SPARQL Endpoint: 4store  Open Data aus dem Verbundkatalog „hbz01“  10 M Titeldatensätze <=> 300 M Triple  Bereits bestehende Verknüpfungen des Katalogs:  58.000 zu b3kat  103.000 zur Dewey DC  192.000 zu DNB Titeldaten  702.886 zur ZDB  5.500.000 zur LOC Iso-639-2  9.600.000 zur GND Normdatei  18.000.000 zu lobid-organisation Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 14. VERLINKUNGSSOFTWARE 14  Silk  Culturegraph  Google Refine  TEL: „Unified Ingestion Manager“ (Service)  ...  eigene einfache Programme Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 15. MATCHINGALGORITHMEN 15  Abhängig von Daten  Spannende Daten liegen „woanders“ => andere Regelwerke  Beispiel DBpedia:  Autor, ISBN usw. fehlt meistens => bleibt Titel  Eingrenzungen:  deutsche DBpedia  category:Literarisches_Werk , category:Lexikon,_Enzyklopädie Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 16. PROBLEME: DISAMBIGUIERUNG 16  Matching zu ungenau  Postprozessierung: nur Bündel mit gleichem Autor zulassen Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 17. BÜNDEL MIT GLEICHEM AUTOR 17 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 18. BÜNDEL MIT VERSCHIEDENEN 18 AUTOREN Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 19. LOW-HANGING Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  • 20. TRIPLIFIZIERUNG 20  Properties finden oder selber prägen  rdrel:workManifested  => Triple: < lo b id -re so u rce > rdrel:workManifested < d b p e d ia-re so u rce > Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 21. INDEXIERUNG 21  Lizenzfragen klären  Triples importieren in SPARQL-Endpoint  Eigener „named Graph“ bietet Vorteile:  Leicht löschbar/veränderbar  Provenienz verfolgbar  Eingrenzung von Abfragen auf Named Graphs Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 23. WAS WURDE ERREICHT? 23  12.000 „sichere“ Links zu 4.000 DBpedia Ressourcen => 4000 neue „Work“-Ebenen (von 33.000 möglichen)  Durchschnittliche Bündelgröße: 3  Links nach freebase: 3.000  1 Link zur linkedmdb  0,1 % Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 24. WAS WURDE ERREICHT? 24  5.500 Links zu 400 Project Gutenberg Ressourcen (Volltexte) => 0,05% Anreicherung  1.200.000 Links zur Work-Ebene der Open Library => 12,5% Anreicherung Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 25. LOW-HANGING Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0
  • 27.
  • 28.
  • 29.
  • 30.
  • 31. BEISPIEL 31 Open Library „Der Herr der Ringe“ Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 32.
  • 33.
  • 34.
  • 35. INTEGRATION IN KATALOGE 35  Was darf übernommen werden, was nicht?  Was sollte übernommen werden, was nicht?  Menschen-lesbare Anzeige der Links/URIs  (Manche) Daten sollten lokal indexiert werden (zur Recherche)  ... Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 36. WARUM LINKED OPEN DATA ? 36  Richtig ist: „Warum nicht LOD?“  Gute Tools wie SILK basieren auf SPAQRL  Linked Data impliziert kontrolliertes Vokabular, Identifier, weitere Links … <= ideal!  Linked Open Data: Daten lassen sich nachnutzen/zwischenspeichern/verändern … <= ideal! Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 37. HINTERGRUND 37  Prefix-Auflösung: http://prefix.cc/rdrel  Blog Beitrag mit SILK Konfigurationsbeispiel https://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia  49 bibliographische Datenquellen als LOD http://thedatahub.org/group/bibliographic?tags=lod Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 38. 38 Weiterentwicklung
  • 39. 39 Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/
  • 40. POTENTIALE 40  Mehr Datenquellen  Vokabular-Mapping  Mehr Verknüpfungen (FRBR-Werke oder coref oder ...) Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 41. AUSBAUSTUFEN / A 41  Sammlung von Informationen zu nicht im NRW-VK nachgewiesenen Titeln => Dienstleistung für Dritte  (Stabile) API  Abstraktionsebene für Datenhaltung und Suche  Einfacher für Anwender Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 42. AUSBAUSTUFEN / B 42 Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 43. AUSBAUSTUFEN / C 43  Sammelstelle für kollaborativen Content, z. B. Tagging?  Upload von Identifier/Tag Informationen aus verteilten Systemen  „Kritische Masse“ gemeinsam erreichbar Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
  • 44. 44 Fazit
  • 45. 45 The Library of Congress, http://www.flickr.com/photos/library_of_congress/4037490394/
  • 46.
  • 47.
  • 48.
  • 50. 50 Vielen Dank! Rückfragen jederzeit: jansen@hbz-nrw.de christoph@hbz-nrw.de +49 221 400 75 – 150 +49 221 400 75 – 139

Hinweis der Redaktion

  1. Auch der eigene Katalog als Quelle: Zusammenführung von elektronischer und gedruckter Fassung; verschiedenen Auflagen usw.: Fließender Übergang zu FRBR
  2. Begriff stammt aus: Coffmann, Steve: The response to „Building Earth´s Largest Library“. In: Searcher 7.7 (1999), S. 29-32. ISSN 1070-4795 Nutzer erwarten direkten Zugang zu den gefundenen Dokumenten, müssen bei physischen Medien aber in die Bibliothek kommen: wird als hohe Hürde wahrgenommen. Je sicherer sie sein können, etwas zu bekommen, das ihren Interessen entspricht, desto eher werden sie bereit sein, die „Kosten“ zu tragen: ausführliche Info hilft. Vgl. umfangreiche Info bei Amazon zur Erleichterung der Kaufentscheidung. „ Kosten“ bei Bibliotheken = Zeit und Weg
  3. Zusammenstellung von „schmackhaften“ Infos aus vielen Quellen
  4. Anreicherung der Datenbank zu beliebigen Zeiten Anreicherung der Anzeige dynamisch im Moment des Aufrufs
  5. Nur LOD, denn sonst verbringt man viel Zeit mit Lizenzprüfungen muss man Daten viel aufwändiger Mappen
  6. Diese Tools helfen die Verlinkungen zwischen verschiedenen Datenquellen herzustellen. # Vorteil von Silk hadoop: - Sehr einfache Bedienung/sehr gute Anleitung - Eingrenzungen via SPARQL Queries - mit grafischer Benutzeroberfläche „Workbench“ # Nachteil von Silk: - Geht immer nur über SPARQL-Endpoint =&gt; keine File-Dump Einspielung. - Z.B.: Abfragen vom lobid-Endpoint von 9 M Ressourcen dauert 40 Stunden. (Ein einmal erzeugtes Binärfile kann aber durch einfaches kopieren mehrmals benutzt werden um z.B. einmal mit de-dbepdia zu verknüpfen und danach mit der internationalen dbpedia usw. # Vorteil Culturegraph hadoop: - Geht über Filedumps =&gt; sehr schnell - Datenhaltung egal (MARC, MAB, PICA, RDF ...) # Nachteil - Anleitung noch nicht fertig
  7. So gibt es z.B. mehrere unterschiedliche Bücher mit dem Titel „Helden“.
  8. Alle Titeldaten im Katalog mit dem Titel „Die heilige Johanna der Schlachthöfe“ haben genau einen Autor. Bündel in den Ressourcen drin sind die unterschiedliche Autoren haben werden verworfen! Titel: „Die heilige Johanna der Schlachthöfe“ Autor: http://d-nb.info/gnd/118514768 http://lobid.org/resource/HT000050080 http://lobid.org/resource/HT000050081 http://lobid.org/resource/HT002659047 http://lobid.org/resource/HT004741084 http://lobid.org/resource/HT006212600 http://lobid.org/resource/HT008109255 http://lobid.org/resource/TT000706133 http://lobid.org/resource/TT000706142 http://lobid.org/resource/TT001365832
  9. Alle Titeldaten im Katalog mit dem Titel „Helden“. Die Ressourcen haben verschiedene Autoren und werden deshalb verworfen! Titel: „Helden“ Autor: http://lobid.org/person/HP00597713 http://lobid.org/resource/HT009535982 http://lobid.org/resource/HT013915133 Autor: - http://lobid.org/resource/HT002957164 Autor: http://d-nb.info/gnd/118642375 http://lobid.org/resource/HT003564841
  10. „ low hanging fruit“ = leicht erreichbare Ziele Stärkere , komplexere Heuristiken können später verwendet werden
  11. Triplifiziert = die Daten in das Linked Data Schema einpassen. Jedes Datum muss demnach als Triple beschrieben werden, dass heißt durch die Dreifaltigkeit von Subjekt, Prädikat und Objekt. Properties: Wir haben uns dabei nur grob an FRBR orientiert und z.B. die Expressions im WEMI Modell überbrückt. rdrel:workManifested haben wir von der Open Library abgeschaut.
  12. Eigener Graph = „eigener Datenraum“ Bedingt mindestens einen sogenannten Quad-Store (deshalb auch „4“-store). U.a. kann das auch Virtuoso.
  13. „ Sichere“ in Anführungszeichen, weil die Links eben nur maschinell hergestellt sind und sich auf Heuristiken beziehen die nicht unbedingt immer Richtiges ergeben müssen. Die Daten müssten also noch intellektuell validiert werden, z.B. durch supervisierten Crowdsourcing. „ Work“ in Anführungszeichen, da frbr:work nur gewisse Daten zulässt und die DBpedia Ressourcen natürlich sehr viel mehr Daten haben. Trotzdem lässt sich von „Work“-Ebene sprechen da alle Manifestationen sich die meisten Eigenschaften dieser DBpedia Ressource teilen (Schlagworte, Kategorien .. aber nicht z.B. Coverbilder ).
  14. Project Gutenberg Beispiel: &lt;http://lobid.org/resource/HT001020262&gt; lv:fulltext &lt; http://gutenberg.org/ebooks/10365 &gt; Open Library: die Verknüpfung zur Work-Ebene geschah lediglich auf Grundlage von ISBN 10.
  15. Nochmal: es ging im ersten Schritt darum die „low hanging fruits“ zu ernten = leicht erreichbare Ziele erreichen. Stärkere, komplexere Heuristiken/Algorithmen können später verwendet werden.
  16. - Deutsche DBpedia-Ansicht: http://de.dbpedia.org/resource/Die_heilige_Johanna_der_Schlachth%C3%B6fe - Kontrolliertes Vokabular =&gt; sehr gut geeignet um Facetten in Suchmaschinen zu bilden.
  17. Internationale DBpedia Es zeigt sich auch gleich ein Problem: Die deutsche DBpedia beschreibt ein Buch und hat den „owl:sameAs“ zur internationalen DBpedia gesetzt – diese Ressource ist aber kein Buch, sondern ein Film. Mit den eben erwähnten Matchingalgorithmen hätte diese Verlinkung also direkt nie stattgefunden.
  18. Freebase mit Links u.a. zu IMDB, Rotten Tomatoes =&gt; Rezensionen, Userbewertungen uvm., allerdings (noch) nicht als Linked Open Data, d.h. es lassen sich z.B. nicht automatische Suchanfragen stellen, und die dort liegenden Daten lassen sich nicht in die eigene Datenbank integrieren.
  19. Cover und weitere Links in http://openlibrary.org/works/OL15331152W/Der_Herr_der_Ringe._Die_Gef%C3%A4hrten_Die_zwei_T%C3%BCrme_Die_R%C3%BCckkehr_des_K%C3%B6nigs._Mit_Anh%C3%A4ngen_und_Register Die Daten liegen in RDF vor und gehorchen ebenfalls einer OpenData Lizenz. Sie können also einfach den eigenen Daten zugefügt werden. Sieht so aus als ob es hier ein Problem mit der Zuordnung von Manifestationen zur Werkebene gibt, denn u.a. fehlen anderssprachige Ausgaben.
  20. Viele ratings und user reviews, ein video uvm: http://www.goodreads.com/book/show/671212.Der_Herr_der_Ringe Allerdings liegen die Daten nicht als RDF vor und sind wohl auch nicht Open Data.
  21. (Folie wurde im Vortrag nicht gezeigt)
  22. Werkstattbericht: „Work in Progress“, kein abgeschlossenes Projekt
  23. Query-Parameter in einer Art „Rest-ful URL“ und JSON sind leichter zu verstehen bzw. bekannter als SPARQL und RDF
  24. Stehen am Anfang „ Spielerisches“ Ausprobieren der Möglichkeiten Andere können mitspielen: Was da ist, kann bereits genutzt werden
  25. Schlagwörter stammen aus dem entsprechenden Datensatz im Verbundkatalog des hbz (Datenbank HBZ01)