Aufbau einer LOD- basierten Web-API am Beispiel von api.lobid.orgAdrian Pohl
Diese Präsentation gibt einen Einblick, wie die oft getrennten Welten von Web-APIs und Linked Open Data miteinander verschmolzen werden können. Nach einer Einleitung zu Web-APIs und JSON, wird gezeigt, wie aus JSON Linked Data (=JSON-LD) gemacht werden kann. Abschließend wird die lobid-API vorgestellt, die JSON-LD und andere RDF-Serialisierungen ausliefert und Auto-Suggest-Funktionen für Organisationen, GND-Normdaten und hbz-Titeldaten anbietet.
Präsentation "Kataloganreicherung à la Linked Open Data" auf der Veranstaltung vom VdB, Landesverband Bayern, München am 2012-09-27 "Jenseits der Verbundkataloge. Die Zukunft der Recherche".
Repositorien bieten ihre Inhalte hauptsächlich über Weboberflächen an, die auf die menschliche Wahrnehmung ausgerichtet sind. Die gespeicherten Daten stellen sie allenfalls über eine OAI-PMH-Schnittstelle bereit, die zwar im Umfeld von Repositorien ein „de-facto-Standard“, darüber hinaus jedoch kaum bekannt ist. Inzwischen bietet Linked Data die erforderlichen Grundlagen für einen generischen Export von quasi beliebigen Daten an. Für Daten, die als Linked Data publiziert werden sollen, werden Metadaten oft erst aufwändig manuell erfasst oder automatisch generiert. Die in Repositorien gespeicherten Daten verfügen bereits über Metadaten, werden bislang jedoch nicht als Linked Data angeboten. Repositorien sind Systeme zur sicheren Speicherung - und in der Regel Weitergabe - von Daten und sie beschreibenden Metadaten. Im Laufe der Zeit haben sich Charakteristika von Repositorien herausgeprägt, die sie von anderer Software zur Speicherung von Daten abgrenzen. Diese Charakteristika müssen bei der Anbindung von Repositorien an das Semantic Web berücksichtigt werden. Der Vortrag gliedert sich in zwei Teile: Zunächst wird ein softwareunabhängiges Konzept zur Wandlung der in Repositorien gespeicherten Inhalte in Linked Data vorgestellt. Dabei wird zum Beispiel der Umgang mit Persistent Identifiern im Kontext von Linked Data diskutiert oder Ansätze um vorhandene Metadaten in URIs umzuwandeln, die zur Verlinkung genutzt werden können. Im zweiten Teil wird eine konkrete Umsetzung des Konzepts an DSpace vorgestellt, der Software, die zur Realisierung von Repositorien weltweit am häufigsten genutzt wird.
Vortrag vom Bibliothekartag 2015 in Nürnberg.
Grundlagen von Persistent Identifier zur Vorstellung beim UB-internen Infotreff an der Technischen Universität Berlin.
Vortragende: Pascal-Nicolas Becker, Michaela Voigt
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
Vortrag im Rahmen der Fortbildungsveranstaltung „Erschließung, Kataloganreicherung und Präsentation juristischer Materialien", Berlin - 08. und 09. November 2012. Organisiert von der Arbeitsgemeinschaft für juristisches Bibliotheks- und Dokumentationswesen (AjBD).
Aufbau einer LOD- basierten Web-API am Beispiel von api.lobid.orgAdrian Pohl
Diese Präsentation gibt einen Einblick, wie die oft getrennten Welten von Web-APIs und Linked Open Data miteinander verschmolzen werden können. Nach einer Einleitung zu Web-APIs und JSON, wird gezeigt, wie aus JSON Linked Data (=JSON-LD) gemacht werden kann. Abschließend wird die lobid-API vorgestellt, die JSON-LD und andere RDF-Serialisierungen ausliefert und Auto-Suggest-Funktionen für Organisationen, GND-Normdaten und hbz-Titeldaten anbietet.
Präsentation "Kataloganreicherung à la Linked Open Data" auf der Veranstaltung vom VdB, Landesverband Bayern, München am 2012-09-27 "Jenseits der Verbundkataloge. Die Zukunft der Recherche".
Repositorien bieten ihre Inhalte hauptsächlich über Weboberflächen an, die auf die menschliche Wahrnehmung ausgerichtet sind. Die gespeicherten Daten stellen sie allenfalls über eine OAI-PMH-Schnittstelle bereit, die zwar im Umfeld von Repositorien ein „de-facto-Standard“, darüber hinaus jedoch kaum bekannt ist. Inzwischen bietet Linked Data die erforderlichen Grundlagen für einen generischen Export von quasi beliebigen Daten an. Für Daten, die als Linked Data publiziert werden sollen, werden Metadaten oft erst aufwändig manuell erfasst oder automatisch generiert. Die in Repositorien gespeicherten Daten verfügen bereits über Metadaten, werden bislang jedoch nicht als Linked Data angeboten. Repositorien sind Systeme zur sicheren Speicherung - und in der Regel Weitergabe - von Daten und sie beschreibenden Metadaten. Im Laufe der Zeit haben sich Charakteristika von Repositorien herausgeprägt, die sie von anderer Software zur Speicherung von Daten abgrenzen. Diese Charakteristika müssen bei der Anbindung von Repositorien an das Semantic Web berücksichtigt werden. Der Vortrag gliedert sich in zwei Teile: Zunächst wird ein softwareunabhängiges Konzept zur Wandlung der in Repositorien gespeicherten Inhalte in Linked Data vorgestellt. Dabei wird zum Beispiel der Umgang mit Persistent Identifiern im Kontext von Linked Data diskutiert oder Ansätze um vorhandene Metadaten in URIs umzuwandeln, die zur Verlinkung genutzt werden können. Im zweiten Teil wird eine konkrete Umsetzung des Konzepts an DSpace vorgestellt, der Software, die zur Realisierung von Repositorien weltweit am häufigsten genutzt wird.
Vortrag vom Bibliothekartag 2015 in Nürnberg.
Grundlagen von Persistent Identifier zur Vorstellung beim UB-internen Infotreff an der Technischen Universität Berlin.
Vortragende: Pascal-Nicolas Becker, Michaela Voigt
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
Vortrag im Rahmen der Fortbildungsveranstaltung „Erschließung, Kataloganreicherung und Präsentation juristischer Materialien", Berlin - 08. und 09. November 2012. Organisiert von der Arbeitsgemeinschaft für juristisches Bibliotheks- und Dokumentationswesen (AjBD).
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...Magnus Pfeffer
Vortrag im Workshop on Classification and Subject Indexing in Library and
Information Science (LIS'2012)
im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.
Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert.
Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...flimm
Vortrag beim Arbeitstreffen Linked Open Data im hbz am 12.5.2010, in dem die Möglichkeit untersucht wird, in wieweit sich bei der Prägung von Identifiern im LOD-Bereich die IDs der OpenLibrary verwenden lassen.
Folien zu einem Vortrag auf der ODOK 2010 in Leoben zu Linked Data und Open Data, mit einer knappen Darstellung der Linked-Open-Data-Aktivitäten im hbz-Verbund.
Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...NAXOS Deutschland GmbH
Neuheiten der Vertriebslabels von NAXOS Deutschland zum 17. Juni 2013, darunter zum Gedenken an Sir Colin Davis eine 6-CD-Box [Profil], Werke für Violine und Violoncello, eingespielt von Friedemann Eichhorn und Alexander Hülshoff [Hänssler Classic], Wiederveröffentlichung von Mendelssohns "Elias" unter der Leitung von Helmuth Rilling, Händel - Kompositionen für Orgel solo [Fagott] uvm.
El documento analiza tres medios digitales: Kienyke.com, que tiene un ADN digital pero periodistas en formación; La redo.net, un blog hecho por periodistas digitales nativos que fomenta comunidad; y Terra Brasil, un medio ciento por ciento digital con manual de estilo digital, streaming, VOD, y descargas legales.
WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Artenschutzrecht, CITES und die Umsetzung durch die Zollverwaltung in Deutschland, Frankfurt am Main, 2. Auflage 2001.
Zugleich:
Diplomarbeit an der Fachhochschule des Bundes, Fachbereich Finanzen in Münster
Um den Sommer auszukosten, muss man nicht in die Ferne schweifen. Ist man für die Hitzeschlacht gerüstet, kann man die freie Zeit auch Zuhause in vollen Zügen genießen. Wir zeigen, wie es gelingt! Mehr zum Thema auf http://kurier.at/thema/sommer-lifestyle
El documento presenta una propuesta para un Centro Cultural en la ciudad de Antuco, Chile. Propone ubicarlo en la esquina de las calles O'Higgins y Colon, aprovechando un terreno no construido. El centro cultural tendría un patio central público que conectaría el programa cultural con la sociedad. Contaría con salas de exposiciones, artesanías, cafetería, sala de eventos y otros espacios. La estructura espacial consistiría en tres volúmenes divididos por una terraza que daría luz natural.
El documento describe cómo la humanidad ha mejorado la comunicación, el transporte y la reflexión a través del tiempo. La comunicación ahora se realiza a través de dispositivos inteligentes en lugar de teléfonos fijos, y el transporte incluye autos modernos con GPS y economía de combustible en lugar de carretas tiradas por caballos. Aunque algunas cosas cambian, la necesidad humana de facilitar el trabajo y lograr los objetivos de manera creativa y eficiente permanece igual.
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...Magnus Pfeffer
Vortrag im Workshop on Classification and Subject Indexing in Library and
Information Science (LIS'2012)
im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.
Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert.
Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...flimm
Vortrag beim Arbeitstreffen Linked Open Data im hbz am 12.5.2010, in dem die Möglichkeit untersucht wird, in wieweit sich bei der Prägung von Identifiern im LOD-Bereich die IDs der OpenLibrary verwenden lassen.
Folien zu einem Vortrag auf der ODOK 2010 in Leoben zu Linked Data und Open Data, mit einer knappen Darstellung der Linked-Open-Data-Aktivitäten im hbz-Verbund.
Blu-ray, DVD- und CD-Neuheiten Juni 2013 Nr. 3 (Im Vertrieb der NAXOS Deutsch...NAXOS Deutschland GmbH
Neuheiten der Vertriebslabels von NAXOS Deutschland zum 17. Juni 2013, darunter zum Gedenken an Sir Colin Davis eine 6-CD-Box [Profil], Werke für Violine und Violoncello, eingespielt von Friedemann Eichhorn und Alexander Hülshoff [Hänssler Classic], Wiederveröffentlichung von Mendelssohns "Elias" unter der Leitung von Helmuth Rilling, Händel - Kompositionen für Orgel solo [Fagott] uvm.
El documento analiza tres medios digitales: Kienyke.com, que tiene un ADN digital pero periodistas en formación; La redo.net, un blog hecho por periodistas digitales nativos que fomenta comunidad; y Terra Brasil, un medio ciento por ciento digital con manual de estilo digital, streaming, VOD, y descargas legales.
WWF Deutschland und TRAFFIC Europe/Germany - Weerth: Das neue europäische Artenschutzrecht, CITES und die Umsetzung durch die Zollverwaltung in Deutschland, Frankfurt am Main, 2. Auflage 2001.
Zugleich:
Diplomarbeit an der Fachhochschule des Bundes, Fachbereich Finanzen in Münster
Um den Sommer auszukosten, muss man nicht in die Ferne schweifen. Ist man für die Hitzeschlacht gerüstet, kann man die freie Zeit auch Zuhause in vollen Zügen genießen. Wir zeigen, wie es gelingt! Mehr zum Thema auf http://kurier.at/thema/sommer-lifestyle
El documento presenta una propuesta para un Centro Cultural en la ciudad de Antuco, Chile. Propone ubicarlo en la esquina de las calles O'Higgins y Colon, aprovechando un terreno no construido. El centro cultural tendría un patio central público que conectaría el programa cultural con la sociedad. Contaría con salas de exposiciones, artesanías, cafetería, sala de eventos y otros espacios. La estructura espacial consistiría en tres volúmenes divididos por una terraza que daría luz natural.
El documento describe cómo la humanidad ha mejorado la comunicación, el transporte y la reflexión a través del tiempo. La comunicación ahora se realiza a través de dispositivos inteligentes en lugar de teléfonos fijos, y el transporte incluye autos modernos con GPS y economía de combustible en lugar de carretas tiradas por caballos. Aunque algunas cosas cambian, la necesidad humana de facilitar el trabajo y lograr los objetivos de manera creativa y eficiente permanece igual.
Das Lebensfeuer steht im Zentrum meiner Diagnostik für Stress- und Burnoutmedizin. Es ist das wertvollste Instrument zur objektiven gesundheitlichen Standortbestimmung meiner Patienten. In Kombination mit Neurostress- und Mikronährstoffdiagnostik ergibt sich so ein ganzheitliches Bild vom Patienten. Daraus leitet sich mein duales Therapiekonzept ab: kurzfristige Intervention durch restitutive Neurotransmittertherapie und Mikronährstofftherapie - langfristige Veränderung und Stabilisierung durch das Lebensfeuer-Coaching.
Slides (in German) for a talk of Magnus Pfeffer and Kai Eckert. We propose the linked data/semantic web technology as an infrastructure to publish the results of research projects for easy reuse.
Vortrag zu Linked Data und Repositorien von der 16. Jahrestagung der DINI am 27. und 28.10.2015 in der Deutschen Nationalbibliothek in Frankfurt am Main.
Einfürung in Open Data und Linked Data im Kontext bibliografische Daten und Bibliotheken. Inklusive einem Szenario für den Einstieg: Erweiterung eines Katalogs oder Dokumentenservers um eine semantische Komponente.
Vortrag im Rahmen der Veranstaltung "Gegenwart und Zukunft der Sacherschließung". Die interdisziplinäre Fortbildung für Fachreferentinnen und Fachreferenten wurde veranstaltet von der Kommission für Fachreferatsarbeit mit Unterstützung der Deutschen Nationalbibliothek in Leipzig und fand am 6. und 7. Oktober 2011 statt.
Enthält Teile von CC Attribution-ShareAlike Vorträgen Anderer. Vielen Dank an dieser Stelle.
Short presentation about comming features of DSpace 5 with a focus on its Linked (Open) Data Support. Talk held during the German DSpace User Group Meeting 2014, October 28, 2014 in Technische Universität Berlin.
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.
Integration der gemeinsamen Normdatei in DSpace auf Basis von lobidPascal-Nicolas Becker
Auf Basis von lobid.org wurde ein Plugin zur Integration der gemeinsamen Normdatei (GND) in DSpace entwickelt. Damit lässt sich aus DSpace heraus in der GND Suchen und Einträge übernehmen. Parallel findet eine zusätzliche Suche in der OpenStreetMap statt.
Open Access im Bibliothekskatalog (Wisskom2016 - Jülich)Martin Blenkle
Bibliotheken bewerben seit etwa 15 Jahren intensiv Open Access Modelle als neue offene Publikationsformen im Wissenschaftsbereich. Dennoch wird das Thema eines nutzerfreundlichen Nachweises solcher Open Access Dokumente in Bibliothekskatalogen immer noch kaum beachtet. Um die Akzeptanz grüner Publikationsmodelle nachhaltig zu fördern, ist es jedoch sinnvoll, Nutzer*innen die wertvollen Nachweise der frei verfügbaren wissenschaftlichen Dokumente auch im Gesamtkontext bibliothekarischer Kataloge bei der Suche anzubieten.
Zwar stehen die Metadaten von weltweit derzeit etwa 4300 Dokumentenservern seit etwa 15 Jahren via OAI-PMH Schnittstellen prinzipiell frei zur Nutzung bereit, doch scheint es viele Vorbehalte gegen die Integration solcher Nachweise in ein gemeinsames Angebot mit bibliothekarisch kontrollierten Metadaten zu geben.
An der Staats- und Universitätsbibliothek (SuUB) Bremen ist der Nachweis frei verfügbarer wissenschaftlicher Texte bereits seit 2004 ein wichtiger Teil der Marketingstrategie von Open Access Publikationsmodellen. Das Angebot an Open Access Dokumenten im Rahmen der zentralen Bibliotheksuchmaschine erfolgt über das bereits seit 2004 an der SuUB Bremen verfügbare eigene Discoverysystem E-LIB.
Eine Infrastruktur für freie Katalogdaten. Konzeption und EntwicklungAdrian Pohl
Präsentation auf der 1. DGI-Tagung, gehalten am 8.10.2010.
Siehe auch:
https://wiki1.hbz-nrw.de/display/SEM/Weiterentwicklung+der+konzeptuellen+Ueberlegungen
http://www.dgi-info.de/OnlineTagung.aspx
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...flimm
Der Vortrag wurde am 16.3.2010 im Rahmen der Veranstaltung "Stirbt der OPAC ? - Suchmaschinen, Datenvielfalt und Vernetzung als Lösungsansatz" auf dem 4. Leipziger Kongress für Information und Bibliothek gehalten.
Ähnlich wie Dynamische Kataloganreicherung auf Basis von Linked Open Data (20)
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Dynamische Kataloganreicherung auf Basis von Linked Open Data
1. Heiko Jansen / Pascal Christoph
DYNAMISCHE
KATALOGANREICHERUNG
AUF BASIS VON LINKED OPEN
DATA
101. Deutscher Bibliothekartag
Hamburg, 24.05.2012
2. Dieser Vortrag - inklusive der durch die Autoren erstellten Grafiken
auf den Folien 17, 18 und 22 - steht unter einer
Creative Commons Namensnennung 3.0 Deutschland Lizenz
http://creativecommons.org/licenses/by/3.0/de/
Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilder
und Screenshots, deren individuelle Rechte und Lizenzbedingungen
fortgelten.
4. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
Klarheit über die Nutzungsbedingungen haben…
KATALOGANREICHERUNG?
5. DEFINITION
5
Jegliche Ergänzung vorhandener Datensätze
um zusätzliche Informationen
Links zum Volltext
Schlagwörter
Umschlagbilder
...
Herkunft egal (Benutzer, Bibliotheken,
Firmen...)
Neue Funktionen: nur mittelbar
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
6. „INSTANT GRATIFICATION“
Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
Klarheit über die Nutzungsbedingungen haben…
7. Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl.
http://www.istockphoto.com/license.php) zunächst entfernt, bis wir
Klarheit über die Nutzungsbedingungen haben…
8. TYPISCHE
8
ANREICHERUNGSMETHODEN
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
http://findicons.com/pack/1014/ivista
9. VOR- UND NACHTEILE
9
Dynamisches Mashup: Lokale DB:
+ Aktuell + Aufwendigere
Zusammenführungen möglich
+ Relativ geringer Aufwand je
Quelle + Daten nutzbar für Recherche
und weitere Funktionen
− Benötigt (performante) API
− Keine Recherche über die
− Hoher kontinuierlicher
Aufwand für jede Quelle
Daten
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
10. GRUNDIDEE DES PROJEKTS
10
Aggregation von LOD aus verteilten Quellen
Daten für beide Wege verfügbar machen
Lokalen Aufwand minimieren
Homogenisierte Daten zum Import
Eine API für viele Bestände
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
11. INFRASTRUKTUR
11
RDF-basierte Speicherung mit SPARQL Endpoint
Einfaches Hinzufügen neuer Daten
Nachnutzbar
„Selbst-beschreibender“ Dump
„API“ inbegriffen
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
13. AUSGANGSLAGE – LOBID.ORG
13
RDF Store mit SPARQL Endpoint: 4store
Open Data aus dem Verbundkatalog „hbz01“
10 M Titeldatensätze <=> 300 M Triple
Bereits bestehende Verknüpfungen des Katalogs:
58.000 zu b3kat
103.000 zur Dewey DC
192.000 zu DNB Titeldaten
702.886 zur ZDB
5.500.000 zur LOC Iso-639-2
9.600.000 zur GND Normdatei
18.000.000 zu lobid-organisation
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
14. VERLINKUNGSSOFTWARE
14
Silk
Culturegraph
Google Refine
TEL: „Unified Ingestion Manager“ (Service)
...
eigene einfache Programme
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
15. MATCHINGALGORITHMEN
15
Abhängig von Daten
Spannende Daten liegen „woanders“
=> andere Regelwerke
Beispiel DBpedia:
Autor, ISBN usw. fehlt meistens => bleibt Titel
Eingrenzungen:
deutsche DBpedia
category:Literarisches_Werk ,
category:Lexikon,_Enzyklopädie
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
16. PROBLEME: DISAMBIGUIERUNG
16
Matching zu ungenau
Postprozessierung:
nur Bündel mit gleichem Autor zulassen
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
17. BÜNDEL MIT GLEICHEM AUTOR
17
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
20. TRIPLIFIZIERUNG
20
Properties finden oder selber prägen
rdrel:workManifested
=> Triple:
< lo b id -re so u rce > rdrel:workManifested < d b p e d ia-re so u rce >
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
21. INDEXIERUNG
21
Lizenzfragen klären
Triples importieren in SPARQL-Endpoint
Eigener „named Graph“ bietet Vorteile:
Leicht löschbar/veränderbar
Provenienz verfolgbar
Eingrenzung von Abfragen auf Named Graphs
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
23. WAS WURDE ERREICHT?
23
12.000 „sichere“ Links zu 4.000 DBpedia
Ressourcen => 4000 neue „Work“-Ebenen (von
33.000 möglichen)
Durchschnittliche Bündelgröße: 3
Links nach freebase: 3.000
1 Link zur linkedmdb
0,1 % Anreicherung
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
24. WAS WURDE ERREICHT?
24
5.500 Links zu 400 Project Gutenberg
Ressourcen (Volltexte)
=> 0,05% Anreicherung
1.200.000 Links zur Work-Ebene der
Open Library
=> 12,5% Anreicherung
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
31. BEISPIEL
31
Open Library
„Der Herr der Ringe“
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
32.
33.
34.
35. INTEGRATION IN KATALOGE
35
Was darf übernommen werden, was nicht?
Was sollte übernommen werden, was nicht?
Menschen-lesbare Anzeige der Links/URIs
(Manche) Daten sollten lokal indexiert
werden (zur Recherche)
...
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
36. WARUM LINKED OPEN DATA ?
36
Richtig ist: „Warum nicht LOD?“
Gute Tools wie SILK basieren auf SPAQRL
Linked Data impliziert kontrolliertes
Vokabular, Identifier, weitere Links …
<= ideal!
Linked Open Data: Daten lassen sich
nachnutzen/zwischenspeichern/verändern
… <= ideal!
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
37. HINTERGRUND
37
Prefix-Auflösung: http://prefix.cc/rdrel
Blog Beitrag mit SILK Konfigurationsbeispiel
https://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia
49 bibliographische Datenquellen als LOD
http://thedatahub.org/group/bibliographic?tags=lod
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
39. 39
Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/
40. POTENTIALE
40
Mehr Datenquellen
Vokabular-Mapping
Mehr Verknüpfungen
(FRBR-Werke oder coref oder ...)
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
41. AUSBAUSTUFEN / A
41
Sammlung von Informationen zu nicht im
NRW-VK nachgewiesenen Titeln
=> Dienstleistung für Dritte
(Stabile) API
Abstraktionsebene für Datenhaltung und Suche
Einfacher für Anwender
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
42. AUSBAUSTUFEN / B
42
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
43. AUSBAUSTUFEN / C
43
Sammelstelle für kollaborativen Content,
z. B. Tagging?
Upload von Identifier/Tag Informationen aus
verteilten Systemen
„Kritische Masse“ gemeinsam erreichbar
Jansen / Christoph - Kataloganreicherung mit LOD 24.05.2012
Auch der eigene Katalog als Quelle: Zusammenführung von elektronischer und gedruckter Fassung; verschiedenen Auflagen usw.: Fließender Übergang zu FRBR
Begriff stammt aus: Coffmann, Steve: The response to „Building Earth´s Largest Library“. In: Searcher 7.7 (1999), S. 29-32. ISSN 1070-4795 Nutzer erwarten direkten Zugang zu den gefundenen Dokumenten, müssen bei physischen Medien aber in die Bibliothek kommen: wird als hohe Hürde wahrgenommen. Je sicherer sie sein können, etwas zu bekommen, das ihren Interessen entspricht, desto eher werden sie bereit sein, die „Kosten“ zu tragen: ausführliche Info hilft. Vgl. umfangreiche Info bei Amazon zur Erleichterung der Kaufentscheidung. „ Kosten“ bei Bibliotheken = Zeit und Weg
Zusammenstellung von „schmackhaften“ Infos aus vielen Quellen
Anreicherung der Datenbank zu beliebigen Zeiten Anreicherung der Anzeige dynamisch im Moment des Aufrufs
Nur LOD, denn sonst verbringt man viel Zeit mit Lizenzprüfungen muss man Daten viel aufwändiger Mappen
Diese Tools helfen die Verlinkungen zwischen verschiedenen Datenquellen herzustellen. # Vorteil von Silk hadoop: - Sehr einfache Bedienung/sehr gute Anleitung - Eingrenzungen via SPARQL Queries - mit grafischer Benutzeroberfläche „Workbench“ # Nachteil von Silk: - Geht immer nur über SPARQL-Endpoint => keine File-Dump Einspielung. - Z.B.: Abfragen vom lobid-Endpoint von 9 M Ressourcen dauert 40 Stunden. (Ein einmal erzeugtes Binärfile kann aber durch einfaches kopieren mehrmals benutzt werden um z.B. einmal mit de-dbepdia zu verknüpfen und danach mit der internationalen dbpedia usw. # Vorteil Culturegraph hadoop: - Geht über Filedumps => sehr schnell - Datenhaltung egal (MARC, MAB, PICA, RDF ...) # Nachteil - Anleitung noch nicht fertig
So gibt es z.B. mehrere unterschiedliche Bücher mit dem Titel „Helden“.
Alle Titeldaten im Katalog mit dem Titel „Die heilige Johanna der Schlachthöfe“ haben genau einen Autor. Bündel in den Ressourcen drin sind die unterschiedliche Autoren haben werden verworfen! Titel: „Die heilige Johanna der Schlachthöfe“ Autor: http://d-nb.info/gnd/118514768 http://lobid.org/resource/HT000050080 http://lobid.org/resource/HT000050081 http://lobid.org/resource/HT002659047 http://lobid.org/resource/HT004741084 http://lobid.org/resource/HT006212600 http://lobid.org/resource/HT008109255 http://lobid.org/resource/TT000706133 http://lobid.org/resource/TT000706142 http://lobid.org/resource/TT001365832
Alle Titeldaten im Katalog mit dem Titel „Helden“. Die Ressourcen haben verschiedene Autoren und werden deshalb verworfen! Titel: „Helden“ Autor: http://lobid.org/person/HP00597713 http://lobid.org/resource/HT009535982 http://lobid.org/resource/HT013915133 Autor: - http://lobid.org/resource/HT002957164 Autor: http://d-nb.info/gnd/118642375 http://lobid.org/resource/HT003564841
„ low hanging fruit“ = leicht erreichbare Ziele Stärkere , komplexere Heuristiken können später verwendet werden
Triplifiziert = die Daten in das Linked Data Schema einpassen. Jedes Datum muss demnach als Triple beschrieben werden, dass heißt durch die Dreifaltigkeit von Subjekt, Prädikat und Objekt. Properties: Wir haben uns dabei nur grob an FRBR orientiert und z.B. die Expressions im WEMI Modell überbrückt. rdrel:workManifested haben wir von der Open Library abgeschaut.
Eigener Graph = „eigener Datenraum“ Bedingt mindestens einen sogenannten Quad-Store (deshalb auch „4“-store). U.a. kann das auch Virtuoso.
„ Sichere“ in Anführungszeichen, weil die Links eben nur maschinell hergestellt sind und sich auf Heuristiken beziehen die nicht unbedingt immer Richtiges ergeben müssen. Die Daten müssten also noch intellektuell validiert werden, z.B. durch supervisierten Crowdsourcing. „ Work“ in Anführungszeichen, da frbr:work nur gewisse Daten zulässt und die DBpedia Ressourcen natürlich sehr viel mehr Daten haben. Trotzdem lässt sich von „Work“-Ebene sprechen da alle Manifestationen sich die meisten Eigenschaften dieser DBpedia Ressource teilen (Schlagworte, Kategorien .. aber nicht z.B. Coverbilder ).
Project Gutenberg Beispiel: <http://lobid.org/resource/HT001020262> lv:fulltext < http://gutenberg.org/ebooks/10365 > Open Library: die Verknüpfung zur Work-Ebene geschah lediglich auf Grundlage von ISBN 10.
Nochmal: es ging im ersten Schritt darum die „low hanging fruits“ zu ernten = leicht erreichbare Ziele erreichen. Stärkere, komplexere Heuristiken/Algorithmen können später verwendet werden.
- Deutsche DBpedia-Ansicht: http://de.dbpedia.org/resource/Die_heilige_Johanna_der_Schlachth%C3%B6fe - Kontrolliertes Vokabular => sehr gut geeignet um Facetten in Suchmaschinen zu bilden.
Internationale DBpedia Es zeigt sich auch gleich ein Problem: Die deutsche DBpedia beschreibt ein Buch und hat den „owl:sameAs“ zur internationalen DBpedia gesetzt – diese Ressource ist aber kein Buch, sondern ein Film. Mit den eben erwähnten Matchingalgorithmen hätte diese Verlinkung also direkt nie stattgefunden.
Freebase mit Links u.a. zu IMDB, Rotten Tomatoes => Rezensionen, Userbewertungen uvm., allerdings (noch) nicht als Linked Open Data, d.h. es lassen sich z.B. nicht automatische Suchanfragen stellen, und die dort liegenden Daten lassen sich nicht in die eigene Datenbank integrieren.
Cover und weitere Links in http://openlibrary.org/works/OL15331152W/Der_Herr_der_Ringe._Die_Gef%C3%A4hrten_Die_zwei_T%C3%BCrme_Die_R%C3%BCckkehr_des_K%C3%B6nigs._Mit_Anh%C3%A4ngen_und_Register Die Daten liegen in RDF vor und gehorchen ebenfalls einer OpenData Lizenz. Sie können also einfach den eigenen Daten zugefügt werden. Sieht so aus als ob es hier ein Problem mit der Zuordnung von Manifestationen zur Werkebene gibt, denn u.a. fehlen anderssprachige Ausgaben.
Viele ratings und user reviews, ein video uvm: http://www.goodreads.com/book/show/671212.Der_Herr_der_Ringe Allerdings liegen die Daten nicht als RDF vor und sind wohl auch nicht Open Data.
(Folie wurde im Vortrag nicht gezeigt)
Werkstattbericht: „Work in Progress“, kein abgeschlossenes Projekt
Query-Parameter in einer Art „Rest-ful URL“ und JSON sind leichter zu verstehen bzw. bekannter als SPARQL und RDF
Stehen am Anfang „ Spielerisches“ Ausprobieren der Möglichkeiten Andere können mitspielen: Was da ist, kann bereits genutzt werden
Schlagwörter stammen aus dem entsprechenden Datensatz im Verbundkatalog des hbz (Datenbank HBZ01)