Anforderungen an Thesauri im Semantic Web

1.014 Aufrufe

Veröffentlicht am

Seminar für die Deutsche Nationalbibliothek, Leipzig und Frankfurt/Main, 1./2.3.2016

Veröffentlicht in: Internet
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.014
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
10
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Anforderungen an Thesauri im Semantic Web

  1. 1. ZBW is member of the Leibniz Association Anforderungen an Thesauri im Semantic Web Joachim Neubert ZBW – Leibniz Informationszentrum Wirtschaft, Kiel/Hamburg Deutsche Nationalbibliothek Leipzig 1.3.2016 Frankfurt a.M. 2.3.2016
  2. 2. Agenda 1. Thesauri im Semantic Web 2. Standards: SKOS, ISO 25964 3. STW als Beispiel eines SKOS-Thesaurus 4. Mappings / Crosskonkordanzen 5. Nutzung von SKOS-Thesauri und Mappings in Applikationen 6. Tools für SKOS-Thesauri 7. Anwendung auf die GND 8. Anforderungen / Wunschliste Page 2
  3. 3. Page 3
  4. 4. Page 4
  5. 5. Page 5
  6. 6. Boom von Thesauri im Semantic Web • bartoc.org verzeichnet rund 100 Thesauri im SKOS-Format • Getty: große Umbauten und Öffnung mit Blickrichtung auf Linked Open Data (AAT, Geographical Names, ULAN Artists) • Reorganisation und tendenzielle Verschmelzung der agrarwissenschaftlichen Vokabulare (Agrovoc, NAL Thesaurus, z.T. CAB Thesaurus) im GACS (Global Agricultural Concept Scheme) • Neuentwicklungen wie Getty CONA (Cultural Objects Name Authority) • Wikidata als „universelle Normdatei“ und Verknüpfungspunkt multilingualer Informationsressourcen Page 6
  7. 7. 2. Thesaurus-Standards Page 7
  8. 8. Page 8 Strukturierung durch SKOS • Simple Knowledge Organization System • entwickelt mit dem Ziel, Schlagwortsysteme, Thesauri, Klassifikationen u.ä. für das Semantic Web nutzbar zu machen • beruht auf eindeutigen Identifiern (URIs) für Begriffe skos:Concept – „unit of thought“ • erlaubt zu Begriffen Vorzugsbezeichnungen und alternative Bezeichnungen in beliebig vielen Sprachen • unterstützt die üblichen Thesaurusrelationen (broader, narrower, related)
  9. 9. Page 9 Strukturierung durch SKOS (2) • ermöglicht Dokumentation (definition, scopeNote, historyNote, etc.) • ergänzende Gliederung durch skos:Collections • zusätzliche Strukturierungsmöglichkeiten durch SKOS-XL (z.B. Beziehung zwischen einer Bezeichnung und deren Abkürzung) • unterstützt Mapping verschiedener Thesauri (exactMatch, closeMatch, broadMatch, narrowMatch, relatedMatch) • erweiterbar durch anwendungsspezifische Klassen und Eigenschaften • seit August 2009 Recommendation des W3C http://www.w3.org/2004/02/skos/
  10. 10. Thesaurus Norm ISO 25964 ISO 25964 – löste 2011 (Teil 1) und 2013 (Teil 2) die technisch völlig überholten DIN und ISO Normen aus den 1970er und 1980er Jahren ab • umfangreiche Begriffsdefinitionen Concept (Begriff) und Term (Bezeichnung) wie in SKOS • relationales Datenmodell zur Repräsentation von Thesauri • zusätzliche Strukturierung mit Hilfe von ThesaurusArrays und ConceptGroups (Modellierung von Microthesauri) • Interoperabilität zwischen Vokabularen Page 10
  11. 11. Verbindung SKOS - ISO 25964 ISO-THES RDF-Vokabular als Ergänzung zu SKOS und SKOS-XL http://www.niso.org/schemas/iso25964/correspondencesSKOS/ • Korrespondenz SKOS-ISO25964, zugleich SKOS Erweiterung • Empfehlung, wie zwischen generischen, partitiven und instanziellen Unterbegriffen unterschieden werden kann • Empfehlung, wie compound equivalences (Benutze Kombination) in SKOS definiert werden • Empfehlungen für Thesaurus Arrays, Mikrothesauri u.ä. Page 11
  12. 12. Einsatzbereich von SKOS • primär zur Datenpublikation im Web und zum Datenaustausch • ermöglicht Interoperabilität und erleichtert Mappings zwischen Vokabularen • zielt nicht darauf, den gesamten Reichtum von Thesauri abdecken • soll nicht automatisches Schlussfolgern (Reasoning) ermöglichen • in der Regel nicht verwendet für die interne Darstellung von Thesauri in Pflegesystemen • Workflows und Stati (z.B. Kandidat, freigegeben, …) • Changelog (wer hat was wann geändert, und vor allem warum?) • Indexierung ist für SKOS generell „out of scope“ Page 12
  13. 13. 3. STW als Beispiel eines SKOS-Thesaurus Page 13
  14. 14. Page 14 Standard-Thesaurus Wirtschaft • wurde in den 1990er Jahren unter öffentlicher Förderung von vier wirtschaftswissenschaftlichen Institutionen entwickelt • wird heute von der ZBW herausgegeben und weiterentwickelt • umfasst ca. 6.000 Deskriptoren mit über 14.000 alternativen Bezeichnungen in Deutsch und Englisch • bildet feinmaschiges Begriffsnetz • mehr als 13.000 Ober-/Unterbegriffsbeziehungen und 6.500 verwandte Begriffe • zusätzlicher Zugang über Thesaurussystematik mit rund 500 Stellen
  15. 15. Page 15 Suche mit Thesaurusunterstützung
  16. 16. Page 16 STW Begriffsnetz
  17. 17. Page 17 Systematischer Zugriff
  18. 18. Page 18 Daten-Einbettung in Webseiten mit RDFa
  19. 19. <descriptor/19090-6> # http://zbw.eu/stw/descriptor/19090-6 skos:inScheme <../stw> ; # http://zbw.eu/stw a skos:Concept, zbwext:Descriptor ; skos:prefLabel "Environmental reporting"@en, "Umweltbericht"@de ; skos:altLabel "Corporate environmental accounting"@en, ... ; skos:broader <descriptor/12394-0>, <thsys/70383>, <thsys/71033> ; skos:related <descriptor/18183-4>, ... ; skos:exactMatch <http://aims.fao.org/aos/agrovoc/c_9000050>, <http://d-nb.info/gnd/4202417-1>, <http://lod.gesis.org/thesoz/concept/10039271> ; skos:closeMatch <http://dbpedia.org/resource/Environmental_economics> ; skos:relatedMatch <http://d-nb.info/gnd/4299127-4> ; gbv:gvkppn "091395976"^^xsd:string . Page 19
  20. 20. 4. Mappings / Crosskonkordanzen Page 20
  21. 21. Interoperabilität • Datenbestände werden zunehmend über Portale, Discovery- Systeme oder letztlich das Web miteinander verknüpft • für die übergreifende Nutzung von Beständen mit gemischter Erschließung sind Mappings notwendig • strukturelle Ähnlichkeit von SKOS-Vokabularen erlaubt Einsatz von standardisierten Tools • Standardisierung der Mapping-Properties (skos:exactMatch etc.) macht den Austausch und die Nutzung von einmal erzeugten Mappings in unterschiedlichen Systemen einfach Page 21
  22. 22. Erstellen von Mappings • Optimal wäre eine Kombination und enge Integration von automatischen und intellektuellen Mappingschritten • Nutzung von Synonymen, Mehrsprachigkeit, Stringähnlichkeit, linguistische Funktionen (z.B. Plural/Singular) • Unterstützung bei intellektueller Kontrolle von Vorschlägen und beim vollständig intellektuellen Erstellen einzelner Mappings • klassische Ontology-Matching-Tools sind wenig geeignet für umfangreiche Vokabulare • Linked-Data-Tools häufig auf Optimierung eines vollautomatischen Matchings ausgerichtet • Offenes Problem: Pflege bei Änderungen der beteiligten Vokabulare Page 22
  23. 23. Tools zum Erstellen von Mappings • Silk (http://silkframework.org/) – generelles LOD-Mapping • Amalgame (http://semanticweb.cs.vu.nl/amalgame/) – speziell SKOS-Vokabulare, mehrstufige Workflows, intellektuelle Evaluierung • CultuurLINK (http://cultuurlink.beeldengeluid.nl/) – Nachfolger von Amalgame • Cocoda (http://coli-conc.gbv.de/) – speziell SKOS-Vokabulare, v.a. Klassifikationen, intellektuelle Erstellung (mit Autosuggest), bisher Prototyp Page 23
  24. 24. Exkurs: Mappings in Wikidata erstellen + pflegen? • Wikidata = data backbone aller sprachspezifischen Wikipedia- Ausgaben • für jedes Wikipedia-Seite gibt es ein Wikidata-Datenobjekt (für die GND z.B. Q36578), insgesamt 21 Mio. • über 2000 Eigenschaften (Geburtsdatum, Geo-Koordinaten, …) • bereits zahlreiche Eigenschaften für Normdaten (z.B. „GND- Identifier“ P227) • Vorläufer: PND-Projekt Wikipedia/DNB (seit 2009) • Pflege wie in Wikipedia durch jedermann Page 24
  25. 25. Use Case: Engl. Bezeichnungen für GND-Berufe Ziel: Zweisprachige Berufsbezeichnungen für wirtschaftswissenschaftlich relevante Personen Ausgangspunkt: GND-Bezeichnungen sind ausschließlich deutschsprachig Page 25
  26. 26. z.B. „Geograph“ / „Geographin“ • Wikidata-Datenobjekt mit dt. und engl. Bezeichnung existiert (geschlechtsunspezifisch) (https://www.wikidata.org/wiki/Q901402) • durch Nachtragen der GND-IDs ist die Übersetzung von der GND aus erreichbar • zugleich werden die deutsche und englische Wikipediaseite von der GND aus erreichbar • außerdem weitere Normdaten: • ROME-Berufscode • ISCO-Code • Standard Occupational Classification Code • Art&Architecture-Thesaurus-ID, Freebase-ID, NDL-ID, … Page 26
  27. 27. User Interface mit Edit-Links in Wikidata Page 27
  28. 28. Use Case (2): Mögliches Vorgehen weitgehend script-bar: für die x häufigsten Berufe • Lookup der GND-ID in Wikidata • falls gefunden: Engl. Bezeichnung entnehmen • andernfalls: Lookup der deutschen Berufsbezeichnung (+ Synonyme) aus der GND in Wikidata • falls gefunden: verifizieren und ggf. GND-ID nachtragen • andernfalls: mit vermuteter engl. Bezeichnung suchen • falls gefunden, deutsche Bezeichnung + GND-ID, ggf. auch Link zu dt. Wikipedia-Seite in Wikidata nachtragen • andernfalls: neues Wikidata-Datenobjekt anlegen (?) Page 28
  29. 29. 5. Nutzung von SKOS-Thesauri und Mappings in Applikationen Page 29
  30. 30. Unterstützung bei der intellektuellen Indexierung • Autosuggest-Funktionen (wie in der STW-Webpräsenz) • vor allem für nicht-bibliothekarische Nutzer • Self-Upload in Digital Repositories (z.B. EconStor) • Forschungsdaten-Infrastrukturen (z.B. Sowidatanet, Edavax) Page 30
  31. 31. Übernahme von Indexaten • wenn zu einem Deskriptor in Vokabular A ein mit exactMatch gemappter Deskriptor in Vokabular B existiert • in beide Richtungen möglich • semiautomatisch (mit intellektueller Kontrolle) • falls automatisch, sollte Unterscheidung von intellektuell zugeordneten Deskriptoren möglich bleiben Page 31
  32. 32. Thesaurus-unterstützte Suche Page 32 http://econstor.eu
  33. 33. Thesaurus-unterstützte Suche (2) Page 33
  34. 34. Nutzung von Synonymen beim Indexaufbau Page 34 Im Portal EconBiz werden für STW- wie auch GND-Deskriptoren durch zusätzliche Indexeinträge recherchierbar gemacht: STW GND https://github.com/jneubert/sparql-queries/tree/master/stw#stw-misc
  35. 35. Perspektive: Publikationen als Knotenpunkte zur Verknüpfung von Personen/Instit. und Themen Page 35
  36. 36. 6. Tools für SKOS-Thesauri Page 36
  37. 37. Tools zur Thesaurusanzeige • Skosmos (http://skosmos.org/) • TemaTres (http://www.vocabularyserver.com/) • ASKOSI (http://askosi.org/) Auch Thesauruspflege: • iQvoc (http://iqvoc.net/) • VocBench (http://vocbench.uniroma2.it/) • PoolParty (https://www.poolparty.biz/poolparty-thesaurus-manager/) Page 37
  38. 38. Tools zur Qualitätssicherung In den letzten Jahren mehrere Ansätze, SKOS-Thesauri entsprechend der SKOS-Regeln und z.T. weiterer „best practices“ zu validieren: • qSKOS (Christian Mader / Poolparty) Validierung streng nach SKOS Reference https://github.com/cmader/qSKOS/ • Skosify (Finnische Nationalbibliothek) Konvertierung nach SKOS, Qualitätsverbesserung, Validierung https://github.com/NatLibFi/Skosify Paper: http://eprints.cs.univie.ac.at/3707/1/skosquality.pdf Page 38
  39. 39. Tools zum Versionsvergleich Was ist neu? Was hat sich geändert? • skos-history https://github.com/jneubert/skos-history • Anwendung auf STW: http://zbw.eu/stw/version/9.0/relaunch/about Page 39
  40. 40. Page 40
  41. 41. 7. Anwendung auf die GND Page 41
  42. 42. Ein Experiment: GND Sachbegriffe in SKOS Ausgangspunkt: GND Linked Data Dumps 2015-10-13 Teilmenge: gndo:SubjectHeadingSensoStricto (saz) 134822 Sachbegriffe 484 Sachgruppen SKOS-Version mit ca. 2,3 Mio. Triples verfügbar unter http://zbw.eu/beta/skosmos/swdskos/de Code: https://github.com/jneubert/sparql-queries/tree/master/gnd Page 42
  43. 43. Page 43 http://zbw.eu/beta/skosmos/swdskos
  44. 44. Daten, die für das Experiment ergänzt wurden • skos:ConceptScheme • Name • Datum/Version • skos:inScheme Statements – was gehört dazu, was nicht? • Sachgruppen + deren Notationen • SKOS-Properties: • skos:prefLabel für gndo:preferredNameForTheSubjectHeading • analog skos:altLabel, skos:definition • generalisierte skos:broader Relation (für generic/instantial/partitive) • fehlende Umkehrrelationen (broader/narrower) Page 44
  45. 45. Repräsentation von GND Sachgruppen • derzeit in einem eigenen skos:ConceptScheme als flache Liste von skos:Concepts modelliert http://d-nb.info/standards/vocab/gnd/gnd-sc • alternative Möglichkeit: mehrstufige Hierarchie von isothes:ConceptGroups (Subklasse von skos:Collection und daher disjunct mit skos:Concept) • Verknüpfung der einzelnen GND-Begriffe mit gndo:gndSubjectCategory als Subproperty von skos:member • in einer Sachsystematik ggf. Ausschluss von „Personen zu …“ Page 45
  46. 46. Hierarchie GND Sachbegriffe Original-Relationen: gndSubjectCategory 180583 broaderTermGeneral 92511 broaderTermGeneric 3971 broaderTermInstantial 4255 broaderTermPartitive 152 broaderTermWithMoreThanOneElement 2 Generierte Relationen (skos:broader): 281471 Page 46
  47. 47. Qualitätsprobleme aufspüren mit qSKOS This is the quality report of the file(s) rdf/swdskos.ttl, generated by qSKOS on Do, 25 Feb 2016 17:50:55 +0100 * Summary of Quality Issue Occurrences: Overlapping Labels: FAIL (948) Cyclic Hierarchical Relations: FAIL (3) Undefined SKOS Resources: OK (no potential problems found) Relation Clashes: FAIL (151) Mapping Clashes: FAIL (19) Inconsistent Preferred Labels: OK (no potential problems found) Disjoint Labels Violation: FAIL (10) Unidirectionally Related Concepts: OK (no potential problems found) * Detailed coverage of each Quality Issue: --- Overlapping Labels Description: Finds concepts with similar (identical) labels Detailed information: https://github.com/cmader/qSKOS/wiki/Quality-Issues#overlapping-labels count: 948 [http://d-nb.info/gnd/4632973-0 ("Mixing"@de, ALT_LABEL), http://d-nb.info/gnd/1042787395 ("Mixing"@de, ALT_LABEL)] [http://d-nb.info/gnd/4340457-1 ("Flimmern"@de, PREF_LABEL), http://d-nb.info/gnd/4279005-0 ("Flimmern"@de, ALT_LABEL)] ... [http://d-nb.info/standards/vocab/gnd/gnd-sc#3.2-3.6 ("Christentum"@de, PREF_LABEL), http://d-nb.info/gnd/4010074-1 ("Christentum"@de, PREF_L ... [http://d-nb.info/gnd/7507234-8 ("Softwarepiraterie"@de, PREF_LABEL), http://d-nb.info/gnd/7504886-3 ("Softwarepiraterie"@de, PREF_LABEL)] ... [http://d-nb.info/gnd/7501928-0 ("Nervenkrankheit"@de, PREF_LABEL), http://d-nb.info/gnd/1068493003 ("Nervenkrankheit"@de, PREF_LABEL)] ... Page 47
  48. 48. Beispiel: (Schein-)Duplette „Nervenkrankheit“ Page 48 Der obige Record wird als Linked Data mit dem Typ gndo:subjectHeadingSensoStricto (saz) ausgegeben
  49. 49. Beispiel: Zyklische hierarchische Relationen Christenverfolgung OB Christenfeindlichkeit Christenfeindlichkeit OB Christenverfolgung Page 49
  50. 50. Versionsvergleich mit skos-history Page 50 Zwei Versionen im Version Store: 2015-05-13 und 2015-10-13 Abfragbar mit SPARQL Queries in SPARQL Lab: • Neue Begriffe http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos- history/contents/sparql/added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=htt p://zbw.eu/beta/swdskos/version&language=de • Aufsplitterungen: Zu neuen Begriffen verschobene Benennungen http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos- history/contents/sparql/labels_moved_to_added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versio nHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de • GND-spezifische Queries
  51. 51. Abfrage: Neue Begriffe nach Sachgruppen Page 51
  52. 52. 7. Conclusions Page 52
  53. 53. Wunschliste für den GND Linked Data Dump Metadaten zum gesamten Dataset, z.B. mit VoID, DCAT • Name • Version / Datum • Publisher • Lizenz • Umfang • Untermengen (Sachbegriffe, Personen, Institutionen, …) Zugehörigkeit der einzelnen Konzepte zum Datenset explizit kennzeichnen, z.B. mit dcterms:isPartOf Page 53
  54. 54. Wunschliste (Fortsetzung) Format • utf-8 normalized (nicht in Grundzeichen und Akzent „zerlegt“) • RDF validiert • Datei aufgeteilt in Entitäten Versionen • alle veröffentlichten Versionen zum Download verfügbar Struktur • explizite Hierarchie in Sachgruppen-Systematik Page 54
  55. 55. Zusammengefasst … • Semantischen Reichtum der GND erhalten • Kompatibilität zu SKOS-Vokabularen verbessern (einige Früchte hängen sehr niedrig!) Page 55
  56. 56. Vielen Dank! Links: STW: http://zbw.eu/stw GND Sachbegriffe in Skosmos: http://zbw.eu/beta/skosmos/swdskos/de SPARQL Endpoints: http://zbw.eu/beta/sparql GND Beispielqueries: https://github.com/jneubert/sparql-queries/tree/master/gnd Kontakt: j.neubert@zbw.eu Page 56

×