Digitale Bibliothek Jakob Voss Semantic Web und Identifikatoren Digitale Bibliothek WS 2007/2008 Fachhochschule Hannover Informationsmanagement (BA) 10. Dezember 2007
Idee Computer sollen  „verstehen“ Heterogene Daten weltweit vernetzen Logische Beschreibung mit Regeln und Schlußfolgerungen
RDF = URI + Unicode + Tripel  + Regeln   =  „Semantik“  (?) "Literal" @lang Resource Description Framework
Resource Description Framework &quot;Ananas&quot;@en RDF-Schema und Ontologien Abkürzung von URIs durch Namensräume @prefix skos: <http://www.w3.org/2004/02/skos/core#> . @prefix agro: <http://www.fao.org/aos/agrovoc> .
RDF/XML <rdf:RDF   xmlns:rdf=&quot; http://www.w3.org/1999/02/22-rdf-syntax-ns# &quot;   xmlns:skos=&quot; http://www.w3.org/2004/02/skos/core# &quot;   xmlns=&quot; http://www.fao.org/aos/agrovoc &quot;>   < skos:Concept  rdf:about=&quot; #c385 &quot;>   < skos:prefLabel  xml:lang=&quot;en&quot;> Ananas </skos:prefLabel>   </ skos:Concept > </rdf:RDF> RDF/XML ist Murx aber zum Datenaustausch oft unvermeidlich Ohne speziellen Parser aussichtslos
Feldbasierte Formate Einfache Daten Titel : Zettelwirtschaft  Autor : Krajewski, Markus  Pica+ 021A : a : Zettelwirtschaft 028A : d : Markus a : Krajeski
RDF-basiertes Format Einfache Daten Titel : Zettelwirtschaft  Autor : Krajewski, Markus  RDF in Notation 3: @prefix foaf <http://xmlns.com/foaf/0.1/>. @prefix dc <http://purl.org/dc/elements/1.1/>. [] dc:title &quot;Zettelwirtschaft&quot; ; foaf:firstName &quot;Markus&quot; ; foaf:secondName &quot;Krajeski&quot; .
RDF-basiertes Format dc:title foaf:firstName foaf:secondName @prefix foaf <http://xmlns.com/foaf/0.1/>. @prefix dc <http://purl.org/dc/elements/1.1/>. [] dc:title &quot;Zettelwirtschaft&quot; ; foaf:firstName &quot;Markus&quot; ; foaf:secondName &quot;Krajeski&quot; . ... Zettelwirtschaft Markus Krajewski
Mapping nach RDF Mapping von Datenformaten 021A$a => dc:title 028A$d => foaf:firstName 028A$a => foaf:secondName In der Praxis etwas schwieriger, da Daten selten atomar sind (Ansetzungsregeln etc.) und voneinander abhängen!
Beispielontologien Dublin Core SKOS FRBR (!) FOAF ...
Quelle:  Mikroformate <div class=&quot;vevent&quot;> <h2  class=&quot;summary&quot; >Weihnachtsfeier</h2> <p> Am  <abbr class=&quot;dstart&quot; title=&quot;2007-12-19&quot;> 19.12. </abbr> findet im  <span class=&quot;location&quot;> Neubau </span> wieder unsere alljährliche Weihnachtsfeier statt. Bitte tragt euch ein auf der  <a href=&quot;http://company.de/xmas/&quot;  class=&quot;url&quot; >Infoseite</a>! </p> </div> summary : Weihnachtsfeier dstart : 2007-12-19 url : http://company.de/xmas/  location : Neubau Datensatz RDF
use LWP::Simple; my $opac = 'http://opc4.tib.uni-hannover.de:8080/DB=11';  my $ikt = 1016; my $regexp = '>Ausleihstatus: <\/strong><\/td><td[^>]+>([^>]+)<BR>([^>]+)<'; my $isbn = shift @ARGV; my @status; if ($isbn) { my $url = $opac . &quot;/CMD?ACT=SRCHA&IKT=&quot; . $ikt . &quot;&TRM=&quot; . $isbn; my $html = get($url); while ($html =~ m/$regexp/g) { push @status, &quot;$isbn: $1, $2&quot;; } @status = (&quot;$isbn: nicht gefunden&quot;) unless @status; print join(&quot;\n&quot;, @status) . &quot;\n&quot;; } else { print &quot;Usage: $0 ISBN\n&quot;; } Quelle:  Screen Scraper RDF
Quelle:  unAPI Ziel Bereitstellung einzeln identifizierter Objekte Anfragesyntax HTTP-Request mit zwei Parametern id:  Identifikator des Objektes format : Gewünschtes Format Antwortsyntax Formatliste in XML oder spezifisches Format RDF
Quelle:  Harvesting wget, OAI, RSS... Datenbereinigung Konvertierung nach RDF Beispiele DBPedia Swoogle ...
GRDDL Gleaning Resource Descriptions from Dialects of Languages (&quot;Griddle&quot;) W3C Recommendation (September 2007) XML/XHTML RDF
GRDDL in XHTML <html> <head  profile=&quot;http://www.w3.org/2003/g/data-view&quot; > <!-- Achtung, hier sind Daten mittels GRDDL verfügbar! --> <link  rel=&quot;transformation&quot; href=&quot;...XSLT-Script...&quot; />  <!-- Verweis auf das GRDDL-Transformationsscript --> <link  rel=&quot;transformation&quot; href=&quot;...&quot; /> <!-- ggf. weitere Scripte --> <!-- ... XHTML-Dokument ... --> Anwendungen können per Autodiscovery erkennen, dass RDF-Daten verfügbar sind
Anwendungen Beliebige vorhandene Daten in RDF umwandeln Semantic Search Engine Swoogle Semantic MediaWiki DBPedia
Beispielanfragen Übung: DBPedia (http://dbpedia.org) Anfrage zusammenbasteln (SPARQL-light) Beispiele: Filme, deren Musik jemand gemacht hat, der im Jahr 1965 geboren wurde Filme, deren Regisseur gleichzeitig die Filmmusik gemacht hat ...
Beispielanfrage 1965 1965 Filme , deren Musik  jemand  gemacht hat, der im Jahr 1965 geboren wurde? (music und born sind hierbei vorher bekannte Prädikate einer gemeinsamen Ontologie) Dancer in the Dark Björk ? ?
Vernüpfungen vieler Quellen 1965 OPAC Wikipedia Dancer in the Dark Björk Buch über Björk PND:119525054
Identifikatoren
URI, IRI, URN, URL... Uniform Resource Identifier unabhängig vom Zugriffsmechanismus jede mögliche Art von Resource weltweit eindeutig, hierarchisches System Syntax:  schema:identifier http://... URL info:isbn:... info-URI urn:... URN ...
URI, IRI, URN, URL... IRI: Internationalisierte URI (Unicode) Was keine URI hat, ist im Semantic Web nicht existent! Einfache Variante: Permalinks
Identifikatoren in Bibliotheken Sigel, ISIL, MARC-Codes, ... Notationen einer Klassifikation Verlags-IDs: ISSN ISBN DOI ...
Auf dem Web ins Semantic Web Vorhandene Identifikatoren in URLs umwandeln Vorhandene Datenformate auf RDF und Ontologien abbilden Daten verfügbar machen
Probleme des Semantic Web Daten und Anwendungen (Henne-Ei) Visualisierung und Anfrageformulierung Datenqualität Unvollständige Daten Unterschiedliche Interpretationen Widersprüche Nicht zu unterschätzen! Semantik vs. Pragmatik (Theorie & Praxis)
Semantik? Das Semantik Web hat nichts mit Semantik zu tun sondern nur mit der Verknüpfung von Daten.

Semantic Web und Identifikatoren

  • 1.
    Digitale Bibliothek JakobVoss Semantic Web und Identifikatoren Digitale Bibliothek WS 2007/2008 Fachhochschule Hannover Informationsmanagement (BA) 10. Dezember 2007
  • 2.
    Idee Computer sollen „verstehen“ Heterogene Daten weltweit vernetzen Logische Beschreibung mit Regeln und Schlußfolgerungen
  • 3.
    RDF = URI+ Unicode + Tripel + Regeln = „Semantik“ (?) &quot;Literal&quot; @lang Resource Description Framework
  • 4.
    Resource Description Framework&quot;Ananas&quot;@en RDF-Schema und Ontologien Abkürzung von URIs durch Namensräume @prefix skos: <http://www.w3.org/2004/02/skos/core#> . @prefix agro: <http://www.fao.org/aos/agrovoc> .
  • 5.
    RDF/XML <rdf:RDF xmlns:rdf=&quot; http://www.w3.org/1999/02/22-rdf-syntax-ns# &quot; xmlns:skos=&quot; http://www.w3.org/2004/02/skos/core# &quot; xmlns=&quot; http://www.fao.org/aos/agrovoc &quot;> < skos:Concept rdf:about=&quot; #c385 &quot;> < skos:prefLabel xml:lang=&quot;en&quot;> Ananas </skos:prefLabel> </ skos:Concept > </rdf:RDF> RDF/XML ist Murx aber zum Datenaustausch oft unvermeidlich Ohne speziellen Parser aussichtslos
  • 6.
    Feldbasierte Formate EinfacheDaten Titel : Zettelwirtschaft Autor : Krajewski, Markus Pica+ 021A : a : Zettelwirtschaft 028A : d : Markus a : Krajeski
  • 7.
    RDF-basiertes Format EinfacheDaten Titel : Zettelwirtschaft Autor : Krajewski, Markus RDF in Notation 3: @prefix foaf <http://xmlns.com/foaf/0.1/>. @prefix dc <http://purl.org/dc/elements/1.1/>. [] dc:title &quot;Zettelwirtschaft&quot; ; foaf:firstName &quot;Markus&quot; ; foaf:secondName &quot;Krajeski&quot; .
  • 8.
    RDF-basiertes Format dc:titlefoaf:firstName foaf:secondName @prefix foaf <http://xmlns.com/foaf/0.1/>. @prefix dc <http://purl.org/dc/elements/1.1/>. [] dc:title &quot;Zettelwirtschaft&quot; ; foaf:firstName &quot;Markus&quot; ; foaf:secondName &quot;Krajeski&quot; . ... Zettelwirtschaft Markus Krajewski
  • 9.
    Mapping nach RDFMapping von Datenformaten 021A$a => dc:title 028A$d => foaf:firstName 028A$a => foaf:secondName In der Praxis etwas schwieriger, da Daten selten atomar sind (Ansetzungsregeln etc.) und voneinander abhängen!
  • 10.
    Beispielontologien Dublin CoreSKOS FRBR (!) FOAF ...
  • 11.
    Quelle: Mikroformate<div class=&quot;vevent&quot;> <h2 class=&quot;summary&quot; >Weihnachtsfeier</h2> <p> Am <abbr class=&quot;dstart&quot; title=&quot;2007-12-19&quot;> 19.12. </abbr> findet im <span class=&quot;location&quot;> Neubau </span> wieder unsere alljährliche Weihnachtsfeier statt. Bitte tragt euch ein auf der <a href=&quot;http://company.de/xmas/&quot; class=&quot;url&quot; >Infoseite</a>! </p> </div> summary : Weihnachtsfeier dstart : 2007-12-19 url : http://company.de/xmas/ location : Neubau Datensatz RDF
  • 12.
    use LWP::Simple; my$opac = 'http://opc4.tib.uni-hannover.de:8080/DB=11'; my $ikt = 1016; my $regexp = '>Ausleihstatus: <\/strong><\/td><td[^>]+>([^>]+)<BR>([^>]+)<'; my $isbn = shift @ARGV; my @status; if ($isbn) { my $url = $opac . &quot;/CMD?ACT=SRCHA&IKT=&quot; . $ikt . &quot;&TRM=&quot; . $isbn; my $html = get($url); while ($html =~ m/$regexp/g) { push @status, &quot;$isbn: $1, $2&quot;; } @status = (&quot;$isbn: nicht gefunden&quot;) unless @status; print join(&quot;\n&quot;, @status) . &quot;\n&quot;; } else { print &quot;Usage: $0 ISBN\n&quot;; } Quelle: Screen Scraper RDF
  • 13.
    Quelle: unAPIZiel Bereitstellung einzeln identifizierter Objekte Anfragesyntax HTTP-Request mit zwei Parametern id: Identifikator des Objektes format : Gewünschtes Format Antwortsyntax Formatliste in XML oder spezifisches Format RDF
  • 14.
    Quelle: Harvestingwget, OAI, RSS... Datenbereinigung Konvertierung nach RDF Beispiele DBPedia Swoogle ...
  • 15.
    GRDDL Gleaning ResourceDescriptions from Dialects of Languages (&quot;Griddle&quot;) W3C Recommendation (September 2007) XML/XHTML RDF
  • 16.
    GRDDL in XHTML<html> <head profile=&quot;http://www.w3.org/2003/g/data-view&quot; > <!-- Achtung, hier sind Daten mittels GRDDL verfügbar! --> <link rel=&quot;transformation&quot; href=&quot;...XSLT-Script...&quot; /> <!-- Verweis auf das GRDDL-Transformationsscript --> <link rel=&quot;transformation&quot; href=&quot;...&quot; /> <!-- ggf. weitere Scripte --> <!-- ... XHTML-Dokument ... --> Anwendungen können per Autodiscovery erkennen, dass RDF-Daten verfügbar sind
  • 17.
    Anwendungen Beliebige vorhandeneDaten in RDF umwandeln Semantic Search Engine Swoogle Semantic MediaWiki DBPedia
  • 18.
    Beispielanfragen Übung: DBPedia(http://dbpedia.org) Anfrage zusammenbasteln (SPARQL-light) Beispiele: Filme, deren Musik jemand gemacht hat, der im Jahr 1965 geboren wurde Filme, deren Regisseur gleichzeitig die Filmmusik gemacht hat ...
  • 19.
    Beispielanfrage 1965 1965Filme , deren Musik jemand gemacht hat, der im Jahr 1965 geboren wurde? (music und born sind hierbei vorher bekannte Prädikate einer gemeinsamen Ontologie) Dancer in the Dark Björk ? ?
  • 20.
    Vernüpfungen vieler Quellen1965 OPAC Wikipedia Dancer in the Dark Björk Buch über Björk PND:119525054
  • 21.
  • 22.
    URI, IRI, URN,URL... Uniform Resource Identifier unabhängig vom Zugriffsmechanismus jede mögliche Art von Resource weltweit eindeutig, hierarchisches System Syntax: schema:identifier http://... URL info:isbn:... info-URI urn:... URN ...
  • 23.
    URI, IRI, URN,URL... IRI: Internationalisierte URI (Unicode) Was keine URI hat, ist im Semantic Web nicht existent! Einfache Variante: Permalinks
  • 24.
    Identifikatoren in BibliothekenSigel, ISIL, MARC-Codes, ... Notationen einer Klassifikation Verlags-IDs: ISSN ISBN DOI ...
  • 25.
    Auf dem Webins Semantic Web Vorhandene Identifikatoren in URLs umwandeln Vorhandene Datenformate auf RDF und Ontologien abbilden Daten verfügbar machen
  • 26.
    Probleme des SemanticWeb Daten und Anwendungen (Henne-Ei) Visualisierung und Anfrageformulierung Datenqualität Unvollständige Daten Unterschiedliche Interpretationen Widersprüche Nicht zu unterschätzen! Semantik vs. Pragmatik (Theorie & Praxis)
  • 27.
    Semantik? Das SemantikWeb hat nichts mit Semantik zu tun sondern nur mit der Verknüpfung von Daten.