Tools, offene Daten, Vokabulare 
und Anwendungsszenarien für 
semi-automatische 
Metadatengenerierung 
Felix Sasaki 
DFKI / W3C Fellow 
Sasaki – Markupforum 2014 
1
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
2
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
3
Metadaten 
• Häufige Anwendung im Publikationsbereich: 
Indexierung 
Sasaki – Markupforum 2014 
– Automatisch 
– Manuell 
– Kombiniert 
4
Metadaten 
• Häufige Anwendung im Publikationsbereich: 
Indexierung 
• Standardisierte Vokabulare für manuelle 
Indexierung 
– Bibliothek: Gemeinschaftliche Normdatei 
– Verlage, Buchhändler, ....: ONIX 
Sasaki – Markupforum 2014 
5
Anwendungsszenario: 
Suche erleichtern 
• „Finde alle Bücher über Stuttgart“ 
• „Stuttgart“ abbildbar auf Metadaten in 
bibliothekarischen Normdaten 
– DNB http://d-nb.info/gnd/4058282-6 
– LOC 
http://id.loc.gov/authorities/names/n79110280 
– VIAF http://viaf.org/viaf/153084910/ 
– ... 
Sasaki – Markupforum 2014 
6
WAS HABEN GEGENWÄRTIGE 
METADATENANWENDUNGEN 
GEMEINSAM? 
Sasaki – Markupforum 2014 
7
Metadaten = Containerlabel 
Sasaki – Markupforum 2014 
http://viaf.org/viaf/153084910/ 
8 
http://d-nb.info/gnd/4058282-6 
http://id.loc.gov/authorities/names/n79110280
Metadaten – der nächste Schritt: 
Vom Container in die Inhalte 
Sasaki – Markupforum 2014 
9
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
10
Schritt 1: Automatische 
Erkennung von Eigennamen 
• <p>Welcome to Stuttgart.</p> 
Output (als ITS 2.0 “Text Analysis” Markup) 
Sasaki – Markupforum 2014 
Input 
• <p>Welcome to <span its-ta-ident-ref=" 
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 
11
Schritt 2: Anreicherung der Inhalte 
durch Zugriff auf DBpedia via SPARQL 
Nutzt DBpedia URIs aus Schritt 1. 
Beispielabfrage, prüft ob Entität ein Ort (place) ist 
• SELECT ?wikiURI ... 
WHERE{ http://dbpedia.org/resource/Stuttgart 
rdf:type <http://schema.org/Place>.... } 
Sasaki – Markupforum 2014 
12
Schritt 3: Generierung von Schema.org 
Markup und Inhalten 
• Teil 1: SPARQL Query Ausgabe und 
• Teil 2: Dokument 
• <p>Welcome to <span its-ta-ident-ref=" 
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> 
Output: Dokument mit Schema.org Markup 
Sasaki – Markupforum 2014 
Input 
• <p>Welcome to 
<span ... Itemscope="" 
itemtype="http://schema.org/Place"> 
… Stuttgart</span>! Population: 600038</p> 
13
Outputtest mit 
„Structured Data Testing Tool“ 
http://www.google.com/webmasters/tools/richsnippets 
Sasaki – Markupforum 2014 
14
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
15
1) Tooling für Content Authors 
• Beispiel oXygen Editor Modifikation 
• Informationsquellen aus dem Web holen 
– Autor muss Quellen und Abfragen auswählen 
können 
– Strukturgenerierung muss konfigurierbar sein 
Sasaki – Markupforum 2014 
16
1) Tooling für Content Authors 
• Abfrage von Datenquellen macht Inhalte 
dynamisch – Inhalte werden intelligent und 
„fragen die Datenquellen ab“ 
– Beispiel: Einwohnerzahl für Orte aus DBpedia 
Sasaki – Markupforum 2014 
17
1) Tooling für Content Authors 
• Abfrage von Datenquellen macht Inhalte 
dynamisch – Inhalte werden intelligent und 
„fragen die Datenquellen ab“ 
– Beispiel: Geburtsdatum für Personen aus DBpedia 
Sasaki – Markupforum 2014 
18
2) Wissen um 
Datenquellen und Technologien 
• Technologien In a Nutshell 
– RDF um Daten zu repräsentieren 
– SPARQL zur Abfrage 
– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu 
Speichern > Link zur Linked Data Cloud 
• Relevante Datenquellen 
– Allgemein: DBpedia 
– Speziell: Abhängig von der Domäne + dem Anwendungsfall 
– (Potential): die eigenen, angereicherten Inhalte selbst  
– Beispiel: Reiseführer über Stuttgart 
Sasaki – Markupforum 2014 
19
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
20
WAS IST LINKED DATA? 
KURZEINFÜHRUNG … 
Sasaki – Markupforum 2014 
21
Bausteine für das Web 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
22
Inhalt 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
23
Links (oder “Identifier”) 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
24
Einfach: “Finde alle Seiten mit Links zu 
http://creativecommons.org/licenses/by/3.0/“ 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
25 
✔
Noch schwierig: “Finde alle Inhalte die unter 
einer Creative Commons Lizenz stehen“ 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
26 
?
Linked Data = 
maschinenlesbare Information im Web 
<p>All content on this site is licensed under 
<a property="http://creativecommons.org/ns#license" 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
27 
?
Linked Data = 
maschinenlesbare Information im Web 
Web der 
Dokumente Web der Daten 
Sasaki – Markupforum 2014 
28
AUFGABEN & TECHNOLOGIEN 
Sasaki – Markupforum 2014 
29
Aufgaben … 
Linked Data erzeugen 
Linked Data Vokabulare definieren 
Abfrage 
Sasaki – Markupforum 2014 
30
Technologien 
• Linked Data erzeugen: 
RDF (Resource Description Framework) 
• Vokabulare definieren: RDFS, SKOS, OWL (für 
komplexe wissensbasierte Modellierung - 
Ontologien) 
• Abfrage: SPARQL 
Sasaki – Markupforum 2014 
31
Linked Data = RDF „Aussagen“ 
Referenz zu einer Lizenz als RDF Aussage (Visualisierung): 
Sasaki – Markupforum 2014 
32 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/
Turtle Syntax 
Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: 
Sasaki – Markupforum 2014 
33 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/ 
@prefix cc: <http://creativecommons.org/ns#>. 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
<http://www.w3.org/Talks/2014/1114-sasaki-metadata/> 
cc:license 
<http://creativecommons.org/licenses/by/3.0/>.
RDF Aussagen … 
Sasaki – Markupforum 2014 
34 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/
… auf der Basis von 
Vokabularien 
cc:license rdf:Type rdf:Property 
Sasaki – Markupforum 2014 
35 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/licenses/by/3.0/ 
ex:Presentations 
rdf:Type 
RDF Schema 
- Definition von Classes (example “Presentations”) und properties (like “cc:license”) 
OWL (Web Ontology Language) 
- Definition weiterer (logischer) Constraints für Vokabulare 
SKOS 
- Beschreibung von Thesauri, Taxonomien, Klassifikationen
Query - SPARQL 
• Query Sprache für RDF 
• Muster in Linkstrukturen 
• Z.B. „Finde Präsentationen mit CC ... Lizenz“ 
Ergebnis: 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
PREFIX cc: <http://creativecommons.org/ns#> 
SELECT ?presentation WHERE { 
?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. 
} 
Sasaki – Markupforum 2014 
36
SPARQL Abfrage mit Dbpedia: „Personen die in 
Stuttgart vor 1900 geboren wurden“: 
http://tinyurl.com/dbpedia-bsp 
Sasaki – Markupforum 2014 
37
Q/A in Suchmaschinen heute 
Sasaki – Markupforum 2014 
38 
Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
Potential: Q/A selbstgemacht 
• Suche traditional 
– Volltextindexierung, Linkgewichtung 
• Metadaten heute 
– Zugang zu Containern 
• Metadaten morgen: Linked Data 
– Neue Anwendungsszenarien, z.B. 
Q/A selbst gemacht  
Sasaki – Markupforum 2014 
39
Wiederholung: 
Metadaten = Containerlabel 
Sasaki – Markupforum 2014 
http://viaf.org/viaf/153084910/ 
40 
http://d-nb.info/gnd/4058282-6 
http://id.loc.gov/authorities/names/n79110280
Potential: Buchproduktionsprozess für 
Anwendung „Q/A via Metadaten in Inhalten“ 
Sasaki – Markupforum 2014 
41
Potential: Buchauslieferung = Inhalte + Anreicherung 
Sasaki – Markupforum 2014 
42
Potential: Buchauslieferung = Inhalte + Anreicherung + 
Service Linked Data Abfrage über die Anreicherungen! 
Sasaki – Markupforum 2014 
43 
Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ 
• Ergebnis ist anders als Abfrage gegenüber DBpedia 
 „Gustav Schwab“ 
• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich 
• Linked Data Anreicherung + Anfragen: spezifisch für Markt 
 Reiseführer, Technische Dokumentation, ...
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
44
Linked Data 1/3 
Sasaki – Markupforum 2014
Linked Data 2/3 
Sasaki – Markupforum 2014 
Linked Open Data Cloud
Linked Data 2/3 
Umfasst DNB, Library of Congress Subject Headings, VIAF, ... 
Sasaki – Markupforum 2014 
Linked Open Data Cloud
Linked Data 3/3 
Linguistic Linked Open Data Cloud 
Sasaki – Markupforum 2014
Linked Open Data Clouds – 
Datensätze und Themen 
Linked Open Data Linguistic 
Sasaki – Markupforum 2014 
Linked Open Data 
Öffentliche Daten 183 18.05% 
Publikations(Meta)daten 96 9.47% 
Medizin, Biologie 83 8.19% 
User-generated Content 48 4.73% 
Domänenübergreifend 41 4.04% 
Multimedia 22 2.17% 
Geoinformationen 21 2.07% 
Soziales Web 520 51.28% 
Total 1014 
Lexika 
Thesauri 
Einzelsprachlich 
Mehrsprachig 
…
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
50
Nächste Schritte 
(und Herausforderungen) 
• Datenquellen finden 
– Zugangspunkt 
http://datahub.io/dataset?tags=lod 
• Datenqualität 
• Vereinfachen: Linked Data erzeugen 
– Z.B. CSV als Linked Data verarbeiten 
• Linked Data Tooling zur Inhaltsanreicherung in 
Authoring Prozesse einbauen 
• Abfrage + Services für Endnutzer bereit stellen 
Sasaki – Markupforum 2014 
51
Einstieg/Loslegen 
W3C LD4LT (Linked Data for Language Technology) Community 
Group 
• http://www.w3.org/community/ld4lt/ 
• https://www.w3.org/community/ld4lt/join 
• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities 
• Teilnahme ist frei  
LIDER: EU Projekt, November 2013 – Oktober 2015 
• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data 
Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen 
• Anwendungsszenarien und Anforderungen von … Ihnen 
Sasaki – Markupforum 2014
Zusammenfassung 
• Metadaten zur Anreicherung von Inhalten ist möglich 
• Prototypen Tools für Content Authors existieren 
• Externe, offene Linked Data Datenquellen wie DBpedia 
sind wichtiger Bestandteil der Anreicherung 
• Angereicherte Inhalte können Basis für neue 
Anwendungen wie SEO sein 
• Angereicherte Inhalte können selbst zur Datenquelle 
werden und neue Anwendungen wie (mehrsprachige) 
Q/A Services erlauben 
• Nächste Schritte u.a.: Bereitstellung einfacher 
Toolkomponenten für die Markupwelt  
Sasaki – Markupforum 2014 
53
Tools, offene Daten, Vokabulare 
und Anwendungsszenarien für 
semi-automatische 
Metadatengenerierung 
Felix Sasaki 
DFKI / W3C Fellow 
Sasaki – Markupforum 2014 
54

1114 sasaki-metadata

  • 1.
    Tools, offene Daten,Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 1
  • 2.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 2
  • 3.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 3
  • 4.
    Metadaten • HäufigeAnwendung im Publikationsbereich: Indexierung Sasaki – Markupforum 2014 – Automatisch – Manuell – Kombiniert 4
  • 5.
    Metadaten • HäufigeAnwendung im Publikationsbereich: Indexierung • Standardisierte Vokabulare für manuelle Indexierung – Bibliothek: Gemeinschaftliche Normdatei – Verlage, Buchhändler, ....: ONIX Sasaki – Markupforum 2014 5
  • 6.
    Anwendungsszenario: Suche erleichtern • „Finde alle Bücher über Stuttgart“ • „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten – DNB http://d-nb.info/gnd/4058282-6 – LOC http://id.loc.gov/authorities/names/n79110280 – VIAF http://viaf.org/viaf/153084910/ – ... Sasaki – Markupforum 2014 6
  • 7.
    WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGEN GEMEINSAM? Sasaki – Markupforum 2014 7
  • 8.
    Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 8 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  • 9.
    Metadaten – dernächste Schritt: Vom Container in die Inhalte Sasaki – Markupforum 2014 9
  • 10.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 10
  • 11.
    Schritt 1: Automatische Erkennung von Eigennamen • <p>Welcome to Stuttgart.</p> Output (als ITS 2.0 “Text Analysis” Markup) Sasaki – Markupforum 2014 Input • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 11
  • 12.
    Schritt 2: Anreicherungder Inhalte durch Zugriff auf DBpedia via SPARQL Nutzt DBpedia URIs aus Schritt 1. Beispielabfrage, prüft ob Entität ein Ort (place) ist • SELECT ?wikiURI ... WHERE{ http://dbpedia.org/resource/Stuttgart rdf:type <http://schema.org/Place>.... } Sasaki – Markupforum 2014 12
  • 13.
    Schritt 3: Generierungvon Schema.org Markup und Inhalten • Teil 1: SPARQL Query Ausgabe und • Teil 2: Dokument • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> Output: Dokument mit Schema.org Markup Sasaki – Markupforum 2014 Input • <p>Welcome to <span ... Itemscope="" itemtype="http://schema.org/Place"> … Stuttgart</span>! Population: 600038</p> 13
  • 14.
    Outputtest mit „StructuredData Testing Tool“ http://www.google.com/webmasters/tools/richsnippets Sasaki – Markupforum 2014 14
  • 15.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 15
  • 16.
    1) Tooling fürContent Authors • Beispiel oXygen Editor Modifikation • Informationsquellen aus dem Web holen – Autor muss Quellen und Abfragen auswählen können – Strukturgenerierung muss konfigurierbar sein Sasaki – Markupforum 2014 16
  • 17.
    1) Tooling fürContent Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Einwohnerzahl für Orte aus DBpedia Sasaki – Markupforum 2014 17
  • 18.
    1) Tooling fürContent Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Geburtsdatum für Personen aus DBpedia Sasaki – Markupforum 2014 18
  • 19.
    2) Wissen um Datenquellen und Technologien • Technologien In a Nutshell – RDF um Daten zu repräsentieren – SPARQL zur Abfrage – ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud • Relevante Datenquellen – Allgemein: DBpedia – Speziell: Abhängig von der Domäne + dem Anwendungsfall – (Potential): die eigenen, angereicherten Inhalte selbst  – Beispiel: Reiseführer über Stuttgart Sasaki – Markupforum 2014 19
  • 20.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 20
  • 21.
    WAS IST LINKEDDATA? KURZEINFÜHRUNG … Sasaki – Markupforum 2014 21
  • 22.
    Bausteine für dasWeb <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 22
  • 23.
    Inhalt <p>All contenton this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 23
  • 24.
    Links (oder “Identifier”) <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 24
  • 25.
    Einfach: “Finde alleSeiten mit Links zu http://creativecommons.org/licenses/by/3.0/“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 25 ✔
  • 26.
    Noch schwierig: “Findealle Inhalte die unter einer Creative Commons Lizenz stehen“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 26 ?
  • 27.
    Linked Data = maschinenlesbare Information im Web <p>All content on this site is licensed under <a property="http://creativecommons.org/ns#license" href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 27 ?
  • 28.
    Linked Data = maschinenlesbare Information im Web Web der Dokumente Web der Daten Sasaki – Markupforum 2014 28
  • 29.
    AUFGABEN & TECHNOLOGIEN Sasaki – Markupforum 2014 29
  • 30.
    Aufgaben … LinkedData erzeugen Linked Data Vokabulare definieren Abfrage Sasaki – Markupforum 2014 30
  • 31.
    Technologien • LinkedData erzeugen: RDF (Resource Description Framework) • Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung - Ontologien) • Abfrage: SPARQL Sasaki – Markupforum 2014 31
  • 32.
    Linked Data =RDF „Aussagen“ Referenz zu einer Lizenz als RDF Aussage (Visualisierung): Sasaki – Markupforum 2014 32 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  • 33.
    Turtle Syntax Referenzzu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: Sasaki – Markupforum 2014 33 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/ @prefix cc: <http://creativecommons.org/ns#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. <http://www.w3.org/Talks/2014/1114-sasaki-metadata/> cc:license <http://creativecommons.org/licenses/by/3.0/>.
  • 34.
    RDF Aussagen … Sasaki – Markupforum 2014 34 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  • 35.
    … auf derBasis von Vokabularien cc:license rdf:Type rdf:Property Sasaki – Markupforum 2014 35 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/licenses/by/3.0/ ex:Presentations rdf:Type RDF Schema - Definition von Classes (example “Presentations”) und properties (like “cc:license”) OWL (Web Ontology Language) - Definition weiterer (logischer) Constraints für Vokabulare SKOS - Beschreibung von Thesauri, Taxonomien, Klassifikationen
  • 36.
    Query - SPARQL • Query Sprache für RDF • Muster in Linkstrukturen • Z.B. „Finde Präsentationen mit CC ... Lizenz“ Ergebnis: http://www.w3.org/Talks/2014/1114-sasaki-metadata/ PREFIX cc: <http://creativecommons.org/ns#> SELECT ?presentation WHERE { ?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. } Sasaki – Markupforum 2014 36
  • 37.
    SPARQL Abfrage mitDbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“: http://tinyurl.com/dbpedia-bsp Sasaki – Markupforum 2014 37
  • 38.
    Q/A in Suchmaschinenheute Sasaki – Markupforum 2014 38 Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
  • 39.
    Potential: Q/A selbstgemacht • Suche traditional – Volltextindexierung, Linkgewichtung • Metadaten heute – Zugang zu Containern • Metadaten morgen: Linked Data – Neue Anwendungsszenarien, z.B. Q/A selbst gemacht  Sasaki – Markupforum 2014 39
  • 40.
    Wiederholung: Metadaten =Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 40 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  • 41.
    Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“ Sasaki – Markupforum 2014 41
  • 42.
    Potential: Buchauslieferung =Inhalte + Anreicherung Sasaki – Markupforum 2014 42
  • 43.
    Potential: Buchauslieferung =Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen! Sasaki – Markupforum 2014 43 Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ • Ergebnis ist anders als Abfrage gegenüber DBpedia  „Gustav Schwab“ • Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich • Linked Data Anreicherung + Anfragen: spezifisch für Markt  Reiseführer, Technische Dokumentation, ...
  • 44.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 44
  • 45.
    Linked Data 1/3 Sasaki – Markupforum 2014
  • 46.
    Linked Data 2/3 Sasaki – Markupforum 2014 Linked Open Data Cloud
  • 47.
    Linked Data 2/3 Umfasst DNB, Library of Congress Subject Headings, VIAF, ... Sasaki – Markupforum 2014 Linked Open Data Cloud
  • 48.
    Linked Data 3/3 Linguistic Linked Open Data Cloud Sasaki – Markupforum 2014
  • 49.
    Linked Open DataClouds – Datensätze und Themen Linked Open Data Linguistic Sasaki – Markupforum 2014 Linked Open Data Öffentliche Daten 183 18.05% Publikations(Meta)daten 96 9.47% Medizin, Biologie 83 8.19% User-generated Content 48 4.73% Domänenübergreifend 41 4.04% Multimedia 22 2.17% Geoinformationen 21 2.07% Soziales Web 520 51.28% Total 1014 Lexika Thesauri Einzelsprachlich Mehrsprachig …
  • 50.
    Überblick • Metadaten:Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 50
  • 51.
    Nächste Schritte (undHerausforderungen) • Datenquellen finden – Zugangspunkt http://datahub.io/dataset?tags=lod • Datenqualität • Vereinfachen: Linked Data erzeugen – Z.B. CSV als Linked Data verarbeiten • Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen • Abfrage + Services für Endnutzer bereit stellen Sasaki – Markupforum 2014 51
  • 52.
    Einstieg/Loslegen W3C LD4LT(Linked Data for Language Technology) Community Group • http://www.w3.org/community/ld4lt/ • https://www.w3.org/community/ld4lt/join • https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities • Teilnahme ist frei  LIDER: EU Projekt, November 2013 – Oktober 2015 • Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen • Anwendungsszenarien und Anforderungen von … Ihnen Sasaki – Markupforum 2014
  • 53.
    Zusammenfassung • Metadatenzur Anreicherung von Inhalten ist möglich • Prototypen Tools für Content Authors existieren • Externe, offene Linked Data Datenquellen wie DBpedia sind wichtiger Bestandteil der Anreicherung • Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein • Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben • Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt  Sasaki – Markupforum 2014 53
  • 54.
    Tools, offene Daten,Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 54

Hinweis der Redaktion

  • #9 Die Metadaten gehen nicht in die Inhalte Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt
  • #10 Auszeichnung bzw. Anreicherung von Inhalten mit Metadaten Objektbezogene Metadaten (ONIX, GND, VIAF, ...) müssen nicht weggeworfen werden, können aber der Inhaltsanreicherung dienen Ziel Neue Anwendungsszenarien Verknüpfung mit weiteren Datenquellen
  • #36 Note: for most of the things RDFS is enough
  • #41 Die Metadaten gehen nicht in die Inhalte Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt