1114 sasaki-metadata

9.152 Aufrufe

Veröffentlicht am

Metadaten zur Anreicherung von Inhalten ist möglich.
Prototypen Tools für Content Authors existieren.
Externe, offene Linked Data Datenquellen sind wichtiger Bestandteil der Anreicherung.
Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein.
Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

1114 sasaki-metadata

  1. 1. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 1
  2. 2. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 2
  3. 3. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 3
  4. 4. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung Sasaki – Markupforum 2014 – Automatisch – Manuell – Kombiniert 4
  5. 5. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung • Standardisierte Vokabulare für manuelle Indexierung – Bibliothek: Gemeinschaftliche Normdatei – Verlage, Buchhändler, ....: ONIX Sasaki – Markupforum 2014 5
  6. 6. Anwendungsszenario: Suche erleichtern • „Finde alle Bücher über Stuttgart“ • „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten – DNB http://d-nb.info/gnd/4058282-6 – LOC http://id.loc.gov/authorities/names/n79110280 – VIAF http://viaf.org/viaf/153084910/ – ... Sasaki – Markupforum 2014 6
  7. 7. WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGEN GEMEINSAM? Sasaki – Markupforum 2014 7
  8. 8. Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 8 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  9. 9. Metadaten – der nächste Schritt: Vom Container in die Inhalte Sasaki – Markupforum 2014 9
  10. 10. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 10
  11. 11. Schritt 1: Automatische Erkennung von Eigennamen • <p>Welcome to Stuttgart.</p> Output (als ITS 2.0 “Text Analysis” Markup) Sasaki – Markupforum 2014 Input • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 11
  12. 12. Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL Nutzt DBpedia URIs aus Schritt 1. Beispielabfrage, prüft ob Entität ein Ort (place) ist • SELECT ?wikiURI ... WHERE{ http://dbpedia.org/resource/Stuttgart rdf:type <http://schema.org/Place>.... } Sasaki – Markupforum 2014 12
  13. 13. Schritt 3: Generierung von Schema.org Markup und Inhalten • Teil 1: SPARQL Query Ausgabe und • Teil 2: Dokument • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> Output: Dokument mit Schema.org Markup Sasaki – Markupforum 2014 Input • <p>Welcome to <span ... Itemscope="" itemtype="http://schema.org/Place"> … Stuttgart</span>! Population: 600038</p> 13
  14. 14. Outputtest mit „Structured Data Testing Tool“ http://www.google.com/webmasters/tools/richsnippets Sasaki – Markupforum 2014 14
  15. 15. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 15
  16. 16. 1) Tooling für Content Authors • Beispiel oXygen Editor Modifikation • Informationsquellen aus dem Web holen – Autor muss Quellen und Abfragen auswählen können – Strukturgenerierung muss konfigurierbar sein Sasaki – Markupforum 2014 16
  17. 17. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Einwohnerzahl für Orte aus DBpedia Sasaki – Markupforum 2014 17
  18. 18. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Geburtsdatum für Personen aus DBpedia Sasaki – Markupforum 2014 18
  19. 19. 2) Wissen um Datenquellen und Technologien • Technologien In a Nutshell – RDF um Daten zu repräsentieren – SPARQL zur Abfrage – ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud • Relevante Datenquellen – Allgemein: DBpedia – Speziell: Abhängig von der Domäne + dem Anwendungsfall – (Potential): die eigenen, angereicherten Inhalte selbst  – Beispiel: Reiseführer über Stuttgart Sasaki – Markupforum 2014 19
  20. 20. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 20
  21. 21. WAS IST LINKED DATA? KURZEINFÜHRUNG … Sasaki – Markupforum 2014 21
  22. 22. Bausteine für das Web <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 22
  23. 23. Inhalt <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 23
  24. 24. Links (oder “Identifier”) <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 24
  25. 25. Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 25 ✔
  26. 26. Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 26 ?
  27. 27. Linked Data = maschinenlesbare Information im Web <p>All content on this site is licensed under <a property="http://creativecommons.org/ns#license" href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 27 ?
  28. 28. Linked Data = maschinenlesbare Information im Web Web der Dokumente Web der Daten Sasaki – Markupforum 2014 28
  29. 29. AUFGABEN & TECHNOLOGIEN Sasaki – Markupforum 2014 29
  30. 30. Aufgaben … Linked Data erzeugen Linked Data Vokabulare definieren Abfrage Sasaki – Markupforum 2014 30
  31. 31. Technologien • Linked Data erzeugen: RDF (Resource Description Framework) • Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung - Ontologien) • Abfrage: SPARQL Sasaki – Markupforum 2014 31
  32. 32. Linked Data = RDF „Aussagen“ Referenz zu einer Lizenz als RDF Aussage (Visualisierung): Sasaki – Markupforum 2014 32 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  33. 33. Turtle Syntax Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: Sasaki – Markupforum 2014 33 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/ @prefix cc: <http://creativecommons.org/ns#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. <http://www.w3.org/Talks/2014/1114-sasaki-metadata/> cc:license <http://creativecommons.org/licenses/by/3.0/>.
  34. 34. RDF Aussagen … Sasaki – Markupforum 2014 34 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  35. 35. … auf der Basis von Vokabularien cc:license rdf:Type rdf:Property Sasaki – Markupforum 2014 35 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/licenses/by/3.0/ ex:Presentations rdf:Type RDF Schema - Definition von Classes (example “Presentations”) und properties (like “cc:license”) OWL (Web Ontology Language) - Definition weiterer (logischer) Constraints für Vokabulare SKOS - Beschreibung von Thesauri, Taxonomien, Klassifikationen
  36. 36. Query - SPARQL • Query Sprache für RDF • Muster in Linkstrukturen • Z.B. „Finde Präsentationen mit CC ... Lizenz“ Ergebnis: http://www.w3.org/Talks/2014/1114-sasaki-metadata/ PREFIX cc: <http://creativecommons.org/ns#> SELECT ?presentation WHERE { ?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. } Sasaki – Markupforum 2014 36
  37. 37. SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“: http://tinyurl.com/dbpedia-bsp Sasaki – Markupforum 2014 37
  38. 38. Q/A in Suchmaschinen heute Sasaki – Markupforum 2014 38 Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
  39. 39. Potential: Q/A selbstgemacht • Suche traditional – Volltextindexierung, Linkgewichtung • Metadaten heute – Zugang zu Containern • Metadaten morgen: Linked Data – Neue Anwendungsszenarien, z.B. Q/A selbst gemacht  Sasaki – Markupforum 2014 39
  40. 40. Wiederholung: Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 40 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  41. 41. Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“ Sasaki – Markupforum 2014 41
  42. 42. Potential: Buchauslieferung = Inhalte + Anreicherung Sasaki – Markupforum 2014 42
  43. 43. Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen! Sasaki – Markupforum 2014 43 Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ • Ergebnis ist anders als Abfrage gegenüber DBpedia  „Gustav Schwab“ • Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich • Linked Data Anreicherung + Anfragen: spezifisch für Markt  Reiseführer, Technische Dokumentation, ...
  44. 44. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 44
  45. 45. Linked Data 1/3 Sasaki – Markupforum 2014
  46. 46. Linked Data 2/3 Sasaki – Markupforum 2014 Linked Open Data Cloud
  47. 47. Linked Data 2/3 Umfasst DNB, Library of Congress Subject Headings, VIAF, ... Sasaki – Markupforum 2014 Linked Open Data Cloud
  48. 48. Linked Data 3/3 Linguistic Linked Open Data Cloud Sasaki – Markupforum 2014
  49. 49. Linked Open Data Clouds – Datensätze und Themen Linked Open Data Linguistic Sasaki – Markupforum 2014 Linked Open Data Öffentliche Daten 183 18.05% Publikations(Meta)daten 96 9.47% Medizin, Biologie 83 8.19% User-generated Content 48 4.73% Domänenübergreifend 41 4.04% Multimedia 22 2.17% Geoinformationen 21 2.07% Soziales Web 520 51.28% Total 1014 Lexika Thesauri Einzelsprachlich Mehrsprachig …
  50. 50. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 50
  51. 51. Nächste Schritte (und Herausforderungen) • Datenquellen finden – Zugangspunkt http://datahub.io/dataset?tags=lod • Datenqualität • Vereinfachen: Linked Data erzeugen – Z.B. CSV als Linked Data verarbeiten • Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen • Abfrage + Services für Endnutzer bereit stellen Sasaki – Markupforum 2014 51
  52. 52. Einstieg/Loslegen W3C LD4LT (Linked Data for Language Technology) Community Group • http://www.w3.org/community/ld4lt/ • https://www.w3.org/community/ld4lt/join • https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities • Teilnahme ist frei  LIDER: EU Projekt, November 2013 – Oktober 2015 • Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen • Anwendungsszenarien und Anforderungen von … Ihnen Sasaki – Markupforum 2014
  53. 53. Zusammenfassung • Metadaten zur Anreicherung von Inhalten ist möglich • Prototypen Tools für Content Authors existieren • Externe, offene Linked Data Datenquellen wie DBpedia sind wichtiger Bestandteil der Anreicherung • Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein • Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben • Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt  Sasaki – Markupforum 2014 53
  54. 54. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 54

×