1114 sasaki-metadata

8.755 Aufrufe

Veröffentlicht am

Metadaten zur Anreicherung von Inhalten ist möglich.
Prototypen Tools für Content Authors existieren.
Externe, offene Linked Data Datenquellen sind wichtiger Bestandteil der Anreicherung.
Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein.
Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
8.755
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
17
Aktionen
Geteilt
0
Downloads
14
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Die Metadaten gehen nicht in die Inhalte
    Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt
    Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt
  • Auszeichnung bzw. Anreicherung von Inhalten mit Metadaten
    Objektbezogene Metadaten (ONIX, GND, VIAF, ...) müssen nicht weggeworfen werden, können aber der Inhaltsanreicherung dienen
    Ziel
    Neue Anwendungsszenarien
    Verknüpfung mit weiteren Datenquellen
  • Note: for most of the things RDFS is enough
  • Die Metadaten gehen nicht in die Inhalte
    Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt
    Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt
  • 1114 sasaki-metadata

    1. 1. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 1
    2. 2. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 2
    3. 3. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 3
    4. 4. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung Sasaki – Markupforum 2014 – Automatisch – Manuell – Kombiniert 4
    5. 5. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung • Standardisierte Vokabulare für manuelle Indexierung – Bibliothek: Gemeinschaftliche Normdatei – Verlage, Buchhändler, ....: ONIX Sasaki – Markupforum 2014 5
    6. 6. Anwendungsszenario: Suche erleichtern • „Finde alle Bücher über Stuttgart“ • „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten – DNB http://d-nb.info/gnd/4058282-6 – LOC http://id.loc.gov/authorities/names/n79110280 – VIAF http://viaf.org/viaf/153084910/ – ... Sasaki – Markupforum 2014 6
    7. 7. WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGEN GEMEINSAM? Sasaki – Markupforum 2014 7
    8. 8. Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 8 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
    9. 9. Metadaten – der nächste Schritt: Vom Container in die Inhalte Sasaki – Markupforum 2014 9
    10. 10. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 10
    11. 11. Schritt 1: Automatische Erkennung von Eigennamen • <p>Welcome to Stuttgart.</p> Output (als ITS 2.0 “Text Analysis” Markup) Sasaki – Markupforum 2014 Input • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 11
    12. 12. Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL Nutzt DBpedia URIs aus Schritt 1. Beispielabfrage, prüft ob Entität ein Ort (place) ist • SELECT ?wikiURI ... WHERE{ http://dbpedia.org/resource/Stuttgart rdf:type <http://schema.org/Place>.... } Sasaki – Markupforum 2014 12
    13. 13. Schritt 3: Generierung von Schema.org Markup und Inhalten • Teil 1: SPARQL Query Ausgabe und • Teil 2: Dokument • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> Output: Dokument mit Schema.org Markup Sasaki – Markupforum 2014 Input • <p>Welcome to <span ... Itemscope="" itemtype="http://schema.org/Place"> … Stuttgart</span>! Population: 600038</p> 13
    14. 14. Outputtest mit „Structured Data Testing Tool“ http://www.google.com/webmasters/tools/richsnippets Sasaki – Markupforum 2014 14
    15. 15. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 15
    16. 16. 1) Tooling für Content Authors • Beispiel oXygen Editor Modifikation • Informationsquellen aus dem Web holen – Autor muss Quellen und Abfragen auswählen können – Strukturgenerierung muss konfigurierbar sein Sasaki – Markupforum 2014 16
    17. 17. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Einwohnerzahl für Orte aus DBpedia Sasaki – Markupforum 2014 17
    18. 18. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Geburtsdatum für Personen aus DBpedia Sasaki – Markupforum 2014 18
    19. 19. 2) Wissen um Datenquellen und Technologien • Technologien In a Nutshell – RDF um Daten zu repräsentieren – SPARQL zur Abfrage – ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud • Relevante Datenquellen – Allgemein: DBpedia – Speziell: Abhängig von der Domäne + dem Anwendungsfall – (Potential): die eigenen, angereicherten Inhalte selbst  – Beispiel: Reiseführer über Stuttgart Sasaki – Markupforum 2014 19
    20. 20. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 20
    21. 21. WAS IST LINKED DATA? KURZEINFÜHRUNG … Sasaki – Markupforum 2014 21
    22. 22. Bausteine für das Web <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 22
    23. 23. Inhalt <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 23
    24. 24. Links (oder “Identifier”) <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 24
    25. 25. Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 25 ✔
    26. 26. Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 26 ?
    27. 27. Linked Data = maschinenlesbare Information im Web <p>All content on this site is licensed under <a property="http://creativecommons.org/ns#license" href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 27 ?
    28. 28. Linked Data = maschinenlesbare Information im Web Web der Dokumente Web der Daten Sasaki – Markupforum 2014 28
    29. 29. AUFGABEN & TECHNOLOGIEN Sasaki – Markupforum 2014 29
    30. 30. Aufgaben … Linked Data erzeugen Linked Data Vokabulare definieren Abfrage Sasaki – Markupforum 2014 30
    31. 31. Technologien • Linked Data erzeugen: RDF (Resource Description Framework) • Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung - Ontologien) • Abfrage: SPARQL Sasaki – Markupforum 2014 31
    32. 32. Linked Data = RDF „Aussagen“ Referenz zu einer Lizenz als RDF Aussage (Visualisierung): Sasaki – Markupforum 2014 32 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
    33. 33. Turtle Syntax Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: Sasaki – Markupforum 2014 33 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/ @prefix cc: <http://creativecommons.org/ns#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. <http://www.w3.org/Talks/2014/1114-sasaki-metadata/> cc:license <http://creativecommons.org/licenses/by/3.0/>.
    34. 34. RDF Aussagen … Sasaki – Markupforum 2014 34 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
    35. 35. … auf der Basis von Vokabularien cc:license rdf:Type rdf:Property Sasaki – Markupforum 2014 35 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/licenses/by/3.0/ ex:Presentations rdf:Type RDF Schema - Definition von Classes (example “Presentations”) und properties (like “cc:license”) OWL (Web Ontology Language) - Definition weiterer (logischer) Constraints für Vokabulare SKOS - Beschreibung von Thesauri, Taxonomien, Klassifikationen
    36. 36. Query - SPARQL • Query Sprache für RDF • Muster in Linkstrukturen • Z.B. „Finde Präsentationen mit CC ... Lizenz“ Ergebnis: http://www.w3.org/Talks/2014/1114-sasaki-metadata/ PREFIX cc: <http://creativecommons.org/ns#> SELECT ?presentation WHERE { ?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. } Sasaki – Markupforum 2014 36
    37. 37. SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“: http://tinyurl.com/dbpedia-bsp Sasaki – Markupforum 2014 37
    38. 38. Q/A in Suchmaschinen heute Sasaki – Markupforum 2014 38 Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
    39. 39. Potential: Q/A selbstgemacht • Suche traditional – Volltextindexierung, Linkgewichtung • Metadaten heute – Zugang zu Containern • Metadaten morgen: Linked Data – Neue Anwendungsszenarien, z.B. Q/A selbst gemacht  Sasaki – Markupforum 2014 39
    40. 40. Wiederholung: Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 40 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
    41. 41. Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“ Sasaki – Markupforum 2014 41
    42. 42. Potential: Buchauslieferung = Inhalte + Anreicherung Sasaki – Markupforum 2014 42
    43. 43. Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen! Sasaki – Markupforum 2014 43 Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ • Ergebnis ist anders als Abfrage gegenüber DBpedia  „Gustav Schwab“ • Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich • Linked Data Anreicherung + Anfragen: spezifisch für Markt  Reiseführer, Technische Dokumentation, ...
    44. 44. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 44
    45. 45. Linked Data 1/3 Sasaki – Markupforum 2014
    46. 46. Linked Data 2/3 Sasaki – Markupforum 2014 Linked Open Data Cloud
    47. 47. Linked Data 2/3 Umfasst DNB, Library of Congress Subject Headings, VIAF, ... Sasaki – Markupforum 2014 Linked Open Data Cloud
    48. 48. Linked Data 3/3 Linguistic Linked Open Data Cloud Sasaki – Markupforum 2014
    49. 49. Linked Open Data Clouds – Datensätze und Themen Linked Open Data Linguistic Sasaki – Markupforum 2014 Linked Open Data Öffentliche Daten 183 18.05% Publikations(Meta)daten 96 9.47% Medizin, Biologie 83 8.19% User-generated Content 48 4.73% Domänenübergreifend 41 4.04% Multimedia 22 2.17% Geoinformationen 21 2.07% Soziales Web 520 51.28% Total 1014 Lexika Thesauri Einzelsprachlich Mehrsprachig …
    50. 50. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 50
    51. 51. Nächste Schritte (und Herausforderungen) • Datenquellen finden – Zugangspunkt http://datahub.io/dataset?tags=lod • Datenqualität • Vereinfachen: Linked Data erzeugen – Z.B. CSV als Linked Data verarbeiten • Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen • Abfrage + Services für Endnutzer bereit stellen Sasaki – Markupforum 2014 51
    52. 52. Einstieg/Loslegen W3C LD4LT (Linked Data for Language Technology) Community Group • http://www.w3.org/community/ld4lt/ • https://www.w3.org/community/ld4lt/join • https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities • Teilnahme ist frei  LIDER: EU Projekt, November 2013 – Oktober 2015 • Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen • Anwendungsszenarien und Anforderungen von … Ihnen Sasaki – Markupforum 2014
    53. 53. Zusammenfassung • Metadaten zur Anreicherung von Inhalten ist möglich • Prototypen Tools für Content Authors existieren • Externe, offene Linked Data Datenquellen wie DBpedia sind wichtiger Bestandteil der Anreicherung • Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein • Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben • Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt  Sasaki – Markupforum 2014 53
    54. 54. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 54

    ×