Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Bit sosem 2016-wieners-sitzung-08_semantic-web

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 62 Anzeige

Weitere Verwandte Inhalte

Ähnlich wie Bit sosem 2016-wieners-sitzung-08_semantic-web (20)

Anzeige

Weitere von Institute for Digital Humanities, University of Cologne (20)

Aktuellste (20)

Anzeige

Bit sosem 2016-wieners-sitzung-08_semantic-web

  1. 1. Basisinformationstechnologie II – Sommersemester 2016 – 23. Mai 2016 Dr. Jan G. Wieners Semantic Web Mikroformate, RDF
  2. 2. Ausgangspunkt: Das World Wide Web (WWW)  Einschränkungen des WWW Semantic Web  Problemstellung, Intention, Worum geht‘s?  Wissensrepräsentation  Mikroformate  RDF, RDF / XML  (Ontologien)  Anwendung: FOAF Sitzungsüberblick
  3. 3. Beschreiben Sie sich und Ihren Freundeskreis mit den Begriffen aus FOAF in RDF / XML. Das FOAF-Vokabular finden Sie erläutert unter http://xmlns.com/foaf/spec/. Prüfen Sie Ihre Arbeit mit dem W3C-Validator unter http://www.w3.org/RDF/Validator („Triples and Graph“) <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf- syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <!– Hier kommt das FOAF-XML rein --> </rdf:RDF> Sitzungsaufgaben
  4. 4. Speichern Sie Ihre XML-Datei und einen Screenshot Ihres von http://www.w3.org/RDF/Validator generierten Graphen in einem Zip-Archiv und laden Sie Ihr Werk in WoMS hoch. Registrierungstoken: http://womsvm.hki.uni- koeln.de/register/veranstaltung/QnO1DG8NeUTrizQR Sitzungsaufgaben
  5. 5. World Wide Web
  6. 6. Tim Berners-Lee(*1955, London)
  7. 7. Vannevar Bush(1890-1974)
  8. 8. „Magic“:  Rechtschreibfehler: „accidentally“ vs. „acidentally“ It‘s magic?
  9. 9. „Magic“ II:  Ranking: Sortierung der Treffer von hochrelevanten zu weniger relevanten Treffern It‘s magic?
  10. 10. „Magic“ II:  Ranking: Sortierung der Treffer von hochrelevanten zu weniger relevanten Treffern „Magic“ III:  Performance: It‘s magic?
  11. 11. „What‘s wrong with the web?“ – die Grenzen des WWW I. „Wer ist Jan Wieners?“  Suchanfrage: Wieners  [Wer], [ist] weniger relevante Suchterme  tf-idf-maß World Wide Web
  12. 12. tf-idf-Maß:  Termfrequenz: Häufigkeit des (Such)Terms / der Wortform im jeweiligen Dokument  Bestimmung der Trennschärfe einer Wortform: Inverse Document Frequency (IDF), Inverse Dokumenthäufigkeit  Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet. 𝐼𝐷𝐹 = log( 𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐷𝐵 𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐷𝐵 )
  13. 13. „What‘s wrong with the web?“ – die Grenzen des WWW  II. „Zeige mir Fotos von Paris“  Suchmaschinen versuchen (mitunter), die Bedeutung eines Bildes / das im Bild dargestellt durch den Kontext zu erschließen:  Dateiname  Text, der sich in Bildnähe befindet
  14. 14. „What‘s wrong with the web?“ – die Grenzen des WWW  III. „Finde Musik, die ich mögen könnte“  Knackpunkt: Hintergrundwissen – Welche Musik mag ich derzeit? (Musikgeschmack verändert sich mitunter) World Wide Web
  15. 15. Oh weh, was meint sie / er damit bloß??? Knackpunkt: Den Computermechanismen mangelt‘s an Wissen! „knowledge gap“:  Probleme im Verständnis natürlicher Sprache  Interpretation des Inhaltes von Bildern oder anderen multimedialen Dingen  Computer verfügt nicht über Hintergrundwissen über das der Benutzer / die Benutzerin verfügt  Computer verfügt nicht über Hintergrundwissen über die Benutzerin / den Benutzer
  16. 16. Semantic Web
  17. 17. Ach so ist das gemeint! …hätte sie / er das nicht gleich sagen können?!? ToDo: Wissenslücke zwischen Benutzer und Computer mindern  Bereitstellung von Wissen in einer Art und Weise, in der es von Computern verarbeitet werden und für weiteres Schließen verwendet werden kann  Z.B.: Bereitstellung von (semantischen) Metainformationen, die die Inhalte der Website beschreiben (description, keywords, etc.)
  18. 18. Bild + Metadaten  Schlüsselwörter  Georeferenzierung ◦ Adresskodierung (Postanschrift) ◦ Zuweisung von Koordinaten (Geotagging) ◦ …
  19. 19.  Konzept des Semantic Web formuliert 1996 von Tim Berners-Lee  Kerntechnologien (logikbasierte Sprachen zur Representation von Wissen und (automatisiertem) Schließen) entwickelt im Forschungsfeld der Künstlichen Intelligenz.  Standards: W3C  Ursprüngliche Intention: Annotation – Anreicherung der Inhalte im WWW durch Metadaten Semantic Web
  20. 20. Semantic Web I: Semantische Annotation durch Mikroformate
  21. 21. „Designed for humans first and machines second, microformats are a set of simple, open data formats built upon existing and widely adopted standards.” (http://microformats.org/) Mikroformate
  22. 22. Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate): XHTML / HTML, einfach: <div> <div>Max Mustermann</div> <div>Musterfirma</div <div>01234/56789</div> <a href="http://example.com/">http://example.com/</a> </div> Semantic Web
  23. 23. Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate): XHTML, einfach: <div> <div>Max Mustermann</div> <div>Musterfirma</div <div>01234/56789</div> <a href="http://example.com/">http://example.com/</a> </div> Im Mikroformat „hCard“: <div class="vcard"> <div class="fn">Max Mustermann</div> <div class="org">Musterfirma</div> <div class="tel">01234/56789</div> <a class="url" href="http://example.com/">http://example.com/</a> </div> Semantic Web
  24. 24. Semantic Web II: Das Resource Description Framework (RDF)
  25. 25. http://www.w3schools.com/webservices/ws_rdf_intro.asp
  26. 26.  Extensible Markup Language (XML)  „Wohlgeformtheit“?  Gültigkeit (Validität)?  DTD?  XML Schema? Schematron? RELAX NG? XML?
  27. 27. Natürlichsprachige Aussage: Die Webseite „http://www.example.org“ hat einen Urheber namens Jan Wieners. Die Aussage besteht aus dem Gegenstand der Aussage, einer Eigenschaft des Gegenstandes und einem Wert für diese Eigenschaft. In RDF Terminologie wird der Gegenstand der Aussage als Subjekt (subject), die Eigenschaft als Prädikat (predicate) und Wert der Eigenschaft als Objekt (object) bezeichnet.  Subjekt, Prädikat und Objekt bilden ein Tripel. RDF Grundkonzepte
  28. 28. Ein oder mehrere Tripel bilden einen RDF- Graphen: RDF (Graphen)modell Subject A Object A Predicate A Object B Predicate B
  29. 29.  Bestandteile der Aussage getrennt von Leerzeichen  URI in spitzen Klammern  Eigenschaftswerte in Anführungszeichen  Standardnotationsformate: N-Triple, Turtle, etc. „Das HTML-Dokument index.html wurde von Jan Wieners erstellt“: ex:index.html dc:creator “Jan Wieners“ N-Tripel Notation
  30. 30. Namespaces / Namensräume  Klassen und Eigenschaften unterhalb des gleichen URI bilden einen Namespace. Beispiel: Dublin Core  http://purl.org/dc/elements/1.1/title  http://purl.org/dc/elements/1.1/creator  http://purl.org/dc/elements/1.1/date FOAF  http://xmlns.com/foaf/0.1 RDF
  31. 31. Intention:  Globaler, eindeutiger Bezeichner für Entitäten  Unterklassen: URL, URN Beispiele:  http://de.wikipedia.org/wiki/Uniform_Resource_Identi fier  urn:isbn:4-7980-1224-6 Uniform Resource Identifier (URI)
  32. 32. <?xml version="1.0"?> <RDF> <Description about="http://www.hki.uni-koeln.de/wieners"> <author>Jan Wieners</author> <homepage> http://www.hki.uni-koeln.de </homepage> </Description> </RDF> RDF (reduziert, ohne Namensräume) Ressource (resource)  Worum geht‘s?
  33. 33. <?xml version="1.0"?> <RDF> <Description about="http://www.hki.uni-koeln.de/wieners"> <author>Jan Wieners</author> <homepage> http://www.hki.uni-koeln.de </homepage> </Description> </RDF> RDF (reduziert, ohne Namensräume) Ressource (resource)  Worum geht‘s? Eigenschaft (property)
  34. 34. <?xml version="1.0"?> <RDF> <Description about="http://www.hki.uni-koeln.de/wieners"> <author>Jan Wieners</author> <homepage> http://www.hki.uni-koeln.de </homepage> </Description> </RDF> RDF (reduziert, ohne Namensräume) Ressource (resource)  Worum geht‘s? Eigenschaft (property) Eigenschaftswert (property value)
  35. 35. <?xml version="1.0"?> <RDF> <Description about="http://www.hki.uni-koeln.de/wieners"> <author>Jan Wieners</author> <homepage> http://www.hki.uni-koeln.de </homepage> </Description> </RDF> RDF (reduziert, ohne Namensräume) Ressource (resource)  Worum geht‘s? Eigenschaft (property) Eigenschaftswert (property value) RDF-Statement = Ressource + Eigenschaft + Eigenschaftswert „Jan Wieners ist der Autor von http://www.hki.uni- koeln.de/wieners“
  36. 36. RDF (mit Namensräumen) <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:hki="http://www.hki.uni-koeln.de"> <rdf:Description rdf:about="http://www.hki.uni- koeln.de/ITZert"> <hki:author>Jan Wieners</hki:author> <hki:homepage>http://www.hki.uni- koeln.de/wieners</hki:homepage> </rdf:Description> </rdf:RDF>
  37. 37. RDF/XML, Praxisbeispiel: Friend of a Friend (FOAF)
  38. 38. „The FOAF ("Friend of a Friend") project is a community driven effort to define an RDF vocabulary for expressing metadata about people, and their interests, relationships and activities.” Grundaufbau eines FOAF-Dokumentes: RDF / XML und FOAF <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <!– Hier kommt das FOAF-XML rein --> </rdf:RDF>
  39. 39. Hinzufügen einer Person und eines Namens: RDF / XML und FOAF <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <foaf:Person> <foaf:name>Jan Wieners</foaf:name> </foaf:Person> </rdf:RDF>
  40. 40. Hinzufügen einer Email-Adresse: RDF / XML und FOAF <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <foaf:Person> <foaf:name>Jan Wieners</foaf:name> <foaf:mbox rdf:resource="mailto:jan.wieners@uni-koeln.de"/> </foaf:Person> </rdf:RDF>
  41. 41. Relationen zu anderen Personen ergänzen: <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <foaf:Person> <foaf:name>Jan Wieners</foaf:name> <foaf:mbox rdf:resource="mailto:jan.wieners@uni-koeln.de"/> </foaf:Person> <foaf:Person rdf:nodeID="Joyce"> <foaf:name>James Joyce</foaf:name> <rdfs:seeAlso rdf:resource="http://www.example.com/jamesjoyce.rdf"/> </foaf:Person> <foaf:Person rdf:nodeID="Jan"> <foaf:name>Jan Wieners</foaf:name> <foaf:knows rdf:nodeID="Joyce"/> <foaf:knows> <foaf:Person rdf:nodeID="Murakami"> <foaf:name>Haruki Murakami</foaf:name> </foaf:Person> </foaf:knows> </foaf:Person> </rdf:RDF>
  42. 42. SPARQL – SPARQL Protocol And RDF Query Language Ein Beispiel(vgl. http://de.wikipedia.org/wiki/SPARQL): PREFIX abc: <http://example.com/exampleOntology#> SELECT ?capital ?country WHERE { ?x abc:cityname ?capital; abc:isCapitalOf ?y . ?y abc:countryname ?country ; abc:isInContinent abc:Africa . } Abfrage von Informationen
  43. 43. /
  44. 44.  https://commons.wikimedia.org/wiki/File:Universitat_zu_K oln_Hauptgebaude_ost.jpg  http://causeitsallaboutthepayno.tumblr.com/post/1317464 53874/im-currently-listening-to-adeles-new  www.giphy.com  http://www.homecartravelers.com/wp- content/uploads/2015/10/incredible-japan-tokyo-tower- travel-guides-photograph.jpg  http://www.airport-orly.com/images/paris-tour-eiffel-at- night.jpg  http://static.idolator.com/uploads/2015/01/paris-never- be.jpg  http://media.news.de/resources/images/94/58/22f4885b6 2c5dc4614965c45ae3a.jpg Bildnachweise

Hinweis der Redaktion

  • Zwei Arten, mit dem WWW zu arbeiten: Gezieltes Auffinden
  • Internet vs. WWW
    WWW: Sehr großer Ressourcenfundus:
    Dokumente bzw. Textuelle Information (HTML-Dokumente, PDF, etc.)
    Bilder
    Videodateien

    Konzepte: Das WWW…
    bietet Mechanismen, um auf Dokumente des Internets zugreifen zu können  HTTP, sowie die Eindeutige Referenzierung von Inhalten: URL
    bietet eine Syntax (HTML), um Dokumente anzuzeigen und miteinander zu verknüpfen (Hyperlinks)

    Aufruf einer Website - HTTP
    Client stellt Anfrage an Server
    Server beantwortet Anfrage, d.h. liefert ein Dokument / eine Ressource zurück

    HTML definiert eine Syntax, die von Rechnern verstanden werden kann  HTML sagt dem Rechner, wie das Dokument angezeigt werden soll



  • 1989 am CERN entwickelt
    Intention: Austausch von Forschungsergebnissen
  • Vannevar Bush [ˌvæˈniː.vɚ] KBE (1890 in Everett, Massachusetts; † 30. Juni 1974 in Belmont, Massachusetts) war ein US-amerikanischer Ingenieur und Analogrechner-Pionier. Bush war eine der wichtigsten Personen der US-Kriegsführung im Zweiten Weltkrieg, er entwickelte in seinem 1945 publizierten Essay As we may think das Konzept des Memex (Memory Extender), der als ein Vorläufer des Personal Computers und des Hypertextes gilt.
  • Der Memex (Memory Extender; dt. etwa: Gedächtnis-Erweiterer) ist ein als möglichst menschengerechtes, einfach bedienbares Wissensfindungs- und Verwertungssystem konzipierter Kompakt-Analog-Rechner, der 1945 von Vannevar Bush im Artikel As We May Think (Atlantic Monthly, Juli 1945, S. 101 ff.) fiktiv vorgestellt wurde.
  • …die Nadel im Heuhaufen…?
  • Probleme:
    Prüfung der Suchergebnisse auf Benutzerseite - daran haben wir uns gewöhnt
    Gefahr / Dilemma: Die Suchanfrage ist überspezifiziert  Durch Angabe weiterer Suchterme schränken wir die Trefferliste erneut ein
    Weiteres Problem: Es könnten Seiten im WWW existieren, die sich mit dem Suchbegriff beschäftigen, ihn jedoch nicht nennen, z.B. Jan W.
    (Zunehmendes Problem „Filter Bubble“: Wir bekommen nur die Suchergebnisse, die Suchmaschinenanbieter für uns vorsehen)
  • Discovr
  • Paradigmenwechsel: von passiver Rechenleistung zu aktiver Rechenleistung (Verständnis der Inhalte)

    Das Semantic Web will Computern helfen, die Bedeutung hinter den Webseiten zu "verstehen“
    Das derzeitige WWW dreht sich um Dokumente
    Das Semantic Web dreht sich um Dinge (Menschen, Musik, Filme), um Konzepte

    Eine Möglichkeit: Einbettung semantischer Information in HTML-Seiten
  • Paradigmenwechsel: von passiver Rechenleistung zu aktiver Rechenleistung (Verständnis der Inhalte)

    Das Semantic Web will Computern helfen, die Bedeutung hinter den Webseiten zu "verstehen“
    Das derzeitige WWW dreht sich um Dokumente
    Das Semantic Web dreht sich um Dinge (Menschen, Musik, Filme), um Konzepte

    Eine Möglichkeit: Einbettung semantischer Information in HTML-Seiten
  • Ein Knackpunkt: Das Semantic Web macht Arbeit. Benutzerinnen und Benutzer müssen neben Inhalten auch Metadaten, d.h. beschreibende Inhalte bereitstellen

    Bei Webseiten: Mikroformate

  • Wissensrepräsentation: Ontologien und Ontologiesprachen
    (Ontologie: Wissenschaft vom Sein des Seienden)
    Ontologien werden formuliert in formalen Sprachen mit einer wohldefinierten Syntax
    Ontologien gründen auf der Arbeit von Gemeinschaften (Communities)
     RDF und OWL = am häufigsten verwendete Sprachen

    Ontologien
    Leichtgewichtige: Unterscheidungen zwischen Klassen, Instanzen und Eigenschaften, jedoch nur minimale Beschreibung der Konzepte
    Schwergewichtige: Machen‘s möglich, präziser zu beschreiben, wie Klassen von anderen Klassen abgeleitet sind

     In der Praxis: leichtgewichtige Ontologien
  • The Resource Description Framework (RDF)
    Erfunden, um Ressourcen im WWW zu beschreiben
    Anders als Mikroformate: Machines first
    Domänenunabhängig, d.h. kann auch dazu verwendet werden, Entitäten der realen Welt zu beschreiben
    RDF ist eine einfache Modellierungssprache, ist jedoch die Grundlage für komplexere Sprachen wie OWL
  • (Binäre) Relationen
  • RDF-Graphen lassen sich visuell darstellen: (Subjekt und Objekt sind dann die Knoten, Prädikate die Kanten im Graphen)
  • Namensraum
    Vordefiniert, selbst definierter Namensraum
    Ontologie
  • URL
  • Frag
    findet die Namen aller afrikanischen Hauptstädte und das Land, in dem sich die jeweilige Hauptstadt befindet.ezeichen = Variablen

×