Bit sosem 2016-wieners-sitzung-08_semantic-web

Basisinformationstechnologie II – Sommersemester 2016 – 23. Mai 2016
Dr. Jan G. Wieners
Semantic Web
Mikroformate, RDF

Ausgangspunkt: Das World Wide Web (WWW)
 Einschränkungen des WWW
Semantic Web
 Problemstellung, Intention, Worum geht‘s?
 Wissensrepräsentation
 Mikroformate
 RDF, RDF / XML
 (Ontologien)
 Anwendung: FOAF
Sitzungsüberblick

Beschreiben Sie sich und Ihren Freundeskreis mit den
Begriffen aus FOAF in RDF / XML. Das FOAF-Vokabular finden
Sie erläutert unter http://xmlns.com/foaf/spec/.
Prüfen Sie Ihre Arbeit mit dem W3C-Validator unter
http://www.w3.org/RDF/Validator („Triples and Graph“)
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-
syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<!– Hier kommt das FOAF-XML rein -->
</rdf:RDF>
Sitzungsaufgaben

Speichern Sie Ihre XML-Datei und einen Screenshot Ihres
von http://www.w3.org/RDF/Validator generierten
Graphen in einem Zip-Archiv und laden Sie Ihr Werk in
WoMS hoch.
Registrierungstoken: http://womsvm.hki.uni-
koeln.de/register/veranstaltung/QnO1DG8NeUTrizQR
Sitzungsaufgaben

Tim Berners-Lee(*1955, London)

„Magic“:
 Rechtschreibfehler:
„accidentally“
vs. „acidentally“
It‘s magic?

„Magic“ II:
 Ranking: Sortierung der Treffer von hochrelevanten zu
weniger relevanten Treffern
It‘s magic?

„Magic“ II:
 Ranking: Sortierung der Treffer von hochrelevanten zu
weniger relevanten Treffern
„Magic“ III:
 Performance:
It‘s magic?

„What‘s wrong with the web?“ – die Grenzen des WWW
I. „Wer ist Jan Wieners?“
 Suchanfrage: Wieners
 [Wer], [ist] weniger relevante Suchterme
 tf-idf-maß
World Wide Web

tf-idf-Maß:
 Termfrequenz: Häufigkeit des (Such)Terms / der Wortform im
jeweiligen Dokument
 Bestimmung der Trennschärfe einer Wortform: Inverse
Document Frequency (IDF), Inverse Dokumenthäufigkeit
 Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen
des Gesamtbestandes anzutreffen ist, verfügt über eine
höhere Trennschärfe als eine Wortform, die sich in
zahlreichen Titelaufnahmen findet.
𝐼𝐷𝐹 = log(
𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐷𝐵
𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐷𝐵
)

„What‘s wrong with the web?“ – die Grenzen des WWW
 II. „Zeige mir Fotos von Paris“
 Suchmaschinen versuchen (mitunter), die Bedeutung
eines Bildes / das im Bild dargestellt durch den Kontext
zu erschließen:
 Dateiname
 Text, der sich in Bildnähe befindet

„What‘s wrong with the
web?“ – die Grenzen des
WWW
 III. „Finde Musik, die ich
mögen könnte“
 Knackpunkt:
Hintergrundwissen –
Welche Musik mag ich
derzeit? (Musikgeschmack
verändert sich mitunter)
World Wide Web

Oh weh, was
meint sie / er
damit bloß???
Knackpunkt: Den Computermechanismen
mangelt‘s an Wissen!
„knowledge gap“:
 Probleme im Verständnis natürlicher
Sprache
 Interpretation des Inhaltes von Bildern
oder anderen multimedialen Dingen
 Computer verfügt nicht über
Hintergrundwissen über das der
Benutzer / die Benutzerin verfügt
 Computer verfügt nicht über
Hintergrundwissen über die Benutzerin
/ den Benutzer

Ach so ist das gemeint!
…hätte sie / er das nicht
gleich sagen können?!?
ToDo: Wissenslücke zwischen
Benutzer und Computer
mindern
 Bereitstellung von Wissen
in einer Art und Weise, in
der es von Computern
verarbeitet werden und für
weiteres Schließen
verwendet werden kann
 Z.B.: Bereitstellung von
(semantischen)
Metainformationen, die die
Inhalte der Website
beschreiben (description,
keywords, etc.)

Bild + Metadaten
 Schlüsselwörter
 Georeferenzierung
◦ Adresskodierung (Postanschrift)
◦ Zuweisung von Koordinaten (Geotagging)
◦ …

 Konzept des Semantic Web formuliert 1996 von Tim
Berners-Lee
 Kerntechnologien (logikbasierte Sprachen zur
Representation von Wissen und (automatisiertem)
Schließen) entwickelt im Forschungsfeld der
Künstlichen Intelligenz.
 Standards: W3C
 Ursprüngliche Intention: Annotation – Anreicherung
der Inhalte im WWW durch Metadaten
Semantic Web

Semantic Web I:
Semantische Annotation durch
Mikroformate

„Designed for humans first and machines second,
microformats are a set of simple, open data formats built
upon existing and widely adopted standards.”
(http://microformats.org/)
Mikroformate

Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate):
XHTML / HTML, einfach:
<div>
<div>Max Mustermann</div>
<div>Musterfirma</div
<div>01234/56789</div>
<a
href="http://example.com/">http://example.com/</a>
</div>
Semantic Web

Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate):
XHTML, einfach:
<div>
<div>Max Mustermann</div>
<div>Musterfirma</div
<div>01234/56789</div>
<a href="http://example.com/">http://example.com/</a>
</div>
Im Mikroformat „hCard“:
<div class="vcard">
<div class="fn">Max Mustermann</div>
<div class="org">Musterfirma</div>
<div class="tel">01234/56789</div>
<a class="url"
href="http://example.com/">http://example.com/</a>
</div>
Semantic Web

Semantic Web II:
Das Resource Description
Framework (RDF)

http://www.w3schools.com/webservices/ws_rdf_intro.asp

 Extensible Markup Language (XML)
 „Wohlgeformtheit“?
 Gültigkeit (Validität)?
 DTD?
 XML Schema? Schematron? RELAX NG?
XML?

Natürlichsprachige Aussage:
Die Webseite „http://www.example.org“ hat einen Urheber namens Jan Wieners.
Die Aussage besteht aus dem Gegenstand der Aussage,
einer Eigenschaft des Gegenstandes und einem Wert für diese Eigenschaft.
In RDF Terminologie wird der Gegenstand der Aussage als Subjekt (subject), die
Eigenschaft als Prädikat (predicate) und Wert der Eigenschaft als Objekt (object)
bezeichnet.
 Subjekt, Prädikat und Objekt bilden ein Tripel.
RDF Grundkonzepte

Ein oder mehrere Tripel bilden einen RDF-
Graphen:
RDF (Graphen)modell
Subject A Object A
Predicate A
Object B
Predicate B

 Bestandteile der Aussage getrennt von Leerzeichen
 URI in spitzen Klammern
 Eigenschaftswerte in Anführungszeichen
 Standardnotationsformate: N-Triple, Turtle, etc.
„Das HTML-Dokument index.html wurde von Jan
Wieners erstellt“:
ex:index.html dc:creator “Jan Wieners“
N-Tripel Notation

Namespaces / Namensräume
 Klassen und Eigenschaften unterhalb des gleichen URI
bilden einen Namespace.
Beispiel: Dublin Core
 http://purl.org/dc/elements/1.1/title
 http://purl.org/dc/elements/1.1/creator
 http://purl.org/dc/elements/1.1/date
FOAF
 http://xmlns.com/foaf/0.1
RDF

Intention:
 Globaler, eindeutiger Bezeichner für Entitäten
 Unterklassen: URL, URN
Beispiele:
 http://de.wikipedia.org/wiki/Uniform_Resource_Identi
fier
 urn:isbn:4-7980-1224-6
Uniform Resource Identifier (URI)

<RDF>
<Description
about="http://www.hki.uni-koeln.de/wieners">
<author>Jan Wieners</author>
<homepage>
http://www.hki.uni-koeln.de
</homepage>
</Description>
</RDF>
RDF (reduziert, ohne Namensräume)
Ressource (resource)
 Worum geht‘s?

<RDF>
<Description
<homepage>
</homepage>
</Description>
</RDF>
 Worum geht‘s?
Eigenschaft (property)

<RDF>
<Description
<homepage>
</homepage>
</Description>
</RDF>
 Worum geht‘s?
Eigenschaftswert (property value)

<RDF>
<Description
<homepage>
</homepage>
</Description>
</RDF>
 Worum geht‘s?
Eigenschaftswert (property value)
RDF-Statement = Ressource + Eigenschaft +
Eigenschaftswert
„Jan Wieners ist der Autor von http://www.hki.uni-
koeln.de/wieners“

RDF (mit Namensräumen)
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:hki="http://www.hki.uni-koeln.de">
<rdf:Description rdf:about="http://www.hki.uni-
koeln.de/ITZert">
<hki:author>Jan Wieners</hki:author>
<hki:homepage>http://www.hki.uni-
koeln.de/wieners</hki:homepage>
</rdf:Description>
</rdf:RDF>

RDF/XML, Praxisbeispiel: Friend of
a Friend (FOAF)

„The FOAF ("Friend of a Friend") project is a community
driven effort to define an RDF vocabulary for expressing
metadata about people, and their interests, relationships
and activities.”
Grundaufbau eines FOAF-Dokumentes:
RDF / XML und FOAF
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
<!– Hier kommt das FOAF-XML rein -->
</rdf:RDF>

Hinzufügen einer Person und eines Namens:
RDF / XML und FOAF
<foaf:Person>
<foaf:name>Jan Wieners</foaf:name>
</foaf:Person>
</rdf:RDF>

Hinzufügen einer Email-Adresse:
RDF / XML und FOAF
<foaf:Person>
<foaf:mbox rdf:resource="mailto:jan.wieners@uni-koeln.de"/>
</foaf:Person>
</rdf:RDF>

Relationen zu anderen Personen ergänzen:
<foaf:Person>
<foaf:mbox rdf:resource="mailto:jan.wieners@uni-koeln.de"/>
</foaf:Person>
<foaf:Person rdf:nodeID="Joyce">
<foaf:name>James Joyce</foaf:name>
<rdfs:seeAlso rdf:resource="http://www.example.com/jamesjoyce.rdf"/>
</foaf:Person>
<foaf:Person rdf:nodeID="Jan">
<foaf:knows rdf:nodeID="Joyce"/>
<foaf:knows>
<foaf:Person rdf:nodeID="Murakami">
<foaf:name>Haruki Murakami</foaf:name>
</foaf:Person>
</foaf:knows>
</foaf:Person>
</rdf:RDF>

SPARQL – SPARQL Protocol And RDF Query Language
Ein Beispiel(vgl. http://de.wikipedia.org/wiki/SPARQL):
PREFIX abc: <http://example.com/exampleOntology#>
SELECT ?capital ?country
WHERE {
?x abc:cityname ?capital;
abc:isCapitalOf ?y .
?y abc:countryname ?country ;
abc:isInContinent abc:Africa .
}
Abfrage von Informationen

 https://commons.wikimedia.org/wiki/File:Universitat_zu_K
oln_Hauptgebaude_ost.jpg
 http://causeitsallaboutthepayno.tumblr.com/post/1317464
53874/im-currently-listening-to-adeles-new
 www.giphy.com
 http://www.homecartravelers.com/wp-
content/uploads/2015/10/incredible-japan-tokyo-tower-
travel-guides-photograph.jpg
 http://www.airport-orly.com/images/paris-tour-eiffel-at-
night.jpg
 http://static.idolator.com/uploads/2015/01/paris-never-
be.jpg
 http://media.news.de/resources/images/94/58/22f4885b6
2c5dc4614965c45ae3a.jpg
Bildnachweise

Bit sosem 2016-wieners-sitzung-08_semantic-web

Weitere ähnliche Inhalte

Andere mochten auch

Ähnlich wie Bit sosem 2016-wieners-sitzung-08_semantic-web

Mehr von Institute for Digital Humanities, University of Cologne

Bit sosem 2016-wieners-sitzung-08_semantic-web

Hinweis der Redaktion