Advanced Markup & Metadata
Wintersemester 2013 / 2014
15. Januar 2014 – Semantic Web I: Mikroformate

Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Sitzungsüberblick
Ausgangspunkt: Das World Wide Web (WWW)
 Einschränkungen des WWW

Semantic Web





Problemstellung, Intention, Worum geht„s?
Wissensrepräsentation
(Ontologien)
Mikroformate

Später…
 RDF
 RDF / XML
 Anwendung: FOAF
World Wide Web
World Wide Web



Internet vs. WWW
WWW: Sehr großer Ressourcenfundus:
 Dokumente bzw. Textuelle Information (HTMLDokumente, PDF, etc.)
 Bilder
 Videodateien
 …






1989 am CERN entwickelt
Intention: Austausch von Forschungsergebnissen
Konzepte: Das WWW…

 bietet Mechanismen, um auf Dokumente des Internets
zugreifen zu können  HTTP, sowie die Eindeutige
Referenzierung von Inhalten: URL
 bietet eine Syntax (HTML), um Dokumente anzuzeigen
und miteinander zu verknüpfen (Hyperlinks)
World Wide Web
Aufruf einer Website - HTTP
 Client stellt Anfrage an Server
 Server beantwortet Anfrage, d.h. liefert ein
Dokument / eine Ressource zurück


HTML definiert eine Syntax, die von Rechnern
verstanden werden kann  HTML sagt dem
Rechner, wie das Dokument angezeigt werden soll
…die Nadel im Heuhaufen…?
It‘s magic?
„Magic“:
 Rechtschreibfehler:
„accidentally“

vs. „acidentally“
It‘s magic?
„Magic“ II:
 Ranking: Sortierung der Treffer von hochrelevanten zu
weniger relevanten Treffern

„Magic“ III:
 Performance:
World Wide Web
„What„s wrong with the web?“ – die Grenzen des
WWW
I. „Wer ist Jan Wieners?“
 Suchanfrage: Wieners
 [Wer], [ist] weniger relevante Suchterme
„What„s wrong with the web?“ – die Grenzen des
WWW
 II. „Zeige mir Fotos von Paris“

 Suchmaschinen versuchen (mitunter), die
Bedeutung eines Bildes / das im Bild dargestellt
durch den Kontext zu erschließen:
 Dateiname
 Text, der sich in Bildnähe befindet
World Wide Web
„What„s wrong with the
web?“ – die Grenzen
des WWW
 III. „Finde Musik, die
ich mögen könnte“
 Knackpunkt:
Hintergrundwissen –
Welche Musik mag ich
derzeit?
(Musikgeschmack
verändert sich mitunter)
Den Computermechanismen
mangelt„s an Wissen!

„knowledge gap“:
 Probleme im Verständnis
natürlicher Sprache
 Interpretation des Inhaltes von
Bildern oder anderen
multimedialen Dingen
 Computer verfügt nicht über
Hintergrundwissen über das der
Benutzer / die Benutzerin verfügt
 Computer verfügt nicht über
Hintergrundwissen über die
Benutzerin / den Benutzer

Oh weh, was
meint sie / er
damit bloß???
Semantic Web
Paradigmenwechsel: von passiver Rechenleistung
zu aktiver Rechenleistung (Verständnis der Inhalte)
Das Semantic Web will Computern helfen, die
Bedeutung hinter den Webseiten zu "verstehen“
 Das derzeitige WWW dreht sich um Dokumente
 Das Semantic Web dreht sich um Dinge
(Menschen, Musik, Filme), um Konzepte

Eine Möglichkeit: Einbettung semantischer
Information in HTML-Seiten
Semantic Web
Ach so ist das gemeint!
…hätte sie / er das nicht
gleich sagen können?!?

Wissenslücke zwischen
Benutzer und Computer
mindern




Bereitstellung von
Wissen in einer Art und
Weise, in der es von
Computern verarbeitet
werden und für weiteres
Schließen verwendet
werden kann
Z.B.: Bereitstellung von
(semantischen)
Metainformationen, die
die Inhalte der Website
beschreiben
(description, keywords, et
c.)
Friend-of-A-Friend (FOAF)
“Home pages typically say things such as:”









"My name is..."
"I work for..."
"I'm interested in..."
"I live near..."
"My blog is..."
"I write in this weblog..."
"You can see me in this picture..."
"My Public Key is ..."

“FOAF is a way to say all those things, but so that
computers can interpret it. Computers can't understand
English yet, so we have to be a little more precise in
how we say these things. FOAF is a way of saying
these things for computers.”
Bild + Metadaten
 Schlüsselwörter
 Georeferenzierung
◦ Adresskodierung (Postanschrift)
◦ Zuweisung von Koordinaten (Geotagging)
◦ …
Semantic Web







Konzept des Semantic Web formuliert 1996 von
Tim Berners-Lee
Kerntechnologien (logikbasierte Sprachen zur
Representation von Wissen und (automatisiertem)
Schließen) entwickelt im Forschungsfeld der
Künstlichen Intelligenz.
Standards: W3C
Ursprüngliche Intention: Annotation –
Anreicherung der Inhalte im WWW durch
Metadaten
Fokussierungsweisen von KI nach Russell / Norvig
Menschliches Denken

Rationales Denken

„[Die Automatisierung von]
Aktivitäten, die wir dem
menschlichen Denken
zuordnen, Aktivitäten wie
beispielsweise
Entscheidungsfindung,
Problemlösung, Lernen..“
(Bellman, 1978)

„Die Studie mentaler
Fähigkeiten durch die
Nutzung
programmiertechnischer
Modelle.“
(Charniak und
McDermott,1985)

Menschliches Handeln

Rationales Handeln

„Das Studium des
Problems, Computer dazu
zu bringen, Dinge zu tun,
bei denen ihnen
momentan der Mensch
noch überlegen ist.“
(Rich und Knight, 1991)

„Computerintelligenz ist die
Studie des Entwurfs
intelligenter Agenten.“
(Poole et al., 1998)
Mikroformate
Mikroformate
„Designed for humans first and machines
second, microformats are a set of simple, open data
formats built upon existing and widely adopted
standards.” (http://microformats.org/)
Semantic Web
Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate):

XHTML, einfach:
<div>
<div>Max Mustermann</div>
<div>Musterfirma</div
<div>01234/56789</div>
<a
href="http://example.com/">http://example.com/</a>
</div>
Semantic Web
Beispiel: Mikroformat „hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate):
XHTML, einfach:
<div>
<div>Max Mustermann</div>
<div>Musterfirma</div
<div>01234/56789</div>
<a href="http://example.com/">http://example.com/</a>
</div>
Im Mikroformat „hCard“:
<div class="vcard">
<div class="fn">Max Mustermann</div>
<div class="org">Musterfirma</div>
<div class="tel">01234/56789</div>
<a class="url" href="http://example.com/">http://example.com/</a>
</div>
Übungsaufgaben
hCard, hCalendar, XHTML Friends Network (XFN)
/

WiSe 2013 | IT-Zertifikat: AMM - Semantic Web I: Mikroformate

  • 1.
    Advanced Markup &Metadata Wintersemester 2013 / 2014 15. Januar 2014 – Semantic Web I: Mikroformate Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // jan.wieners@uni-koeln.de
  • 2.
    Sitzungsüberblick Ausgangspunkt: Das WorldWide Web (WWW)  Einschränkungen des WWW Semantic Web     Problemstellung, Intention, Worum geht„s? Wissensrepräsentation (Ontologien) Mikroformate Später…  RDF  RDF / XML  Anwendung: FOAF
  • 3.
  • 4.
    World Wide Web   Internetvs. WWW WWW: Sehr großer Ressourcenfundus:  Dokumente bzw. Textuelle Information (HTMLDokumente, PDF, etc.)  Bilder  Videodateien  …    1989 am CERN entwickelt Intention: Austausch von Forschungsergebnissen Konzepte: Das WWW…  bietet Mechanismen, um auf Dokumente des Internets zugreifen zu können  HTTP, sowie die Eindeutige Referenzierung von Inhalten: URL  bietet eine Syntax (HTML), um Dokumente anzuzeigen und miteinander zu verknüpfen (Hyperlinks)
  • 5.
    World Wide Web Aufrufeiner Website - HTTP  Client stellt Anfrage an Server  Server beantwortet Anfrage, d.h. liefert ein Dokument / eine Ressource zurück  HTML definiert eine Syntax, die von Rechnern verstanden werden kann  HTML sagt dem Rechner, wie das Dokument angezeigt werden soll
  • 6.
    …die Nadel imHeuhaufen…?
  • 9.
  • 10.
    It‘s magic? „Magic“ II: Ranking: Sortierung der Treffer von hochrelevanten zu weniger relevanten Treffern „Magic“ III:  Performance:
  • 11.
    World Wide Web „What„swrong with the web?“ – die Grenzen des WWW I. „Wer ist Jan Wieners?“  Suchanfrage: Wieners  [Wer], [ist] weniger relevante Suchterme
  • 12.
    „What„s wrong withthe web?“ – die Grenzen des WWW  II. „Zeige mir Fotos von Paris“  Suchmaschinen versuchen (mitunter), die Bedeutung eines Bildes / das im Bild dargestellt durch den Kontext zu erschließen:  Dateiname  Text, der sich in Bildnähe befindet
  • 13.
    World Wide Web „What„swrong with the web?“ – die Grenzen des WWW  III. „Finde Musik, die ich mögen könnte“  Knackpunkt: Hintergrundwissen – Welche Musik mag ich derzeit? (Musikgeschmack verändert sich mitunter)
  • 14.
    Den Computermechanismen mangelt„s anWissen! „knowledge gap“:  Probleme im Verständnis natürlicher Sprache  Interpretation des Inhaltes von Bildern oder anderen multimedialen Dingen  Computer verfügt nicht über Hintergrundwissen über das der Benutzer / die Benutzerin verfügt  Computer verfügt nicht über Hintergrundwissen über die Benutzerin / den Benutzer Oh weh, was meint sie / er damit bloß???
  • 15.
    Semantic Web Paradigmenwechsel: vonpassiver Rechenleistung zu aktiver Rechenleistung (Verständnis der Inhalte) Das Semantic Web will Computern helfen, die Bedeutung hinter den Webseiten zu "verstehen“  Das derzeitige WWW dreht sich um Dokumente  Das Semantic Web dreht sich um Dinge (Menschen, Musik, Filme), um Konzepte Eine Möglichkeit: Einbettung semantischer Information in HTML-Seiten
  • 16.
  • 17.
    Ach so istdas gemeint! …hätte sie / er das nicht gleich sagen können?!? Wissenslücke zwischen Benutzer und Computer mindern   Bereitstellung von Wissen in einer Art und Weise, in der es von Computern verarbeitet werden und für weiteres Schließen verwendet werden kann Z.B.: Bereitstellung von (semantischen) Metainformationen, die die Inhalte der Website beschreiben (description, keywords, et c.)
  • 19.
    Friend-of-A-Friend (FOAF) “Home pagestypically say things such as:”         "My name is..." "I work for..." "I'm interested in..." "I live near..." "My blog is..." "I write in this weblog..." "You can see me in this picture..." "My Public Key is ..." “FOAF is a way to say all those things, but so that computers can interpret it. Computers can't understand English yet, so we have to be a little more precise in how we say these things. FOAF is a way of saying these things for computers.”
  • 20.
    Bild + Metadaten Schlüsselwörter  Georeferenzierung ◦ Adresskodierung (Postanschrift) ◦ Zuweisung von Koordinaten (Geotagging) ◦ …
  • 21.
    Semantic Web     Konzept desSemantic Web formuliert 1996 von Tim Berners-Lee Kerntechnologien (logikbasierte Sprachen zur Representation von Wissen und (automatisiertem) Schließen) entwickelt im Forschungsfeld der Künstlichen Intelligenz. Standards: W3C Ursprüngliche Intention: Annotation – Anreicherung der Inhalte im WWW durch Metadaten
  • 23.
    Fokussierungsweisen von KInach Russell / Norvig Menschliches Denken Rationales Denken „[Die Automatisierung von] Aktivitäten, die wir dem menschlichen Denken zuordnen, Aktivitäten wie beispielsweise Entscheidungsfindung, Problemlösung, Lernen..“ (Bellman, 1978) „Die Studie mentaler Fähigkeiten durch die Nutzung programmiertechnischer Modelle.“ (Charniak und McDermott,1985) Menschliches Handeln Rationales Handeln „Das Studium des Problems, Computer dazu zu bringen, Dinge zu tun, bei denen ihnen momentan der Mensch noch überlegen ist.“ (Rich und Knight, 1991) „Computerintelligenz ist die Studie des Entwurfs intelligenter Agenten.“ (Poole et al., 1998)
  • 24.
  • 25.
    Mikroformate „Designed for humansfirst and machines second, microformats are a set of simple, open data formats built upon existing and widely adopted standards.” (http://microformats.org/)
  • 26.
    Semantic Web Beispiel: Mikroformat„hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate): XHTML, einfach: <div> <div>Max Mustermann</div> <div>Musterfirma</div <div>01234/56789</div> <a href="http://example.com/">http://example.com/</a> </div>
  • 27.
    Semantic Web Beispiel: Mikroformat„hCard“ (vgl. http://de.wikipedia.org/wiki/Mikroformate): XHTML, einfach: <div> <div>Max Mustermann</div> <div>Musterfirma</div <div>01234/56789</div> <a href="http://example.com/">http://example.com/</a> </div> Im Mikroformat „hCard“: <div class="vcard"> <div class="fn">Max Mustermann</div> <div class="org">Musterfirma</div> <div class="tel">01234/56789</div> <a class="url" href="http://example.com/">http://example.com/</a> </div>
  • 28.
  • 29.