1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Advanced Markup & Metadata
Sommersemester 2013
03. Juli 2013 – Klausurvorbereitung
2. Daten, Information, Metadaten – was ist das?
Extensible Markup Language (XML)
Eigene Standards definieren: Schemata
Dokumenttypdefinitionen (DTD)
XSLT und xPath
TEI, CEI
Metadatenstandards im BAM-Sektor:
Begriff „Digitale Bibliothek“
MAB
MARC
Dublin Core
METS/MODS
Semantic Web: RDF und Co.
Themenüberblick Sommersemester 2013
11. Elemente bzw. Tags definieren
Einzelnes Element: <!ELEMENT titel (#PCDATA)>
Verschachtelung von Elementen repräsentieren:
<!ELEMENT bild (titel, url, abstract, person+, bauwerk+)>
Bitte beachten / merken:
+ (Pluszeichen): Das Tag muss mindestens einmal vorkommen, darf
aber auch öfter im XML-Dokument angegeben werden.
? (Fragezeichen): Das Element darf einmal vorkommen, muss jedoch
nicht im XML-Dokument angegeben sein.
* (Sternchen): Das Tag darf mehrmals im XML-Dokument vorkommen,
darf jedoch fehlen.
#PCDATA (PCDATA = "Parseable Character Data"): Beliebige Daten /
Zeichen als Inhalt des XML-Elementes
Dokumenttypdefinitionen (DTD)
12. Attribute definieren
<!ATTLIST tagname attributname CDATA #IMPLIED>
Beachten / Merken:
#REQUIRED Jedes Element mit dem Namen
„tagname“ muss das Attribut „attributname“ enthalten.
#IMPLIED Das Attribut kann angegeben werden,
muss jedoch nicht angegeben werden.
Dokumenttypdefinitionen (DTD)
13. Schreiben Sie ein XML-Dokument (ohne XML-Deklaration
und DOCTYPE-Angabe) für die im Folgenden
wiedergegebene Dokumenttypdefinition (DTD):
<!ELEMENT catalog (cd+)>
<!ELEMENT cd (title, artist+, label, price, year)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT artist (#PCDATA)>
<!ELEMENT label (#PCDATA)>
<!ELEMENT price (#PCDATA)>
<!ELEMENT year (#PCDATA)>
<!ATTLIST cd
previewimage CDATA #IMPLIED>
Übung I
14. Schreiben Sie eine Dokumenttypdefinition für das im Folgenden
angegebene XML-Markup:
<nobelpreistraeger-literatur>
<preistraeger>
<jahr>2009</jahr>
<name>Herta Müller(* 1953)</name>
<land>Deutschland</land>
<begruendung>die mittels Verdichtung der Poesie und Sachlichkeit der Prosa
Landschaften der Heimatlosigkeit zeichnet</begruendung>
</preistraeger>
<preistraeger>
<jahr>2010</jahr>
<name>Mario Vargas Llosa(* 1936)</name>
<land>Peru Peru / Spanien Spanien</land>
<begruendung>für seine Kartographie der Machtstrukturen und scharfkantigen
Bilder individuellen Widerstands, des Aufruhrs und der Niederlage</begruendung>
</preistraeger>
</nobelpreistraeger-literatur>
Übung II
15. Wie verhalten sich die Konzepte „Zeichen“, „Daten“ und
„Information“ zueinander?
Was sind Metadaten? Wozu werden Metadaten benötigt?
Worin besteht das Problem, das mit Hilfe von Metadaten
gelöst werden soll?
Was bezeichnet die „Wohlgeformtheit“, was die „Gültigkeit“
von XML-Dokumenten?
Welche Anforderungen werden an ein wohlgeformtes XML-
Dokument gestellt?
Was verbirgt sich hinter der Abkürzung „DTD“?
Was beschreibt eine DTD / welchen Sinn haben
Schemata?
Von XML nach DTD
Von DTD nach XML
[…]
…und die Klausur?
21. XPath arbeitet mit dem vom Prozessor verarbeiteten
(geparsten) XML-Dokument
Ein Beispiel:
<?xml version="1.0" encoding="UTF-8"?>
<buecher>
<autor>
<name>Murakami</name>
<vorname>Haruki</vorname>
</autor>
<titel>Hard-boiled Wonderland</titel>
<gattung>Roman</gattung>
</buecher>
XPath
22. 1 <buecher>
2 <autor>
3 <name>Murakami</name>
4 <vorname>Haruki</vorname>
</autor>
5 <titel>Hard-boiled Wonderland</titel>
6 <gattung>Roman</gattung>
</buecher>
XPath
1
2 5 6
3 4
Zahlenwerte 1 bis 6 geben die Reihenfolge an, in der ein XML-
Prozessor die Knoten ablaufen wird.
Dokumentreihenfolge („Document Ordner“) / Tiefensuche
23. Wichtig: Knotenbeziehungen Achsen:
Elternknoten (parent) – Jedes Element
verfügt über einen Elternknoten.
Ausnahme: ???
Vorfahre (ancestor) – Elternknoten von
Knoten
Beispiel: Der Knoten „2“ ist Vorfahre des
Knotens „3“.
Kind (child) – Untergeordnete Knoten
Beispiel: „3“ ist Kindknoten von „2“.
Geschwister (siblings): Knoten mit gleichen
Elternknoten sind Geschwisterknoten.
Beispiel: Der Knoten „3“ ist
Geschwisterknoten des Knotens „4“.
XPath: Navigation
1
2 5 6
3 4
25. Um auf die Knoten eines XML-Dokumentes
zugreifen zu können, müssen sie adressiert werden.
In XPath wird hierzu – vom aktuellen Knoten
ausgehend – ein Pfad definiert.
Unterscheidung ausführliche vs. verkürzte
Achsenbezeichnung:
ausführlich: /child::autor/child::buch/attribute::titel
verkürzt: /autor/buch/@titel
Adressierung
26. Was verbirgt sich hinter der Abkürzung „XSLT“?
Was ist XSLT?
Wozu dient XSLT?
In welchem Verhältnis stehen XSLT und XPath
zueinander?
Wozu dient XPath?
Wozu wird die Angabe
<xsl:value-of select=”Xpath-Ausdruck”/>
verwendet - was geschieht hier?
Nennen und beschreiben Sie zwei XPath-Achsen.
…und die Klausur?
27. Gegeben sei die folgende XML-Datei:
<buecher>
<buch>
<autor gender=“male“>
<name>Murakami</name>
<vorname>Haruki</vorname>
</autor>
<titel>Hard-boiled Wonderland</titel>
<gattung>Roman</gattung>
</buch>
<buecher>
Was liefern die folgenden XPath-Ausdrücke zurück / Was
selektieren die folgenden XPath-Ausdrücke?
<xsl:value-of select="/buecher/buch/autor/name" />
<xsl:value-of select="//titel" />
<xsl:value-of select="/buecher/buch/autor/@gender"/>
<xsl:for-each select="/buecher/buch">
<xsl:for-each select="/buecher/preis">
…und die Klausur?
29. Frage- und Problemstellung:
Wie lassen sich mit einem Standard
sämtliche in den Geisteswissenschaften
zu behandelnden Texte beschreiben?
30. Intention:
1987 entstanden als internationale Initiative von
Philologen
Dokumentenformat zur Repräsentation von Texten in
digitaler Form
Vielseitigkeit & Praxisnähe
„gekennzeichnet, von [der Bemühung,] ein Regelwerk
zu bestimmen, da[s] dem Anwender möglichst viel
Freiheit überläßt und möglichst wenige
Vorentscheidungen trifft“
(http://computerphilologie.uni-muenchen.de/praxis/teiprax.html)
Text Encoding Initiative (TEI)
32. Standards und Guidelines
Standards der TEI schränken die schier unendlichen
Auszeichnungsmöglichkeiten von XML ein. Dabei stellen
sich die folgenden Grundfragen:
Welche Tags und welche Attribute lassen sich verwenden,
um eigene Texte auszuzeichnen?
Wie lassen sich die Tags miteinander kombinieren /
verschachteln?
Überblick über Richtlinien, z.B. für TEI P5: http://www.tei-
c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641
Seiten)
Die Text Encoding Initiative
33. Modularisierung
Flexible Auswahl von TEI-Elementen aufgrund des
modularen Charakters der TEI. So muss ein eigenes
Schema nicht alle Elemente und Attribute der TEI
enthalten.
Module, u.a.:
core für Basiselemente
header für Metadaten
textstructure für grundlegende Textstrukturen
drama für Dramen
prose, poetry, etc.
Die Text Encoding Initiative
34. TEI-kodierter Text besteht aus mehreren
Abschnitten:
1. Kopf des Dokumentes (teiHeader)
Informationen über den kodierten Text
TEI
36. Intention: u.a. Wahrung der Gedichtcharakteristika,
i.e. Strophen- und Verseinteilung
TEI
Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
37. Intention II: Eröffnen von Analyse- und
Retrievalmöglichkeiten, z.B. per XSLT:
„Gebe den zweiten Vers der dritten Strophe aus“.
Indexierung: Speichern von (relevanten)
Schlüsselwörtern
TEI
38. Worum geht„s? Intention der Initiative?
Was ist mit der Abkürzung „TEI“ signifiziert? Konsortium,
Standards
Ganz grob: Aufbau eines TEI-Dokumentes
…und die Klausur?
40. Sammlung digitaler Objekte
Text
Video
Audio
3D Objekte
Simulationen, VR, etc.
Bereitstellung von Zugriffsmöglichkeiten:
Benutzerseite:
Zugriff (access)
Abfrage (retrieval) von digitalen Objekten
Bibliothekarinnen-/Bibliothekarseite:
Selection
Organization
Maintenance
Metadaten Kritisch für alle Formen organisierter digitaler Inhalte
Digitale Bibliothek
41. Arten von Metadaten:
Administrative metadata for managing resources, such as
rights information
Descriptive metadata for describing resources (Beispiel:
Zettel des Zettelkataloges)
Preservation metadata for describing resources, such as
recording preservation actions
Technical metadata related to low-level system information,
such as data formats and any data compression used
Usage metadata related to system use, such as tracking
user behavior
“End user‟s view is only the tip of the iceberg:
Much of the metadata is not intended for public display”
Metadaten
42. Arten von Metadaten (nach Witten et al.):
Administrative metadata for managing resources, such as
rights information
Descriptive metadata for describing resources (Beispiel:
Zettel des Zettelkataloges)
Preservation metadata for describing resources, such as
recording preservation actions
Technical metadata related to low-level system information,
such as data formats and any data compression used
Usage metadata related to system use, such as tracking
user behavior
“End user‟s view is only the tip of the iceberg:
Much of the metadata is not intended for public display”
Metadaten
44. Satz von 15 Elementen zur Beschreibung von Ressourcen:
Title
Creator
Subject
Description
Publisher
Contributor
Date
Type
Format
Identifier
Source
Language
Relation
Coverage
Rights
Alle Elemente sind optional und wiederholbar, die Reihenfolge ist
beliebig
Dublin Core
47. Worum geht„s? Worin besteht die
Herausforderung im „BAM“-Sektor? Was
ist eine digitale Bibliothek?
Arten von Metadaten im Kontext digitaler
Bibliotheken?
Verortung im Gesamtkontext: MARC,
MAB, MARCXML, Dublin Core, METS /
MODS
…und die Klausur?
51. Oh weh, was meint sie
/ er damit bloß???
Den Computermechanismen
mangelt„s an Wissen!
„knowledge gap“:
Probleme im Verständnis
natürlicher Sprache
Interpretation des Inhaltes von
Bildern oder anderen
multimedialen Dingen
Computer verfügt nicht über
Hintergrundwissen über das der
Benutzer / die Benutzerin verfügt
Computer verfügt nicht über
Hintergrundwissen über die
Benutzerin / den Benutzer
52. Paradigmenwechsel: von passiver Rechenleistung
zu aktiver Rechenleistung (Verständnis der Inhalte)
Das Semantic Web will Computern helfen, die
Bedeutung hinter den Webseiten zu "verstehen“
Das derzeitige WWW dreht sich um Dokumente
Das Semantic Web dreht sich um Dinge
(Menschen, Musik, Filme), um Konzepte
Eine Möglichkeit: Einbettung semantischer
Information in HTML-Seiten
Semantic Web
55. “Home pages typically say things such as:”
"My name is..."
"I work for..."
"I'm interested in..."
"I live near..."
"My blog is..."
"I write in this weblog..."
"You can see me in this picture..."
"My Public Key is ..."
“FOAF is a way to say all those things, but so that
computers can interpret it. Computers can't understand
English yet, so we have to be a little more precise in
how we say these things. FOAF is a way of saying
these things for computers.”
Friend-of-A-Friend (FOAF)
56. The Resource Description Framework (RDF)
Erfunden, um Ressourcen im WWW zu
beschreiben
RDF ist domänenunabhängig, d.h. kann auch
dazu verwendet werden, Entitäten der realen Welt
zu beschreiben
RDF ist eine einfache Modellierungssprache, ist
jedoch die Grundlage für komplexere Sprachen
wie OWL
RDF
58. Unterscheidung:
Ressourcen: Alles, was über einen Uniform
Resource Identifier (URI) referenziert werden kann
Eigenschaften (properties): Eigenschaften von
Ressourcen
Ausdrücke (Expressions) werden geformt mit
Tripeln in der Form (Subjekt, Prädikat, Objekt)
Ausdrücke (statements) = resource + properties
RDF
60. Semantic Web: Worin besteht das Problem des WWW? Was ist die
Vision des Semantic Web?
„Knowledge Gap“
Annotation, Metadaten, etc.
Mikroformate: hCard
FOAF: Intention?
Woraus besteht ein RDF-Statement / ein RDF-Tripel?
URI, URL, URN?
…und die Klausur?