1
Ursula Welsch
XML-Struktur
Text Encoding Initiative
2
Agenda
• Vorrede
• Geschichte und Weiterentwicklung
• Einsetzbarkeit
• Grundkonzept
• Metadaten
• Allgemeine Textelement...
3
Vorrede
Das Herzstück einer XML-Anwendung ist
die Struktur!
• Struktur muss die Inhalte abbilden – nicht das
Printwerk
•...
4
Standard-DTDs im Verlagswesen
• DocBook:
www.docbook.org
• NLM – National Library of Medicine:
dtd.nlm.niv.gov/3.0/
– JA...
5
Geschichte und
Weiterentwicklung
Text Encoding Initiative (TEI)
• Entstehung ab Ende der 80er Jahre
• erste Ausgabe der ...
6
Einsetzbarkeit
• Ziel:
alle Arten von wissenschaftlichem Text
• Dokument orientiert:
teiCorpus, TEI
• Anpassungskonzept:...
7
Grundkonzept
• Sprache:
englisch
• Dokumentation:
ausführlich (1613 Seiten), englisch
• Trennung von Metadaten und Text
...
8
Metadaten
Element: teiHeader
Teile:
• fileDesc:
bibliografische Beschreibung
• encodingDesc:
Besonderheiten der verwende...
9
Metadaten
Beispiel:
• Tag-Nutzung
• Wichtig für
Langzeitarchivierung
10
Allgemeine Textelemente
Hierarchische Struktur
• text (front, body, back)
• div und div1, div2 etc.
Absatzformate
• Gen...
11
Allgemeine Textelemente
Zeichenformate
• eine reiche Palette von Elementen zur
linguistischen und
• interpretatorischen...
12
Allgemeine Textelemente
Abbildungen
• Figure:
gruppiert alles, was zu der Abbildung gehört
• Graphic: ist die Abbildung...
13
Allgemeine Textelemente
Tabellen
• sehr simple eigene
Struktur
• nur row und cell
• kein Header-Element
• für komplexer...
14
Dokumenttypen
Zeitschriften
• Wie Bücher, Monografien
15
Dokumenttypen
Lexika
• Eintrag:
entry
• Bedeutungen:
sense
16
Besonderheiten
• Editionen mit
– Urkunden
– Nachlässe (Briefe, Tagebücher, Notizbücher)
– Gesamtwerk
17
Die Aufgabe von Editionen
• Bereitstellung einer zuverlässigen Textgrundlage
für jedwede historische oder interpretator...
18
Digitalisate
19
Bibliographie des Editionsobjekts
Dazu gehören z.B.:
 Lagerort der Originale (Bibliothek, Nachlass ...)
 genaue Bezei...
20
Bibliographie des Editionsobjekts
Strukturdiagramm: Strukturbeispiel:
21
Beschreibung der Materialität
Dazu gehören:
 Beschreibung der äußeren Gestalt
 ggf. aufgeteilt in Blätter, Seiten,
Ei...
22
Beschreibung der Materialität
Strukturdiagramm: Strukturbeispiel:
23
Repräsentation des Textes
Dazu gehören:
 verschiedene Dokumenttypen, z.B. Briefe, Urkunden,
Notizbücher, Prosatexte, G...
24
Repräsentation des Textes
Strukturdiagramm: Strukturbeispiel:
25
Kennzeichnung von Metainformationen
Dazu gehören z.B.:
 Personennamen
 Datumsangaben
 Ortsangaben
Strukturanforderun...
26
Kennzeichnung von Metainformationen
Strukturdiagramm: Strukturbeispiel:
27
Textkritik
Dazu gehören:
 Beschreibung der Textvariationen, die am Textträger
erkennbar sind, z.B.
 nachträgliche Kor...
28
Textkritik
Strukturdiagramm: Strukturbeispiel:
29
Überlieferungskritik und Kommentierung
Dazu gehören:
 Kennzeichnung der Stelle im Primärtext
 Kommentartext mit Ausze...
30
Überlieferungskritik und Kommentierung
Strukturdiagramm: Strukturbeispiel:
31
Strukturkonfiguration
32
Qualitätssicherung und
Weiterverarbeitung
Teilweise sehr umfangreiche Inhaltsmodelle, z.B.:
• Unterstrukturen in Übersc...
33
Probleme bei der Datenerstellung
editionsübergreifend unterschiedliche
Auszeichnungen
34
Probleme bei der Datenerstellung
trotz redaktioneller Vorgabeliste keine einheitlichen
Attributwerte
Vermischung von se...
35
Qualitätssicherung in der Redaktion
36
Weiterverarbeitung
Verfügbare
Stylesheets,
u.a.:
37
Fazit
 Für nahezu alle verlagsrelevanten und wissenschaftlichen
Textanforderungen gibt es semantische Elemente.
 Weit...
38
Vielen Dank für Ihre
Aufmerksamkeit!
Ursula Welsch
ursula.welsch@welschmedien.de
www.welschmedien.de
www.xml-schule.de
Nächste SlideShare
Wird geladen in …5
×

XML-Struktur: TEI (Text Encoding Initiative)

918 Aufrufe

Veröffentlicht am

Die Grundlagen und die Einsatzmöglichkeiten der XML-Struktur TEI-P5 werden vorgestellt.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
918
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
10
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

XML-Struktur: TEI (Text Encoding Initiative)

  1. 1. 1 Ursula Welsch XML-Struktur Text Encoding Initiative
  2. 2. 2 Agenda • Vorrede • Geschichte und Weiterentwicklung • Einsetzbarkeit • Grundkonzept • Metadaten • Allgemeine Textelemente • Dokumenttypen • Besonderheiten • Strukturkonfiguration • Qualitätssicherung und Weiterverarbeitung • Fazit
  3. 3. 3 Vorrede Das Herzstück einer XML-Anwendung ist die Struktur! • Struktur muss die Inhalte abbilden – nicht das Printwerk • Semantik so viel wie notwendig für geplante Anwendungen • Inhaltsmodelle so eng wie möglich für hohe Datenqualität • Unterstützung von Autor, Redaktion und Produktion
  4. 4. 4 Standard-DTDs im Verlagswesen • DocBook: www.docbook.org • NLM – National Library of Medicine: dtd.nlm.niv.gov/3.0/ – JATS = Journal Article Tag Suite – NCBI BTL = National Center of Biotechnology Information Book Tag Library • TEI – Text Encoding Initiative: www.tei-c.org
  5. 5. 5 Geschichte und Weiterentwicklung Text Encoding Initiative (TEI) • Entstehung ab Ende der 80er Jahre • erste Ausgabe der "Guidelines" Mai 1994 • Entwicklung, Nutzung und Pflege bis 2000 als Gemeinschaftsaktivität mehrerer wissenschaftlicher Disziplinen • seit 2001 TEI Consortium • Aktuelle Version: TEI P5 In Arbeit: • SIG Correspondence Ergänzung • Music Encoding Initiative (MEI)
  6. 6. 6 Einsetzbarkeit • Ziel: alle Arten von wissenschaftlichem Text • Dokument orientiert: teiCorpus, TEI • Anpassungskonzept: Einzelmodule, die je nach Bedarf zu einer Anwendung compiliert werden müssen • Ausnahme: TEI lite • Einsatz: heute vor allem in den Digital Humanities • Lizenz: Creative Commons Lizenz (3.0 Unported)
  7. 7. 7 Grundkonzept • Sprache: englisch • Dokumentation: ausführlich (1613 Seiten), englisch • Trennung von Metadaten und Text • Semantische Strukturen: z.T. in den Elementnamen, z.T. in Attributwerten • Konfigurierbarkeit: via Online-Tool ROMA => DTD, XML-Schema, Relax NG
  8. 8. 8 Metadaten Element: teiHeader Teile: • fileDesc: bibliografische Beschreibung • encodingDesc: Besonderheiten der verwendeten Struktur • profileDesc: textliche Beschreibung des enthaltenen Korpus • revisionDesc: Enstehungs- und Bearbeitungsgeschichte der Datei
  9. 9. 9 Metadaten Beispiel: • Tag-Nutzung • Wichtig für Langzeitarchivierung
  10. 10. 10 Allgemeine Textelemente Hierarchische Struktur • text (front, body, back) • div und div1, div2 etc. Absatzformate • Generell: p • wissenschaftliche, z.B. argument, note, eg • editionsspezifische, z.B. del, add,rdg • ansonsten mit dem Attribut @type bei nahezu jedem Element spezifizierbar
  11. 11. 11 Allgemeine Textelemente Zeichenformate • eine reiche Palette von Elementen zur linguistischen und • interpretatorischen Beschreibung des Texts, z.B. s, seg, hi, emph, foreign, mentioned, term, title etc. Verweise • ref, ptr, anchor, seg, xptr, xref
  12. 12. 12 Allgemeine Textelemente Abbildungen • Figure: gruppiert alles, was zu der Abbildung gehört • Graphic: ist die Abbildung selbst
  13. 13. 13 Allgemeine Textelemente Tabellen • sehr simple eigene Struktur • nur row und cell • kein Header-Element • für komplexere Tabellen HTML- oder CALS- Tabellenmodell integrierbar via Namensräume
  14. 14. 14 Dokumenttypen Zeitschriften • Wie Bücher, Monografien
  15. 15. 15 Dokumenttypen Lexika • Eintrag: entry • Bedeutungen: sense
  16. 16. 16 Besonderheiten • Editionen mit – Urkunden – Nachlässe (Briefe, Tagebücher, Notizbücher) – Gesamtwerk
  17. 17. 17 Die Aufgabe von Editionen • Bereitstellung einer zuverlässigen Textgrundlage für jedwede historische oder interpretatorische Betrachtung  systematische Sichtung sämtlicher zugehöriger Überlieferungsträger  zeichengetreue Transkription der Textzeugen  genetische Dokumentation und Textkonstitution • Verbreitung der Buch- bzw. Online-Publikation, je nach Quellenlage – zu dem Zweck:  die Autographen und alten Urkunden zu schonen (z.B. Vermeidung von direktem Hautkontakt oder ungünstigen klimatischen Bedingungen)  Lücken im Bestand zu schließen, die z.B. durch Verluste und Aufteilungen in der Folge der beiden Weltkriege des 20. Jhs. entstanden sind
  18. 18. 18 Digitalisate
  19. 19. 19 Bibliographie des Editionsobjekts Dazu gehören z.B.:  Lagerort der Originale (Bibliothek, Nachlass ...)  genaue Bezeichnung (Titel, Sigle, Aktenzeichen ...)  bis auf Einzel-Dokumentbasis Strukturanforderung:  klare Trennung von Metadaten und Textbeschreibung  Metadatenbereich mit „Feldern“ für alle notwendigen Angaben TEI:  teiHeader/fileDesc – titleStmt – publicationStmt – sourceDesc
  20. 20. 20 Bibliographie des Editionsobjekts Strukturdiagramm: Strukturbeispiel:
  21. 21. 21 Beschreibung der Materialität Dazu gehören:  Beschreibung der äußeren Gestalt  ggf. aufgeteilt in Blätter, Seiten, Einzelobjekte ... Strukturanforderung:  textliche Beschreibung des Textträgers  ggf. Zeilen-, Seiten-, Spaltenwechsel ...  ggf. Zuordnung von Sub-Dokumenten TEI:  physDesc  lb, pb, cb  @rend
  22. 22. 22 Beschreibung der Materialität Strukturdiagramm: Strukturbeispiel:
  23. 23. 23 Repräsentation des Textes Dazu gehören:  verschiedene Dokumenttypen, z.B. Briefe, Urkunden, Notizbücher, Prosatexte, Gedichte, szenische Texte ...  mit allen spezifischen Anforderungen an die Aufbereitung Strukturanforderung:  bei Briefen: z.B. Absender, Anrede, Briefkorpus, Grußformel, Postscriptum ...  bei Notizbüchern: Art der Notiz, Sub-Dokumente ...  bei Gedichten: Strophen, Verse ...  bei Szenischen Texten: Akte, Figuren, Sprechertext, Regieanweisungen ... TEI:  Briefe: opener mit dateline, address, closer mit salute  Gedichte/Szen.Texte: lg/l, role, actor, cast, caesura ...
  24. 24. 24 Repräsentation des Textes Strukturdiagramm: Strukturbeispiel:
  25. 25. 25 Kennzeichnung von Metainformationen Dazu gehören z.B.:  Personennamen  Datumsangaben  Ortsangaben Strukturanforderung:  bei Personennamen: Vor- und Nachname, Namensteile  bei Datumsangaben: Tag-Monat-Jahr, gesichert/ungesichert  bei Ortsangaben: geografische bzw. politische Zuordnung, historischer Kontext, Klassifizierung z.B. als Stadt, Land ... TEI (verschiedene Möglichkeiten):  rs type=person vs. persName/forename+surname, role  rs type=date vs. date/@when/@from/@to/@precision  rs type=place vs. placeName, geogName, region, state
  26. 26. 26 Kennzeichnung von Metainformationen Strukturdiagramm: Strukturbeispiel:
  27. 27. 27 Textkritik Dazu gehören:  Beschreibung der Textvariationen, die am Textträger erkennbar sind, z.B.  nachträgliche Korrekturen des handschriftlichen Texts  Anstreichungen oder Anmerkungen im gedrucktem Material, ggf. mit verschiedenen Stiften  einschließlich der Schreib-Topographie (oben, unten, drüber...) Strukturanforderung:  Streichungen, Ergänzungen, Änderungen  verschränkte Unterstreichungen  Angabe der Position TEI:  subst, del, add, restore, unclear, damage ...  app, rdg, ..., sic, supplied ...
  28. 28. 28 Textkritik Strukturdiagramm: Strukturbeispiel:
  29. 29. 29 Überlieferungskritik und Kommentierung Dazu gehören:  Kennzeichnung der Stelle im Primärtext  Kommentartext mit Auszeichnungen, Metainformationen, Verweisen auf andere Textstellen ... Strukturanforderung:  Textanker: eindeutige Benennung, eindeutiger Bezug  Kommentartext: vielfältige Textauszeichnung, da hier z.B. auch Gedichte, Zitate, Übersetzungen und Hinweise auf andere Kommentare, Primärtextstellen oder Sekundärliteratur ihren Ort haben TEI (jeweils verschiedene Möglichkeiten):  Textanker: ref vs. anchor vs. milestone  Kommentartext: note vs. ref (als Verweisziel)
  30. 30. 30 Überlieferungskritik und Kommentierung Strukturdiagramm: Strukturbeispiel:
  31. 31. 31 Strukturkonfiguration
  32. 32. 32 Qualitätssicherung und Weiterverarbeitung Teilweise sehr umfangreiche Inhaltsmodelle, z.B.: • Unterstrukturen in Überschriften: ca. 54 Unterelemente neben Text • Unterstrukturen in Absätzen: ca. 54 Unterelemente neben Text
  33. 33. 33 Probleme bei der Datenerstellung editionsübergreifend unterschiedliche Auszeichnungen
  34. 34. 34 Probleme bei der Datenerstellung trotz redaktioneller Vorgabeliste keine einheitlichen Attributwerte Vermischung von semantischer und typografischer Auszeichnung – auch englischer und deutscher Benennungen ...
  35. 35. 35 Qualitätssicherung in der Redaktion
  36. 36. 36 Weiterverarbeitung Verfügbare Stylesheets, u.a.:
  37. 37. 37 Fazit  Für nahezu alle verlagsrelevanten und wissenschaftlichen Textanforderungen gibt es semantische Elemente.  Weitere Semantisierung über allseits verfügbare Attribute wie z.B. @type und @subtype.  In der Regel Verzicht auf ganz enge Inhaltsmodelle – jedoch Konfiguration via ROMA möglich.  Trotzdem sind umfangreiche und präzise Erläuterungen im Redaktionshandbuch notwendig, um einen konsistenten Einsatz der XML-Strukturen zu erreichen.
  38. 38. 38 Vielen Dank für Ihre Aufmerksamkeit! Ursula Welsch ursula.welsch@welschmedien.de www.welschmedien.de www.xml-schule.de

×