Vortrag am 06.02.2003 im Kolloquium des XML Clearinghouses, Berlin (siehe http://www.ag-nbi.de/archiv/www.xml-clearinghouse.de/ch-veranstaltungen/1/kolloquium_single4f8d.html?eventId=91).
Abstract: Eines der ursprünglichen Ziele von SGML war die Schaffung einheitlicher Formate für Textdokumente. Für verschiedene Anwendungsbereiche haben sich unterschiedliche Dokumentenformate (DTD) wie TEI und DocBook etabliert. Ein allen Anforderungen genügendes Schema kann es jedoch nicht geben. Der Computer und Medienservice der Humboldt Universität Berlin nutzt für die Langzeitarchivierung von Dissertationen seit 5 Jahren die eigens entwickelte DiML-DTD mit einem Bestand von inzwischen fast 250 Dokumenten in SGML. Mit der Umstellung auf XML hat die Arbeitsgruppe Elektronisches Publizieren zur Verwaltung des neuen Dokumentenformates ein eigenes System entwickelt, mit dem wiederverwendbare Strukturen verwaltet werden. Aus diesen lassen sich bedarfsgerecht DTDs für verschiedene Arten wissenschaftlicher Publikationen (Dissertationen, Artikel, Vorlesungen, Konferenzbände etc.) erzeugen, die alle fachspezifischen Elemente enthalten und von Autoren mit XML-Textwerkzeugen überschaubar nutzbar sind. Gleichzeitig können die im Zusammenhang benutzten Werkzeuge wie Dokumentvorlagen und Stylesheets einheitlich gestaltet werden. Das System soll am Beispiel der neuen DiML-DTD vorgestellt und die Möglichkeit der Übertragung auf andere Anwendungsgebiete diskutiert werden.
Mapping Bibliographic Records with Bibliographic Hash Keys
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt-Universität
1. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Verwaltung dokumentenorientierter DTDs
für den Dokument- und Publikationsserver
der Humboldt Universität
Jakob Voß
(6.2.2003)
2. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Übersicht
1. Historie
2. Archivierung mit SGML/XML an der HU Berlin
3. Dokumentenorientierte XML-Formate
4. Aufbau und Verwaltung der DiML-DTD
5. Zusammenfassung und Ausblick
3. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Historie 1
1987 — erste Dissertations DTD (ETD) von Juri Rubinski
1997 — Überarbeitung zur Version 1.1 von Neil Kipp
Ab September 1997 Projekte an der Humboldt Universität
– Anpassung der ETD als DiML zur SGML-Archivierung
– Promovendenbefragung
– Dokumentenvorlage für Word
– Konvertierung mit SGML Author for Word
4. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Historie 2
April 1998 — Änderung der Promotionsordnung
– Autorenschulungen zur Dokumentenvorlage
– Beitritt der NDLTD (als erste dt. Universität)
– Veranstaltung eines DTD-Workshops (Mai 1999)
– DFG-Projekt Dissertationen Online
– Unterstützung weiterer Publikationsverfahren in der
Universität (Öffentliche Vorlesungen, Zeitschriften)
– Knapp 250 Dokumente in SGML + 150 in Bearbeitung
5. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Warum SGML/XML als Archivformat?
– Internationale Normierung durch ISO8879
– Plattformunabhängig lesbar
– Langzeitarchivierung (> 10 Jahre)
– Medienneutrale Präsentation durch Transformation
– Strukturierte Recherche und Weiterverarbeitung
durch Informationsextraktion
6. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Arbeitsablauf
– Publikationsvorhaben des Autors
– Dokumentenvorlage, Schulung und Hilfe
– Korrektur und endgültige Abgabe
– Aufnahme von Metadaten und PDF
– Konvertierung nach SGML/XML
– Archivierung
– Weiterverarbeitung (HTML, Recherche, PoD...)
7. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Workflow (technisch)
8. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Grundstruktur eines (DiML)-Dokumentes
<etd>
<front>..title...author...abstract...</front>
<body>
<chapter>
<section>
...
</body>
<back>..bibliography...appendix...vita...</back>
</etd>
9. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Dokumentenorientierte XML-Formate
XHTML Hypertexte
DocBook Technische Dokumentation
TEI Retrodigitalisierung, Textanalyse
OpenOffice Office-Dokumente
ISO 12083 (AAP/EPSIG), NITF, OeB...
10. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Kooperation
Partner HU
Berlin
Virginia
Tech
Univ. of
Iowa
Univ. of
Montreal/
Lyon
Tech.
Univ.
Helsinki
Univ. of
Michigan
Univ.
Oslo
DTD DiML ETD TDM TEI-Light HutPubl TEI-
Light
ISO-
Book
Konv.
nach
SGML/
XML
SGML-
Author
for
Word
SGML-
Author
Majix Omnimark
rtf2sgml
Frame-
Maker+
SGML
Omni-
mark
rtf2sgml
Balise
SGML
nach
HTML,
PDF
Perl-
script,
DSSSL
Perl-
script
CSS XSL DSSSL,
Frame-
Maker
- -
Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop
11. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Anforderungen an ein Dokumentenformat
• Verschiedene Arten von Dokumenten
• Spezielle Anforderungen (MathML, SVG, RDF...)
-> modularisiert
• einfach benutzbar
• dokumentiert und wartbar
-> DTD
-> Erzeugung von Dokumentation und DTD
aus einer Quelle
12. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Modularisierung
Basis-DTD
CALS
(Tabellen)
Medien
MathML
Geisteswiss.
CML
Weitere
Basis-DTD
– Front, Body, Back
– Titelblatt
– Bibliographie
Medien
– SVG, SMIL, weitere
– Bitmapformate
Geisteswiss.
– Gedichte, Rezension
Weitere
– Offene definierte Schnittstelle
z.B. TEI-Module, Dublin Core
13. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Möglichkeiten der Verwaltung
• DDML (1/1999) ist nie über eine W3C Note
hinaus und unterstützt keine Modularisierung
• XML Schema ist zu komplex (DTD-Generierung!)
• Entity-Konstrukte sind schlecht wartbar und beschränkt
<!ENTITY % elements-1 "foo | bar">
<!ENTITY % elements-2 "baz | foo">
<!ENTITY % elements-3 "">
<!ELEMENT doz
(%elements-1; | %elements-2; | %elements-3;)*>
14. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Architektur
15. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Inhalte der DTDBase
– Elemente (und Enumerations, Notations)
– Gruppen
– Module
– Externe DTDs
– Beschreibung
– Beispiele
16. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Module
text br, em, strong, sup, sub, u, tt, pre
common p, head, caption, url, name, foreign…
structure chapter, section, subsection…
citation Zitate und Literaturangaben
documents Seitenzahlen, Fußnoten…
diml front, body, back, abstract…
lists (Listen), CALStable (Tabellen), media (Grafik)
mathematics (MathML), verse (Gedichte)
17. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Gruppen
Klassen gleichartiger Elemente
Beispiel: Gruppe inline
foreign, url... [module common]
footnote, citation [module citation]
imath [module mathematics]
Benutzung der Gruppe in anderen Elementen
p := (#PCDATA | %inline.group; | ...)*
18. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Beispiel: Modul lists
ul,ol := (caption?, li+) (block.group)
dl := (caption?, def+) " "
def := ((term | foreign) , (dd | term)+)
dd,li := (%paragraph.group;)
Elemente: ol, ul, dl, def, dd, li
Gruppen: block
Benötigte Elemente: caption
Benötigte Gruppen: paragraph
19. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Abhängigkeiten zwischen Module
Aufgrund benötigter Elemente und Gruppen
20. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Auswahl von Module
21. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Elementdefinition
<element name="imath">
<refpurpose lang="en">...
<refdescription lang="en">...
<refpurpose lang="de">...
<refdescription lang="de">...
<group>inline</group>
<contentspec type="children">
...
</contentspec>
<attribute name="label" type="CDATA"/>
</element>
22. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Content Specification
DTDSys-Syntax in XML DTD-Syntax
<contentspec type="mixed">
<contentspec type="children">
<contentspec type="EMPTY">
<!ELEMENT x (#PCDATA | ...)>
<!ELEMENT x (...)>
<!ELEMENT x EMPTY>
<dtd-sequence>
<dtd-choice>
( ... , ... , ... )
( ... | ... | ... )
<dtd-element name= "foo">
<dtd-inclusion name="bar">
foo
%bar.group;
<... occurence="any|more|
optional">
* | + | ?
23. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Enumerations, Notations
Wie bei Elementen in Gruppen
Notation plaintext gehört zu Gruppe altFormat
Element alt, attribut notation = Gruppe altFormat
<alt notation="plaintext">Ein Foto</alt>
Modul mathematics: TeX, LaTeX
<alt notation="TeX">e=mc^2</alt>
24. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Externe DTDs
Einbindung fremder Formate (MathML, SVG, CML…)
durch Zuweisung eines festen Namensraumes.
<imath>
<alt notation="TeX">W^3</alt>
<mathml:math>
<mathml:apply>
<mathml:power/>
<mathml:ci>W</mathml:ci><mathml:cn>3</mathml:cn>
</mathml:apply>
</mathml:math>
</imath>
25. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
DiML-Styles
Erzeugung von HTML mit XSLT
Aufbau der Style-Bibliothek 1:1 wie in den Modulen
module-lists/html.xsl
module-lists/html/li.xsl
module-lists/html/dl.xsl
module-lists/html/ol.xsl
module-lists/html/ul.xsl
26. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Grenzen
– DTDSys geht nicht über DTD hinaus, da ja eine DTD
weitergegeben werden soll (XML Schema?)
– Die Grenzen liegen letztendlich beim Autor
Noch nicht vollständig implementiert
– Beispiele (mit Verknüpfung zu Definitionen)
– Mehrsprachigkeit der Dokumentation
– Styles und andere Werkzeuge
27. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Zusammenfassung
– Langzeitarchivierung und Weiterverarbeitung elek-
tronischer Publikationen setzt XML o.ä. voraus
– DiML ist ein XML-basiertes Dokumentenformat für
wissenschaftliche Publikationen
– Es ist einfach benutzbar (DTD) und trotzdem flexibel
– Mit Konverter und Styles bildet DTDSys ein voll-
ständiges Toolkit zur XML-basierten Publikation
– Der CMS kann weitere XML-basierte Publikations-
vorhaben (Konferenzbände...) einfach realisieren
28. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Quellen
Server http://edoc.hu-berlin.de
Die DiML-DTD http://edoc.hu-berlin.de/diml/
Zur Konvertierung http://edoc?????????
ProPrint http://edoc.hu-berlin.de/proprint/
http://db2-www.sub.uni-goettingen.de/
NDLTD http://www.ndltd.org
29. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Vielen Dank für Ihre Aufmerksamkeit!
:-)
30. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Warum nicht XML Schema?
– Dokumente haben keine Datentypen
– DTD wird breiter unterstützt
– XML Schema ist zu komplex
– Müsste sowieso angepasst werden
– keep it simple, stupid!
31. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Word mit Formatvorlage
32. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Staroffice 6.0
33. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
XML-Output aus Staroffice 6.0
34. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
FrameMaker + SGML 6.0
35. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
XML-Output aus
FrameMaker + SGML 6.0
36. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
37. Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Output aus
Word + XMLWriter Add-IN Mediatext Jena
Hinweis der Redaktion
Die NDLTD (Networked Digital Library of Theses and Dissertations) ist eine Virtuelle Bibliothek mit digitalen Diplom/Magister/Habilitationsarbeiten (Electronic Theses and Dissertations (ETD)). Die NDLTD ist eine Initiative zur Verbesserung der Ausbildung, zur besseren Verteilung von Wissen, zur Unterstützung der Universitäten beim Aufbau einer Informations-Infrastruktur sowie zur Erhöhung des Wertes und der Akzeptanz digitaler Bibliotheken. Die Konferenz ETD 2003 findet im Mai an der HU statt (erstmals in Europa).
ISO: Normung z.B. bei PDF nicht gegeben! Plattformunabhängig lesbar: Menschen- und Maschinenlesbar Langzeitarchivierung: Erleichtert Migration Anwendung: Suche in XML, Informationsextraktion Print On Demand (Proprint): http://edoc.hu-berlin.de/proprint/
Die Grundstruktur einer Dissertation (oder eines anderen Dokumentes) ist ziemlich einfach. Zusätzlich gibt es einige Feinheiten wie Literaturverweise und Fußnoten sowie Gestaltungsmittel wie Listen, Graphiken und Tabellen. Je spezieller Die Anforderungen an Semantik/Form/Struktur und verschiedene Möglichkeiten der Weiterverarbeitung sind, desto mehr Besonderheiten und Eigenheiten wird das Dokumentenformat aufweisen.
Warum eine eigene DTD: -1997 war keine geeignete DTD vorhanden -Konvertierung aus Word u.a. -Dissertationen und andere wissenschaftliche Publikationen -Als Module können gewünschte Formate hinzugefügt werden
Arten von Dokumenten: Dissertationen, Tagungsbände, Zeitschriftenartikel Dokumentation der DTD soll immer auf dem gleichen Stand sein wie die DTD selber
Warum Modularisierung? Anpassung an internationale Entwicklungen Mai 1999 DTD-Workshop HU Berlin Vereinheitlichung von Standards, um Strategien, Konvertierungen, Tools, Schulungsunterlagen mehrfach zu nutzen (Migration nach XML) Integration einer Recherche
NOTE-ddml-19990119: Document Definition Markup Language (DDML) Specification, Version 1.0 XHTML, DocBook und TEI arbeiten mit Entities
Demo Anhand der HTML-Datei
DTD wird generiert, gleichzeitig kann Dokumentation generiert werden