XML mit Word erstellen 
- was ist daran so kompliziert? - 
Mein Arbeitsgebiet seit mehr als 15 Jahren 
- Wie konnte das nur passieren? - 
Dr. Stefan Hermann 
sh@infinity-loop.de 
Geschäftsführer infinity-loop 
Autor 
XML 
infinity-loop 
• 1997 gegründet 
• Spin-Off: TU München, Fakultät für Informatik 
• Schwerpunkte 
• Datenmodellierung (Fokus: Dokumente) 
• (Alt-) Datenkonvertierung 
• Autorenlösungen 
• Kundenstamm 
• Verlage, Technische Redaktionen, Verwaltung, Integratoren, … 
• Produkt 
• TheWordXMLroundtripUPLpipelineXSLTprocessor.
Warum XML mit Word erstellen? 
? 
-> Frage an die Anwesenden! 
XML mit Word erstellen 
- Schritt 1: Authoring in Word - 
1. Öffnen/Anlegen eines Dokumentes in Word 
2. Text eingeben (Tippen / Kopieren) 
3. Semantik zuweisen (Basis: Style-Guides / Autorenumgebung) 
• Tabellen/Listen erstellen 
• Semantische Blöcke erstellen 
• Formatvorlagen anwenden 
• Manuelle Formatierungen anwenden 
4. Gut schütteln (nicht rühren!) 
5. Word Absturz durchmachen – Dokument-Wiederherstellung anwenden 
6. Ausdrucken 
7. Dokument zwischen Computern/Plattformen austauschen
XML mit Word erstellen 
- Schritt 2: Export nach XML - 
Ganz einfach! 
1. Dokument in Word öffnen 
2. Als DOCX speichern 
3. XSLT anwenden 
4. Fertig! 
Danke für Ihre Aufmerksamkeit! 
Sie sind immer noch hier? 
Sehr schön! 
Folglich 
• ist Ihnen klar, wie schwierig nützliches XML aus Word zu bekommen ist 
• kennen Sie die Probleme mit Word und XML aus eigener Erfahrung 
• Sie haben komplexe Dokumente 
• Sie benötigen XML in Ihrer eigenen DTD 
• Sie haben viele verschiedene individuelle Autoren 
• Sie haben viele verschiedene individuelle Word Installationen 
• Sie haben viele verschiedene individuelle Dokumente 
• Sie hatten verschiedenste unerwartete Probleme 
• suchen Sie nach gleichgesinnten zum Informationsaustausch
Die Autoren 
- diejenigen, die alle Probleme verursachen - 
• arbeiten graphisch orientiert 
• benutzen deshalb “gerne” Word 
• sollten strukturierte Inhalte erzeugen 
• erstellen aber hauptsächlich Bilder davon 
• ignorieren (gerne) alles was man ihnen sagt 
authors 
• sind Spezialisten in ihrem Arbeitsbereich 
• aber keine perfekten Word Anwender 
• aber keine Dokumentstrukturspezialisten 
• wollen ihr Wissen zu Papier bringen 
 so einfach wie möglich 
• müssen mit Word und dessen Eigenheiten leben … 
Die Leser 
- diejenigen, die uns am Herzen liegen - 
• wünschen Inhalte, die 
• einfach zugänglich und zu erfassen sind 
• schön dargestellt sind 
• gut strukturiert sind 
• verlinkt sind 
• individualisiert sind 
• überall auf jedem Gerät verfügbar sind 
 wir benötigen reichhaltige Strukturen in XML 
um all dies zu erzielen 
readers
Von Word nach XML 
- ein langer und indirekter weg - 
Struktur Layout 
Autor 
Struktur 
XML 
Darstellung Analyse 
• Extern 
• Unkontrollierte SW-Umgebung 
• Altdaten 
Konverter 
Von Word nach XML 
- die beabsichtigte Struktur – der Mensch sieht sie sofort - 
Beispiel: Liste 
Aber die vom Autor verwendete Formatierung …
Beispiel: Liste 
Word auto-numbering 
typed manually 
typed manually, with whitespace 
Word restart numbering 
Von Word nach XML 
- die verwendete Formatierung – kaum zu glauben - 
Beispiel: Liste 
Word auto-numbering 
typed manually 
typed manually, with whitespace 
Word restart numbering 
Von Word nach XML 
- die erwartete Struktur – wie sie der Mensch sieht -
CSS – Properties 
- technische Details zur Formatierung in Word - 
• CSSC (class) 
• CSSO (override) 
• CSS (tatsächlicher Wert) 
Weitere böse Tricks von Autoren 
- Mißbrauch in Word - 
• hochgestellt auf ganzem Absatz um Schriftgröße zu verkleinern 
• H1 FV mit zusätzlicher CSSO um Absatz normal aussehen zu lassen 
• Mehrere Leerzeichen um Zeilenumbruch zu ändern 
• Weiße Buchstaben (auf weißem Hintergrund) für Abstände 
• Standard FV auf ganzem Text mit CSSO anstelle CSSC
Problematische Punkte in Word 
• Tabulatoren / Leerzeichen 
• Dezimal-Tabulatoren 
• Attribute / Metadaten zu Bild/Audio/Video und anderen Elementen 
• Graphiken: Verankerung und Cropping/Scaling bei Extraktion 
• Umsetzung Word-GUI für Projekt als (Pseudo-) WYSIWYG: ja/nein 
Interessante Funktionen 
• Unscharfe Operatoren 
• Regexer auf bereits bestehenden Strukturen 
• Block Building 
• Manipulation benachbarter Elemente
Von Word nach XML 
- Workflow gesamt - 
Autor 
XML 
Resümee 
gutes XML in einem stabilen Prozess aus Word zu 
bekommen ist machbar, aber nicht einfach

XUG Muc 4: Word <> XML

  • 1.
    XML mit Worderstellen - was ist daran so kompliziert? - Mein Arbeitsgebiet seit mehr als 15 Jahren - Wie konnte das nur passieren? - Dr. Stefan Hermann sh@infinity-loop.de Geschäftsführer infinity-loop Autor XML infinity-loop • 1997 gegründet • Spin-Off: TU München, Fakultät für Informatik • Schwerpunkte • Datenmodellierung (Fokus: Dokumente) • (Alt-) Datenkonvertierung • Autorenlösungen • Kundenstamm • Verlage, Technische Redaktionen, Verwaltung, Integratoren, … • Produkt • TheWordXMLroundtripUPLpipelineXSLTprocessor.
  • 2.
    Warum XML mitWord erstellen? ? -> Frage an die Anwesenden! XML mit Word erstellen - Schritt 1: Authoring in Word - 1. Öffnen/Anlegen eines Dokumentes in Word 2. Text eingeben (Tippen / Kopieren) 3. Semantik zuweisen (Basis: Style-Guides / Autorenumgebung) • Tabellen/Listen erstellen • Semantische Blöcke erstellen • Formatvorlagen anwenden • Manuelle Formatierungen anwenden 4. Gut schütteln (nicht rühren!) 5. Word Absturz durchmachen – Dokument-Wiederherstellung anwenden 6. Ausdrucken 7. Dokument zwischen Computern/Plattformen austauschen
  • 3.
    XML mit Worderstellen - Schritt 2: Export nach XML - Ganz einfach! 1. Dokument in Word öffnen 2. Als DOCX speichern 3. XSLT anwenden 4. Fertig! Danke für Ihre Aufmerksamkeit! Sie sind immer noch hier? Sehr schön! Folglich • ist Ihnen klar, wie schwierig nützliches XML aus Word zu bekommen ist • kennen Sie die Probleme mit Word und XML aus eigener Erfahrung • Sie haben komplexe Dokumente • Sie benötigen XML in Ihrer eigenen DTD • Sie haben viele verschiedene individuelle Autoren • Sie haben viele verschiedene individuelle Word Installationen • Sie haben viele verschiedene individuelle Dokumente • Sie hatten verschiedenste unerwartete Probleme • suchen Sie nach gleichgesinnten zum Informationsaustausch
  • 4.
    Die Autoren -diejenigen, die alle Probleme verursachen - • arbeiten graphisch orientiert • benutzen deshalb “gerne” Word • sollten strukturierte Inhalte erzeugen • erstellen aber hauptsächlich Bilder davon • ignorieren (gerne) alles was man ihnen sagt authors • sind Spezialisten in ihrem Arbeitsbereich • aber keine perfekten Word Anwender • aber keine Dokumentstrukturspezialisten • wollen ihr Wissen zu Papier bringen so einfach wie möglich • müssen mit Word und dessen Eigenheiten leben … Die Leser - diejenigen, die uns am Herzen liegen - • wünschen Inhalte, die • einfach zugänglich und zu erfassen sind • schön dargestellt sind • gut strukturiert sind • verlinkt sind • individualisiert sind • überall auf jedem Gerät verfügbar sind wir benötigen reichhaltige Strukturen in XML um all dies zu erzielen readers
  • 5.
    Von Word nachXML - ein langer und indirekter weg - Struktur Layout Autor Struktur XML Darstellung Analyse • Extern • Unkontrollierte SW-Umgebung • Altdaten Konverter Von Word nach XML - die beabsichtigte Struktur – der Mensch sieht sie sofort - Beispiel: Liste Aber die vom Autor verwendete Formatierung …
  • 6.
    Beispiel: Liste Wordauto-numbering typed manually typed manually, with whitespace Word restart numbering Von Word nach XML - die verwendete Formatierung – kaum zu glauben - Beispiel: Liste Word auto-numbering typed manually typed manually, with whitespace Word restart numbering Von Word nach XML - die erwartete Struktur – wie sie der Mensch sieht -
  • 7.
    CSS – Properties - technische Details zur Formatierung in Word - • CSSC (class) • CSSO (override) • CSS (tatsächlicher Wert) Weitere böse Tricks von Autoren - Mißbrauch in Word - • hochgestellt auf ganzem Absatz um Schriftgröße zu verkleinern • H1 FV mit zusätzlicher CSSO um Absatz normal aussehen zu lassen • Mehrere Leerzeichen um Zeilenumbruch zu ändern • Weiße Buchstaben (auf weißem Hintergrund) für Abstände • Standard FV auf ganzem Text mit CSSO anstelle CSSC
  • 8.
    Problematische Punkte inWord • Tabulatoren / Leerzeichen • Dezimal-Tabulatoren • Attribute / Metadaten zu Bild/Audio/Video und anderen Elementen • Graphiken: Verankerung und Cropping/Scaling bei Extraktion • Umsetzung Word-GUI für Projekt als (Pseudo-) WYSIWYG: ja/nein Interessante Funktionen • Unscharfe Operatoren • Regexer auf bereits bestehenden Strukturen • Block Building • Manipulation benachbarter Elemente
  • 9.
    Von Word nachXML - Workflow gesamt - Autor XML Resümee gutes XML in einem stabilen Prozess aus Word zu bekommen ist machbar, aber nicht einfach