XUG Muc 4: Word <> XML

480 Aufrufe

Veröffentlicht am

Präsentation zur XUG Muc 4
Stefan Hermann über Word2XML Konvertierung

Veröffentlicht in: Technologie
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
480
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
5
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

XUG Muc 4: Word <> XML

  1. 1. XML mit Word erstellen - was ist daran so kompliziert? - Mein Arbeitsgebiet seit mehr als 15 Jahren - Wie konnte das nur passieren? - Dr. Stefan Hermann sh@infinity-loop.de Geschäftsführer infinity-loop Autor XML infinity-loop • 1997 gegründet • Spin-Off: TU München, Fakultät für Informatik • Schwerpunkte • Datenmodellierung (Fokus: Dokumente) • (Alt-) Datenkonvertierung • Autorenlösungen • Kundenstamm • Verlage, Technische Redaktionen, Verwaltung, Integratoren, … • Produkt • TheWordXMLroundtripUPLpipelineXSLTprocessor.
  2. 2. Warum XML mit Word erstellen? ? -> Frage an die Anwesenden! XML mit Word erstellen - Schritt 1: Authoring in Word - 1. Öffnen/Anlegen eines Dokumentes in Word 2. Text eingeben (Tippen / Kopieren) 3. Semantik zuweisen (Basis: Style-Guides / Autorenumgebung) • Tabellen/Listen erstellen • Semantische Blöcke erstellen • Formatvorlagen anwenden • Manuelle Formatierungen anwenden 4. Gut schütteln (nicht rühren!) 5. Word Absturz durchmachen – Dokument-Wiederherstellung anwenden 6. Ausdrucken 7. Dokument zwischen Computern/Plattformen austauschen
  3. 3. XML mit Word erstellen - Schritt 2: Export nach XML - Ganz einfach! 1. Dokument in Word öffnen 2. Als DOCX speichern 3. XSLT anwenden 4. Fertig! Danke für Ihre Aufmerksamkeit! Sie sind immer noch hier? Sehr schön! Folglich • ist Ihnen klar, wie schwierig nützliches XML aus Word zu bekommen ist • kennen Sie die Probleme mit Word und XML aus eigener Erfahrung • Sie haben komplexe Dokumente • Sie benötigen XML in Ihrer eigenen DTD • Sie haben viele verschiedene individuelle Autoren • Sie haben viele verschiedene individuelle Word Installationen • Sie haben viele verschiedene individuelle Dokumente • Sie hatten verschiedenste unerwartete Probleme • suchen Sie nach gleichgesinnten zum Informationsaustausch
  4. 4. Die Autoren - diejenigen, die alle Probleme verursachen - • arbeiten graphisch orientiert • benutzen deshalb “gerne” Word • sollten strukturierte Inhalte erzeugen • erstellen aber hauptsächlich Bilder davon • ignorieren (gerne) alles was man ihnen sagt authors • sind Spezialisten in ihrem Arbeitsbereich • aber keine perfekten Word Anwender • aber keine Dokumentstrukturspezialisten • wollen ihr Wissen zu Papier bringen so einfach wie möglich • müssen mit Word und dessen Eigenheiten leben … Die Leser - diejenigen, die uns am Herzen liegen - • wünschen Inhalte, die • einfach zugänglich und zu erfassen sind • schön dargestellt sind • gut strukturiert sind • verlinkt sind • individualisiert sind • überall auf jedem Gerät verfügbar sind wir benötigen reichhaltige Strukturen in XML um all dies zu erzielen readers
  5. 5. Von Word nach XML - ein langer und indirekter weg - Struktur Layout Autor Struktur XML Darstellung Analyse • Extern • Unkontrollierte SW-Umgebung • Altdaten Konverter Von Word nach XML - die beabsichtigte Struktur – der Mensch sieht sie sofort - Beispiel: Liste Aber die vom Autor verwendete Formatierung …
  6. 6. Beispiel: Liste Word auto-numbering typed manually typed manually, with whitespace Word restart numbering Von Word nach XML - die verwendete Formatierung – kaum zu glauben - Beispiel: Liste Word auto-numbering typed manually typed manually, with whitespace Word restart numbering Von Word nach XML - die erwartete Struktur – wie sie der Mensch sieht -
  7. 7. CSS – Properties - technische Details zur Formatierung in Word - • CSSC (class) • CSSO (override) • CSS (tatsächlicher Wert) Weitere böse Tricks von Autoren - Mißbrauch in Word - • hochgestellt auf ganzem Absatz um Schriftgröße zu verkleinern • H1 FV mit zusätzlicher CSSO um Absatz normal aussehen zu lassen • Mehrere Leerzeichen um Zeilenumbruch zu ändern • Weiße Buchstaben (auf weißem Hintergrund) für Abstände • Standard FV auf ganzem Text mit CSSO anstelle CSSC
  8. 8. Problematische Punkte in Word • Tabulatoren / Leerzeichen • Dezimal-Tabulatoren • Attribute / Metadaten zu Bild/Audio/Video und anderen Elementen • Graphiken: Verankerung und Cropping/Scaling bei Extraktion • Umsetzung Word-GUI für Projekt als (Pseudo-) WYSIWYG: ja/nein Interessante Funktionen • Unscharfe Operatoren • Regexer auf bereits bestehenden Strukturen • Block Building • Manipulation benachbarter Elemente
  9. 9. Von Word nach XML - Workflow gesamt - Autor XML Resümee gutes XML in einem stabilen Prozess aus Word zu bekommen ist machbar, aber nicht einfach

×