1. Technische Aspekte der
Zeitungsdigitalisierung
Günter Mühlberger
Universität Innsbruck – Digitalisierung und
elektronische Archivierung
2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Vorstellung
• Digitalisierung und elektronische Archivierung (DEA)
• Seit Mitte der 90er Jahre Digitalisierung und OCR
• 2002-2012 Abteilung an der UB Innsbruck
• 2012 Neuverteilung der Aktivitäteten: Digitalisierung als kommerzielle Dienstleistung
über transidee GmbH (Technologietransferplattform der Universität Innsbruck
• Am Instiut für Germanistik: Forschung und Service im Bereich Digital Humanities
• Digitalisierungsprojekte
• Austrian Literature Online (seit 2002)
• Digitalisierung von Zeitungen für Tessmann Bibliothek
• Komplette Digitalisierung des Innsbrucker Zeitungsarchivs (2004-2006)
• Größtes in-house Digitalisierungsprojekt in Österreich: 1,8 KM deutsche Dissertationen
(2008-2011)
• Digitalisierung der Tiroler Tageszeitung (1945-2003)
• Texterkennung für 8 Mill. Zeitungsseiten im Rahmen von Europeana Newspapers
2
3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Agenda
• Vorüberlegungen
• Digitalisierung
• Metadaten
• Texterkennung
• Strukturerkennung
• Benutzung
• Archivierung
3
4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Vorüberlegungen
• In-house vs. Dienstleister
• Aufbau einer Digitalisierungseinheit?
• Digitalisierung als ständige Einrichtung vs. als Projekt
• Kombination
• Präsentationssystem bekannt?
• Hohes Risiko falls unbekanntes Präsentationssystem
• Falsche Vorstellungen auf Seiten der Auftraggeber
• Archivierung
• Wie sieht die finale Datenstruktur aus?
• Wie soll Archivierung erfolgen?
4
5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Rechte
• Urheberrecht
• Schöpferisches Werk vs. Faktenmeldung
• 70 Jahre nach dem Tod des Autors werden Nutzungen frei
• Persönlichkeitsrecht
• Öffentliche Personen
• Nicht-öffentliche Personen
• Digitalisierung = Vervielfältigung mit elektronischen Mitteln
• Begründet kein neues Urheberrecht
• Copyrightfraud (Missbrauch des Urheberrechts)
• Zur-Verfügung-Stellung = Eigenes Recht, wie Publikation, Verteilung, etc.
• Open Access
• Creative Commons?
5
6. Metadaten als Image
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
6
7. Faktenmeldungen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
7
8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Digitalisierung
• Ziele
• Erfassung der relevanten Information
• Schaffung einer (sehr) guten Ausgangsbasis für
Weiterverarbeitung
• Abwägungen
• Qualität vs. Preis
• Inhouse vs. Dienstleister
• Rasche Durchführung vs. langer Atem
• Einheitlichkeit
8
9. Was macht Qualität aus?
• Missverständnisse
• 300, 400, 600, 1200 dpi?
• TIFF unkomprimiert vs. JPEG komprimiert?
• Zugeschnitten vs. schwarze Ränder
• Entzerrt vs. gewölbt
• Vollständig und geprüft vs. “was im Regal steht”
• Empfehlungen
• 300-400 in Farbe (auch bei s/w Vorlagen)
• JPEG leicht komprimiert (widerspricht DFG Forderung!)
• Bei Büchern und Zeitungen: Zugeschnitten und entzerrt (für OCR sehr
wichtig!)
• Vollständig und geprüft (macht am meisten Arbeit!)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
9
10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
IMPACT
EVA/MIN
ERVA
12th Nov.
2008
10
11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
IMPACT
EVA/MIN
ERVA
12th Nov.
2008
11
12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Metadaten
• Missverständnisse
• Bevor wir digitalisieren, müssen wir noch die Dokumente sauber erfassen
sehr viel Arbeit, bläht Digitalisierung unnötig auf
• Stattdessen: Abbildung der bestehenden Ordnung durch Digitalisierung
ist vielfach ausreichend (Benutzer findet online die gleiche Situation vor,
wie vor Ort = Erfolgsrezept von ANNO)
• ENP
• Europeana Newspaper METS ALTO Profile (ENMAP)
Name der Bibliothek
Katalog-ID
Titel der Zeitung
Sprache
Skript (Fraktur/Antiqua/Gemischt)
Datum des Tages
12
13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Workflow ENP
• Simple Lösung für einfachen Workflow
• Tagesordner
Fehlende Tage/Seiten: Dummy-Seiten!
• Sharepoint/Excel
• File Analyzer Tool (FAT)
Analysiert grosse Datenmengen in kurzer Zeit
Kontrolliert Gültigkeit der Verzeichnis- und Dateinamen (Datum, gültige Zeichen,
Länge, etc.)
Gibt Rückmeldung an den Benutzer
Erstellt XML File mit allen Informationen
• OCR (UIBK) oder erweiterte Segmentierung (CCS Gmbh)
ALTO Dateien
• METS Paket mit allen Daten und Dateien
13
14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
OCR
•Warum OCR?
• Deutschland (und Österreich) lange sehr skeptische Haltung
• “Produziert Fehler und kostet viel Geld”
• Glas halb leer oder halb voll?
• Google Books ohne OCR nicht vorstellbar
• OCR ist billig – weniger als ein Zehntel der Digitalisierungskosten!
• Technische Entwicklung
• Seit Mitte der 90er Jahre robuste und einsatzfähige Software
• Besondere Weiterentwicklung für Layouterkennung, Exportformate
(PDF/A, XML,…), Tabellenerkennung, etc.
• Neue Entwicklungen sind aus dem Bereich der Spracherkennung und
Handschriftenerkennung zu erwarten (Wortbasierte Modelle)
14
15. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
ENP Verarbeitung
• ABBYY FineReader
• Russische Firma, neben Nuance (US/Kanada) größter Anbieter
• Ca. 1000 Mitarbeiter
• Mehr als 200 Sprachen
• Einziger Anbieter für Frakturerkennung ohne Training
• Teilnehmer am METADATA ENGINE und IMPACT Projekt
• Direkter Export von ALTO
• Erfahrungen
• 32 Core Server, Rechenzeit für 10.000 Seiten zwischen 1 Tag und 3-4h abhängig von
der Menge an Text
• Freie Software
• Tesseract
• Ocropus
• Gamera
15
16. OCR Wortgenauigkeit
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
16
17. Strukturelle Metadaten
• “Dokument Understanding”
• Bild und Volltext erst der Anfang
• Komplexer Aufbau einer Zeitung
• Zeitung ist mehr als nur “Artikel”
• Layout Analyse
• Reduktion von unnötigem Text (Titelei, laufende Kolumnentitel, etc)
• Separierung Anzeigenteil – Redaktioneller Teil
• Abgleich mit parallelen Veröffentlichungen
• Was ist der “Kern” einer Nachricht?
• Führt auch bei sehr schlechtem Volltext zu brauchbaren Ergebnissen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
17
18. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Beispiel
18
19. Gelb: Redaktion Rot: Anzeigen Grün: Unterhaltung
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
19
Innsbrucker Nachrichten, 4 June 1870
20. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Benutzung
• Früher
• Blättern
• Screenen
• Lesen
• Notieren
• Heute
• Im Volltext Suchen
• PDF exportieren
• Künftig
• Interaktive Benutzung = Benutzer trägt etwas bei (mehr als nur crowd-sourcing)
• Standardisierte wissenschaftliche Nutzung (ANNO als Standardcorpus)
20
21. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
TEL
21
22. Suchen und Korrigieren - Corrify
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
22
23. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Archivierung
• Prioritäten
• Daten aus Digitalisierungsprojekten vs. born digital und digital only
Daten!
• Ungelöstes Problem der Langzeitarchivierung
• Strategien für “vorübergehende Langzeitarchivierung”
• Originale bleiben bei der Retrodigitalisierung erhalten
• ENMAP Pakete
Einfach zu verstehen, bedürfen praktisch kaum der Erklärung
Können in großen ZIP Files abgelegt warden
Unabhängig von der Anwendung: die digitale Ordnung entspricht weitgehend
der “natürlichen” Ordnung im Regal
• Lots of Copies Keep Save
23
24. Vielen Dank für die Aufmerksamkeit!
Günter Mühlberger l
<guenter.muehlberger@uibk.ac.at>