Der Einsatz automatisierter
Verfahren zur vertieften
Erschließung historischer
Zeitungsbestände. Ein DFG-
Pilotprojekt der ULB Sachsen-
Anhalt
Europeana Newspapers Project
Information Day Berlin, 27. Februar 2014
Kay Heiligenhaus
semantics GmbH, Aachen
Digitalisierung des Halleschen Tageblattes
∙Laufzeit von Mai 2013 bis April 2015
∙Digitalisierung von 117 Bänden
unterschiedlichen Formats (vom Original in
Farbe)
∙durch Strukturdaten inhaltlich erschlossen
∙durch Fraktur-OCR im Volltext erschlossen
∙persistent adressierbar bis auf Ausgabe-,
Artikel- und Seitenebene
Digitalisierung des Halleschen Tageblattes
Zeitraum Format Anzahl der
Bände
Anzahl der
Seiten
1799 - 1855 Oktav 68 74.280
1856 - 1864 Quart 9 13.611
1865 -1871 Folio 4° 8 11.586
1872 -1892 Folio 2° 32 42.922
Gesamt 117 142.399
DFG-Positionspapier (2012): Digitalisierung
Ausschuss für Wissen-
schaftliche Bibliotheken und
Informationssysteme: Die
digitale Transformation weiter
gestalten – Der Beitrag der
Deutschen Forschungs-
gemeinschaft zu einer
innovativen Informations-
infrastruktur für die Forschung,
Bonn, 3. Juli 2012.
http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
DFG-Positionspapier (2012): Förderschwerpunkte
Zur weiteren Umsetzung der
digitalen Transformation analoger
Überlieferung wird sich der
Schwerpunkt der
Förderaktivitäten im Bereich
Digitalisierung nach und nach von
Drucken hin zu historischen
Zeitungen und unikalem
Material […] verschieben. (S. 10)
DFG-Positionspapier (2012): Pilotprojekt Zeitungen
Bei der […] Förderung von
Digitalisierungsmaßnahmen im
Bereich historischer Zeitungen
[…] wird es in erster Linie darum
gehen, im Rahmen von
Pilotphasen methodische,
organisatorische und
technische Rahmen-
bedingungen […] zu definieren.
(S. 10)
DFG-Positionspapier (2012): Automatisierung
Vor dem Hintergrund technischer
Weiterentwicklungen sollte […]
eruiert werden, wie
automatisierte Verfahren zur
vertieften Erschließung […]
Anwendung finden können. Dabei
soll auch die Entwicklung neuer
Methoden, zum Beispiel im Bereich
des Machine Learning, gefördert
werden. (S. 12)
Herausforderung: Inhaltliche Erschließung aller
in Deutschland erschienenen Zeitungen bis 1945
o Zeitungen in der ZDB:
~ 50.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland:
~ 30.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland vor 1945:
~ 16.000 Titel.
http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
Lösungsoption II: Technische Parameter zur
Ermittlung des Fingerprints
o Ziel: Identifikation hinreichend eindeutiger
Objekte (Pixelhaufen) von bestimmter Größe
auf einer Seite, um eine Segmentierung eines
Seitenstroms (Jahrgang) in homogene
Segmente zur erreichen.
o Objektgröße
o Erosion/Dilation
o Position
o Objektanzahl(min/max)
o 11 Mio. Kombinationen
(50 x 15 x 250 x 600)
o ~ 1 Seite/Sekunde pro Core
Einsatz in der Projekt-Praxis: Automatische
Segmentierung eines Jahrgangs
Einsatz in der Projekt-Praxis: Qualitätssicherung der
segmentierten Jahrgänge
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe II
Kosten der Lösungsoption II:
Einsatz von Mustererkennung
o ~ ? EUR Entwicklungs-/Lizenzkosten
o ~ ? EUR Verarbeitungskosten
o ~ 3,5 Mio. EUR Personalkosten (90%
Effizienzsteigerung)
~ ? Mio. EUR Gesamtkosten
(> 75% Einsparung)