SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Technische Aspekte der 
Zeitungsdigitalisierung 
Günter Mühlberger 
Universität Innsbruck – Digitalisierung und 
elektronische Archivierung
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Vorstellung 
• Digitalisierung und elektronische Archivierung (DEA) 
• Seit Mitte der 90er Jahre Digitalisierung und OCR 
• 2002-2012 Abteilung an der UB Innsbruck 
• 2012 Neuverteilung der Aktivitäteten: Digitalisierung als kommerzielle Dienstleistung 
über transidee GmbH (Technologietransferplattform der Universität Innsbruck 
• Am Instiut für Germanistik: Forschung und Service im Bereich Digital Humanities 
• Digitalisierungsprojekte 
• Austrian Literature Online (seit 2002) 
• Digitalisierung von Zeitungen für Tessmann Bibliothek 
• Komplette Digitalisierung des Innsbrucker Zeitungsarchivs (2004-2006) 
• Größtes in-house Digitalisierungsprojekt in Österreich: 1,8 KM deutsche Dissertationen 
(2008-2011) 
• Digitalisierung der Tiroler Tageszeitung (1945-2003) 
• Texterkennung für 8 Mill. Zeitungsseiten im Rahmen von Europeana Newspapers 
2
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Agenda 
• Vorüberlegungen 
• Digitalisierung 
• Metadaten 
• Texterkennung 
• Strukturerkennung 
• Benutzung 
• Archivierung 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Vorüberlegungen 
• In-house vs. Dienstleister 
• Aufbau einer Digitalisierungseinheit? 
• Digitalisierung als ständige Einrichtung vs. als Projekt 
• Kombination 
• Präsentationssystem bekannt? 
• Hohes Risiko falls unbekanntes Präsentationssystem 
• Falsche Vorstellungen auf Seiten der Auftraggeber 
• Archivierung 
• Wie sieht die finale Datenstruktur aus? 
• Wie soll Archivierung erfolgen? 
4
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Rechte 
• Urheberrecht 
• Schöpferisches Werk vs. Faktenmeldung 
• 70 Jahre nach dem Tod des Autors werden Nutzungen frei 
• Persönlichkeitsrecht 
• Öffentliche Personen 
• Nicht-öffentliche Personen 
• Digitalisierung = Vervielfältigung mit elektronischen Mitteln 
• Begründet kein neues Urheberrecht 
• Copyrightfraud (Missbrauch des Urheberrechts) 
• Zur-Verfügung-Stellung = Eigenes Recht, wie Publikation, Verteilung, etc. 
• Open Access 
• Creative Commons? 
5
Metadaten als Image 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
6
Faktenmeldungen 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Digitalisierung 
• Ziele 
• Erfassung der relevanten Information 
• Schaffung einer (sehr) guten Ausgangsbasis für 
Weiterverarbeitung 
• Abwägungen 
• Qualität vs. Preis 
• Inhouse vs. Dienstleister 
• Rasche Durchführung vs. langer Atem 
• Einheitlichkeit 
8
Was macht Qualität aus? 
• Missverständnisse 
• 300, 400, 600, 1200 dpi? 
• TIFF unkomprimiert vs. JPEG komprimiert? 
• Zugeschnitten vs. schwarze Ränder 
• Entzerrt vs. gewölbt 
• Vollständig und geprüft vs. “was im Regal steht” 
• Empfehlungen 
• 300-400 in Farbe (auch bei s/w Vorlagen) 
• JPEG leicht komprimiert (widerspricht DFG Forderung!) 
• Bei Büchern und Zeitungen: Zugeschnitten und entzerrt (für OCR sehr 
wichtig!) 
• Vollständig und geprüft (macht am meisten Arbeit!) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
9
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
IMPACT 
EVA/MIN 
ERVA 
12th Nov. 
2008 
10
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
IMPACT 
EVA/MIN 
ERVA 
12th Nov. 
2008 
11
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Metadaten 
• Missverständnisse 
• Bevor wir digitalisieren, müssen wir noch die Dokumente sauber erfassen 
 sehr viel Arbeit, bläht Digitalisierung unnötig auf 
• Stattdessen: Abbildung der bestehenden Ordnung durch Digitalisierung 
ist vielfach ausreichend (Benutzer findet online die gleiche Situation vor, 
wie vor Ort = Erfolgsrezept von ANNO) 
• ENP 
• Europeana Newspaper METS ALTO Profile (ENMAP) 
Name der Bibliothek 
Katalog-ID 
Titel der Zeitung 
Sprache 
Skript (Fraktur/Antiqua/Gemischt) 
Datum des Tages 
12
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Workflow ENP 
• Simple Lösung für einfachen Workflow 
• Tagesordner 
Fehlende Tage/Seiten: Dummy-Seiten! 
• Sharepoint/Excel 
• File Analyzer Tool (FAT) 
Analysiert grosse Datenmengen in kurzer Zeit 
Kontrolliert Gültigkeit der Verzeichnis- und Dateinamen (Datum, gültige Zeichen, 
Länge, etc.) 
Gibt Rückmeldung an den Benutzer 
Erstellt XML File mit allen Informationen 
• OCR (UIBK) oder erweiterte Segmentierung (CCS Gmbh) 
ALTO Dateien 
• METS Paket mit allen Daten und Dateien 
13
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
OCR 
•Warum OCR? 
• Deutschland (und Österreich) lange sehr skeptische Haltung 
• “Produziert Fehler und kostet viel Geld” 
• Glas halb leer oder halb voll? 
• Google Books ohne OCR nicht vorstellbar 
• OCR ist billig – weniger als ein Zehntel der Digitalisierungskosten! 
• Technische Entwicklung 
• Seit Mitte der 90er Jahre robuste und einsatzfähige Software 
• Besondere Weiterentwicklung für Layouterkennung, Exportformate 
(PDF/A, XML,…), Tabellenerkennung, etc. 
• Neue Entwicklungen sind aus dem Bereich der Spracherkennung und 
Handschriftenerkennung zu erwarten (Wortbasierte Modelle) 
14
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
ENP Verarbeitung 
• ABBYY FineReader 
• Russische Firma, neben Nuance (US/Kanada) größter Anbieter 
• Ca. 1000 Mitarbeiter 
• Mehr als 200 Sprachen 
• Einziger Anbieter für Frakturerkennung ohne Training 
• Teilnehmer am METADATA ENGINE und IMPACT Projekt 
• Direkter Export von ALTO 
• Erfahrungen 
• 32 Core Server, Rechenzeit für 10.000 Seiten zwischen 1 Tag und 3-4h abhängig von 
der Menge an Text 
• Freie Software 
• Tesseract 
• Ocropus 
• Gamera 
15
OCR Wortgenauigkeit 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
16
Strukturelle Metadaten 
• “Dokument Understanding” 
• Bild und Volltext erst der Anfang 
• Komplexer Aufbau einer Zeitung 
• Zeitung ist mehr als nur “Artikel” 
• Layout Analyse 
• Reduktion von unnötigem Text (Titelei, laufende Kolumnentitel, etc) 
• Separierung Anzeigenteil – Redaktioneller Teil 
• Abgleich mit parallelen Veröffentlichungen 
• Was ist der “Kern” einer Nachricht? 
• Führt auch bei sehr schlechtem Volltext zu brauchbaren Ergebnissen 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
17
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Beispiel 
18
Gelb: Redaktion Rot: Anzeigen Grün: Unterhaltung 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
19 
Innsbrucker Nachrichten, 4 June 1870
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Benutzung 
• Früher 
• Blättern 
• Screenen 
• Lesen 
• Notieren 
• Heute 
• Im Volltext Suchen 
• PDF exportieren 
• Künftig 
• Interaktive Benutzung = Benutzer trägt etwas bei (mehr als nur crowd-sourcing) 
• Standardisierte wissenschaftliche Nutzung (ANNO als Standardcorpus) 
20
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
TEL 
21
Suchen und Korrigieren - Corrify 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
22
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Archivierung 
• Prioritäten 
• Daten aus Digitalisierungsprojekten vs. born digital und digital only 
Daten! 
• Ungelöstes Problem der Langzeitarchivierung 
• Strategien für “vorübergehende Langzeitarchivierung” 
• Originale bleiben bei der Retrodigitalisierung erhalten 
• ENMAP Pakete 
Einfach zu verstehen, bedürfen praktisch kaum der Erklärung 
Können in großen ZIP Files abgelegt warden 
Unabhängig von der Anwendung: die digitale Ordnung entspricht weitgehend 
der “natürlichen” Ordnung im Regal 
• Lots of Copies Keep Save 
23
Vielen Dank für die Aufmerksamkeit! 
Günter Mühlberger l 
<guenter.muehlberger@uibk.ac.at>

Weitere ähnliche Inhalte

Ähnlich wie ENP_ONB_infday_GMuehlberger

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceIMPACT Centre of Competence
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Patrick Peiffer
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
 
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2Andreas Mertens
 
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei Schüco
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei SchücoEinfach weiterdenken: Traditionelle und digitale Dokumentationen bei Schüco
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei SchücoTANNER AG
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienGeorg Rehm
 
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)Communardo GmbH
 
10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung
10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung
10 Dinge die ich an dir hasse - Stolpersteine in der WebentwicklungSebastian Springer
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Thilo Stadelmann
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Martin Kaltenböck
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 

Ähnlich wie ENP_ONB_infday_GMuehlberger (20)

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
 
Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2
Die Strategische Bedeutung Von Open Source FüR Das 3 D Internet V2
 
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei Schüco
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei SchücoEinfach weiterdenken: Traditionelle und digitale Dokumentationen bei Schüco
Einfach weiterdenken: Traditionelle und digitale Dokumentationen bei Schüco
 
171211 kitodo
171211 kitodo171211 kitodo
171211 kitodo
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)
CCD 2011: Rollout eines Confluence Intranets (Sascha Knöchel)
 
10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung
10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung
10 Dinge die ich an dir hasse - Stolpersteine in der Webentwicklung
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 

Mehr von Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayEuropeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayEuropeana Newspapers
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers
 

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 

ENP_ONB_infday_GMuehlberger

  • 1. Technische Aspekte der Zeitungsdigitalisierung Günter Mühlberger Universität Innsbruck – Digitalisierung und elektronische Archivierung
  • 2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Vorstellung • Digitalisierung und elektronische Archivierung (DEA) • Seit Mitte der 90er Jahre Digitalisierung und OCR • 2002-2012 Abteilung an der UB Innsbruck • 2012 Neuverteilung der Aktivitäteten: Digitalisierung als kommerzielle Dienstleistung über transidee GmbH (Technologietransferplattform der Universität Innsbruck • Am Instiut für Germanistik: Forschung und Service im Bereich Digital Humanities • Digitalisierungsprojekte • Austrian Literature Online (seit 2002) • Digitalisierung von Zeitungen für Tessmann Bibliothek • Komplette Digitalisierung des Innsbrucker Zeitungsarchivs (2004-2006) • Größtes in-house Digitalisierungsprojekt in Österreich: 1,8 KM deutsche Dissertationen (2008-2011) • Digitalisierung der Tiroler Tageszeitung (1945-2003) • Texterkennung für 8 Mill. Zeitungsseiten im Rahmen von Europeana Newspapers 2
  • 3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Agenda • Vorüberlegungen • Digitalisierung • Metadaten • Texterkennung • Strukturerkennung • Benutzung • Archivierung 3
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Vorüberlegungen • In-house vs. Dienstleister • Aufbau einer Digitalisierungseinheit? • Digitalisierung als ständige Einrichtung vs. als Projekt • Kombination • Präsentationssystem bekannt? • Hohes Risiko falls unbekanntes Präsentationssystem • Falsche Vorstellungen auf Seiten der Auftraggeber • Archivierung • Wie sieht die finale Datenstruktur aus? • Wie soll Archivierung erfolgen? 4
  • 5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Rechte • Urheberrecht • Schöpferisches Werk vs. Faktenmeldung • 70 Jahre nach dem Tod des Autors werden Nutzungen frei • Persönlichkeitsrecht • Öffentliche Personen • Nicht-öffentliche Personen • Digitalisierung = Vervielfältigung mit elektronischen Mitteln • Begründet kein neues Urheberrecht • Copyrightfraud (Missbrauch des Urheberrechts) • Zur-Verfügung-Stellung = Eigenes Recht, wie Publikation, Verteilung, etc. • Open Access • Creative Commons? 5
  • 6. Metadaten als Image This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6
  • 7. Faktenmeldungen This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Digitalisierung • Ziele • Erfassung der relevanten Information • Schaffung einer (sehr) guten Ausgangsbasis für Weiterverarbeitung • Abwägungen • Qualität vs. Preis • Inhouse vs. Dienstleister • Rasche Durchführung vs. langer Atem • Einheitlichkeit 8
  • 9. Was macht Qualität aus? • Missverständnisse • 300, 400, 600, 1200 dpi? • TIFF unkomprimiert vs. JPEG komprimiert? • Zugeschnitten vs. schwarze Ränder • Entzerrt vs. gewölbt • Vollständig und geprüft vs. “was im Regal steht” • Empfehlungen • 300-400 in Farbe (auch bei s/w Vorlagen) • JPEG leicht komprimiert (widerspricht DFG Forderung!) • Bei Büchern und Zeitungen: Zugeschnitten und entzerrt (für OCR sehr wichtig!) • Vollständig und geprüft (macht am meisten Arbeit!) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  • 10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp IMPACT EVA/MIN ERVA 12th Nov. 2008 10
  • 11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp IMPACT EVA/MIN ERVA 12th Nov. 2008 11
  • 12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Metadaten • Missverständnisse • Bevor wir digitalisieren, müssen wir noch die Dokumente sauber erfassen  sehr viel Arbeit, bläht Digitalisierung unnötig auf • Stattdessen: Abbildung der bestehenden Ordnung durch Digitalisierung ist vielfach ausreichend (Benutzer findet online die gleiche Situation vor, wie vor Ort = Erfolgsrezept von ANNO) • ENP • Europeana Newspaper METS ALTO Profile (ENMAP) Name der Bibliothek Katalog-ID Titel der Zeitung Sprache Skript (Fraktur/Antiqua/Gemischt) Datum des Tages 12
  • 13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Workflow ENP • Simple Lösung für einfachen Workflow • Tagesordner Fehlende Tage/Seiten: Dummy-Seiten! • Sharepoint/Excel • File Analyzer Tool (FAT) Analysiert grosse Datenmengen in kurzer Zeit Kontrolliert Gültigkeit der Verzeichnis- und Dateinamen (Datum, gültige Zeichen, Länge, etc.) Gibt Rückmeldung an den Benutzer Erstellt XML File mit allen Informationen • OCR (UIBK) oder erweiterte Segmentierung (CCS Gmbh) ALTO Dateien • METS Paket mit allen Daten und Dateien 13
  • 14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp OCR •Warum OCR? • Deutschland (und Österreich) lange sehr skeptische Haltung • “Produziert Fehler und kostet viel Geld” • Glas halb leer oder halb voll? • Google Books ohne OCR nicht vorstellbar • OCR ist billig – weniger als ein Zehntel der Digitalisierungskosten! • Technische Entwicklung • Seit Mitte der 90er Jahre robuste und einsatzfähige Software • Besondere Weiterentwicklung für Layouterkennung, Exportformate (PDF/A, XML,…), Tabellenerkennung, etc. • Neue Entwicklungen sind aus dem Bereich der Spracherkennung und Handschriftenerkennung zu erwarten (Wortbasierte Modelle) 14
  • 15. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp ENP Verarbeitung • ABBYY FineReader • Russische Firma, neben Nuance (US/Kanada) größter Anbieter • Ca. 1000 Mitarbeiter • Mehr als 200 Sprachen • Einziger Anbieter für Frakturerkennung ohne Training • Teilnehmer am METADATA ENGINE und IMPACT Projekt • Direkter Export von ALTO • Erfahrungen • 32 Core Server, Rechenzeit für 10.000 Seiten zwischen 1 Tag und 3-4h abhängig von der Menge an Text • Freie Software • Tesseract • Ocropus • Gamera 15
  • 16. OCR Wortgenauigkeit This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 16
  • 17. Strukturelle Metadaten • “Dokument Understanding” • Bild und Volltext erst der Anfang • Komplexer Aufbau einer Zeitung • Zeitung ist mehr als nur “Artikel” • Layout Analyse • Reduktion von unnötigem Text (Titelei, laufende Kolumnentitel, etc) • Separierung Anzeigenteil – Redaktioneller Teil • Abgleich mit parallelen Veröffentlichungen • Was ist der “Kern” einer Nachricht? • Führt auch bei sehr schlechtem Volltext zu brauchbaren Ergebnissen This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 17
  • 18. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beispiel 18
  • 19. Gelb: Redaktion Rot: Anzeigen Grün: Unterhaltung This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 19 Innsbrucker Nachrichten, 4 June 1870
  • 20. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Benutzung • Früher • Blättern • Screenen • Lesen • Notieren • Heute • Im Volltext Suchen • PDF exportieren • Künftig • Interaktive Benutzung = Benutzer trägt etwas bei (mehr als nur crowd-sourcing) • Standardisierte wissenschaftliche Nutzung (ANNO als Standardcorpus) 20
  • 21. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp TEL 21
  • 22. Suchen und Korrigieren - Corrify This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 22
  • 23. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Archivierung • Prioritäten • Daten aus Digitalisierungsprojekten vs. born digital und digital only Daten! • Ungelöstes Problem der Langzeitarchivierung • Strategien für “vorübergehende Langzeitarchivierung” • Originale bleiben bei der Retrodigitalisierung erhalten • ENMAP Pakete Einfach zu verstehen, bedürfen praktisch kaum der Erklärung Können in großen ZIP Files abgelegt warden Unabhängig von der Anwendung: die digitale Ordnung entspricht weitgehend der “natürlichen” Ordnung im Regal • Lots of Copies Keep Save 23
  • 24. Vielen Dank für die Aufmerksamkeit! Günter Mühlberger l <guenter.muehlberger@uibk.ac.at>