SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Zeitungsdigitalisierung:
Stand der Technik und Herausforderungen
an Layout- und Strukturanalyse
Clemens Neudecker
Staatsbibliothek zu Berlin
@cneudecker
Inhalt
1. Überblick Zeitungsdigitalisierung
2. Stand der Technik
3. Qualität
a) OCR / Texterkennung
b) OLR / Layoutanalyse
4. Herausforderungen
5. Ausblick
Zeitungsdigitalisierung
• EU: Europeana Newspapers (12 Mio. Seiten)
– ANNO Austrian Newspapers Online (17 Mio.)
– KBNL Historische Kranten (10 Mio.)
• US: Chronicling America (10 Mio.)
• UK: British Newspaper Archive (15 Mio.)
• AU: Trove Newspapers (16,5 Mio.)
• DE: DFG Pilotprojekt Zeitungsdigitalisierung
Massendigitalisierung von Zeitungen ist Realität
 OCR inzwischen auch bei Zeitungen Standard
 Meist Retro-Digitalisierung von Mikrofilm
Stand der Technik
• Üblicherweise: ABBYY FineReader + X
– CCS docWORKS
– Fraunhofer IAIS
– GFaI Dacapo
– P.P.S.
– ZISSOR
– uvm.
• Open Source Alternativen?
Formate
• Üblicherweise: METS (Struktur) + ALTO (OCR)
• „In the wild“:
– PDF (mit/ohne eingebetteten Volltext)
– hOCR (Google Tesseract/OCRopy)
– TEI (Text Encoding Initiative)
– Proprietäre Formate, XML-basiert (z.B. Olive)
– Plain text, keine Strukturdaten/Koordinaten
– MS Word .DOC (ja, wirklich…)
Qualität: Texterkennung
• Europeana Newspapers Evaluation:
OCR Qualität von rund 80% Wortgenauigkeit
82.4%
85.3%
80.9%
75.9%
67.5%
83.4% 84.1%
68.1%
93.1%
57.6%
87.0%
68.3%
76.1%
82.6%
54.1%
32.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SuccessRate
Language Setting
Bag of Words OCR Evaluation
Per Language
Qualität: Layoutanalyse (I)
• ICDAR Competition HNLA2013
58.3%
83.7% 83.2%
85.6% 86.4% 86.9% 85.5%
50%
60%
70%
80%
90%
100%
Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer
2013
Fraunhofer
2011
SuccessRate
Segmentation
Qualität: Layoutanalyse (II)
• ICDAR Competition HNLA2013
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer
2013
Fraunhofer
2011
Missclas-
sification
False
Detection
Miss/ Partial
Miss
Split
Merge
Besondere Herausforderungen
• Qualität der Vorlage (Original)
• Qualität Mikrofilmdigitalisierung
• Komplexität Layout und Struktur
• Artikelsegmentierung, teilweise über
mehrere Seiten
• Tabellen
• Werbung, Anzeigen
Layoutanalyse
• Artikel, Überschriften, Abbildungen, …
Artikelsegmentierung
• Inhalte und Reihenfolge von Artikeln erfassen
Tabellen
• Bsp. HEBIS Projekt „Historische Finanzdaten“
Werbung, Anzeigen
• Vielfalt an Schriftarten, grafischen Elementen
Strukturanalyse (I)
• Deep structuring (Mühlberger, 2016)
Strukturanalyse (II)
• Structify (Universität Innsbruck)
Ausblick
• Verbesserte Layoutanalysewerkzeuge
speziell für (historische) Zeitungen
- bevorzugt Open Source
• Nachkorrekturmöglichkeiten für
Layouterkennung und -klassifikation
• Modelle und Werkzeuge zur inhaltlichen
Tiefenstrukturierung
Danke für ihre Aufmerksamkeit!
Fragen?
Clemens Neudecker
Staatsbibliothek zu Berlin
@cneudecker

Weitere ähnliche Inhalte

Andere mochten auch

CM10 Local Economies Bruce Smith
CM10 Local Economies Bruce SmithCM10 Local Economies Bruce Smith
CM10 Local Economies Bruce SmithCommunityMatters
 
Here Today, Gone within a Month: The Fleeting Life of Digital News
Here Today, Gone within a Month: The Fleeting Life of Digital NewsHere Today, Gone within a Month: The Fleeting Life of Digital News
Here Today, Gone within a Month: The Fleeting Life of Digital NewsFrederick Zarndt
 
презентация скоцкой т.н.
презентация скоцкой т.н.презентация скоцкой т.н.
презентация скоцкой т.н.skotckaiatn
 
Beautiful landscapes 4# HD WS 16:9
Beautiful landscapes 4# HD WS 16:9Beautiful landscapes 4# HD WS 16:9
Beautiful landscapes 4# HD WS 16:9langrenchi
 
Everything librarians need to know to help genealogists but were afraid to ask
Everything librarians need to know to help genealogists but were afraid to askEverything librarians need to know to help genealogists but were afraid to ask
Everything librarians need to know to help genealogists but were afraid to askNicole Wedemeyer Miller
 
4ºC Vanda Furtado Marques
4ºC Vanda Furtado Marques4ºC Vanda Furtado Marques
4ºC Vanda Furtado Marquespoletef
 
Presentation drs suteu pillan
Presentation drs suteu pillanPresentation drs suteu pillan
Presentation drs suteu pillanIrina Suteu
 
Ficha de avaliação nº 22 funções do operador de caixa
Ficha de avaliação nº 22 funções do operador de caixaFicha de avaliação nº 22 funções do operador de caixa
Ficha de avaliação nº 22 funções do operador de caixaLeonor Alves
 
LC[B2]
LC[B2]LC[B2]
LC[B2]J P
 
Ficha de trabalho nº 1 - o que é o serviço pos venda?
Ficha de trabalho nº 1 - o que é o serviço pos venda?Ficha de trabalho nº 1 - o que é o serviço pos venda?
Ficha de trabalho nº 1 - o que é o serviço pos venda?Leonor Alves
 
RVCC - NB
RVCC - NBRVCC - NB
RVCC - NBJ P
 
Ficha de trabalho nº15 spv-cleintes passivos, ativos irados e ativistas
Ficha de trabalho nº15  spv-cleintes passivos, ativos irados e ativistasFicha de trabalho nº15  spv-cleintes passivos, ativos irados e ativistas
Ficha de trabalho nº15 spv-cleintes passivos, ativos irados e ativistasLeonor Alves
 
Stevens-Johnson Syndrome
Stevens-Johnson Syndrome Stevens-Johnson Syndrome
Stevens-Johnson Syndrome Ryan Alfonso
 
Ficha de trabalho nº10 spv- saber escutar
Ficha de trabalho nº10  spv-  saber escutarFicha de trabalho nº10  spv-  saber escutar
Ficha de trabalho nº10 spv- saber escutarLeonor Alves
 
Ficha de trabalho nº12 marteking 3.0 e marketing pessoal
Ficha de trabalho nº12   marteking 3.0 e marketing pessoalFicha de trabalho nº12   marteking 3.0 e marketing pessoal
Ficha de trabalho nº12 marteking 3.0 e marketing pessoalLeonor Alves
 
Ficha de trabalho nº10 areas de marketing- m6
Ficha de trabalho nº10   areas de marketing- m6Ficha de trabalho nº10   areas de marketing- m6
Ficha de trabalho nº10 areas de marketing- m6Leonor Alves
 

Andere mochten auch (18)

CM10 Local Economies Bruce Smith
CM10 Local Economies Bruce SmithCM10 Local Economies Bruce Smith
CM10 Local Economies Bruce Smith
 
Here Today, Gone within a Month: The Fleeting Life of Digital News
Here Today, Gone within a Month: The Fleeting Life of Digital NewsHere Today, Gone within a Month: The Fleeting Life of Digital News
Here Today, Gone within a Month: The Fleeting Life of Digital News
 
презентация скоцкой т.н.
презентация скоцкой т.н.презентация скоцкой т.н.
презентация скоцкой т.н.
 
Beautiful landscapes 4# HD WS 16:9
Beautiful landscapes 4# HD WS 16:9Beautiful landscapes 4# HD WS 16:9
Beautiful landscapes 4# HD WS 16:9
 
Everything librarians need to know to help genealogists but were afraid to ask
Everything librarians need to know to help genealogists but were afraid to askEverything librarians need to know to help genealogists but were afraid to ask
Everything librarians need to know to help genealogists but were afraid to ask
 
4ºC Vanda Furtado Marques
4ºC Vanda Furtado Marques4ºC Vanda Furtado Marques
4ºC Vanda Furtado Marques
 
Presentation drs suteu pillan
Presentation drs suteu pillanPresentation drs suteu pillan
Presentation drs suteu pillan
 
Peddy paper
Peddy paperPeddy paper
Peddy paper
 
Ficha de avaliação nº 22 funções do operador de caixa
Ficha de avaliação nº 22 funções do operador de caixaFicha de avaliação nº 22 funções do operador de caixa
Ficha de avaliação nº 22 funções do operador de caixa
 
LC[B2]
LC[B2]LC[B2]
LC[B2]
 
Ficha de trabalho nº 1 - o que é o serviço pos venda?
Ficha de trabalho nº 1 - o que é o serviço pos venda?Ficha de trabalho nº 1 - o que é o serviço pos venda?
Ficha de trabalho nº 1 - o que é o serviço pos venda?
 
Schnell liefern!
Schnell liefern!Schnell liefern!
Schnell liefern!
 
RVCC - NB
RVCC - NBRVCC - NB
RVCC - NB
 
Ficha de trabalho nº15 spv-cleintes passivos, ativos irados e ativistas
Ficha de trabalho nº15  spv-cleintes passivos, ativos irados e ativistasFicha de trabalho nº15  spv-cleintes passivos, ativos irados e ativistas
Ficha de trabalho nº15 spv-cleintes passivos, ativos irados e ativistas
 
Stevens-Johnson Syndrome
Stevens-Johnson Syndrome Stevens-Johnson Syndrome
Stevens-Johnson Syndrome
 
Ficha de trabalho nº10 spv- saber escutar
Ficha de trabalho nº10  spv-  saber escutarFicha de trabalho nº10  spv-  saber escutar
Ficha de trabalho nº10 spv- saber escutar
 
Ficha de trabalho nº12 marteking 3.0 e marketing pessoal
Ficha de trabalho nº12   marteking 3.0 e marketing pessoalFicha de trabalho nº12   marteking 3.0 e marketing pessoal
Ficha de trabalho nº12 marteking 3.0 e marketing pessoal
 
Ficha de trabalho nº10 areas de marketing- m6
Ficha de trabalho nº10   areas de marketing- m6Ficha de trabalho nº10   areas de marketing- m6
Ficha de trabalho nº10 areas de marketing- m6
 

Ähnlich wie Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15Matthias Arnold
 
Berliner DH Rundgang
Berliner DH RundgangBerliner DH Rundgang
Berliner DH Rundgangcneudecker
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeitenscuy
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser
 

Ähnlich wie Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse (13)

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 
Berliner DH Rundgang
Berliner DH RundgangBerliner DH Rundgang
Berliner DH Rundgang
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeiten
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books Online
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  • 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  • 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  • 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  • 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  • 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  • 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  • 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  • 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  • 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  • 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  • 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  • 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  • 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  • 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  • 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  • 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker