Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Zeitungsdigitalisierung:
Stand der Technik und Herausforderungen
an Layout- und Strukturanalyse
Clemens Neudecker
Staatsbi...
Inhalt
1. Überblick Zeitungsdigitalisierung
2. Stand der Technik
3. Qualität
a) OCR / Texterkennung
b) OLR / Layoutanalyse...
Zeitungsdigitalisierung
• EU: Europeana Newspapers (12 Mio. Seiten)
– ANNO Austrian Newspapers Online (17 Mio.)
– KBNL His...
Stand der Technik
• Üblicherweise: ABBYY FineReader + X
– CCS docWORKS
– Fraunhofer IAIS
– GFaI Dacapo
– P.P.S.
– ZISSOR
–...
Formate
• Üblicherweise: METS (Struktur) + ALTO (OCR)
• „In the wild“:
– PDF (mit/ohne eingebetteten Volltext)
– hOCR (Goo...
Qualität: Texterkennung
• Europeana Newspapers Evaluation:
OCR Qualität von rund 80% Wortgenauigkeit
82.4%
85.3%
80.9%
75....
Qualität: Layoutanalyse (I)
• ICDAR Competition HNLA2013
58.3%
83.7% 83.2%
85.6% 86.4% 86.9% 85.5%
50%
60%
70%
80%
90%
100...
Qualität: Layoutanalyse (II)
• ICDAR Competition HNLA2013
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Tesseract 3 FRE 10 E...
Besondere Herausforderungen
• Qualität der Vorlage (Original)
• Qualität Mikrofilmdigitalisierung
• Komplexität Layout und...
Layoutanalyse
• Artikel, Überschriften, Abbildungen, …
Artikelsegmentierung
• Inhalte und Reihenfolge von Artikeln erfassen
Tabellen
• Bsp. HEBIS Projekt „Historische Finanzdaten“
Werbung, Anzeigen
• Vielfalt an Schriftarten, grafischen Elementen
Strukturanalyse (I)
• Deep structuring (Mühlberger, 2016)
Strukturanalyse (II)
• Structify (Universität Innsbruck)
Ausblick
• Verbesserte Layoutanalysewerkzeuge
speziell für (historische) Zeitungen
- bevorzugt Open Source
• Nachkorrektur...
Danke für ihre Aufmerksamkeit!
Fragen?
Clemens Neudecker
Staatsbibliothek zu Berlin
@cneudecker
Nächste SlideShare
Wird geladen in …5
×

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

431 Aufrufe

Veröffentlicht am

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

Veröffentlicht in: Technologie
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • Gehören Sie zu den Ersten, denen das gefällt!

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  1. 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  2. 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  3. 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  4. 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  5. 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  6. 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  7. 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  8. 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  9. 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  10. 10. Layoutanalyse • Artikel, Überschriften, Abbildungen, …
  11. 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  12. 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  13. 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  14. 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  15. 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  16. 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  17. 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker

×