1. 28. Februar 2014
Seite 1
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
CCS
Content Conversion Specialists
europeana newspapers
Information Day, Berlin, 28.2.2014
Optical Layout Recognition (OLR)
Generierung und Nutzung von Strukturdaten
Claus Gravenhorst
2. 28. Februar 2014
Seite 2
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Agenda
Über CCS
Allgemeiner OLR-Workflow für Massendigitalisierung
Layout- und Struktur-Analyse
ENP OLR Workflow
Qualitätssicherung
Output - METS/ALTO package
Nutzung von Strukturdaten
3. 28. Februar 2014
Seite 3
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Über CCS
Als technischer Projektpartner bringt CCS Content Conversion Specialists
GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um über
einen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einen
qualitativ hochwertigen, Artikel-strukturierten Content zu generieren.
Seitenvolumen der 5 Partner:
BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k
Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content
provider) am integrierten Qualitätssicherungs-Prozess
CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
4. 28. Februar 2014
Seite 4
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Allgemeiner OLR-Workflow für Massendigitalisierung
Re-Scan
Conversion
Imaging
Layout Analysis
OCR
ISR
Reject
Condition
Delivery
QA
random
Final
Output
Scanning
Image
Metadata
Database
----------------
Repository
Automated QA
Document
UID
Barcode
Item Tracking
Manual QA
• in-house
• near-shore
• off-shore
• multiple locations
Manual QA
• in-house
• near-shore
Check in
Check out
Scanner
• Robot-
• Book-
• Document-
• Microfilm-
QA+Correcti
onQA+Correcti
on
QA +
Correction
Z 39.50
Metadata
5. 28. Februar 2014
Seite 5
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Layout- und Struktur-Analyse
Layout-Analyse basiert auf „bottom up“-Verfahren
Regelwerk ermöglicht Erkennung von Wörtern,
Textzeilen, Textblöcken, Spalten sowie Klassifikation
von Textblöcken, Illustrationen, Werbung, Tabellen und
der folgenden Seitentypen:
- title page (Titelseite einer Ausgabe)
- content page (Seite die nur Content/Text enthält)
- illustration page (Seite mit mindestens einer Illustration)
- advertisement page (Seite mit ausschließlich Werbung)
Struktur-Analyse durch Erkennung/Klassifikation der
Überschriften und Gruppierung von Zonen zu Artikeln
(inkl. Fortsetzung)
6. 28. Februar 2014
Seite 6
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
ENP OLR Workflow | Konvertierung ohne Scanning
Digital Image
Metadata
Delivery
Digital Image
Metadata
Delivery
Digital Object
Return
Digital Object
Return
Inspection /
Automatic QA
Inspection /
Automatic QA
Doc DeliveryDoc Delivery
RejectReject
Conversion facility
Material location
Conversion
MD Recording
optional
PDF
METS/ALTO
ENMAP
7. 28. Februar 2014
Seite 7
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Mögliche Konvertierungs-Szenarien
A) Konvertierung in-house
B) Konvertierung off-shore über CCS-Rechenzentrum,
finale QS an der Bibliothek über Internet Transfer (remote QS)
C) Konvertierung off-shore bei CCS,
finale QS an der Bibliothek über Backup-Lieferung
8. 28. Februar 2014
Seite 8
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Szenario B | Remote QS an der Bibliothek
Internet
Storage
IN
OUTPOOL
dW Share
Master
Offshore
Processing
@ CCS
OUTPUT
METS ALTO
Storage
POOL
dW Share
RQA
QA on-site
@ Library
INPUT
9. 28. Februar 2014
Seite 9
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Qualitätssicherung
@ CCS | Automatisches Tagging/Markup und Basis-Korrektur:
- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.
- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)
@ Content Provider (Bibliothek):
Empfohlen
- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“
- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,
Untertiteln
- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln
- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer
Optional
- Seitentypen: Korrektur der Typen
- Seitennummern: Korrektur der Seitenreihenfolge
- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
10. 28. Februar 2014
Seite 10
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Output | METS/ALTO package
METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen
Objekts
Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamte
physikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-
und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einem
standardisierten Schema zur Seitenbeschreibung und enthält alle Informationen
einer Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).
Vorteile des strukturellen Markup‘s:
- besseres Durchsuchen und präzisere Textsuche
- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten
- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,
Annotation, persönliche Kollektion, etc.
- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-mining
und linguistische Technologien
- Verteilung von Artikeln z.B. über Social Media Plattformen
_______________
METS = Metadada Encoding and Transmission Standard
ALTO = Analyzed Layout and Text Object
11. 28. Februar 2014
Seite 11
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Recherche & Präsentation
Recherche über Portale von TEL (Europeana Newspaper Browser) und
der Content Provider
Existierende Präsentationssysteme [Artikel-Struktur]:
- The British Library (The British Newspaper Archive, brightsolid)
- Holländische Nationalbibliothek (DDD)
- Nationalbibliothek Luxemburg (eLuxemburgensia)
- Nationalbibliothek Australien (Trove)
- Nationalbibliothek Neuseeland (Papers Past)
Beispiele von bereits prozessierten ENP-Titeln:
- BNF: L‘Ouest Eclair (1919)
- SBB: Deutsches Nachrichtenbüro (1936)
- NLE: Livländische Gouvernements-Zeitung (1852)
12. 28. Februar 2014
Seite 12
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Suche
Recherche
Textsuche
13. 28. Februar 2014
Seite 13
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Auswahl Titel/Datum
Ausgabe
Inhaltsverzeichnis
14. 28. Februar 2014
Seite 14
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikel
Artikel-Bild/Text
Zusatzfunktionen
15. 28. Februar 2014
Seite 15
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelimage
Separierter Artikel
Verteilung
16. 28. Februar 2014
Seite 16
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikeltext
Artikel
Text
17. 28. Februar 2014
Seite 17
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelkorrektur
Online-Textkorrektur
durch Benutzer
18. 28. Februar 2014
Seite 18
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Suche nach „poulet“
Trefferliste
Artikel-basiert
19. 28. Februar 2014
Seite 19
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelanzeige
Artikel
Wortmarkierung
20. 28. Februar 2014
Seite 20
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – SBB
Deutsches
Nachrichtenbüro
21. 28. Februar 2014
Seite 21
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – NLE
Livländische
Gouvernements-
Zeitung
22. 28. Februar 2014
Seite 22
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Fragen + Antworten
23. 28. Februar 2014
Seite 23
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Kontakt
Claus Gravenhorst
Director Strategic Initiatives
CCS Content Conversion Specialists GmbH
Weidestr. 134
22083 Hamburg
Germany
c.gravenhorst@content-conversion.com
www.content-conversion.com