SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
28. Februar 2014
Seite 1
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
CCS
Content Conversion Specialists
europeana newspapers
Information Day, Berlin, 28.2.2014
Optical Layout Recognition (OLR)
Generierung und Nutzung von Strukturdaten
Claus Gravenhorst
28. Februar 2014
Seite 2
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Agenda
Über CCS
Allgemeiner OLR-Workflow für Massendigitalisierung
Layout- und Struktur-Analyse
ENP OLR Workflow
Qualitätssicherung
Output - METS/ALTO package
Nutzung von Strukturdaten
28. Februar 2014
Seite 3
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Über CCS
Als technischer Projektpartner bringt CCS Content Conversion Specialists
GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um über
einen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einen
qualitativ hochwertigen, Artikel-strukturierten Content zu generieren.
Seitenvolumen der 5 Partner:
BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k
Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content
provider) am integrierten Qualitätssicherungs-Prozess
CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
28. Februar 2014
Seite 4
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Allgemeiner OLR-Workflow für Massendigitalisierung
Re-Scan
Conversion
Imaging
Layout Analysis
OCR
ISR
Reject
Condition
Delivery
QA
random
Final
Output
Scanning
Image
Metadata
Database
----------------
Repository
Automated QA
Document
UID
Barcode
Item Tracking
Manual QA
• in-house
• near-shore
• off-shore
• multiple locations
Manual QA
• in-house
• near-shore
Check in
Check out
Scanner
• Robot-
• Book-
• Document-
• Microfilm-
QA+Correcti
onQA+Correcti
on
QA +
Correction
Z 39.50
Metadata
28. Februar 2014
Seite 5
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Layout- und Struktur-Analyse
Layout-Analyse basiert auf „bottom up“-Verfahren
Regelwerk ermöglicht Erkennung von Wörtern,
Textzeilen, Textblöcken, Spalten sowie Klassifikation
von Textblöcken, Illustrationen, Werbung, Tabellen und
der folgenden Seitentypen:
- title page (Titelseite einer Ausgabe)
- content page (Seite die nur Content/Text enthält)
- illustration page (Seite mit mindestens einer Illustration)
- advertisement page (Seite mit ausschließlich Werbung)
Struktur-Analyse durch Erkennung/Klassifikation der
Überschriften und Gruppierung von Zonen zu Artikeln
(inkl. Fortsetzung)
28. Februar 2014
Seite 6
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
ENP OLR Workflow | Konvertierung ohne Scanning
Digital Image
Metadata
Delivery
Digital Image
Metadata
Delivery
Digital Object
Return
Digital Object
Return
Inspection /
Automatic QA
Inspection /
Automatic QA
Doc DeliveryDoc Delivery
RejectReject
Conversion facility
Material location
Conversion
MD Recording
optional
PDF
METS/ALTO
ENMAP
28. Februar 2014
Seite 7
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Mögliche Konvertierungs-Szenarien
A) Konvertierung in-house
B) Konvertierung off-shore über CCS-Rechenzentrum,
finale QS an der Bibliothek über Internet Transfer (remote QS)
C) Konvertierung off-shore bei CCS,
finale QS an der Bibliothek über Backup-Lieferung
28. Februar 2014
Seite 8
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Szenario B | Remote QS an der Bibliothek
Internet
Storage
IN
OUTPOOL
dW Share
Master
Offshore
Processing
@ CCS
OUTPUT
METS ALTO
Storage
POOL
dW Share
RQA
QA on-site
@ Library
INPUT
28. Februar 2014
Seite 9
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Qualitätssicherung
@ CCS | Automatisches Tagging/Markup und Basis-Korrektur:
- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.
- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)
@ Content Provider (Bibliothek):
Empfohlen
- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“
- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,
Untertiteln
- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln
- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer
Optional
- Seitentypen: Korrektur der Typen
- Seitennummern: Korrektur der Seitenreihenfolge
- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
28. Februar 2014
Seite 10
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Output | METS/ALTO package
METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen
Objekts
Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamte
physikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-
und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einem
standardisierten Schema zur Seitenbeschreibung und enthält alle Informationen
einer Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).
Vorteile des strukturellen Markup‘s:
- besseres Durchsuchen und präzisere Textsuche
- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten
- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,
Annotation, persönliche Kollektion, etc.
- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-mining
und linguistische Technologien
- Verteilung von Artikeln z.B. über Social Media Plattformen
_______________
METS = Metadada Encoding and Transmission Standard
ALTO = Analyzed Layout and Text Object
28. Februar 2014
Seite 11
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Recherche & Präsentation
Recherche über Portale von TEL (Europeana Newspaper Browser) und
der Content Provider
Existierende Präsentationssysteme [Artikel-Struktur]:
- The British Library (The British Newspaper Archive, brightsolid)
- Holländische Nationalbibliothek (DDD)
- Nationalbibliothek Luxemburg (eLuxemburgensia)
- Nationalbibliothek Australien (Trove)
- Nationalbibliothek Neuseeland (Papers Past)
Beispiele von bereits prozessierten ENP-Titeln:
- BNF: L‘Ouest Eclair (1919)
- SBB: Deutsches Nachrichtenbüro (1936)
- NLE: Livländische Gouvernements-Zeitung (1852)
28. Februar 2014
Seite 12
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Suche
Recherche
Textsuche
28. Februar 2014
Seite 13
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Auswahl Titel/Datum
Ausgabe
Inhaltsverzeichnis
28. Februar 2014
Seite 14
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikel
Artikel-Bild/Text
Zusatzfunktionen
28. Februar 2014
Seite 15
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelimage
Separierter Artikel
Verteilung
28. Februar 2014
Seite 16
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikeltext
Artikel
Text
28. Februar 2014
Seite 17
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelkorrektur
Online-Textkorrektur
durch Benutzer
28. Februar 2014
Seite 18
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Suche nach „poulet“
Trefferliste
Artikel-basiert
28. Februar 2014
Seite 19
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – Artikelanzeige
Artikel
Wortmarkierung
28. Februar 2014
Seite 20
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – SBB
Deutsches
Nachrichtenbüro
28. Februar 2014
Seite 21
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Nutzung von Strukturdaten – NLE
Livländische
Gouvernements-
Zeitung
28. Februar 2014
Seite 22
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Fragen + Antworten
28. Februar 2014
Seite 23
Content Conversion Specialists
Europeana Newspapers Infoday Berlin
Claus Gravenhorst
Director Strategic Initiatives
Kontakt
Claus Gravenhorst
Director Strategic Initiatives
CCS Content Conversion Specialists GmbH
Weidestr. 134
22083 Hamburg
Germany
c.gravenhorst@content-conversion.com
www.content-conversion.com

Weitere ähnliche Inhalte

Andere mochten auch

สักวาเว็บไซต์
สักวาเว็บไซต์สักวาเว็บไซต์
สักวาเว็บไซต์ppisoot07
 
สักวาเว็บไซต์ใหม่
สักวาเว็บไซต์ใหม่สักวาเว็บไซต์ใหม่
สักวาเว็บไซต์ใหม่ppisoot07
 
Synthesis social slides
Synthesis social slidesSynthesis social slides
Synthesis social slidesluminouz
 
Synthesis mobile slides
Synthesis mobile slidesSynthesis mobile slides
Synthesis mobile slidesluminouz
 
Graduate school imsd ppt example
Graduate school imsd ppt exampleGraduate school imsd ppt example
Graduate school imsd ppt examplepsmccullough
 
แผนเป็นวิทยากรวิจัย
แผนเป็นวิทยากรวิจัยแผนเป็นวิทยากรวิจัย
แผนเป็นวิทยากรวิจัยppisoot07
 
News collections at the British Library
News collections at the British LibraryNews collections at the British Library
News collections at the British LibraryEuropeana Newspapers
 
Synthesis multimedia slides
Synthesis multimedia slidesSynthesis multimedia slides
Synthesis multimedia slidesluminouz
 
PDPHE in Primary Schools
PDPHE in Primary SchoolsPDPHE in Primary Schools
PDPHE in Primary SchoolsLisforLidii
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers ICT2013 networking session
Europeana Newspapers ICT2013 networking sessionEuropeana Newspapers ICT2013 networking session
Europeana Newspapers ICT2013 networking sessionEuropeana Newspapers
 

Andere mochten auch (15)

สักวาเว็บไซต์
สักวาเว็บไซต์สักวาเว็บไซต์
สักวาเว็บไซต์
 
สักวาเว็บไซต์ใหม่
สักวาเว็บไซต์ใหม่สักวาเว็บไซต์ใหม่
สักวาเว็บไซต์ใหม่
 
Synthesis social slides
Synthesis social slidesSynthesis social slides
Synthesis social slides
 
Synthesis mobile slides
Synthesis mobile slidesSynthesis mobile slides
Synthesis mobile slides
 
Graduate school imsd ppt example
Graduate school imsd ppt exampleGraduate school imsd ppt example
Graduate school imsd ppt example
 
แผนเป็นวิทยากรวิจัย
แผนเป็นวิทยากรวิจัยแผนเป็นวิทยากรวิจัย
แผนเป็นวิทยากรวิจัย
 
News collections at the British Library
News collections at the British LibraryNews collections at the British Library
News collections at the British Library
 
Roma first day
Roma first dayRoma first day
Roma first day
 
Synthesis multimedia slides
Synthesis multimedia slidesSynthesis multimedia slides
Synthesis multimedia slides
 
Welcome to bacau
Welcome to bacauWelcome to bacau
Welcome to bacau
 
PDPHE in Primary Schools
PDPHE in Primary SchoolsPDPHE in Primary Schools
PDPHE in Primary Schools
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers ICT2013 networking session
Europeana Newspapers ICT2013 networking sessionEuropeana Newspapers ICT2013 networking session
Europeana Newspapers ICT2013 networking session
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
 

Ähnlich wie Europeana Newspapers German infoday - OCR @ CCS

Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Georg Rehm
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungenredsys
 
DepositOnce - Das Repositorium für Forschungsergebnisse der TU Berlin
DepositOnce - Das Repositorium für Forschungsergebnisse der TU BerlinDepositOnce - Das Repositorium für Forschungsergebnisse der TU Berlin
DepositOnce - Das Repositorium für Forschungsergebnisse der TU BerlinPascal-Nicolas Becker
 
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalogkostaedt
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Medienübergreifende Repositorien - mehr als nur Dokumentenserver
Medienübergreifende Repositorien - mehr als nur DokumentenserverMedienübergreifende Repositorien - mehr als nur Dokumentenserver
Medienübergreifende Repositorien - mehr als nur DokumentenserverRalf Claußnitzer
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser
 
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...bmake
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischkostaedt
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 

Ähnlich wie Europeana Newspapers German infoday - OCR @ CCS (20)

Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
 
DepositOnce - Das Repositorium für Forschungsergebnisse der TU Berlin
DepositOnce - Das Repositorium für Forschungsergebnisse der TU BerlinDepositOnce - Das Repositorium für Forschungsergebnisse der TU Berlin
DepositOnce - Das Repositorium für Forschungsergebnisse der TU Berlin
 
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog
2013-10-10 Nutzung von COinS und Open Data Services im eigenen Katalog
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Medienübergreifende Repositorien - mehr als nur Dokumentenserver
Medienübergreifende Repositorien - mehr als nur DokumentenserverMedienübergreifende Repositorien - mehr als nur Dokumentenserver
Medienübergreifende Repositorien - mehr als nur Dokumentenserver
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books Online
 
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...
Konzept zur Entwicklung eines Studienführers für Wirtschaftsinformatik an F...
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 

Mehr von Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayEuropeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayEuropeana Newspapers
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers
 

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Enp lft infoday_neudecker
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudecker
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 

Europeana Newspapers German infoday - OCR @ CCS

  • 1. 28. Februar 2014 Seite 1 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives CCS Content Conversion Specialists europeana newspapers Information Day, Berlin, 28.2.2014 Optical Layout Recognition (OLR) Generierung und Nutzung von Strukturdaten Claus Gravenhorst
  • 2. 28. Februar 2014 Seite 2 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Agenda Über CCS Allgemeiner OLR-Workflow für Massendigitalisierung Layout- und Struktur-Analyse ENP OLR Workflow Qualitätssicherung Output - METS/ALTO package Nutzung von Strukturdaten
  • 3. 28. Februar 2014 Seite 3 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Über CCS Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um über einen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einen qualitativ hochwertigen, Artikel-strukturierten Content zu generieren. Seitenvolumen der 5 Partner: BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
  • 4. 28. Februar 2014 Seite 4 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Allgemeiner OLR-Workflow für Massendigitalisierung Re-Scan Conversion Imaging Layout Analysis OCR ISR Reject Condition Delivery QA random Final Output Scanning Image Metadata Database ---------------- Repository Automated QA Document UID Barcode Item Tracking Manual QA • in-house • near-shore • off-shore • multiple locations Manual QA • in-house • near-shore Check in Check out Scanner • Robot- • Book- • Document- • Microfilm- QA+Correcti onQA+Correcti on QA + Correction Z 39.50 Metadata
  • 5. 28. Februar 2014 Seite 5 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Layout- und Struktur-Analyse Layout-Analyse basiert auf „bottom up“-Verfahren Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen: - title page (Titelseite einer Ausgabe) - content page (Seite die nur Content/Text enthält) - illustration page (Seite mit mindestens einer Illustration) - advertisement page (Seite mit ausschließlich Werbung) Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)
  • 6. 28. Februar 2014 Seite 6 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives ENP OLR Workflow | Konvertierung ohne Scanning Digital Image Metadata Delivery Digital Image Metadata Delivery Digital Object Return Digital Object Return Inspection / Automatic QA Inspection / Automatic QA Doc DeliveryDoc Delivery RejectReject Conversion facility Material location Conversion MD Recording optional PDF METS/ALTO ENMAP
  • 7. 28. Februar 2014 Seite 7 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Mögliche Konvertierungs-Szenarien A) Konvertierung in-house B) Konvertierung off-shore über CCS-Rechenzentrum, finale QS an der Bibliothek über Internet Transfer (remote QS) C) Konvertierung off-shore bei CCS, finale QS an der Bibliothek über Backup-Lieferung
  • 8. 28. Februar 2014 Seite 8 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Szenario B | Remote QS an der Bibliothek Internet Storage IN OUTPOOL dW Share Master Offshore Processing @ CCS OUTPUT METS ALTO Storage POOL dW Share RQA QA on-site @ Library INPUT
  • 9. 28. Februar 2014 Seite 9 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Qualitätssicherung @ CCS | Automatisches Tagging/Markup und Basis-Korrektur: - Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc. - Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung) @ Content Provider (Bibliothek): Empfohlen - Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“ - Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken, Untertiteln - Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln - Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer Optional - Seitentypen: Korrektur der Typen - Seitennummern: Korrektur der Seitenreihenfolge - OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
  • 10. 28. Februar 2014 Seite 10 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Output | METS/ALTO package METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamte physikalische und logische Struktur beschreibt. Es werden alle Links zu den Image- und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einem standardisierten Schema zur Seitenbeschreibung und enthält alle Informationen einer Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse). Vorteile des strukturellen Markup‘s: - besseres Durchsuchen und präzisere Textsuche - besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten - aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation, Annotation, persönliche Kollektion, etc. - automatische Artikel-Klassifizierung und -Gruppierung durch data/text-mining und linguistische Technologien - Verteilung von Artikeln z.B. über Social Media Plattformen _______________ METS = Metadada Encoding and Transmission Standard ALTO = Analyzed Layout and Text Object
  • 11. 28. Februar 2014 Seite 11 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Recherche & Präsentation Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider Existierende Präsentationssysteme [Artikel-Struktur]: - The British Library (The British Newspaper Archive, brightsolid) - Holländische Nationalbibliothek (DDD) - Nationalbibliothek Luxemburg (eLuxemburgensia) - Nationalbibliothek Australien (Trove) - Nationalbibliothek Neuseeland (Papers Past) Beispiele von bereits prozessierten ENP-Titeln: - BNF: L‘Ouest Eclair (1919) - SBB: Deutsches Nachrichtenbüro (1936) - NLE: Livländische Gouvernements-Zeitung (1852)
  • 12. 28. Februar 2014 Seite 12 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Suche Recherche Textsuche
  • 13. 28. Februar 2014 Seite 13 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Auswahl Titel/Datum Ausgabe Inhaltsverzeichnis
  • 14. 28. Februar 2014 Seite 14 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikel Artikel-Bild/Text Zusatzfunktionen
  • 15. 28. Februar 2014 Seite 15 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelimage Separierter Artikel Verteilung
  • 16. 28. Februar 2014 Seite 16 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikeltext Artikel Text
  • 17. 28. Februar 2014 Seite 17 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelkorrektur Online-Textkorrektur durch Benutzer
  • 18. 28. Februar 2014 Seite 18 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Suche nach „poulet“ Trefferliste Artikel-basiert
  • 19. 28. Februar 2014 Seite 19 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelanzeige Artikel Wortmarkierung
  • 20. 28. Februar 2014 Seite 20 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – SBB Deutsches Nachrichtenbüro
  • 21. 28. Februar 2014 Seite 21 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – NLE Livländische Gouvernements- Zeitung
  • 22. 28. Februar 2014 Seite 22 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Fragen + Antworten
  • 23. 28. Februar 2014 Seite 23 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Kontakt Claus Gravenhorst Director Strategic Initiatives CCS Content Conversion Specialists GmbH Weidestr. 134 22083 Hamburg Germany c.gravenhorst@content-conversion.com www.content-conversion.com