SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
Workshop „Verfahren zur Verbesserung von
OCR-Ergebnissen“
Workflow
Volltextgenerierung
über OCR
Ralf Stockmann
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 2
Digitalisierung OCR Bereitstellung
Oberflächliche Sicht eines OCR-Workflows
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 3
Digitalisierung OCR Bereitstellung
Fehlende Workflowschritte an den
Schnittstellen
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 4
Digitalisierung OCR Bereitstellung
Fehlende Workflowschritte gewichtet nach
Aufwand
Vorbereitung für OCR
14.03.2014 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datum
abweichende Schreibweisen /
Historische Lexika
Region
unverlässliche Daten
hierzu im OPAC...?
Die Produktivität der Digitalisierung steigt an
unseren Einrichtungen kontinuierlich
14.03.2014 | S. 6
Jahre
ScansproTag
Um die Tagesproduktion durch OCR
bearbeiten zu können muss diese ebenfalls
skalieren
14.03.2014 | S. 7
Jahre
ScansproTag
OCR
14.03.2014 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung
14.03.2014 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung
Das Problem ist nicht nur die
Tagesproduktion...
14.03.2014 | S. 10
Jahre
ScansproTag
OCR
14.03.2014 | S. 11
Jahre
ScansproTag
OCR
ArchivallerbisherigenScans
...sondern unser bestehender Berg der letzten
12 Jahre
Massen-OCR
 Beispiel: Staatsbibliothek zu Berlin
 Ca. 15 Mio. Images vorliegend
 OCR-Dauer pro Image und CPU: ca. 20 Sekunden
(optimistischer Wert)
 Ca. 3.472 Tage oder 9,5 Jahre
 Ziel: 5 Tage also ca. Faktor 700
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 12
Paketierung – Sammlung von Images
14.03.2014 | S. 13
Scans
Paketierung – Verteilung auf OCR-Cluster
14.03.2014 | S. 14
Scans
CPU CPU CPURenderfarm
Paketierung – Zusammenführung der
Ergebnisse
14.03.2014 | S. 15
Scans
CPU CPU CPURenderfarm
Ergebnis
Paketierung – wie robust ist der
(wahrscheinliche) Fehlerfall?
14.03.2014 | S. 16
Scans
CPU CPU CPURenderfarm
Ergebnis
Flowshart Projekt „Digitextmath“ mit ABBYY
Recognition Server
14.03.2014 | S. 17
Nur dieser Schritt ist die eigentliche OCR, der
Rest ist Workflow-Management
14.03.2014 | S. 18
Datenformate – Quelle ist Sammlung von
Images
14.03.2014 | S. 19
Scans
Datenformate Alt: eine XML-Datei Pro Seite
14.03.2014 | S. 20
Scans
ALTO
Datenformate TEI: Eine Datei pro Dokument
mit Pagebreaks im XML
14.03.2014 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
Datenmanagement – viele Importformate
14.03.2014 | S. 22
Import
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
Datenmanagement – nur ein Zentralformat?
14.03.2014 | S. 23
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
Zentralformat?
Import Archiv
hOCR
Datenmanagement – auf jeden Fall flexible
Exportformate benötigt
14.03.2014 | S. 24
Zentralformat?
PDF
TEI
Mobi
ePub
LaTeX
hOCR
Markdown
...
Import ExportArchiv
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
Volltexte sind agil
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 25
Quelle für Agilität: Korrekturen
 Nutzerfreundliches Crowdsourcing direkt im
Browser
 Bessere OCR-Engines
 bei tendenziell sinkenden Preisen
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 26
Quelle für Agilität: Veredelung
 Normdaten
 Personen
 Orte
 Zeit
 Schlagwörter
 Annotationen
 Referenzen
 ...
 Erfolgen nicht zwangsläufig in unseren
Oberflächen sondern in VREs, ...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 27
Problemfelder agiler Volltextdaten
 Gleichermaßen für Korrekturen wie Veredelung
 Langzeitarchivierung (etwa: Updates auf
langsamen Tape-Speicher)
 Persistente Adressierung
 Versionierung?
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 28
Lösung: Volltexte auf GitHub?!
(unser Grundgesetz ist schon da...)
S. 29
http://gg.docpatch.org
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 30
Digitalisierung OCR Bereitstellung
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 31
D OCR B... ... ... ... ... ...
Wenig bis keine Grundlagen für diese
Bereiche vorhanden
Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC
auszugleichen
2. Interoperabilitätsbibliothek für Volltextformate
3. Getrennte (?) Strategien für
 den Abbau des vorhandenen Scan-Berges
 die laufende Produktion in den Einrichtungen
4. Robuste und transparente Workflows zur
Anbindung von
 eigenen Renderfarmen
 zentralen Renderfarmen
 Dienstleistern
 ...auch in Mischformen
5. Konzepte um die Agilität von Volltexten mit
dem Bedürfnis nach seriösem
Datenmanagement zu versöhnen
14.03.2014 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualität
scheitern –
sondern aufgrund
nicht verstandener und
wenig beherrschter
Workflows
Workflow Volltextgenerierung über OCR
Ralf Stockmann

Más contenido relacionado

Andere mochten auch

mision y vision de la universidad Minuto de Dios
mision y vision de la universidad Minuto de Diosmision y vision de la universidad Minuto de Dios
mision y vision de la universidad Minuto de Diostadi1996
 
Didáctica digital clase
Didáctica digital claseDidáctica digital clase
Didáctica digital clasecaronati
 
Häuser basteln
Häuser bastelnHäuser basteln
Häuser bastelnAnntheres
 
Premios literarios euskadi 2013
Premios literarios euskadi 2013Premios literarios euskadi 2013
Premios literarios euskadi 2013umeirakasle
 
Tecnologia de punta
Tecnologia de puntaTecnologia de punta
Tecnologia de puntafelipe_ed1
 
Gabriel garcia marquez_cronica_de_una_muerte_anunciada
Gabriel garcia marquez_cronica_de_una_muerte_anunciadaGabriel garcia marquez_cronica_de_una_muerte_anunciada
Gabriel garcia marquez_cronica_de_una_muerte_anunciadaKimberly Andrea
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer DatenRalf Stockmann
 
La postmodernidad y la crisis de los valores
La postmodernidad y la crisis de los valoresLa postmodernidad y la crisis de los valores
La postmodernidad y la crisis de los valoresAlvaro Guarnizo
 
Libertades del software libre
Libertades del software libreLibertades del software libre
Libertades del software libreLuis Quinzo
 
La contaminacion del agua
La contaminacion del aguaLa contaminacion del agua
La contaminacion del agua0998440731
 
Tiendas virtuales y paginas web
Tiendas virtuales y paginas webTiendas virtuales y paginas web
Tiendas virtuales y paginas webMary Ilachoque
 
Publicidad en internet
Publicidad en internetPublicidad en internet
Publicidad en internetGlenda Paz
 
Creandowikis, de todos y para todos
Creandowikis, de todos y para todosCreandowikis, de todos y para todos
Creandowikis, de todos y para todoscrhz
 

Andere mochten auch (17)

Yuli (2)
Yuli (2)Yuli (2)
Yuli (2)
 
mision y vision de la universidad Minuto de Dios
mision y vision de la universidad Minuto de Diosmision y vision de la universidad Minuto de Dios
mision y vision de la universidad Minuto de Dios
 
Didáctica digital clase
Didáctica digital claseDidáctica digital clase
Didáctica digital clase
 
Häuser basteln
Häuser bastelnHäuser basteln
Häuser basteln
 
Premios literarios euskadi 2013
Premios literarios euskadi 2013Premios literarios euskadi 2013
Premios literarios euskadi 2013
 
Tecnologia de punta
Tecnologia de puntaTecnologia de punta
Tecnologia de punta
 
Gabriel garcia marquez_cronica_de_una_muerte_anunciada
Gabriel garcia marquez_cronica_de_una_muerte_anunciadaGabriel garcia marquez_cronica_de_una_muerte_anunciada
Gabriel garcia marquez_cronica_de_una_muerte_anunciada
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
La postmodernidad y la crisis de los valores
La postmodernidad y la crisis de los valoresLa postmodernidad y la crisis de los valores
La postmodernidad y la crisis de los valores
 
Libertades del software libre
Libertades del software libreLibertades del software libre
Libertades del software libre
 
La contaminacion del agua
La contaminacion del aguaLa contaminacion del agua
La contaminacion del agua
 
Tiendas virtuales y paginas web
Tiendas virtuales y paginas webTiendas virtuales y paginas web
Tiendas virtuales y paginas web
 
Glosario digital
Glosario  digitalGlosario  digital
Glosario digital
 
FAQs zur DPSG-Jahresaktion 2014
FAQs zur DPSG-Jahresaktion 2014FAQs zur DPSG-Jahresaktion 2014
FAQs zur DPSG-Jahresaktion 2014
 
Publicidad en internet
Publicidad en internetPublicidad en internet
Publicidad en internet
 
Creandowikis, de todos y para todos
Creandowikis, de todos y para todosCreandowikis, de todos y para todos
Creandowikis, de todos y para todos
 
Semana 40
Semana 40Semana 40
Semana 40
 

Ähnlich wie DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Goobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-ServiceGoobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-Serviceintranda GmbH
 
SharePointForms_ShareConf
SharePointForms_ShareConfSharePointForms_ShareConf
SharePointForms_ShareConfarvato AG
 
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...axesPDF
 
Dateien per Drag & Drop in APEX Applikationen ablegen.
Dateien per Drag & Drop in APEX Applikationen ablegen.Dateien per Drag & Drop in APEX Applikationen ablegen.
Dateien per Drag & Drop in APEX Applikationen ablegen.MT AG
 
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Georg Eck
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenMarkus Erle
 
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd ErkOSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd ErkNETWAYS
 
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkOSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkNETWAYS
 
Klare Terminologie durch Finalyser TERM CHECK und UniTerm
Klare Terminologie durch Finalyser TERM CHECK und UniTermKlare Terminologie durch Finalyser TERM CHECK und UniTerm
Klare Terminologie durch Finalyser TERM CHECK und UniTermacolada_gmbh
 
EPO API/4 Cloud als innovativer SAP-Konnektor
EPO API/4 Cloud als innovativer SAP-KonnektorEPO API/4 Cloud als innovativer SAP-Konnektor
EPO API/4 Cloud als innovativer SAP-KonnektorWolfgang Hornung
 
FMK2016 - Holger Darjus und Jörg Köster - Migration und Synchronisation
FMK2016 - Holger Darjus und Jörg Köster - Migration und SynchronisationFMK2016 - Holger Darjus und Jörg Köster - Migration und Synchronisation
FMK2016 - Holger Darjus und Jörg Köster - Migration und SynchronisationVerein FM Konferenz
 
FMK2017 - REST mobil- die andere Serververbindung by Volker Krambrich
FMK2017 - REST mobil- die andere Serververbindung by Volker KrambrichFMK2017 - REST mobil- die andere Serververbindung by Volker Krambrich
FMK2017 - REST mobil- die andere Serververbindung by Volker KrambrichVerein FM Konferenz
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...inPuncto GmbH
 
ECM für-SharePoint-mit-ecspand-technosummit-2012
ECM für-SharePoint-mit-ecspand-technosummit-2012ECM für-SharePoint-mit-ecspand-technosummit-2012
ECM für-SharePoint-mit-ecspand-technosummit-2012FLorian Laumer
 
1. intranda Goobi Tag: Goobi pluginisiert
1. intranda Goobi Tag: Goobi pluginisiert1. intranda Goobi Tag: Goobi pluginisiert
1. intranda Goobi Tag: Goobi pluginisiertintranda GmbH
 
100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspandChristian Kiesewetter
 
ICV Fachkreis RPA
ICV Fachkreis RPAICV Fachkreis RPA
ICV Fachkreis RPAaloahe2
 
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...SQL Projekt AG
 
iDempiere Reporting with LibreOffice and Microsoft Office
iDempiere Reporting with LibreOffice and Microsoft OfficeiDempiere Reporting with LibreOffice and Microsoft Office
iDempiere Reporting with LibreOffice and Microsoft Officeadrilleros
 
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg Köster
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg KösterFMK2017 - Der Bug - des Entwicklers Fluch by Jörg Köster
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg KösterVerein FM Konferenz
 

Ähnlich wie DFG Expertenworkshop - Workflow Volltextgenerierung über OCR (20)

Goobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-ServiceGoobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-Service
 
SharePointForms_ShareConf
SharePointForms_ShareConfSharePointForms_ShareConf
SharePointForms_ShareConf
 
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...
Standardkonforme, barrierefreie PDF-Dokumente per Knopfdruck erstellen - das ...
 
Dateien per Drag & Drop in APEX Applikationen ablegen.
Dateien per Drag & Drop in APEX Applikationen ablegen.Dateien per Drag & Drop in APEX Applikationen ablegen.
Dateien per Drag & Drop in APEX Applikationen ablegen.
 
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
 
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd ErkOSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
 
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkOSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
 
Klare Terminologie durch Finalyser TERM CHECK und UniTerm
Klare Terminologie durch Finalyser TERM CHECK und UniTermKlare Terminologie durch Finalyser TERM CHECK und UniTerm
Klare Terminologie durch Finalyser TERM CHECK und UniTerm
 
EPO API/4 Cloud als innovativer SAP-Konnektor
EPO API/4 Cloud als innovativer SAP-KonnektorEPO API/4 Cloud als innovativer SAP-Konnektor
EPO API/4 Cloud als innovativer SAP-Konnektor
 
FMK2016 - Holger Darjus und Jörg Köster - Migration und Synchronisation
FMK2016 - Holger Darjus und Jörg Köster - Migration und SynchronisationFMK2016 - Holger Darjus und Jörg Köster - Migration und Synchronisation
FMK2016 - Holger Darjus und Jörg Köster - Migration und Synchronisation
 
FMK2017 - REST mobil- die andere Serververbindung by Volker Krambrich
FMK2017 - REST mobil- die andere Serververbindung by Volker KrambrichFMK2017 - REST mobil- die andere Serververbindung by Volker Krambrich
FMK2017 - REST mobil- die andere Serververbindung by Volker Krambrich
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
 
ECM für-SharePoint-mit-ecspand-technosummit-2012
ECM für-SharePoint-mit-ecspand-technosummit-2012ECM für-SharePoint-mit-ecspand-technosummit-2012
ECM für-SharePoint-mit-ecspand-technosummit-2012
 
1. intranda Goobi Tag: Goobi pluginisiert
1. intranda Goobi Tag: Goobi pluginisiert1. intranda Goobi Tag: Goobi pluginisiert
1. intranda Goobi Tag: Goobi pluginisiert
 
100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand
 
ICV Fachkreis RPA
ICV Fachkreis RPAICV Fachkreis RPA
ICV Fachkreis RPA
 
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...
Mit TRANSCONNECT® in die Cloud – Anwendungsbeispiele bei der DuMont Mediengru...
 
iDempiere Reporting with LibreOffice and Microsoft Office
iDempiere Reporting with LibreOffice and Microsoft OfficeiDempiere Reporting with LibreOffice and Microsoft Office
iDempiere Reporting with LibreOffice and Microsoft Office
 
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg Köster
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg KösterFMK2017 - Der Bug - des Entwicklers Fluch by Jörg Köster
FMK2017 - Der Bug - des Entwicklers Fluch by Jörg Köster
 

Mehr von Ralf Stockmann

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetRalf Stockmann
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Ralf Stockmann
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannRalf Stockmann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Ralf Stockmann
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintRalf Stockmann
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeRalf Stockmann
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenRalf Stockmann
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltRalf Stockmann
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteRalf Stockmann
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Ralf Stockmann
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Ralf Stockmann
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Ralf Stockmann
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ralf Stockmann
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Ralf Stockmann
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungRalf Stockmann
 
Grundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungGrundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungRalf Stockmann
 

Mehr von Ralf Stockmann (20)

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social Intranet
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale Wissensräume
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen können
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der Softwareentwicklung
 
Grundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungGrundlagen Digitaler Mediengestaltung
Grundlagen Digitaler Mediengestaltung
 

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

  • 1. Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann
  • 2. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 2 Digitalisierung OCR Bereitstellung Oberflächliche Sicht eines OCR-Workflows
  • 3. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 3 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte an den Schnittstellen
  • 4. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 4 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte gewichtet nach Aufwand
  • 5. Vorbereitung für OCR 14.03.2014 | S. 5 Welche Sprache hat das Dokument? Welche Schrift (Fraktur / Antiqua)? Datum abweichende Schreibweisen / Historische Lexika Region unverlässliche Daten hierzu im OPAC...?
  • 6. Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich 14.03.2014 | S. 6 Jahre ScansproTag
  • 7. Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren 14.03.2014 | S. 7 Jahre ScansproTag OCR
  • 8. 14.03.2014 | S. 8 Tagesaktuelle OCR für Strukturdatenerfassung
  • 9. 14.03.2014 | S. 9 Tagesaktuelle OCR für Strukturdatenerfassung
  • 10. Das Problem ist nicht nur die Tagesproduktion... 14.03.2014 | S. 10 Jahre ScansproTag OCR
  • 11. 14.03.2014 | S. 11 Jahre ScansproTag OCR ArchivallerbisherigenScans ...sondern unser bestehender Berg der letzten 12 Jahre
  • 12. Massen-OCR  Beispiel: Staatsbibliothek zu Berlin  Ca. 15 Mio. Images vorliegend  OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)  Ca. 3.472 Tage oder 9,5 Jahre  Ziel: 5 Tage also ca. Faktor 700 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 12
  • 13. Paketierung – Sammlung von Images 14.03.2014 | S. 13 Scans
  • 14. Paketierung – Verteilung auf OCR-Cluster 14.03.2014 | S. 14 Scans CPU CPU CPURenderfarm
  • 15. Paketierung – Zusammenführung der Ergebnisse 14.03.2014 | S. 15 Scans CPU CPU CPURenderfarm Ergebnis
  • 16. Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall? 14.03.2014 | S. 16 Scans CPU CPU CPURenderfarm Ergebnis
  • 17. Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server 14.03.2014 | S. 17
  • 18. Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management 14.03.2014 | S. 18
  • 19. Datenformate – Quelle ist Sammlung von Images 14.03.2014 | S. 19 Scans
  • 20. Datenformate Alt: eine XML-Datei Pro Seite 14.03.2014 | S. 20 Scans ALTO
  • 21. Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML 14.03.2014 | S. 21 Scans ALTO TEI <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
  • 22. Datenmanagement – viele Importformate 14.03.2014 | S. 22 Import ALTO TEI Finereader XML LaTeX PDF ... hOCR
  • 23. Datenmanagement – nur ein Zentralformat? 14.03.2014 | S. 23 ALTO TEI Finereader XML LaTeX PDF ... Zentralformat? Import Archiv hOCR
  • 24. Datenmanagement – auf jeden Fall flexible Exportformate benötigt 14.03.2014 | S. 24 Zentralformat? PDF TEI Mobi ePub LaTeX hOCR Markdown ... Import ExportArchiv ALTO TEI Finereader XML LaTeX PDF ... hOCR
  • 25. Volltexte sind agil 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 25
  • 26. Quelle für Agilität: Korrekturen  Nutzerfreundliches Crowdsourcing direkt im Browser  Bessere OCR-Engines  bei tendenziell sinkenden Preisen 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 26
  • 27. Quelle für Agilität: Veredelung  Normdaten  Personen  Orte  Zeit  Schlagwörter  Annotationen  Referenzen  ...  Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ... 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 27
  • 28. Problemfelder agiler Volltextdaten  Gleichermaßen für Korrekturen wie Veredelung  Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)  Persistente Adressierung  Versionierung? 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 28
  • 29. Lösung: Volltexte auf GitHub?! (unser Grundgesetz ist schon da...) S. 29 http://gg.docpatch.org
  • 30. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 30 Digitalisierung OCR Bereitstellung
  • 31. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 31 D OCR B... ... ... ... ... ... Wenig bis keine Grundlagen für diese Bereiche vorhanden
  • 32. Identifizierte Aktionsfelder 1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen 2. Interoperabilitätsbibliothek für Volltextformate 3. Getrennte (?) Strategien für  den Abbau des vorhandenen Scan-Berges  die laufende Produktion in den Einrichtungen 4. Robuste und transparente Workflows zur Anbindung von  eigenen Renderfarmen  zentralen Renderfarmen  Dienstleistern  ...auch in Mischformen 5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
  • 33. 14.03.2014 | S. 33 Projekte werden nicht aufgrund schlechter OCR-Qualität scheitern – sondern aufgrund nicht verstandener und wenig beherrschter Workflows Workflow Volltextgenerierung über OCR Ralf Stockmann