SlideShare ist ein Scribd-Unternehmen logo
OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen
Inhalt Grundlagen OCR Server Volltextkodierung Integration in Workflowsystem Umsetzung Server Formate Präsentation Ausblick
Grundlagen
OCR für die Massendigitalisierung Bisherige Vorgehensweise Rohdaten in proprietären Formaten („Stapel“) Ergebnisse schwer integrierbar Manuell via Desktopsoftware (wenig Automatismen) Oder: Integration als Programmbibliothek (Prozessmanagement nicht integriert)
OCR für die Massendigitalisierung Wirkliche Anforderungen Skalierbarkeit Management des Prozesses in größeren Einheiten Integrierbarkeit in bestehende Infrastruktur Hoher Grad an Automatisierung Massenverarbeitung
Volltextkodierung XML basiert Offenes Format Hohe Flexibilität für verschiedenen Anwendungsszenarien  Bestehende Vokabularien nutzen Breite Community – hohes Potential für Nachnutzung
Integration in den Digitalisierungsworkflow Keine manuelle Interaktion im Regelfall Kein Trainingsaufwand für Personal Priorisierung (Echtzeit OCR für Metadateneditor vs. OCR als Workflowschritt) Kapselung der Details der Orchestrierung (Servicekonzept) Steuerbar durch Software (API / Webservices)
Umsetzung
Server (Soft- und Hardware) Software Abbyy Recognition Server 2.0 Teilung zwischen Management- und Processingknoten Keine seitenbasierte Lizenzierung  Hardware Cluster aus Bladeservern Derzeit 16 CPU Kerne
Server (Kommunikation) WebDAV Schnittstelle HTTP basiert (keine Probleme mit Firewalls) Viele Implementierungen des Protokolls Nutzbar als Netzlaufwerk Steuerung XML Tickets (erzeugt durch Programmbibliothek)
Formate TEI basiert Indexformat für einfache Indexierung Zukünftig: Volltextformat für Nachnutzung Geeignet für Erweiterungen wie Annotationen Nutzbar für elektronische Editionen
Produktion Derzeit: Rekursives abarbeiten von Verzeichnisbäumen Zukünftig: Prozesssteuerung als Teil von Goobi Indexierung beim Import in das DMS
Präsentation Volltexte für die Suche und Wortkoordinaten für die Darstellung Index (Lucene) wird durch Typo3 (CMS) abgefragt Zukünftig: Darstellung in der Oberfläche Beispiele
Demo 1
Demo 2
Ausblick Goobi Anbindung des GBV OCR Clusters IMPACT EU Projekt zur Verbesserung von Fraktur OCR TextGrid Integration von OCRopus
Fragen? [email_address]

Weitere ähnliche Inhalte

Andere mochten auch

IV CENSO NACIONAL AGROPECUARIO 2012
IV CENSO NACIONAL AGROPECUARIO 2012IV CENSO NACIONAL AGROPECUARIO 2012
IV CENSO NACIONAL AGROPECUARIO 2012
reynaldo19400000
 
Guia 7 GUERLIN
Guia 7 GUERLINGuia 7 GUERLIN
Guia 7 GUERLIN
Deathh Fabian
 
Fleurs
FleursFleurs
Fleurs
Siham
 
Proceso de toma de desiciones
Proceso de toma de desicionesProceso de toma de desiciones
Proceso de toma de desiciones
Angel Zaruma
 
Comunidades
ComunidadesComunidades
Comunidades
Manusantosmartin
 
Seguridad e higiene
Seguridad e higieneSeguridad e higiene
Seguridad e higiene
Rosa Yedani Camargo Herrera
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Enrique Cornejo Quea
 
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_finalOGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
Austrian Social Insurance
 
La televisión educativa
La televisión educativaLa televisión educativa
La televisión educativa
yasmidpinzon
 
Geogebra
GeogebraGeogebra
Geogebra
emifregenal
 
151798475 ley-nâº-30057-de-servicio-civil
151798475 ley-nâº-30057-de-servicio-civil151798475 ley-nâº-30057-de-servicio-civil
151798475 ley-nâº-30057-de-servicio-civil
reynaldo19400000
 
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
lihluh
 
Evolución de la tecnología
Evolución de la tecnologíaEvolución de la tecnología
Evolución de la tecnología
Carolina Echeverry Escobar
 
Formas
FormasFormas
Formas
betz13
 
Seguridad en redes inalámbricas
Seguridad en redes inalámbricasSeguridad en redes inalámbricas
Seguridad en redes inalámbricas
Alex Tlb
 
Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.
Mathias Richel
 
Daniela echeverry escobar
Daniela echeverry escobarDaniela echeverry escobar
Daniela echeverry escobar
Carolina Echeverry Escobar
 
El diagnóstico de comunicación diseño de proyectos
El diagnóstico de  comunicación diseño de proyectosEl diagnóstico de  comunicación diseño de proyectos
El diagnóstico de comunicación diseño de proyectos
Vanessa Ortega
 
Wiki presentación
Wiki presentaciónWiki presentación
Wiki presentación
Carolina Echeverry Escobar
 
Bist du ein On- oder Offliner?
Bist du ein On- oder Offliner?Bist du ein On- oder Offliner?
Bist du ein On- oder Offliner?
Enigma
 

Andere mochten auch (20)

IV CENSO NACIONAL AGROPECUARIO 2012
IV CENSO NACIONAL AGROPECUARIO 2012IV CENSO NACIONAL AGROPECUARIO 2012
IV CENSO NACIONAL AGROPECUARIO 2012
 
Guia 7 GUERLIN
Guia 7 GUERLINGuia 7 GUERLIN
Guia 7 GUERLIN
 
Fleurs
FleursFleurs
Fleurs
 
Proceso de toma de desiciones
Proceso de toma de desicionesProceso de toma de desiciones
Proceso de toma de desiciones
 
Comunidades
ComunidadesComunidades
Comunidades
 
Seguridad e higiene
Seguridad e higieneSeguridad e higiene
Seguridad e higiene
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
 
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_finalOGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
OGD and e .... von der Transparenz zur Wirkungsorientierung keck-110609_final
 
La televisión educativa
La televisión educativaLa televisión educativa
La televisión educativa
 
Geogebra
GeogebraGeogebra
Geogebra
 
151798475 ley-nâº-30057-de-servicio-civil
151798475 ley-nâº-30057-de-servicio-civil151798475 ley-nâº-30057-de-servicio-civil
151798475 ley-nâº-30057-de-servicio-civil
 
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
Resonancia nbsp shuman_nbsp_y_nbsp_punto_nbsp_magnetico_nbsp_cero.
 
Evolución de la tecnología
Evolución de la tecnologíaEvolución de la tecnología
Evolución de la tecnología
 
Formas
FormasFormas
Formas
 
Seguridad en redes inalámbricas
Seguridad en redes inalámbricasSeguridad en redes inalámbricas
Seguridad en redes inalámbricas
 
Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.
 
Daniela echeverry escobar
Daniela echeverry escobarDaniela echeverry escobar
Daniela echeverry escobar
 
El diagnóstico de comunicación diseño de proyectos
El diagnóstico de  comunicación diseño de proyectosEl diagnóstico de  comunicación diseño de proyectos
El diagnóstico de comunicación diseño de proyectos
 
Wiki presentación
Wiki presentaciónWiki presentación
Wiki presentación
 
Bist du ein On- oder Offliner?
Bist du ein On- oder Offliner?Bist du ein On- oder Offliner?
Bist du ein On- oder Offliner?
 

Ähnlich wie OCR Renderfarmen und TEI

SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierung
cmahnke
 
C2 Teamwork Portal Mit Web Sphere 6.0
C2 Teamwork Portal Mit Web Sphere 6.0C2 Teamwork Portal Mit Web Sphere 6.0
C2 Teamwork Portal Mit Web Sphere 6.0
Andreas Schulte
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
Ralf Stockmann
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & Tools
Ulrich Krause
 
Lotus Notes SAP Integration Wünsch AG
Lotus Notes SAP Integration Wünsch AGLotus Notes SAP Integration Wünsch AG
Lotus Notes SAP Integration Wünsch AG
Wünsch AG
 
Csb Kundenforum 2007
Csb Kundenforum 2007Csb Kundenforum 2007
Csb Kundenforum 2007
Andreas Schulte
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
Magnus Pfeffer
 
Groupware Linuxtag 2008 Cb
Groupware Linuxtag 2008 CbGroupware Linuxtag 2008 Cb
Groupware Linuxtag 2008 Cb
bofh42
 
Migration oai mediator 11g - doag sig soa 2010 - attermeyer
Migration oai mediator 11g - doag sig soa 2010 - attermeyerMigration oai mediator 11g - doag sig soa 2010 - attermeyer
Migration oai mediator 11g - doag sig soa 2010 - attermeyer
OPITZ CONSULTING Deutschland
 
Produktblatt TRANSCONNECT - DE | SQL Projekt AG
Produktblatt TRANSCONNECT - DE | SQL Projekt AGProduktblatt TRANSCONNECT - DE | SQL Projekt AG
Produktblatt TRANSCONNECT - DE | SQL Projekt AG
SQL Projekt AG
 
Top 10 Internet Trends 2001
Top 10 Internet Trends 2001Top 10 Internet Trends 2001
Top 10 Internet Trends 2001
Jürg Stuker
 
NSI Autostore
NSI Autostore NSI Autostore
NSI Autostore
Thomas Moser
 
Pragmatic SOA - Beschränken auf das Wesentliche
Pragmatic SOA - Beschränken auf das WesentlichePragmatic SOA - Beschränken auf das Wesentliche
Pragmatic SOA - Beschränken auf das Wesentliche
1&1
 
Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?
Ralf Stockmann
 
Whitecoast lcty12 x_pages
Whitecoast lcty12 x_pagesWhitecoast lcty12 x_pages
Whitecoast lcty12 x_pages
Whitecoast Solutions AG
 
Ec2009 Templates
Ec2009 TemplatesEc2009 Templates
Ec2009 Templates
Ulrich Krause
 
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EEEinfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
Rolf Kremer
 
MEAN SCS in der Cloud
MEAN SCS in der CloudMEAN SCS in der Cloud
MEAN SCS in der Cloud
Torsten Fink
 
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
Peter Affolter
 

Ähnlich wie OCR Renderfarmen und TEI (20)

SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierung
 
C2 Teamwork Portal Mit Web Sphere 6.0
C2 Teamwork Portal Mit Web Sphere 6.0C2 Teamwork Portal Mit Web Sphere 6.0
C2 Teamwork Portal Mit Web Sphere 6.0
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & Tools
 
Lotus Notes SAP Integration Wünsch AG
Lotus Notes SAP Integration Wünsch AGLotus Notes SAP Integration Wünsch AG
Lotus Notes SAP Integration Wünsch AG
 
Csb Kundenforum 2007
Csb Kundenforum 2007Csb Kundenforum 2007
Csb Kundenforum 2007
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Groupware Linuxtag 2008 Cb
Groupware Linuxtag 2008 CbGroupware Linuxtag 2008 Cb
Groupware Linuxtag 2008 Cb
 
Migration oai mediator 11g - doag sig soa 2010 - attermeyer
Migration oai mediator 11g - doag sig soa 2010 - attermeyerMigration oai mediator 11g - doag sig soa 2010 - attermeyer
Migration oai mediator 11g - doag sig soa 2010 - attermeyer
 
Produktblatt TRANSCONNECT - DE | SQL Projekt AG
Produktblatt TRANSCONNECT - DE | SQL Projekt AGProduktblatt TRANSCONNECT - DE | SQL Projekt AG
Produktblatt TRANSCONNECT - DE | SQL Projekt AG
 
Top 10 Internet Trends 2001
Top 10 Internet Trends 2001Top 10 Internet Trends 2001
Top 10 Internet Trends 2001
 
NSI Autostore
NSI Autostore NSI Autostore
NSI Autostore
 
Pragmatic SOA - Beschränken auf das Wesentliche
Pragmatic SOA - Beschränken auf das WesentlichePragmatic SOA - Beschränken auf das Wesentliche
Pragmatic SOA - Beschränken auf das Wesentliche
 
Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?
 
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUCStockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
 
Whitecoast lcty12 x_pages
Whitecoast lcty12 x_pagesWhitecoast lcty12 x_pages
Whitecoast lcty12 x_pages
 
Ec2009 Templates
Ec2009 TemplatesEc2009 Templates
Ec2009 Templates
 
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EEEinfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
Einfach, schnell und leistungsstark - PAVONE Espresso Workflow für Java EE
 
MEAN SCS in der Cloud
MEAN SCS in der CloudMEAN SCS in der Cloud
MEAN SCS in der Cloud
 
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
Artikel Professional Computing: Mit SOA zu effizientem Business Process Manag...
 

Mehr von cmahnke

Tomcat as a service
Tomcat as a serviceTomcat as a service
Tomcat as a service
cmahnke
 
Ideen Goobi Storage API
Ideen Goobi Storage APIIdeen Goobi Storage API
Ideen Goobi Storage API
cmahnke
 
Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersicht
cmahnke
 
eXist für Editionsprojekte
eXist für EditionsprojekteeXist für Editionsprojekte
eXist für Editionsprojekte
cmahnke
 
Goobi
GoobiGoobi
Goobi
cmahnke
 
Bib Forge
Bib ForgeBib Forge
Bib Forge
cmahnke
 
Bibforge
BibforgeBibforge
Bibforge
cmahnke
 

Mehr von cmahnke (7)

Tomcat as a service
Tomcat as a serviceTomcat as a service
Tomcat as a service
 
Ideen Goobi Storage API
Ideen Goobi Storage APIIdeen Goobi Storage API
Ideen Goobi Storage API
 
Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersicht
 
eXist für Editionsprojekte
eXist für EditionsprojekteeXist für Editionsprojekte
eXist für Editionsprojekte
 
Goobi
GoobiGoobi
Goobi
 
Bib Forge
Bib ForgeBib Forge
Bib Forge
 
Bibforge
BibforgeBibforge
Bibforge
 

OCR Renderfarmen und TEI

  • 1. OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen
  • 2. Inhalt Grundlagen OCR Server Volltextkodierung Integration in Workflowsystem Umsetzung Server Formate Präsentation Ausblick
  • 4. OCR für die Massendigitalisierung Bisherige Vorgehensweise Rohdaten in proprietären Formaten („Stapel“) Ergebnisse schwer integrierbar Manuell via Desktopsoftware (wenig Automatismen) Oder: Integration als Programmbibliothek (Prozessmanagement nicht integriert)
  • 5. OCR für die Massendigitalisierung Wirkliche Anforderungen Skalierbarkeit Management des Prozesses in größeren Einheiten Integrierbarkeit in bestehende Infrastruktur Hoher Grad an Automatisierung Massenverarbeitung
  • 6. Volltextkodierung XML basiert Offenes Format Hohe Flexibilität für verschiedenen Anwendungsszenarien Bestehende Vokabularien nutzen Breite Community – hohes Potential für Nachnutzung
  • 7. Integration in den Digitalisierungsworkflow Keine manuelle Interaktion im Regelfall Kein Trainingsaufwand für Personal Priorisierung (Echtzeit OCR für Metadateneditor vs. OCR als Workflowschritt) Kapselung der Details der Orchestrierung (Servicekonzept) Steuerbar durch Software (API / Webservices)
  • 9. Server (Soft- und Hardware) Software Abbyy Recognition Server 2.0 Teilung zwischen Management- und Processingknoten Keine seitenbasierte Lizenzierung Hardware Cluster aus Bladeservern Derzeit 16 CPU Kerne
  • 10. Server (Kommunikation) WebDAV Schnittstelle HTTP basiert (keine Probleme mit Firewalls) Viele Implementierungen des Protokolls Nutzbar als Netzlaufwerk Steuerung XML Tickets (erzeugt durch Programmbibliothek)
  • 11. Formate TEI basiert Indexformat für einfache Indexierung Zukünftig: Volltextformat für Nachnutzung Geeignet für Erweiterungen wie Annotationen Nutzbar für elektronische Editionen
  • 12. Produktion Derzeit: Rekursives abarbeiten von Verzeichnisbäumen Zukünftig: Prozesssteuerung als Teil von Goobi Indexierung beim Import in das DMS
  • 13. Präsentation Volltexte für die Suche und Wortkoordinaten für die Darstellung Index (Lucene) wird durch Typo3 (CMS) abgefragt Zukünftig: Darstellung in der Oberfläche Beispiele
  • 16. Ausblick Goobi Anbindung des GBV OCR Clusters IMPACT EU Projekt zur Verbesserung von Fraktur OCR TextGrid Integration von OCRopus