Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen
Inhalt <ul><li>Grundlagen </li></ul><ul><ul><li>OCR Server </li></ul></ul><ul><ul><li>Volltextkodierung </li></ul></ul><ul...
Grundlagen
OCR für die Massendigitalisierung Bisherige Vorgehensweise <ul><li>Rohdaten in proprietären Formaten („Stapel“) </li></ul>...
OCR für die Massendigitalisierung Wirkliche Anforderungen <ul><li>Skalierbarkeit </li></ul><ul><li>Management des Prozesse...
Volltextkodierung <ul><li>XML basiert </li></ul><ul><li>Offenes Format </li></ul><ul><li>Hohe Flexibilität für verschieden...
Integration in den Digitalisierungsworkflow <ul><li>Keine manuelle Interaktion im Regelfall </li></ul><ul><li>Kein Trainin...
Umsetzung
Server (Soft- und Hardware) <ul><li>Software </li></ul><ul><ul><li>Abbyy Recognition Server 2.0 </li></ul></ul><ul><ul><li...
Server (Kommunikation) <ul><li>WebDAV Schnittstelle </li></ul><ul><ul><li>HTTP basiert (keine Probleme mit Firewalls) </li...
Formate <ul><li>TEI basiert </li></ul><ul><li>Indexformat für einfache Indexierung </li></ul><ul><li>Zukünftig: Volltextfo...
Produktion <ul><li>Derzeit: Rekursives abarbeiten von Verzeichnisbäumen </li></ul><ul><li>Zukünftig: Prozesssteuerung als ...
Präsentation <ul><li>Volltexte für die Suche und Wortkoordinaten für die Darstellung </li></ul><ul><li>Index (Lucene) wird...
Demo 1
Demo 2
Ausblick <ul><li>Goobi </li></ul><ul><ul><li>Anbindung des GBV OCR Clusters </li></ul></ul><ul><li>IMPACT </li></ul><ul><u...
Fragen? [email_address]
Nächste SlideShare
Wird geladen in …5
×

OCR Renderfarmen und TEI

606 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

OCR Renderfarmen und TEI

  1. 1. OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen
  2. 2. Inhalt <ul><li>Grundlagen </li></ul><ul><ul><li>OCR Server </li></ul></ul><ul><ul><li>Volltextkodierung </li></ul></ul><ul><ul><li>Integration in Workflowsystem </li></ul></ul><ul><li>Umsetzung </li></ul><ul><ul><li>Server </li></ul></ul><ul><ul><li>Formate </li></ul></ul><ul><ul><li>Präsentation </li></ul></ul><ul><li>Ausblick </li></ul>
  3. 3. Grundlagen
  4. 4. OCR für die Massendigitalisierung Bisherige Vorgehensweise <ul><li>Rohdaten in proprietären Formaten („Stapel“) </li></ul><ul><li>Ergebnisse schwer integrierbar </li></ul><ul><li>Manuell via Desktopsoftware (wenig Automatismen) </li></ul><ul><li>Oder: Integration als Programmbibliothek (Prozessmanagement nicht integriert) </li></ul>
  5. 5. OCR für die Massendigitalisierung Wirkliche Anforderungen <ul><li>Skalierbarkeit </li></ul><ul><li>Management des Prozesses in größeren Einheiten </li></ul><ul><li>Integrierbarkeit in bestehende Infrastruktur </li></ul><ul><li>Hoher Grad an Automatisierung </li></ul><ul><li>Massenverarbeitung </li></ul>
  6. 6. Volltextkodierung <ul><li>XML basiert </li></ul><ul><li>Offenes Format </li></ul><ul><li>Hohe Flexibilität für verschiedenen Anwendungsszenarien </li></ul><ul><li>Bestehende Vokabularien nutzen </li></ul><ul><li>Breite Community – hohes Potential für Nachnutzung </li></ul>
  7. 7. Integration in den Digitalisierungsworkflow <ul><li>Keine manuelle Interaktion im Regelfall </li></ul><ul><li>Kein Trainingsaufwand für Personal </li></ul><ul><li>Priorisierung (Echtzeit OCR für Metadateneditor vs. OCR als Workflowschritt) </li></ul><ul><li>Kapselung der Details der Orchestrierung (Servicekonzept) </li></ul><ul><li>Steuerbar durch Software (API / Webservices) </li></ul>
  8. 8. Umsetzung
  9. 9. Server (Soft- und Hardware) <ul><li>Software </li></ul><ul><ul><li>Abbyy Recognition Server 2.0 </li></ul></ul><ul><ul><li>Teilung zwischen Management- und Processingknoten </li></ul></ul><ul><ul><li>Keine seitenbasierte Lizenzierung </li></ul></ul><ul><li>Hardware </li></ul><ul><ul><li>Cluster aus Bladeservern </li></ul></ul><ul><ul><li>Derzeit 16 CPU Kerne </li></ul></ul>
  10. 10. Server (Kommunikation) <ul><li>WebDAV Schnittstelle </li></ul><ul><ul><li>HTTP basiert (keine Probleme mit Firewalls) </li></ul></ul><ul><ul><li>Viele Implementierungen des Protokolls </li></ul></ul><ul><ul><li>Nutzbar als Netzlaufwerk </li></ul></ul><ul><li>Steuerung </li></ul><ul><ul><li>XML Tickets (erzeugt durch Programmbibliothek) </li></ul></ul>
  11. 11. Formate <ul><li>TEI basiert </li></ul><ul><li>Indexformat für einfache Indexierung </li></ul><ul><li>Zukünftig: Volltextformat für Nachnutzung </li></ul><ul><ul><li>Geeignet für Erweiterungen wie Annotationen </li></ul></ul><ul><ul><li>Nutzbar für elektronische Editionen </li></ul></ul>
  12. 12. Produktion <ul><li>Derzeit: Rekursives abarbeiten von Verzeichnisbäumen </li></ul><ul><li>Zukünftig: Prozesssteuerung als Teil von Goobi </li></ul><ul><li>Indexierung beim Import in das DMS </li></ul>
  13. 13. Präsentation <ul><li>Volltexte für die Suche und Wortkoordinaten für die Darstellung </li></ul><ul><li>Index (Lucene) wird durch Typo3 (CMS) abgefragt </li></ul><ul><li>Zukünftig: Darstellung in der Oberfläche </li></ul><ul><li>Beispiele </li></ul>
  14. 14. Demo 1
  15. 15. Demo 2
  16. 16. Ausblick <ul><li>Goobi </li></ul><ul><ul><li>Anbindung des GBV OCR Clusters </li></ul></ul><ul><li>IMPACT </li></ul><ul><ul><li>EU Projekt zur Verbesserung von Fraktur OCR </li></ul></ul><ul><li>TextGrid </li></ul><ul><ul><li>Integration von OCRopus </li></ul></ul>
  17. 17. Fragen? [email_address]

×