OCR Renderfarmen und TEI

549 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
549
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
23
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

OCR Renderfarmen und TEI

  1. 1. OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen
  2. 2. Inhalt <ul><li>Grundlagen </li></ul><ul><ul><li>OCR Server </li></ul></ul><ul><ul><li>Volltextkodierung </li></ul></ul><ul><ul><li>Integration in Workflowsystem </li></ul></ul><ul><li>Umsetzung </li></ul><ul><ul><li>Server </li></ul></ul><ul><ul><li>Formate </li></ul></ul><ul><ul><li>Präsentation </li></ul></ul><ul><li>Ausblick </li></ul>
  3. 3. Grundlagen
  4. 4. OCR für die Massendigitalisierung Bisherige Vorgehensweise <ul><li>Rohdaten in proprietären Formaten („Stapel“) </li></ul><ul><li>Ergebnisse schwer integrierbar </li></ul><ul><li>Manuell via Desktopsoftware (wenig Automatismen) </li></ul><ul><li>Oder: Integration als Programmbibliothek (Prozessmanagement nicht integriert) </li></ul>
  5. 5. OCR für die Massendigitalisierung Wirkliche Anforderungen <ul><li>Skalierbarkeit </li></ul><ul><li>Management des Prozesses in größeren Einheiten </li></ul><ul><li>Integrierbarkeit in bestehende Infrastruktur </li></ul><ul><li>Hoher Grad an Automatisierung </li></ul><ul><li>Massenverarbeitung </li></ul>
  6. 6. Volltextkodierung <ul><li>XML basiert </li></ul><ul><li>Offenes Format </li></ul><ul><li>Hohe Flexibilität für verschiedenen Anwendungsszenarien </li></ul><ul><li>Bestehende Vokabularien nutzen </li></ul><ul><li>Breite Community – hohes Potential für Nachnutzung </li></ul>
  7. 7. Integration in den Digitalisierungsworkflow <ul><li>Keine manuelle Interaktion im Regelfall </li></ul><ul><li>Kein Trainingsaufwand für Personal </li></ul><ul><li>Priorisierung (Echtzeit OCR für Metadateneditor vs. OCR als Workflowschritt) </li></ul><ul><li>Kapselung der Details der Orchestrierung (Servicekonzept) </li></ul><ul><li>Steuerbar durch Software (API / Webservices) </li></ul>
  8. 8. Umsetzung
  9. 9. Server (Soft- und Hardware) <ul><li>Software </li></ul><ul><ul><li>Abbyy Recognition Server 2.0 </li></ul></ul><ul><ul><li>Teilung zwischen Management- und Processingknoten </li></ul></ul><ul><ul><li>Keine seitenbasierte Lizenzierung </li></ul></ul><ul><li>Hardware </li></ul><ul><ul><li>Cluster aus Bladeservern </li></ul></ul><ul><ul><li>Derzeit 16 CPU Kerne </li></ul></ul>
  10. 10. Server (Kommunikation) <ul><li>WebDAV Schnittstelle </li></ul><ul><ul><li>HTTP basiert (keine Probleme mit Firewalls) </li></ul></ul><ul><ul><li>Viele Implementierungen des Protokolls </li></ul></ul><ul><ul><li>Nutzbar als Netzlaufwerk </li></ul></ul><ul><li>Steuerung </li></ul><ul><ul><li>XML Tickets (erzeugt durch Programmbibliothek) </li></ul></ul>
  11. 11. Formate <ul><li>TEI basiert </li></ul><ul><li>Indexformat für einfache Indexierung </li></ul><ul><li>Zukünftig: Volltextformat für Nachnutzung </li></ul><ul><ul><li>Geeignet für Erweiterungen wie Annotationen </li></ul></ul><ul><ul><li>Nutzbar für elektronische Editionen </li></ul></ul>
  12. 12. Produktion <ul><li>Derzeit: Rekursives abarbeiten von Verzeichnisbäumen </li></ul><ul><li>Zukünftig: Prozesssteuerung als Teil von Goobi </li></ul><ul><li>Indexierung beim Import in das DMS </li></ul>
  13. 13. Präsentation <ul><li>Volltexte für die Suche und Wortkoordinaten für die Darstellung </li></ul><ul><li>Index (Lucene) wird durch Typo3 (CMS) abgefragt </li></ul><ul><li>Zukünftig: Darstellung in der Oberfläche </li></ul><ul><li>Beispiele </li></ul>
  14. 14. Demo 1
  15. 15. Demo 2
  16. 16. Ausblick <ul><li>Goobi </li></ul><ul><ul><li>Anbindung des GBV OCR Clusters </li></ul></ul><ul><li>IMPACT </li></ul><ul><ul><li>EU Projekt zur Verbesserung von Fraktur OCR </li></ul></ul><ul><li>TextGrid </li></ul><ul><ul><li>Integration von OCRopus </li></ul></ul>
  17. 17. Fragen? [email_address]

×