SUB OCR Implementierung

561 Aufrufe

Veröffentlicht am

0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
561
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

SUB OCR Implementierung

  1. 1. SUB OCR ImplementierungGOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  2. 2. Anforderungen Prozesssteuerung• Synchrone Bearbeitung – Webservice – GUI (Metadateneditor)• Asynchrone Bearbeitung – Massenverarbeitung (Ganze Bände) – Benachrichtigungen – Fortschrittsinformationen• Gemeinsam – Prioritäten
  3. 3. Anforderungen Implementierung• Austauschbarkeit der OCR-Engines – Kosten und Qualität – Auslastung und Lastverteilung – Flexibilität bei existierenden Lizenzen – Evaluierung• Prozessmetadaten – Prozessdokumentation für LZA – Statistische Auswertungen (z.B. zur Erkennung von Fraktur, aber auch als Methode der automatischen QA)
  4. 4. Gesamtarchitektur GoobiFrontend Metadaten editor CLI IMPACT WebserviceAPI Prozessmetadaten API OCR APIBackend Abbyy Recognitio n Server Abbyy CLEI Tesseract
  5. 5. API Schichten• OCR API – Bilddatei – Sprache / Schrift – Ausgabeformat – Priorität – Implementierungsspezifische Parameter• Prozessmetadaten API – Erkennungsrate (Zeichen- und Wortebene) – Dauer – Genutzte Software – Encoding / Zeilenumbrüche – Implementierungsspezifische Berichte
  6. 6. Architektur Abbyy Recognition Server Backend Thread PoolProzesssteuerung Executor Hazelcast ExecutorProzessverwaltung TicketBeans ApacheStorage Sardine (WebDAV) Jackrabbit Commons VFS
  7. 7. Technische Details• Freie Rekombinierbarkeit von Frontend- Modulen mit jedem Backend-Modul• Wiring der Komponenten via Spring• Kombinationen lassen sich als Maven Profile abbilden• Serialisierung der Prozessmetadaten über textMD (LZA geeignet)• Hazelcast erlaubt ein Clustering der Instanzen, z.B. zur Synchronisation von unterschiedlichen Prioritäten
  8. 8. //TODO• Konvertierung als Teil der API – Backend für existierende Dateien• OCROpus Backend• WebDAV Frontend (in Teilen bereits für Unit Tests realisiert)• EoD Backend über FTP (asynchron)• Webservice Backend (Anbindung IMPACT CoC Tools)• Persistenz der Warteschlange(n) – Derzeit nur im Hazelcast Cluster Modus, solange eine Instanz läuft• GUI? – Empfehlung: direkte Integration in die Workflowsteuerung
  9. 9. Goobi Integration (geplant Ende 2011)• Bereitstellung als „Automatischer Schritt“ – Integration über Kommandozeile• Anpassung der existierenden Workflows und Vorgänge notwendig – Anpassung über „GoobiScript“?• Zusätzliche METS „FileGroup“ etc. – Keine Änderung an UGH Bibliothek notwendig• Metadateneditor Integration als eigenes Servlet• Nachteil: Abhängig von der jeweiligen Institution
  10. 10. Goobi Integration (zukünftig)• „Modul“?• Schnittstelle dafür noch nicht ganz vorhanden – Schnittstelle sowohl als Goobi Schritt als auch im Metadateneditor notwendig
  11. 11. Vielen Dank! Fragen?mahnke@sub.uni-goettingen.de 11

×