Der intranda OCR Service
Ein Entwicklungsupdate
1
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Wer spricht da eigentlich?
2012: "Der Student" (Softwareentwickler) bei intranda
Ab 2014: Der ABBYY-OCR-Typ bei intranda
Ab 2018: Product manager Goobi workflow bei intranda
Ab 2018: Der intranda-OCR Typ bei intranda
Außerdem: Der machine learning Typ bei intranda
3
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Worum wird es gehen?
1. Wie war das noch mal mit OCR?
2. Aktueller Status der OCR Pipeline / OCR Qualität
3. Durchsatz und Skalierung
4
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Wie war das noch mal mit OCR?
1. Seitensegmentierung
2. Binarisierung
3. Zeilensegmentierung
4. OCR auf Zeilenbasis
5. Textflussanalyse
6. Ausgabeformate schreiben
5
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Worum wird es gehen?
1. Wie war das noch mal mit OCR?
2. Aktueller Status der OCR Pipeline / OCR Qualität
1. Bessere Binarisierung
2. Verbesserungen an der Segmentierung
3. Neue OCR-Engine für (erstmal) Fraktur
3. Durchsatz und Skalierung
6
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Bessere Binarisierung
7
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Binarisierung: Tesseract
8
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Bessere Binarisierung
9
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
10
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
11
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
12
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
13
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
14
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
15
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Verbesserungen an der Segmentierung
16
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Neue OCR Engine
https://commons.wikimedia.org/wiki/File:The_LSTM_cell.png CC BY 4.0
17
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Resultate
18
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Resultate
Vorher Nachher
zFeligions.


Delhi


zero bas 1 dem Hauvt/nece


zue :*


, - vassu: verabschiede“


ze. . Te Zxtraaien


ot - 8 6


„Ln „v , ua


6 ..


6.3 6bc -


eslions» als auc) *;*


verden»


„um Eintnt


Religions⸗Beschwerden.


desto baß zu vernehmen, dem Haupt⸗Reces zu⸗


geleget und angefuͤget.


So ist in diesem passu verabschiedet, daß


man so bald nach geschehener Extradition auf


den Augenschein zusammen kommen, denselben


und alle andere Motiven und Rationes. freund⸗


und friedlich mit einander zuerwaͤgen, undver


hoffentlich diese Jrrsalen in Guͤte accommoci⸗


ren,in Entstehung aber deren soll es dißfalls
wie oben Arriculo 8. versehen, so wohl der Po-


ellons- als auch Entstehung wegen gehalten


19
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Worum wird es gehen?
1. Wie war das noch mal mit OCR?
2. Aktueller Status der OCR Pipeline / OCR Qualität
3. Durchsatz und Skalierung
20
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Durchsatz und Skalierung
https://de.wikipedia.org/wiki/Datei:Trichtermodell_zur_Verdeutlichung_der_Theory-of-Constraints.PNG CC-by-sa 3.0/de
21
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Situation vorher
22
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Aufteilung in einzelne Services
Bildaufbereitung
Segmentierung
Binarisierung
Zeilensegmentierung / OCR
23
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Skalierung der Services
24
Oliver
Paetzel,
intranda
GmbH
09.11.2021
Fragen?
25
Oliver
Paetzel,
intranda
GmbH
09.11.2021

Goobi-Tag 2021 - Der intranda OCR-Service