SlideShare ist ein Scribd-Unternehmen logo

Goobi-Tage 2019 - Die neue intranda OCR Pipeline

Goobi-Tage 2019 - Die neue intranda OCR Pipeline, Oliver Paetzel (intranda)

1 von 71
Downloaden Sie, um offline zu lesen
Die neue intranda OCR Pipeline
Was sich in einem Jahr so getan hat
1
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Schauen wir ein Jahr zurück
2
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Weitere, noch offene Baustellen (letztes Jahr)
Verbesserte Seiten-


segmentierung
Bilder und Grafiken im


ALTO auszeichnen
3
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Weitere, noch offene Baustellen (etwas später, letztes
Jahr)
Verbesserte Seitensegmentierung
Bilder und Grafiken im ALTO auszeichnen
Textflussanalyse
Zeilensegmentierung / abgeknickte Ränder korrigieren
unbekannte Schriftarten trainieren
4
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Unsere neue OCR Pipeline
(0) Neue Schriftarten trainieren
1. Seitensegmentierung
2. dewarp
3. Zeilensegmentierung
4. OCR auf Zeilenbasis
5. Textflussanalyse
6. Ausgabeformate schreiben
5
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Das Team
6
Oliver
Paetzel,
intranda
GmbH
25.09.2019
Anzeige

Recomendados

Umdenken! – Vorstellung von und Diskussion über alternative Arbeitsweisen
Umdenken! – Vorstellung von und Diskussion über alternative ArbeitsweisenUmdenken! – Vorstellung von und Diskussion über alternative Arbeitsweisen
Umdenken! – Vorstellung von und Diskussion über alternative Arbeitsweisenintranda GmbH
 
Goobi-Tag 2021 - (Semi-) Automatische Strukturerkennung
Goobi-Tag 2021 - (Semi-) Automatische StrukturerkennungGoobi-Tag 2021 - (Semi-) Automatische Strukturerkennung
Goobi-Tag 2021 - (Semi-) Automatische Strukturerkennungintranda GmbH
 
1. intranda Goobi Tag: OCR und jetzt
1. intranda Goobi Tag: OCR und jetzt1. intranda Goobi Tag: OCR und jetzt
1. intranda Goobi Tag: OCR und jetztintranda GmbH
 
Goobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-ServiceGoobi-Tag 2021 - Der intranda OCR-Service
Goobi-Tag 2021 - Der intranda OCR-Serviceintranda GmbH
 
News zur Entstaubung Infa-Aktuell 3-2013
News zur Entstaubung Infa-Aktuell 3-2013News zur Entstaubung Infa-Aktuell 3-2013
News zur Entstaubung Infa-Aktuell 3-2013Infastaub GmbH
 
Goobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewerGoobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewerintranda GmbH
 
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...intranda GmbH
 

Más contenido relacionado

Mehr von intranda GmbH

Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...intranda GmbH
 
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / ErfahrungenGoobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungenintranda GmbH
 
Goobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker ContainernGoobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker Containernintranda GmbH
 
Goobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer DesignGoobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer Designintranda GmbH
 
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...intranda GmbH
 
Goobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesGoobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesintranda GmbH
 
Goobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open SourceGoobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open Sourceintranda GmbH
 
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...intranda GmbH
 
Goobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - WillkommenGoobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - Willkommenintranda GmbH
 
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?intranda GmbH
 
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...intranda GmbH
 
Goobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - WillkommenGoobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - Willkommenintranda GmbH
 
Goobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - AusblickGoobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - Ausblickintranda GmbH
 
Goobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - WillkommenGoobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - Willkommenintranda GmbH
 
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow EntwicklungsrückblickGoobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblickintranda GmbH
 
Goobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the HoodGoobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the Hoodintranda GmbH
 
Goobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - AusblickGoobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - Ausblickintranda GmbH
 
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerintranda GmbH
 
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerintranda GmbH
 
Goobi-Tag 2021 - Rückblick Goobi workflow
Goobi-Tag 2021 - Rückblick Goobi workflowGoobi-Tag 2021 - Rückblick Goobi workflow
Goobi-Tag 2021 - Rückblick Goobi workflowintranda GmbH
 

Mehr von intranda GmbH (20)

Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
 
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / ErfahrungenGoobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
 
Goobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker ContainernGoobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker Containern
 
Goobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer DesignGoobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer Design
 
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
 
Goobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesGoobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-libraries
 
Goobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open SourceGoobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open Source
 
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
 
Goobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - WillkommenGoobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - Willkommen
 
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
 
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
 
Goobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - WillkommenGoobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - Willkommen
 
Goobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - AusblickGoobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - Ausblick
 
Goobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - WillkommenGoobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - Willkommen
 
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow EntwicklungsrückblickGoobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
 
Goobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the HoodGoobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the Hood
 
Goobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - AusblickGoobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - Ausblick
 
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
 
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
 
Goobi-Tag 2021 - Rückblick Goobi workflow
Goobi-Tag 2021 - Rückblick Goobi workflowGoobi-Tag 2021 - Rückblick Goobi workflow
Goobi-Tag 2021 - Rückblick Goobi workflow
 

Goobi-Tage 2019 - Die neue intranda OCR Pipeline

  • 1. Die neue intranda OCR Pipeline Was sich in einem Jahr so getan hat 1 Oliver Paetzel, intranda GmbH 25.09.2019
  • 2. Schauen wir ein Jahr zurück 2 Oliver Paetzel, intranda GmbH 25.09.2019
  • 3. Weitere, noch offene Baustellen (letztes Jahr) Verbesserte Seiten- segmentierung Bilder und Grafiken im ALTO auszeichnen 3 Oliver Paetzel, intranda GmbH 25.09.2019
  • 4. Weitere, noch offene Baustellen (etwas später, letztes Jahr) Verbesserte Seitensegmentierung Bilder und Grafiken im ALTO auszeichnen Textflussanalyse Zeilensegmentierung / abgeknickte Ränder korrigieren unbekannte Schriftarten trainieren 4 Oliver Paetzel, intranda GmbH 25.09.2019
  • 5. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 5 Oliver Paetzel, intranda GmbH 25.09.2019
  • 9. Das Team Hauke Joel Oliver 9 Oliver Paetzel, intranda GmbH 25.09.2019
  • 10. Das Team Oben rechts schauen! 10 Oliver Paetzel, intranda GmbH 25.09.2019
  • 11. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 11 Oliver Paetzel, intranda GmbH 25.09.2019
  • 12. Neue Schriftarten trainieren Hierfür haben wir unseren "OcrFontTranscriptor" entwickelt, mit dem wir eine primitive "Schriftart" erzeugen, um damit Texte zu setzen. 12 Oliver Paetzel, intranda GmbH 25.09.2019
  • 13. OCR Font Transcriptor - import 13 Oliver Paetzel, intranda GmbH 25.09.2019
  • 14. OCR Font Transcriptor - import 14 Oliver Paetzel, intranda GmbH 25.09.2019
  • 15. OCR Font Transcriptor - import 15 Oliver Paetzel, intranda GmbH 25.09.2019
  • 17. OCR Font Transcriptor - Transkription 17 Oliver Paetzel, intranda GmbH 25.09.2019
  • 19. OCR Font Transcriptor - Buchstaben 19 Oliver Paetzel, intranda GmbH 25.09.2019
  • 21. OCR Font Transcriptor - Finetuning 21 Oliver Paetzel, intranda GmbH 25.09.2019
  • 23. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 23 Oliver Paetzel, intranda GmbH 25.09.2019
  • 24. Seitensegmentierung Unsere neue Seitensegmentierung sollte die Seite zuverlässig in folgende Klassen segmentieren können: Textblöcke Abbildungen Rahmen Außerdem sollten Leerseiten zuverlässig als solche erkannt werden. 24 Oliver Paetzel, intranda GmbH 25.09.2019
  • 28. Training Wir haben mehrere Netzwerk-Architekturen ausprobiert. 28 Oliver Paetzel, intranda GmbH 25.09.2019
  • 29. Training Wir haben mehrere Netzwerk-Architekturen ausprobiert. Objekt-Detektoren waren zu ungenau für unsere Zwecke: Single Shot Detector (SSD) yolo v3 29 Oliver Paetzel, intranda GmbH 25.09.2019
  • 30. Training Wir haben mehrere Netzwerk-Architekturen ausprobiert. Pixel-labeler machen genau das was wir brauchen: U-net RU-net 30 Oliver Paetzel, intranda GmbH 25.09.2019
  • 31. Ergebnisse Auf dem (auch synthetisch erzeugten) Validierungs-Set haben wir eine Pixel-Genauigkeit von 99%. 31 Oliver Paetzel, intranda GmbH 25.09.2019
  • 37. Bildbearbeitung vor der OCR 37 Oliver Paetzel, intranda GmbH 25.09.2019
  • 38. Bildbearbeitung vor der OCR 38 Oliver Paetzel, intranda GmbH 25.09.2019
  • 39. Bildbearbeitung vor der OCR 39 Oliver Paetzel, intranda GmbH 25.09.2019
  • 40. Bildbearbeitung vor der OCR 40 Oliver Paetzel, intranda GmbH 25.09.2019
  • 41. Bildbearbeitung vor der OCR 41 Oliver Paetzel, intranda GmbH 25.09.2019
  • 42. Bildbearbeitung vor der OCR 42 Oliver Paetzel, intranda GmbH 25.09.2019
  • 43. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 43 Oliver Paetzel, intranda GmbH 25.09.2019
  • 45. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 45 Oliver Paetzel, intranda GmbH 25.09.2019
  • 46. Zeilensegmentierung Im Moment noch die Tesseract-Implementierung. Danach: 46 Oliver Paetzel, intranda GmbH 25.09.2019
  • 47. Zeilensegmentierung Im Moment noch die Tesseract-Implementierung. Danach: Joel 47 Oliver Paetzel, intranda GmbH 25.09.2019
  • 48. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 48 Oliver Paetzel, intranda GmbH 25.09.2019
  • 50. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 50 Oliver Paetzel, intranda GmbH 25.09.2019
  • 52. Unsere neue OCR Pipeline (0) Neue Schriftarten trainieren 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 52 Oliver Paetzel, intranda GmbH 25.09.2019
  • 53. Ausgabeformate schreiben ALTO mit ausgezeichneten Abbildungen TEXT PDF kann aus ALTO und Bildern entweder in Goobi workflow oder im Goobi viewer erzeugt werden. 53 Oliver Paetzel, intranda GmbH 25.09.2019
  • 55. Was bringt es? Auf unserem real-life Testset mit Bildern und Verzierungen: 15% verbesserte character error rate gegenüber baseline-Tesseract Damit sind wir in diesem Testset nur einen Prozentpunkt schlechter als ABBYY. 55 Oliver Paetzel, intranda GmbH 25.09.2019
  • 60. Wie geht es weiter? 60 Oliver Paetzel, intranda GmbH 25.09.2019
  • 61. Wir sind noch nicht zufrieden Die Baustellen werden sein: 1. Seitensegmentierung 2. dewarp 3. Zeilensegmentierung 4. OCR auf Zeilenbasis 5. Textflussanalyse 6. Ausgabeformate schreiben 61 Oliver Paetzel, intranda GmbH 25.09.2019
  • 62. OCR auf Zeilenbasis Tesseract hat einige Vorteile: Java-API 124 vortrainierte Sprachen Es funktioniert jetzt 62 Oliver Paetzel, intranda GmbH 25.09.2019
  • 63. OCR auf Zeilenbasis Tesseract hat aber auch einige Nachteile: Der Trainingsprozess ist etwas seltsam Es kann nur auf der CPU trainiert werden Es werden maximal 4 Kerne für das Training benutzt Ein Modell zu trainieren dauert gerne mal 2 Wochen 63 Oliver Paetzel, intranda GmbH 25.09.2019
  • 64. Der Zukunftsplan Unsere Wunsch-Pipeline sieht folgendermaßen aus: 1. Seitensegmentierung 2. dewarp 3. (unsere) Zeilensegmentierung 4. OCR auf Zeilenbasis: Tesseract oder ein eigenes Tensorflow-Modell 5. Textflussanalyse 6. Ausgabeformate schreiben 64 Oliver Paetzel, intranda GmbH 25.09.2019
  • 65. One more thing... (if there's time) 65 Oliver Paetzel, intranda GmbH 25.09.2019
  • 66. Inkunabel-Modell Wir haben ein Inkunabeln-Modell trainiert. 66 Oliver Paetzel, intranda GmbH 25.09.2019
  • 67. Inkunabel-Modell genannt liber de venenis Epidimie oel Peſtilentialis. von der aller gru ſameſten vnd ſchwerſten kranckheyt das do iſt der gemeyn ſterbẽt an den bülen / trüſen vnd blattern mit allen iren zůfellen / punctẽ ·vñ grtickeln wie in. zehelffen iſt / dz ich billich ſchuldig bin zetůn / entpfangener gůtheit dan ckbarkeit zů bewiſen / ſo verr mir das zů wiſſen iſt · wan mã den frünt in noͤ ten erkẽnẽ vñ bewerẽ iſt / vñ vermeyt danckbarkeit zů bewiſen / wie wol ic ſchuldig byn groſſe danckbarkeit dyr Ddoch nit in mynem vermůgẽ oð wiſſẽ iſt · Doch in ſollither hoffnũg allẽ ver nünfftigẽmẽſchẽ dis myn cleyne lere im beſtẽ vff zenemẽ / vñ hie mit vnge⸗ ccholtẽ die wirdigẽ vñ hochgelertẽ do ctores in den fryen künſtẽ der artzen deren diener vñ vndthenig ich all zit bin / deren rath mã bill ich pflegẽ ſoll ob mã die habẽ mag . Do aber die al ten vñ aller gelertſtẽ doctores in der artzeny offt gewichen vñ gflohen ſint vnd volgẽ nach der lere des aller be⸗ rümpſtẽ vñ hoch gelertiſtẽ doctor vñ phile ſophus in ð künſt der artzeny ge nãt Gentũle der ein übertreffenlicher artzot was in ſyner zit zů curieren vñ zů vertriben den genantẽ breſtẽ / vil ð land durch ziehẽ was den menſchẽ zu erledigẽ / dar durch er geſchetzt ward glich eim heilgẽ. des er in ſynen iung⸗ tagẽ ¶MCCCC nam dar durc p̃t vᷣz ni beffers dar für were das dz geton würd · Zů glicher wiſe ſchribt Rolandus ſinem lieben fründ meiſter Peter gwalandrum von par⸗ ma dem beſtẽ elund artzet von den geſchwerẽ vñ apoſtemẽ ð peſtilentzen Pcheilẽ / alſo die wyßheit würt geſpür vñ bewert im end des wercks ob dyn gemüet wiſfen iſt / ſo bedencke den vß gang vñ nit den anfang. wã offt der anfang glichet ſich dem honig ſüeße. aber das end aller bitterſt iſt. Nym war dz du dich vnd alles din huß ge⸗ ſynd ycht zerſtoͤreſt / ſo du begereſt zů ſamlen dz gold zů diner narũg. Aber ich bekenn dz dich hie zů me die gitig keit dann die lieb bezwingt. O wie vil füret die gitikeit derẽ anfang gůt iſt zů eim boͤſẽ end / wz meynſtu zů gewin nẽ in ð aller vnſeligſtẽ ſtatt die doch aller müe vnd arbeit voll iſt. Jch ge ite wan die peſtilẽtz regiert in vil lã den den ertzten groß gab vñ myht ge choͤckt würt. doch ſo wer beſſer. j. ſchil ing on ſchadẽ dã ein ducate mit ſcha den gewũnnẽ tc. Jn dynem ſchribẽ du mich bitteſt dir zů ſchribẽ myn vñ an dere erfarende lere võ den bewerteſtẽ ertzten in eim kurtzẽ begriff ſo mirzů handẽ / vñ ich in myner pracr: ca ĩ den edlen ſtettẽ dar in peſtilentziſchẽ ziten geweſen bin getriben vnd geübt hab. gloub mir in ð warheit dz ich mich ð practica nye gbrucht / ſunð allein myn rath dar zů gebẽ hab / ſo ich doch gele ret lüt in vnſern landẽ geſehẽ hab pra cticieren mit ð hand in toͤdtlich ſcha⸗ den namen. nit clein wunder nympt mich du nit ingedenckẽ biſt dyn vnd dyns hußgeſinds / nit gibe dich in die forcht des tods. foͤrchteſtu nit das von menglich zů foͤrchten iſt · Als mã zalt ccccciclxxiii . iar. wz ich in einer ſtatt ar in ein eiſchroͤcklich peſtilẽtz regie⸗ ret / derẽ glichẽ ich vor nye geſehẽ oder gloub geſehẽ werd. alle lieb vñ frünt⸗ ſchafft in den menſchẽ verloſchẽ was. ſund alle vnbarmhertzikeit vñ grym mikeit vff erweckt was Der nach 67 Oliver Paetzel, intranda GmbH 25.09.2019
  • 68. Inkunabel-Modell buer verließ ſin nachbur. der brůder ſin brůd. der man ſin frouw. die frow iren man. der vatter vnd můter das kindte wan die mẽſchẽ ſturbẽt nit al leyn võ der peſtilentzẽ / ſund ouch on notturfft vñ bantreichung die ſie nit hettẽ / vñ noch vil boͤſer wz es das die pfarrer vñ die brüder der bettel ordẽ die ſiechẽ weð bicht hoͤrẽ noch bewarẽ mit dem heiligẽ ſacramẽt wolten die geſtorbenen lichnã nit ĩ ir gekoufften greber begraben laſſen. So bald den amptlütẽ für kã wie eĩ mẽſch geſtorbẽ oð mit ð kranckheit behafft der von ſtund do hin geordenet ward eĩ groſ ſchar der knecht vñ ſchergen mit groſ ſem wüeten vñ vngeſtemigkeit den ſiechẽ vß dem huſezzů den heiligẽ gon oder aber dar in verſchlieſſen / die ſelb JZatt was ein metzig vnd mort ð men ſchen / dar võ alle geſchlecht der vn⸗ küſcheit do getriben ward vñ vil an⸗ der vnmẽſchlicher ding nit not zů ſa gen iſt. Jn der ſtatt würd ouch ſo vil myßhandels dz weder mit mund vß ſprechẽ / noch mit der federn zeſchril iſt / die ſt att knecht den armẽ lüten ir ſchwyn erſchlůgẽ vnd verkoufftentz· die ſchwyn aſſent ſturbent · dar vmb Jwpeftilenfffchẽ ziten fft dz ſchwynẽ lp · ¶ afſe gů ſchai pen Jſo ich Jeroo nimus ſolichs geleſen vnd ouch geſe hen hab zů.in oder .iii / malen die aller berůmſten ertzte diſer ſtatt in ſollichẽ icht wichẽ moͤchtẽ / doch mir nit zwy⸗ felt zů diſer zit vnſer doctores dz mit nichtẽ thůnd ob einer wich / die ander blibent. Do iſt nit vnzymlich mit der hilff des almechtigẽgotts mir võ di ⸗ ſer krãckheit etwas zů ſchribẽ. ſo doch diſe krãckheit nit allein zů gehoͤrig iſ. dem hiſico / ſunder ouch dem cyrur⸗ Aico dey die hantwůrckũg / dar zů tri ben ſoll. wie wol billichei die gelertẽ das detten die der kunſt wol beriecht ſint / den mã billich folgen vñ irer ber ffatt gebẽ ſoll ob ſie willẽ oð neygũg dar zů habẽ woͤltẽ · Ob aber dz nit ge ſchehe / vñ ſelber nach folgtẽzd gemey⸗ nen regel vñ ſicherſtẽ ler aller Zoctern wie ich obgemeldt hab von gentille vnd Zolando. hab ich mir für geſetzt dis büechlt volendẽ / ſo etlich myn lie⸗ ẽ herrẽ vñ gůte günner mich gebettẽ aben in vñ der gantzẽ cõmun etwas dar võ zů ſchriben wiẽ clein oð wenig dz were vff dz kurtzeſt doch vᷣſtendig von den bewerteſtẽ vñ erfarendẽ mẽẽ ſtern vñ doctern der ertzeny. wan lãc matery dem leſer vnd lerendẽ vnuer/ tlich wer. ouch mich dz ſo kurtz an Amen iſt. Vuch zů lieb den iungẽ an gondẽ meiſtern vñ wũd ertzt vñ ſche Xi we vñ wie ſie dar für laſſt vñ ſie Zilẽ ſollẽt die apoſtemẽ. bubones. car unculus vñ antracẽ vñ ð glichẽ / dar durch ich in hoffnung bin ñun vñ zů kiinfftigẽ zitẽ nutz entſpringẽ ſoll / vñ begere võ menglich diſe myn arbeyt in gůtẽ zů ſchibẽ / als ich es doch geton NAb in gůter meynũg vnd vnueracht Jie gelerten · ſander alleyn dzich mein ſie do mit zů ſparen / wan ſie vil an⸗ ders groͤſſers vñ merers zů ſchaffẽ ha ben / vnd in nit notturfft iſt ſich in ein ollich arbeit zů legen / oð ſo gar licht lich vnderwürffig machẽ / Aber in der warheit in vil zůfellẽ diſer kraͤckheit der phiſicus notulfftig iſt ſie zů erwwe len ob man ſie haben nag wie ich ge Prochen hab / dennocht iñ Gott d err mit flyß zů bitten dem dohh 68 Oliver Paetzel, intranda GmbH 25.09.2019
  • 69. Inkunabel-Modell wyſ hrit dem ſiechen die geſtnthert zů verlyhẽ ir beider will zů volbringen. Ye doch ſo will ich ſchribẽ vñ offẽbar⸗ vᷣõ allen zůfellẽ ſo wer mir dz küntlich vñ zů wiſſen iſt / vñ will dz ſetzẽ vñ or denierẽ in.v.txactet oð in. v ·teil / vnd ein zedes teil oð tractet mit ſinen ſun derůn capiteln die dem ſelbigen teil an hangẽ vñ billich zů geeygnet ſint vñ by eim yedẽ capitel die zal wo vñ wie mã das ſůchen vnd finden ſoll. ſEr erſt tractat. vcapiteln halt N Jn welchen capiteln ich dir zegẽ gM ſSckCc? CCCCChẽ diẽ zůkünfftig peſtilentz. Am. jablat sPEr ander tractact. vi · capitel dD.hat in welchẽ capiteln dich lerẽ bin die menſchẽ zů behüetẽ in den ziten ſo die peſllentz regiert .iiij. ggEr deitt tractat · cap · hat Jn Pwelchẽ capiteln ie lerẽ dis d wie dem mẽſchẽ zehelffen iſt den gle peſtilentz an kũmen iſt. am · xxii Er. Mil. tractat .iii. cap. hat · in dwelchen capiteln ich vndwiſen kbin von heilung der apoſtemẽ drüſen / peſtilen tz / carbuͤculen vñ an trax / das allein dem cfrurgico zů ge⸗ goͤret. An dem. xxviii · blat. gQ⸗?ĩcCxr . vnd der letſt tractat / in Lvᷣ⸗ tractat dich lerẽ bin ein vᷣEvᷣd Ekurtzẽ begriff alle punctẽ vnd arlickeln uün gãtzẽ bůch gemelt vff ðr der kranck durch verzug des ſůchẽs nit toͤdtlich ſchaden neme. xxxv · Je.wcapitel des erſtẽ tractats d Von der offenbarũg d peſtilen tzen was ſie iſt / wo võ ſie kũpt vnd zůkünfftig erkennen iſt. Das erſt capitel ſagen iſt was die pe ſtilentz iſt · Sůch am erſten blatt. Das cap ſagẽ iſt wo von die peſti lentz kimpt. am. iaamc.ij ·blatt . Das. ni capi wie mã erkennẽ ſoll die zůkünfftig peſtilentz. anyij · lai Dz.. ii. cap. eb die peſtilentz zů erbẽ oder zů fliehen iſt. Am .iij · blat Das. w. Cap· an welchen enden vnd tetten den menſchẽ die peſtilentz an dupt .· An dem .ii. blat. y· · Wy Je. wl.cap. des and ern tractat M ?CCCC?C?ÿ?⸗ du den mẽſchẽ Cr Ybewaren biſt in der zit ſo die pe⸗ ſtilentz regieren iſt. Anniiii · Sas capitel wie du dich mit gott verſoͤnen ſolt. am.iiiobla Sas ar. cap wie man ſich hüten vnd alten ſoll in ð zit ð peſtilẽtzẽ. am. v. ſTas. w. cap. wie du erkẽnẽ kanſt ob der mẽſch mit dem gebreſtẽ behafft ſy oder nit. Am. vibblat Ss Das . mi · wie ſich zehaltẽ ſy in der it der peſtilentz. am vie · Das. wccap. wie mã ſich haltẽ ſoll in der zit ð peſtilentzẽ mit effen / trinckẽ / ſchlaffen vnd wach en am. viit Jů dem erſtẽ võ eſſen vñ trinckẽ in ei ner gemeyn. Am · vii blatt.f. Ztzm andn vom fleiſchMam i Zum drittẽ võ vnðſcheit des gebrat⸗ tes vnd geſottes an iy· Zum vierdẽ võ ſoſſen vñ ſpyßwurtzẽ An dem · ixcblatt. Jnman V · von der milch. am · x · Jum. vz. von viſchen.am .x. blat . Zum .ii. von früchten vnnd oͤbs zů nützen; An dem. ycblatm Jum · viii . võ dem tranck des mẽſchẽ A dem .xj . blatt Zum .ix. von ſchlaffen vñ wachẽ. xiy. Zum . x. von arbelẽ vñ růwẽ · xi · Sum xi. von zůfell der ſelen vñ des gemüets am vii · Zů dem · xii. vã vnküſcheit. am · xiiz 69 Oliver Paetzel, intranda GmbH 25.09.2019