Entwicklungsrückblick über die letzten 12 Monate Goobi workflowintranda GmbH
Entwicklungsrückblick über die letzten 12 Monate Goobi workflow - Vortrag von Steffen Hankiewicz auf den Goobi Tagen 2017 über die Entwicklungen an der Software Goobi workflow
Automatisierte Qualitätsprüfung von Bildern mit Goobi und GoldenThreadintranda GmbH
Automatisierte Qualitätsprüfung von Bildern mit Goobi und GoldenThread - Vortrag von Steffen Hankiewicz auf den Goobi Tagen 2018 über das Zusammenspiel von Goobi und Golden Thread für die Bildanalyse
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...intranda GmbH
Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpflege, Sonja Stadje & Christina Teufer-Hansen (Niedersächsisches Landesamt für Denkmalpflege)
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...intranda GmbH
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Projekt mit Schweißperleneffekt. (Sigrid Amedick, Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie & Jan Simane, Kunsthistorisches Institut in Florenz)
Entwicklungsrückblick über die letzten 12 Monate Goobi workflowintranda GmbH
Entwicklungsrückblick über die letzten 12 Monate Goobi workflow - Vortrag von Steffen Hankiewicz auf den Goobi Tagen 2017 über die Entwicklungen an der Software Goobi workflow
Automatisierte Qualitätsprüfung von Bildern mit Goobi und GoldenThreadintranda GmbH
Automatisierte Qualitätsprüfung von Bildern mit Goobi und GoldenThread - Vortrag von Steffen Hankiewicz auf den Goobi Tagen 2018 über das Zusammenspiel von Goobi und Golden Thread für die Bildanalyse
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...intranda GmbH
Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpflege, Sonja Stadje & Christina Teufer-Hansen (Niedersächsisches Landesamt für Denkmalpflege)
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...intranda GmbH
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Projekt mit Schweißperleneffekt. (Sigrid Amedick, Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie & Jan Simane, Kunsthistorisches Institut in Florenz)
Goobi-Tag 2021: Goobi viewer in Docker Containernintranda GmbH
Goobi-Tag 2021: Goobi viewer in Docker Containern, Kai Sommer (Georg-Eckert-Institut für internationale Schulbuchforschung) & Matthias Geerdsen (intranda)
Goobi-Tag 2021: Goobi meets OCR4all-libraries - eine Chance für die nutzerorientierte Volltexterkennung?, Katharina Krüger & Nadine Towara (Georg-Eckert-Institut | Leibniz-Institut für internationale Schulbuchforschung)
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...intranda GmbH
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächsten Monate & Gemeinsames Brainstorming: Was wünschen wir uns? vs. Was brauchen wir?, Steffen Hankiewicz (intranda)
Ich glaub es hackt! – Ein Teilnehmerbericht vom Kultur-Hackathon Coding da Vi...intranda GmbH
Ich glaub es hackt! – Ein Teilnehmerbericht vom Kultur-Hackathon Coding da Vinci Ost 2018 - Vortrag von Andreas Schlüter auf den Goobi Tagen 2018 über die Teilnahme am Kultur-Hackathon Coding da Vinci Ost 2018
Nachbearbeitung von Bildern mit dem LayoutWizzard -oder- Warum wir Bilder nac...intranda GmbH
Nachbearbeitung von Bildern mit dem LayoutWizzard -oder- Warum wir Bilder nach dem Scannen zuschneiden - Votrag von Florian Alpers auf den Goobi Tagen 2017
4. Das verhängnisvollste "Kannst du mal bitte schnell" aller Zeiten
2016: "Kannst Du mal bitte schnell einen Vortrag zu OLR machen"?
4
Oliver
Paetzel,
intranda
GmbH
09.11.2021
5. Das verhängnisvollste "Kannst du mal bitte schnell" aller Zeiten
2016: "Kannst Du mal bitte schnell einen Vortrag zu OLR machen"?
2017-2018: Masterarbeit zum Thema Strukturerkennung
5
Oliver
Paetzel,
intranda
GmbH
09.11.2021
6. Das verhängnisvollste "Kannst du mal bitte schnell" aller Zeiten
2016: "Kannst Du mal bitte schnell einen Vortrag zu OLR machen"?
2017-2018: Masterarbeit zum Thema Strukturerkennung
2018-2020: Unzählige schlaflose Nächte
6
Oliver
Paetzel,
intranda
GmbH
09.11.2021
7. Das verhängnisvollste "Kannst du mal bitte schnell" aller Zeiten
2016: "Kannst Du mal bitte schnell einen Vortrag zu OLR machen"?
2017-2018: Masterarbeit zum Thema Strukturerkennung
2018-2020: Unzählige schlaflose Nächte
Januar 2021: COVID-Langeweile, neuer Ansatz, Erfolg
7
Oliver
Paetzel,
intranda
GmbH
09.11.2021
8. Alter Ansatz
Erkennung von Überschriften in OCR-Ergebnissen
Manuelle feature-Extraktion
Klassifizierung der Zeilen in Überschrift/Nicht-Überschrift
8
Oliver
Paetzel,
intranda
GmbH
09.11.2021
16. Überschriften anreichern
(Grober) Algorithmus wie folgt:
1. Finde Überschriften mit dem neuronalen Netz
2. Finde dazugehörige OCR-Ergebnisse
16
Oliver
Paetzel,
intranda
GmbH
09.11.2021
17. Überschriften anreichern
(Grober) Algorithmus wie folgt:
1. Finde Überschriften mit dem neuronalen Netz
2. Finde dazugehörige OCR-Ergebnisse
3. Durchsuche die ersten und letzten 10% des Buchs nach Seiten, auf denen überdurchschnittlich
viele Zeilen sind, die sehr ähnlich zu den Überschriften sind. (Wahrscheinlich Inhaltsverzeichnis-
Seiten)
17
Oliver
Paetzel,
intranda
GmbH
09.11.2021
18. Überschriften anreichern
(Grober) Algorithmus wie folgt:
1. Finde Überschriften mit dem neuronalen Netz
2. Finde dazugehörige OCR-Ergebnisse
3. Durchsuche die ersten und letzten 10% des Buchs nach Seiten, auf denen überdurchschnittlich
viele Zeilen sind, die sehr ähnlich zu den Überschriften sind. (Wahrscheinlich Inhaltsverzeichnis-
Seiten)
4. Finde in den Inhaltsverzeichnis-Kandidaten Zeilen ohne Überschrift-match
18
Oliver
Paetzel,
intranda
GmbH
09.11.2021
19. Überschriften anreichern
(Grober) Algorithmus wie folgt:
1. Finde Überschriften mit dem neuronalen Netz
2. Finde dazugehörige OCR-Ergebnisse
3. Durchsuche die ersten und letzten 10% des Buchs nach Seiten, auf denen überdurchschnittlich
viele Zeilen sind, die sehr ähnlich zu den Überschriften sind. (Wahrscheinlich Inhaltsverzeichnis-
Seiten)
4. Finde in den Inhaltsverzeichnis-Kandidaten Zeilen ohne Überschrift-match
5. Suche im Rest des Buches nach den Zeilen aus Schritt 4, es sind wahrscheinlich Überschriften
19
Oliver
Paetzel,
intranda
GmbH
09.11.2021
20. Ein paar Beispiele und der Anfang eines Goobi-Plugins
20
Oliver
Paetzel,
intranda
GmbH
09.11.2021
21. Was auch schon fast fertig ist
Und (nur) noch eingebaut werden muss
21
Oliver
Paetzel,
intranda
GmbH
09.11.2021
22. Was auch schon fast fertig ist
Und (nur) noch eingebaut werden muss
Lauftitel-Erkennung
22
Oliver
Paetzel,
intranda
GmbH
09.11.2021
23. Was auch schon fast fertig ist
Und (nur) noch eingebaut werden muss
Lauftitel-Erkennung
Seitenzahl-Erkennung
23
Oliver
Paetzel,
intranda
GmbH
09.11.2021
24. Was auch schon fast fertig ist
Und (nur) noch eingebaut werden muss
Lauftitel-Erkennung
Seitenzahl-Erkennung
Tabellenerkennung
24
Oliver
Paetzel,
intranda
GmbH
09.11.2021
25. Was auch schon fast fertig ist
Und (nur) noch eingebaut werden muss
Lauftitel-Erkennung
Seitenzahl-Erkennung
Tabellenerkennung
Erkennung von Darstellungen/Bildern
25
Oliver
Paetzel,
intranda
GmbH
09.11.2021