Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digit...
OCR in Bibliotheken <ul><li>Schwieriges Kapitel </li></ul><ul><li>Glas halbvoll oder halbleer? </li></ul><ul><li>Fraktur <...
OCR und Digitalisierung <ul><li>OCR ändert alles! </li></ul><ul><li>Workflow muss an allen Ecken und Enden angepasst werde...
Vorbereitung und Auswahl für das Scannen <ul><li>Für welche Art des Scannens entscheidet man sich? </li></ul><ul><ul><li>G...
Gute und schlechte Bilder <ul><li>Sorgfalt ist alles! </li></ul><ul><li>Allerdings: </li></ul><ul><ul><li>Scanroboter und ...
Bad print – broken characters
und  wenn
Binarisierung
Layout analysis
300 oder 400 ppi – bitonal oder 8/24 Bit? <ul><li>Rose Holley: Dlib Aufsatz 2009 </li></ul><ul><ul><li>Grau scannen führt ...
Erkennungsgenauigkeit <ul><li>Glas halbvoll oder halbleer? </li></ul><ul><ul><li>Rose Holley <90% Wortgenauigkeit: Poor </...
Beispiele aus der Praxis <ul><li>Grundlage: ABBYY Recognition Server 2 </li></ul><ul><ul><li>Reichstagsprotokolle, 1925 </...
Korrektur <ul><li>Bis vor kurzem als völlig absurd zurückgewiesen worden </li></ul><ul><li>Aber: </li></ul><ul><ul><li>Cro...
Weiterverarbeitung der OCR Ergebnisse <ul><li>Strukturerkennung </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv </li></ul...
Anwendungen und Suchinterfaces <ul><li>Volltextsuche </li></ul><ul><ul><li>JSTOR, Google, Verlage </li></ul></ul><ul><ul><...
Zusammenfassung <ul><li>OCR ist „Pflicht“ </li></ul><ul><ul><li>Dokumente des 19. und 20. Jahrhunderts generell sehr brauc...
Vielen Dank für Ihre Aufmerksamkeit!
Nächste SlideShare
Wird geladen in …5
×

Mühlberger Digitalisierung Impact Workshop MUC

821 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
821
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
295
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Mühlberger Digitalisierung Impact Workshop MUC

  1. 1. Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digitalisierung und elektronische Archivierung Universitäts- und Landesbibliothek Tirol
  2. 2. OCR in Bibliotheken <ul><li>Schwieriges Kapitel </li></ul><ul><li>Glas halbvoll oder halbleer? </li></ul><ul><li>Fraktur </li></ul><ul><li>EU Projekt METADATA ENGINE </li></ul><ul><li>Digitalisierungszentren Göttingen und BSB </li></ul><ul><li>Google </li></ul>
  3. 3. OCR und Digitalisierung <ul><li>OCR ändert alles! </li></ul><ul><li>Workflow muss an allen Ecken und Enden angepasst werden </li></ul><ul><ul><li>Vorbereitung </li></ul></ul><ul><ul><li>Imagebearbeitung </li></ul></ul><ul><ul><li>Scannen </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul><ul><ul><li>Speicherung und Archivierung </li></ul></ul><ul><ul><li>Korrektur </li></ul></ul><ul><ul><li>Volltextsuche </li></ul></ul><ul><ul><li>Webinterfaces </li></ul></ul>
  4. 4. Vorbereitung und Auswahl für das Scannen <ul><li>Für welche Art des Scannens entscheidet man sich? </li></ul><ul><ul><li>Gebundene Vorlage? </li></ul></ul><ul><ul><li>Lose Blätter? </li></ul></ul><ul><ul><li>Mikrofilm? </li></ul></ul><ul><li>Welcher Scanner? </li></ul><ul><ul><li>Overheadscanner </li></ul></ul><ul><ul><li>Scanroboter? </li></ul></ul><ul><ul><li>Mikrofilmscanner? </li></ul></ul><ul><li>Inhouse oder Dienstleister? </li></ul><ul><ul><li>Qualitätskontrolle? </li></ul></ul><ul><ul><li>Deutschland oder Off-shore? </li></ul></ul>
  5. 5. Gute und schlechte Bilder <ul><li>Sorgfalt ist alles! </li></ul><ul><li>Allerdings: </li></ul><ul><ul><li>Scanroboter und Dokumentenscanner verringern die Anforderungen nach individueller Fähigkeit des Operators, trotzdem immer noch entscheidend </li></ul></ul><ul><li>Gutes Bild: </li></ul><ul><ul><li>Scharf, heller Hintergrund, deutliche Buchstaben, keine Wölbungen und Verzerrungen, genügender Rand, Zeilen parallel bzw. senkrecht zum Bildrand, kein Durchscheinen von der Rückseite, keine Unterstreichungen etc. durch Benutzer </li></ul></ul><ul><li>Beispiele </li></ul>
  6. 6.
  7. 7.
  8. 8.
  9. 9.
  10. 10. Bad print – broken characters
  11. 11. und wenn
  12. 12.
  13. 13. Binarisierung
  14. 14. Layout analysis
  15. 15.
  16. 16. 300 oder 400 ppi – bitonal oder 8/24 Bit? <ul><li>Rose Holley: Dlib Aufsatz 2009 </li></ul><ul><ul><li>Grau scannen führt nicht zu besseren Ergebnissen </li></ul></ul><ul><li>Einfache Experimente </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv: bitonal und Farbe </li></ul></ul><ul><ul><li>Beispiel </li></ul></ul><ul><ul><li>Ergebnisse sind eindeutig bei Farbe besser </li></ul></ul><ul><ul><li>Sehr kleine Schrift: Wordvorlage: 4 Punkt Schrift </li></ul></ul><ul><ul><li>Ergebnisse </li></ul></ul><ul><li>Schluss </li></ul><ul><ul><li>Einfache Dokumente können mit 300 ppi und bitonal gescannt werden, kein Qualitätsverlust gegeben </li></ul></ul><ul><ul><li>Schwierige Dokumente eher mit 400 ppi und 8 oder 24 Bit </li></ul></ul>
  17. 17. Erkennungsgenauigkeit <ul><li>Glas halbvoll oder halbleer? </li></ul><ul><ul><li>Rose Holley <90% Wortgenauigkeit: Poor </li></ul></ul><ul><ul><li>Google: Jedes Wort ist schon ein Vorteil gegenüber dem reinen Image </li></ul></ul><ul><ul><li>Peinliche Fehler? </li></ul></ul><ul><ul><li>Mündige Benutzer? </li></ul></ul><ul><li>Buchstaben vs. Wortgenauigkeit </li></ul><ul><ul><li>Wortgenauigkeit sagt mehr aus und ist wesentlich leichter zu erstellen: Jedes Wort, das bei einer Volltextsuche korrekt gefunden wird, gilt als richtig erkannt </li></ul></ul>
  18. 18. Beispiele aus der Praxis <ul><li>Grundlage: ABBYY Recognition Server 2 </li></ul><ul><ul><li>Reichstagsprotokolle, 1925 </li></ul></ul><ul><ul><li>Zedler, 1744 </li></ul></ul><ul><ul><li>Coburger Zeitung, 1808 </li></ul></ul><ul><ul><li>Judentum, 1803 </li></ul></ul><ul><ul><li>Eckartshausen, 1792 </li></ul></ul><ul><ul><li>Landesbauernkammer, 1921 </li></ul></ul><ul><ul><li>Galvani, 1793 </li></ul></ul><ul><ul><li>Hieber, 1722 </li></ul></ul><ul><ul><li>Hofmann, 1875 </li></ul></ul><ul><ul><li>Buschendorf, 1805 </li></ul></ul><ul><ul><li>Schreiben, 1689 </li></ul></ul><ul><ul><li>Lateinische Texte </li></ul></ul>
  19. 19. Korrektur <ul><li>Bis vor kurzem als völlig absurd zurückgewiesen worden </li></ul><ul><li>Aber: </li></ul><ul><ul><li>Crowd sourcing </li></ul></ul><ul><ul><li>Neue Technologien </li></ul></ul><ul><li>Crowd sourcing </li></ul><ul><ul><li>Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000 Zeitungsseiten) </li></ul></ul><ul><li>Neue Technologien </li></ul><ul><ul><li>IBM: CONCERT Tool, LMU: PostCorrection Tool </li></ul></ul><ul><ul><li>Erhöhung der Produktivität um mehrfachen Faktor </li></ul></ul>
  20. 20. Weiterverarbeitung der OCR Ergebnisse <ul><li>Strukturerkennung </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv </li></ul></ul><ul><ul><li>Functional Extension Parser </li></ul></ul><ul><ul><ul><li>Flexible und kontrollierte Regelerstellung für Strukturerkennung </li></ul></ul></ul><ul><li>Archivierung </li></ul><ul><ul><li>Komplexität wird deutlich erhöht </li></ul></ul><ul><ul><li>Output: TXT, PDF, ABBYY XML </li></ul></ul><ul><ul><li>ALTO Format </li></ul></ul><ul><ul><li>Wie Korrektur integrieren? </li></ul></ul><ul><ul><li>Antrag auf Erweiterung des ALTO Formats </li></ul></ul>
  21. 21. Anwendungen und Suchinterfaces <ul><li>Volltextsuche </li></ul><ul><ul><li>JSTOR, Google, Verlage </li></ul></ul><ul><ul><li>Facetted Search (SOLR) </li></ul></ul><ul><li>Indexierung durch Suchmaschinen </li></ul><ul><ul><li>Site XML </li></ul></ul><ul><li>Sichtbarkeit des OCR Textes </li></ul><ul><ul><li>Benutzerschulung </li></ul></ul><ul><ul><li>Unumgänglich, wenn korrigiert werden soll </li></ul></ul>
  22. 22. Zusammenfassung <ul><li>OCR ist „Pflicht“ </li></ul><ul><ul><li>Dokumente des 19. und 20. Jahrhunderts generell sehr brauchbare bis exzellente Ergebnisse </li></ul></ul><ul><ul><li>Davor: deutliche Verbesserungen durch IMPACT zu erwarten </li></ul></ul><ul><ul><li>Vorraussetzung ist sorgfältiges und genaues Scannen mit 400 ppi und in Farbe </li></ul></ul><ul><ul><li>Testprojekt mit Zufallsstichprobe </li></ul></ul><ul><li>Moderne Anwendungen integrieren </li></ul><ul><ul><li>Sichtbarkeit des fehlerhaften Textes </li></ul></ul><ul><ul><li>Korrekturmöglichkeit für den Benutzer </li></ul></ul><ul><ul><li>Diverse Exportformate </li></ul></ul><ul><ul><li>Site XML </li></ul></ul><ul><ul><li>Facettierte Suche für Volltext </li></ul></ul>
  23. 23. Vielen Dank für Ihre Aufmerksamkeit!

×