Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digit...
OCR in Bibliotheken <ul><li>Schwieriges Kapitel </li></ul><ul><li>Glas halbvoll oder halbleer? </li></ul><ul><li>Fraktur <...
OCR und Digitalisierung <ul><li>OCR ändert alles! </li></ul><ul><li>Workflow muss an allen Ecken und Enden angepasst werde...
Vorbereitung und Auswahl für das Scannen <ul><li>Für welche Art des Scannens entscheidet man sich? </li></ul><ul><ul><li>G...
Gute und schlechte Bilder <ul><li>Sorgfalt ist alles! </li></ul><ul><li>Allerdings: </li></ul><ul><ul><li>Scanroboter und ...
Bad print – broken characters
und  wenn
Binarisierung
Layout analysis
300 oder 400 ppi – bitonal oder 8/24 Bit? <ul><li>Rose Holley: Dlib Aufsatz 2009 </li></ul><ul><ul><li>Grau scannen führt ...
Erkennungsgenauigkeit <ul><li>Glas halbvoll oder halbleer? </li></ul><ul><ul><li>Rose Holley <90% Wortgenauigkeit: Poor </...
Beispiele aus der Praxis <ul><li>Grundlage: ABBYY Recognition Server 2 </li></ul><ul><ul><li>Reichstagsprotokolle, 1925 </...
Korrektur <ul><li>Bis vor kurzem als völlig absurd zurückgewiesen worden </li></ul><ul><li>Aber: </li></ul><ul><ul><li>Cro...
Weiterverarbeitung der OCR Ergebnisse <ul><li>Strukturerkennung </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv </li></ul...
Anwendungen und Suchinterfaces <ul><li>Volltextsuche </li></ul><ul><ul><li>JSTOR, Google, Verlage </li></ul></ul><ul><ul><...
Zusammenfassung <ul><li>OCR ist „Pflicht“ </li></ul><ul><ul><li>Dokumente des 19. und 20. Jahrhunderts generell sehr brauc...
Vielen Dank für Ihre Aufmerksamkeit!
Nächste SlideShare
Wird geladen in …5
×

Mühlberger Digitalisierung Impact Workshop MUC

920 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Mühlberger Digitalisierung Impact Workshop MUC

  1. 1. Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digitalisierung und elektronische Archivierung Universitäts- und Landesbibliothek Tirol
  2. 2. OCR in Bibliotheken <ul><li>Schwieriges Kapitel </li></ul><ul><li>Glas halbvoll oder halbleer? </li></ul><ul><li>Fraktur </li></ul><ul><li>EU Projekt METADATA ENGINE </li></ul><ul><li>Digitalisierungszentren Göttingen und BSB </li></ul><ul><li>Google </li></ul>
  3. 3. OCR und Digitalisierung <ul><li>OCR ändert alles! </li></ul><ul><li>Workflow muss an allen Ecken und Enden angepasst werden </li></ul><ul><ul><li>Vorbereitung </li></ul></ul><ul><ul><li>Imagebearbeitung </li></ul></ul><ul><ul><li>Scannen </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul><ul><ul><li>Speicherung und Archivierung </li></ul></ul><ul><ul><li>Korrektur </li></ul></ul><ul><ul><li>Volltextsuche </li></ul></ul><ul><ul><li>Webinterfaces </li></ul></ul>
  4. 4. Vorbereitung und Auswahl für das Scannen <ul><li>Für welche Art des Scannens entscheidet man sich? </li></ul><ul><ul><li>Gebundene Vorlage? </li></ul></ul><ul><ul><li>Lose Blätter? </li></ul></ul><ul><ul><li>Mikrofilm? </li></ul></ul><ul><li>Welcher Scanner? </li></ul><ul><ul><li>Overheadscanner </li></ul></ul><ul><ul><li>Scanroboter? </li></ul></ul><ul><ul><li>Mikrofilmscanner? </li></ul></ul><ul><li>Inhouse oder Dienstleister? </li></ul><ul><ul><li>Qualitätskontrolle? </li></ul></ul><ul><ul><li>Deutschland oder Off-shore? </li></ul></ul>
  5. 5. Gute und schlechte Bilder <ul><li>Sorgfalt ist alles! </li></ul><ul><li>Allerdings: </li></ul><ul><ul><li>Scanroboter und Dokumentenscanner verringern die Anforderungen nach individueller Fähigkeit des Operators, trotzdem immer noch entscheidend </li></ul></ul><ul><li>Gutes Bild: </li></ul><ul><ul><li>Scharf, heller Hintergrund, deutliche Buchstaben, keine Wölbungen und Verzerrungen, genügender Rand, Zeilen parallel bzw. senkrecht zum Bildrand, kein Durchscheinen von der Rückseite, keine Unterstreichungen etc. durch Benutzer </li></ul></ul><ul><li>Beispiele </li></ul>
  6. 6.
  7. 7.
  8. 8.
  9. 9.
  10. 10. Bad print – broken characters
  11. 11. und wenn
  12. 12.
  13. 13. Binarisierung
  14. 14. Layout analysis
  15. 15.
  16. 16. 300 oder 400 ppi – bitonal oder 8/24 Bit? <ul><li>Rose Holley: Dlib Aufsatz 2009 </li></ul><ul><ul><li>Grau scannen führt nicht zu besseren Ergebnissen </li></ul></ul><ul><li>Einfache Experimente </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv: bitonal und Farbe </li></ul></ul><ul><ul><li>Beispiel </li></ul></ul><ul><ul><li>Ergebnisse sind eindeutig bei Farbe besser </li></ul></ul><ul><ul><li>Sehr kleine Schrift: Wordvorlage: 4 Punkt Schrift </li></ul></ul><ul><ul><li>Ergebnisse </li></ul></ul><ul><li>Schluss </li></ul><ul><ul><li>Einfache Dokumente können mit 300 ppi und bitonal gescannt werden, kein Qualitätsverlust gegeben </li></ul></ul><ul><ul><li>Schwierige Dokumente eher mit 400 ppi und 8 oder 24 Bit </li></ul></ul>
  17. 17. Erkennungsgenauigkeit <ul><li>Glas halbvoll oder halbleer? </li></ul><ul><ul><li>Rose Holley <90% Wortgenauigkeit: Poor </li></ul></ul><ul><ul><li>Google: Jedes Wort ist schon ein Vorteil gegenüber dem reinen Image </li></ul></ul><ul><ul><li>Peinliche Fehler? </li></ul></ul><ul><ul><li>Mündige Benutzer? </li></ul></ul><ul><li>Buchstaben vs. Wortgenauigkeit </li></ul><ul><ul><li>Wortgenauigkeit sagt mehr aus und ist wesentlich leichter zu erstellen: Jedes Wort, das bei einer Volltextsuche korrekt gefunden wird, gilt als richtig erkannt </li></ul></ul>
  18. 18. Beispiele aus der Praxis <ul><li>Grundlage: ABBYY Recognition Server 2 </li></ul><ul><ul><li>Reichstagsprotokolle, 1925 </li></ul></ul><ul><ul><li>Zedler, 1744 </li></ul></ul><ul><ul><li>Coburger Zeitung, 1808 </li></ul></ul><ul><ul><li>Judentum, 1803 </li></ul></ul><ul><ul><li>Eckartshausen, 1792 </li></ul></ul><ul><ul><li>Landesbauernkammer, 1921 </li></ul></ul><ul><ul><li>Galvani, 1793 </li></ul></ul><ul><ul><li>Hieber, 1722 </li></ul></ul><ul><ul><li>Hofmann, 1875 </li></ul></ul><ul><ul><li>Buschendorf, 1805 </li></ul></ul><ul><ul><li>Schreiben, 1689 </li></ul></ul><ul><ul><li>Lateinische Texte </li></ul></ul>
  19. 19. Korrektur <ul><li>Bis vor kurzem als völlig absurd zurückgewiesen worden </li></ul><ul><li>Aber: </li></ul><ul><ul><li>Crowd sourcing </li></ul></ul><ul><ul><li>Neue Technologien </li></ul></ul><ul><li>Crowd sourcing </li></ul><ul><ul><li>Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000 Zeitungsseiten) </li></ul></ul><ul><li>Neue Technologien </li></ul><ul><ul><li>IBM: CONCERT Tool, LMU: PostCorrection Tool </li></ul></ul><ul><ul><li>Erhöhung der Produktivität um mehrfachen Faktor </li></ul></ul>
  20. 20. Weiterverarbeitung der OCR Ergebnisse <ul><li>Strukturerkennung </li></ul><ul><ul><li>Innsbrucker Zeitungsarchiv </li></ul></ul><ul><ul><li>Functional Extension Parser </li></ul></ul><ul><ul><ul><li>Flexible und kontrollierte Regelerstellung für Strukturerkennung </li></ul></ul></ul><ul><li>Archivierung </li></ul><ul><ul><li>Komplexität wird deutlich erhöht </li></ul></ul><ul><ul><li>Output: TXT, PDF, ABBYY XML </li></ul></ul><ul><ul><li>ALTO Format </li></ul></ul><ul><ul><li>Wie Korrektur integrieren? </li></ul></ul><ul><ul><li>Antrag auf Erweiterung des ALTO Formats </li></ul></ul>
  21. 21. Anwendungen und Suchinterfaces <ul><li>Volltextsuche </li></ul><ul><ul><li>JSTOR, Google, Verlage </li></ul></ul><ul><ul><li>Facetted Search (SOLR) </li></ul></ul><ul><li>Indexierung durch Suchmaschinen </li></ul><ul><ul><li>Site XML </li></ul></ul><ul><li>Sichtbarkeit des OCR Textes </li></ul><ul><ul><li>Benutzerschulung </li></ul></ul><ul><ul><li>Unumgänglich, wenn korrigiert werden soll </li></ul></ul>
  22. 22. Zusammenfassung <ul><li>OCR ist „Pflicht“ </li></ul><ul><ul><li>Dokumente des 19. und 20. Jahrhunderts generell sehr brauchbare bis exzellente Ergebnisse </li></ul></ul><ul><ul><li>Davor: deutliche Verbesserungen durch IMPACT zu erwarten </li></ul></ul><ul><ul><li>Vorraussetzung ist sorgfältiges und genaues Scannen mit 400 ppi und in Farbe </li></ul></ul><ul><ul><li>Testprojekt mit Zufallsstichprobe </li></ul></ul><ul><li>Moderne Anwendungen integrieren </li></ul><ul><ul><li>Sichtbarkeit des fehlerhaften Textes </li></ul></ul><ul><ul><li>Korrekturmöglichkeit für den Benutzer </li></ul></ul><ul><ul><li>Diverse Exportformate </li></ul></ul><ul><ul><li>Site XML </li></ul></ul><ul><ul><li>Facettierte Suche für Volltext </li></ul></ul>
  23. 23. Vielen Dank für Ihre Aufmerksamkeit!

×