OCR in BuchdigitalisierungsprojektenOCR in BuchdigitalisierungsprojektenDr. Thomas Stäcker (HAB Wolfenbüttel);München, 12....
OCR in Buchdigitalisierungsprojekten• Was ist maschinenlesbarer Volltext?• Verfahren zur Volltextgewinnung• Probleme• Qual...
GraphischeGliederung?              Fußnoten?
OCR in Buchdigitalisierungsprojekten
OCR in BuchdigitalisierungsprojektenWas ist automatisiert erstellter Volltext?Eine Zeichensequenz als Fließtext mitKoordin...
OCR in BuchdigitalisierungsprojektenGegenwärtiger Stand:Nur der Text, nicht das Layoutist „maschinenlesbar“ (WORD,PDF, HTM...
OCR in BuchdigitalisierungsprojektenVerfahren zurVolltextgewinnung•OCR•Abschreiben (Dienstleister, crowdsourcing)
OCR in BuchdigitalisierungsprojektenProzess der Volltextgewinnung (OCR)• Imageerstellung• Binarisierung• OLR (Segmentierun...
OCR in BuchdigitalisierungsprojektenPraktische Probleme bei derVorlagenerstellung (Imagedigitalisierung)Intrinsisch: Druck...
OCR in BuchdigitalisierungsprojektenSchriften- undSprachenvielfalt imselben Text
OCR in BuchdigitalisierungsprojektenMischung vonFraktur und Antiqua
OCR in BuchdigitalisierungsprojektenAbbreviaturen
OCR in BuchdigitalisierungsprojektenMinderePapierqualität/Bräunung
OCR in BuchdigitalisierungsprojektenWiderdruck
OCR in BuchdigitalisierungsprojektenOCR Software - Typologie• Vortrainierte Software (meist fontabhängig)• Software zum Tr...
OCR in BuchdigitalisierungsprojektenQualitätsbeurteilung – Genauigkeitvon Texten• Zeichenbasiert• Wortbasiert• Stichproben...
OCR in BuchdigitalisierungsprojektenSoftwarebeispiele - ABBYY
OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – tesseract/OCRplus
OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – B.I.T Tomasi
OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – B.I.T Tomasi
OCR in BuchdigitalisierungsprojektenQualitätsbeurteilung – VergleichendeBewertung von Software?• Standardisierte Vorlagen ...
OCR in BuchdigitalisierungsprojektenVolltext, und dann? … Suchmöglichkeiten, bei Integrationin die jeweiligen Digitalen Bi...
OCR in BuchdigitalisierungsprojektenHelmstedter Drucke Online
OCR in BuchdigitalisierungsprojektenHelmstedter Drucke Online
OCR in BuchdigitalisierungsprojektenVolltext, und dann? … Suchmöglichkeiten im Layout aufder Basis entsprechender Formate(...
OCR in BuchdigitalisierungsprojektenVolltext, und dann?ja, aber Google ist doch besser…
OCR in BuchdigitalisierungsprojektenVolltext, und dann?…• Integration in bibliothekarische Umgebungen(differenzierte Suche...
OCR in BuchdigitalisierungsprojektenOCR in BuchdigitalisierungsprojektenDr. Thomas Stäcker (HAB Wolfenbüttel);München, 12....
Nächste SlideShare
Wird geladen in …5
×

Digitalisierungspraxis - Stäcker - Buchdigitalisierung

976 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
976
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
221
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Digitalisierungspraxis - Stäcker - Buchdigitalisierung

  1. 1. OCR in BuchdigitalisierungsprojektenOCR in BuchdigitalisierungsprojektenDr. Thomas Stäcker (HAB Wolfenbüttel);München, 12.10.2011staecker@hab.de
  2. 2. OCR in Buchdigitalisierungsprojekten• Was ist maschinenlesbarer Volltext?• Verfahren zur Volltextgewinnung• Probleme• Qualitätskriterien für automatisierteVolltextgewinnung• Systemintegration und Darstellung
  3. 3. GraphischeGliederung? Fußnoten?
  4. 4. OCR in Buchdigitalisierungsprojekten
  5. 5. OCR in BuchdigitalisierungsprojektenWas ist automatisiert erstellter Volltext?Eine Zeichensequenz als Fließtext mitKoordinaten, ggf. mit Layoutinformationen,bzw. Text ohne strukturelle Bedeutung.
  6. 6. OCR in BuchdigitalisierungsprojektenGegenwärtiger Stand:Nur der Text, nicht das Layoutist „maschinenlesbar“ (WORD,PDF, HTML, etc.).Anforderung:Text und „Layout“ (Struktur) sind„maschinenlesbar“ (XML)
  7. 7. OCR in BuchdigitalisierungsprojektenVerfahren zurVolltextgewinnung•OCR•Abschreiben (Dienstleister, crowdsourcing)
  8. 8. OCR in BuchdigitalisierungsprojektenProzess der Volltextgewinnung (OCR)• Imageerstellung• Binarisierung• OLR (Segmentierung)• OCR (pattern matching)• ICR (intelligente Erkennung)
  9. 9. OCR in BuchdigitalisierungsprojektenPraktische Probleme bei derVorlagenerstellung (Imagedigitalisierung)Intrinsisch: Druck, Papier, Verschmutzung,Annotationen, etc.Extrinsisch: schlechte Scanqualität, niedrigeAuflösung, Pixelartefakte, Scannen vom Filmstatt vom Original etc.
  10. 10. OCR in BuchdigitalisierungsprojektenSchriften- undSprachenvielfalt imselben Text
  11. 11. OCR in BuchdigitalisierungsprojektenMischung vonFraktur und Antiqua
  12. 12. OCR in BuchdigitalisierungsprojektenAbbreviaturen
  13. 13. OCR in BuchdigitalisierungsprojektenMinderePapierqualität/Bräunung
  14. 14. OCR in BuchdigitalisierungsprojektenWiderdruck
  15. 15. OCR in BuchdigitalisierungsprojektenOCR Software - Typologie• Vortrainierte Software (meist fontabhängig)• Software zum Trainieren• mit ICR (Wörterbücher, linguistische undstatistische Verfahren)
  16. 16. OCR in BuchdigitalisierungsprojektenQualitätsbeurteilung – Genauigkeitvon Texten• Zeichenbasiert• Wortbasiert• Stichproben (wo und wie viele?)• Gesamttext (Referenzproblem)
  17. 17. OCR in BuchdigitalisierungsprojektenSoftwarebeispiele - ABBYY
  18. 18. OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – tesseract/OCRplus
  19. 19. OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – B.I.T Tomasi
  20. 20. OCR in BuchdigitalisierungsprojektenSoftwarebeispiele – B.I.T Tomasi
  21. 21. OCR in BuchdigitalisierungsprojektenQualitätsbeurteilung – VergleichendeBewertung von Software?• Standardisierte Vorlagen („Grauertbrief“)• Mit – und ohne Wörterbuch• Vortrainierte Software versus Trainingsinterface
  22. 22. OCR in BuchdigitalisierungsprojektenVolltext, und dann? … Suchmöglichkeiten, bei Integrationin die jeweiligen Digitalen Bibliotheken(highlighting mit Koordinaten, Anzeigedes „schmutzigen“ OCR)
  23. 23. OCR in BuchdigitalisierungsprojektenHelmstedter Drucke Online
  24. 24. OCR in BuchdigitalisierungsprojektenHelmstedter Drucke Online
  25. 25. OCR in BuchdigitalisierungsprojektenVolltext, und dann? … Suchmöglichkeiten im Layout aufder Basis entsprechender Formate(ALTO, hOCR,…)… Suchmöglichkeiten in der Strukturder Texte auf der Basis entsprechenderFormate (TEI,…)
  26. 26. OCR in BuchdigitalisierungsprojektenVolltext, und dann?ja, aber Google ist doch besser…
  27. 27. OCR in BuchdigitalisierungsprojektenVolltext, und dann?…• Integration in bibliothekarische Umgebungen(differenzierte Suchen innerhalb bestimmterTextcorpora)• Strukturabhängige Recherchen (z.B. Sucheauf Fußnoten begrenzen)• Text mining und semantische Textanalyse(z.B. Namen)• Zitieren: Persistent ID auf Wortebene• Editionsgrundlage: Basistext und stand-offmarkup
  28. 28. OCR in BuchdigitalisierungsprojektenOCR in BuchdigitalisierungsprojektenDr. Thomas Stäcker (HAB Wolfenbüttel);München, 12.10.2011staecker@hab.de

×