Praxistest zweier OCR-Softwareprodukteam Beispiel ausgewählterFuneralschriftenbestände der SBBMaria FederbuschStaatsbiblio...
Inhalte des Vortrages Projektziel und Aufgabenstellung Aspekte des Softwarevergleichs Vergleich wesentlicher Funktionen de...
Projektziel und Aufgabenstellung Vorab: Digitalisierung einer kritischen Masse an Funeralschriften und deren bibliothekari...
Materialbesonderheiten  Funeralschriften, das sind vornehmlich Leichenpredigten -  v.a. ein deutschsprachiges Phänomen des...
Aspekte des SoftwarevergleichsSoftwareinstallation (Hardwareanforderungen,Betriebssystemanforderungen, Erforderliche Berec...
Vergleich wesentlicher Funktionen -Konfigurationsparameter  B.I.T. Alpha                        HK-OCR/FR9  Binarisierungs...
Vergleich wesentlicher Funktionen - Training  B.I.T. Alpha                          HK-OCR/FR9  Beliebige Navigation auf d...
Vergleich wesentlicher Funktionen - Wörterbuchnutzung  B.I.T. Alpha                      HK-OCR/FR9  Nutzerseitige Einbind...
Vergleich wesentlicher Funktionen -Korrekturmöglichkeiten  B.I.T. Alpha                      HK-OCR/FR9  (Weitgehend abged...
Vergleich wesentlicher Funktionen - Exportmöglichkeiten  B.I.T. Alpha               HK-OCR/FR9  ALTO-XML                  ...
Ergebnisbild B.I.T. Alpha     Optimierung     durch     Testläufe
Beispiel – Leichenpredigt 1649
Beispiel B.I.T. Alpha – halbtrainiert, ohneWörterbuch, Binarisierungsparameter IBIT Alpha17 SBB_230211-557_V bereinigt Mus...
Beispiel B.I.T. Alpha – halbtrainiert, ohneWörterbuch, Binarisierungsparameter IIBIT Alpha59 wie 27 ohne Wortliste aber Ni...
Beispiel B.I.T. Alpha – halbtrainiert, mitWörterbuch, Binarisierungsparameter IIBIT Alpha79 wie 27 aber Niblack + BIT0428_...
Ergebnisbild: HK-OCR/FR9OptimierungdurchTestläufe
Beispiel – Leichenpredigt 1625
Beispiel HK-OCR/FR9 – ohne Training, ohne „Sprache“ HKOCR012 NoLang F Builtins    Fehlende Zeichen: 108 ö?ß?üßüßüü LüIßüüü...
Beispiel HK-OCR/FR9 – ohne Training mit selbst  def.„Sprache“HKOCR010 OG17 F Builtins   Fehlende Zeichen: 32 ??-------L --...
Beispiel HK-OCR/FR9 – mit Training mit selbstdef.„Sprache“HKOCR217 OG17 F Tit60S+s4ML30S   Fehlende Zeichen: 10 ;----SEct ...
Ergebnisse Das Training von Musterdateien zahlt sich in beiden OCR- Umgebungen aus, was für BIT Alpha auch angekündigt wur...
Spezielle Ergebnisse – „hoffnungsvollste“Parameterdateien, enthalten Informationen zu: Binarisierungsverfahren und -parame...
Schlussfolgerungen / AusblickWeiterentwicklungsmöglichkeiten der Konfigurationsdateienfür weitere „Schriftengruppen“Austau...
EndeVielen Dank für Ihre Aufmerksamkeit:Maria FederbuschMaria.federbusch@sbb.spk-berlin.de
Screenshots – BIT Alpha
Screenshots – BIT Alpha
Screenshots - HK-OCR
Screenshots - HK-OCR
Screenshot - HK-OCR
Digitalisierungspraxis - Federbusch - OCR-Praxistest
Nächste SlideShare
Wird geladen in …5
×

Digitalisierungspraxis - Federbusch - OCR-Praxistest

2.179 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.179
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
784
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Digitalisierungspraxis - Federbusch - OCR-Praxistest

  1. 1. Praxistest zweier OCR-Softwareprodukteam Beispiel ausgewählterFuneralschriftenbestände der SBBMaria FederbuschStaatsbibliothek zu Berlin – PreußischerKulturbesitz Gefördert durch die
  2. 2. Inhalte des Vortrages Projektziel und Aufgabenstellung Aspekte des Softwarevergleichs Vergleich wesentlicher Funktionen der Softwareprodukte Vorstellung Fortschritte in B.I.T. Alpha Vorstellung Fortschritte in HK-OCR/FR9 Ergebnisse Schlussfolgerungen / Ausblick
  3. 3. Projektziel und Aufgabenstellung Vorab: Digitalisierung einer kritischen Masse an Funeralschriften und deren bibliothekarische Einarbeitung in SBB Tests zweier Softwarelösungen mit maximal je 25.000 Seiten – Zusammenarbeit mit zwei Dienstleistern: B.I.T. Bureau Ingénieur Tomasi SARL Toulouse - Software: B.I.T. Alpha Herrmann & Kraemer GmbH und Co-KG Garmisch- Partenkirchen - Software: HK-OCR auf Basis der ABBYY FineReader Engine 9 Gattungsspezifisches Training; Aufbau von Wörterbüchern unter Einbeziehung erfasster/vorhandener einschlägiger Texte Einbinden entstandener Texte in Digitale Bibliothek Erarbeitung einer auswertenden Studie nach Ablauf des Projektes http://staatsbibliothek-berlin.de/abteilung-historische- drucke/aufgaben-profil/projekte/funeralschriften.html
  4. 4. Materialbesonderheiten Funeralschriften, das sind vornehmlich Leichenpredigten - v.a. ein deutschsprachiges Phänomen des 17. Jh. Größte Verbreitung im mitteldeutschen Raum Vornehmlich personales Gelegenheitsschrifttum protestantischen Ursprungs Hier relevant: Drucke in Frakturschriften des 17. und 18. Jh. mit lateinischen, griechischen und hebräischen Zitaten in spezifischen Schriften Spezielle Problematik: Frakturschriftenvielfalt in einem Druck (Größe der Drucktypen der Fraktur variiert auf einer Seite) Versuch der Gruppierung nach Schriftgruppen anhand ausgewählter Buchstaben (Chance: Sammlung umfasst 15.000 Drucke – hier nur Pilotprojekt) beginnend mit homogenen Drucken Wiederkehr eines gattungsspezifischen Wortschatzes, der zu spez. Wörterbuchaufbau genutzt werden kann
  5. 5. Aspekte des SoftwarevergleichsSoftwareinstallation (Hardwareanforderungen,Betriebssystemanforderungen, Erforderliche Berechtigungen,Erforderliche Drittsoftware, Erforderliche Lizenzen,Installationspersonal)Softwarebedienung (Allgemeiner Komfort,Konfigurationsparameterdateien, OCR)Output und Export von Zwischenergebnissen undEndergebnissenSoftwaredokumentation (Handbuch, Bedienelemente,Dialoge, Fehlermeldungen)Ergebnisqualität (OCR-Erkennungsgüte auf Zeichenniveau,OCR-Erkennungsgüte auf Wortniveau, OCR-Trainingsergebnisse, Wortkoordinatenanpassung beiWortzerlegung/ -zusammenfügung, XML-Output)Andere Ergebniseigenschaften (z.B. Binarisierung)
  6. 6. Vergleich wesentlicher Funktionen -Konfigurationsparameter B.I.T. Alpha HK-OCR/FR9 Binarisierungsverfahren und durch Training entstandene Binarisierungsparameter Zeichenbibliothek Segmentierungsparameter auf Wortbibliothek: Einstellungen der Block- und Zeichenniveau Sprache/n, und Sprachgruppe durch Training entstandene Schriftfamilien auswählbar Zeichenbibliothek Zusammensetzung von Teilmustern zu Zeichen (Sequenzer) Wortbibliothek, Einstellungen der Sprache/n, lexikalische Ersetzungsregeln Es entstehen 2 (bis 4) Parameterdateien. Es entstehen 4 Parameterdateien.
  7. 7. Vergleich wesentlicher Funktionen - Training B.I.T. Alpha HK-OCR/FR9 Beliebige Navigation auf der Seite Eingeschränkte Benutzerführung möglich durch z.B. fehlende Vor- u. Beliebiger Zeichensatz kann Rücksprungmöglichkeiten (FR trainiert werden; für typische bedingt) Fehler können durch den Nur fester Zeichensatz kann Sequenzer automatische trainiert werden Korrekturen angestoßen werden („sprachabhängig“) Jetzt neu: „Automatisches Training“
  8. 8. Vergleich wesentlicher Funktionen - Wörterbuchnutzung B.I.T. Alpha HK-OCR/FR9 Nutzerseitige Einbindung z.B. Nutzerseitige Einbindung z.B. gattungsspez.WB möglich gattungsspez.WB möglich Beschränkung auf ein Wörterbuch Beschränkung auf ein Wörterbuch je OCR-Lauf; nur vorherige je OCR-Lauf; nur vorherige Mischung möglich Mischung möglich Differenzierte Zuweisung von WB gehen in Sprachdef. ein; Ersetzungskoeffizienten möglich Sprachdef. erfolgt aufgrund vordef. FineReader“sprache“ und übernimmt deren Eigenschaften (implizite Wortlisten) Blackboxeffekt
  9. 9. Vergleich wesentlicher Funktionen -Korrekturmöglichkeiten B.I.T. Alpha HK-OCR/FR9 (Weitgehend abgedeckt durch (automatische Ersetzungsregeln obige Ersetzungsregeln) müssten in Zusatzmodul Manuelle Korrekturen nur für untergebracht werden) einzelne Exporte möglich; dabei Spezielle Benutzeroberfläche zur werden Koordinaten nicht manuellen „Validierung“ angepasst Keine Automatismen Korrekturen gelangen nicht in XML-Datei – spez. BIT-Tool in Koordinaten werden angepasst Aussicht gestellt
  10. 10. Vergleich wesentlicher Funktionen - Exportmöglichkeiten B.I.T. Alpha HK-OCR/FR9 ALTO-XML FineReader-XML (Koordinaten PDF zeichenbezogen) Plaintext Vereinfachtes wortorientiertes XML b.i.t. portabel RTF Charakterimages
  11. 11. Ergebnisbild B.I.T. Alpha Optimierung durch Testläufe
  12. 12. Beispiel – Leichenpredigt 1649
  13. 13. Beispiel B.I.T. Alpha – halbtrainiert, ohneWörterbuch, Binarisierungsparameter IBIT Alpha17 SBB_230211-557_V bereinigt Muster von EEE-09 plus bda-Muster Fehlende Zeichen: 8 mmSoltsr Überflüssige Zeichen: 11 ffnnnieni e Wie manche Kugel hat erwoi Wie manchen Stohß iniLeib empfunden / Sein gantzes Haupt war Beulen voll Sein Leib zerkerbt von vielen Wunden . Vonauſſen auch trug ſein Geſicht n^ Das Pulver ſeiner Mannheit zeichen / Zuwundern iſt es / daß er nicht Geworden längſt zu einer Leichen . Er aber lag in Pallas Hut / Iſt nieaus jhrer Gunſt gekennmen / Die hat auswol geneigtem Muth Ihn ſtets in jhren Schutz genommen . Dieſelbe hatt auch Diomed VorTroja ſtets auffſeiner Seiten / ^iemacht es / daß er ſichergeht / Iſtgleich mit dir / Mars / ſelbszu ffeeiten/ So ſtund auchVenus damalsbey Dem hochberühmten Sohn Anchiſen / Drumb wird er immer Schöſſe - frey / Vnd Sieghafft überall geprieſen . Wie kan ich doch den Lebens - lauff Des werthen Mannesrecht beſchreiben ?
  14. 14. Beispiel B.I.T. Alpha – halbtrainiert, ohneWörterbuch, Binarisierungsparameter IIBIT Alpha59 wie 27 ohne Wortliste aber Niblack Fehlende Zeichen: 3 ene Überflüssige Zeichen: 10 ..oliccii Wie manche Kugel hat erwol Wie manchen Stohß imLeib empfuliden / Sein gantzes Haupt warBeulen voll Sein Leib zerkerbt von vielen Wunden . Vonauſſen auch trug sein Gesicht n^ Das Pulver seiner Mannheit zeichen / Zuwundern ist es / daß er nicht Geworden längst zu einer Leichen . Er aber lag in Pallas Hut / Ist nieaus jhrer Gunst gekommen / Die hat aus wol geneigtem Muth Ihn stets in jhren Schutz genommen . Diesclbe hatt auch Diomed VorTroja stets auffseiner Seiten / Siemacht es / daß er sichergeht / o.. Istgleich mit dir / Mars / sclbszu streiten / So stund auchVenus damalsbey Dem hochberühmten Sohn Anchisen / Drumb wird er immer Schöſſe - frey / Vnd Sieghafft überall gepriesen . Wie kan ich doch den Lebens - lauff Des werthen Maiinesrecht beschreiben ?
  15. 15. Beispiel B.I.T. Alpha – halbtrainiert, mitWörterbuch, Binarisierungsparameter IIBIT Alpha79 wie 27 aber Niblack + BIT0428_lx2 (Split fragments) Fehlende Zeichen: 1 n Überflüssige Zeichen: 8 ..oltii Wie manche Kugel hat er wol Wie manchen Stohß im Leib empfuliden / Sein gantzes Haupt war Beulen voll Sein Leib zerkerbt von vielen Wunden . Von aussen auch trug sein Gesicht n^ Das Pulver seiner Mannheit zeichen / Zu wundern ist es / daß er nicht Geworden längst zu einer Leichen . Er aber lag in Pallas Hut / Ist nie aus jhrer Gunst gekommen / Die hat aus wol geneigtem Muth Ihn stets in jhren Schutz genommen . Dieselbe hatt auch Diomed Vor Troja stets auffseiner Seiten / Sie macht es / daß er sicher geht / o.. Ist gleich mit dir / Mars / selbs zu streiten / So stund auch Venus damals bey Dem hochberühmten Sohn Anchisen / Drumb wird er immer Schöſſe - frey / Vnd Sieghafft überall gepriesen . Wie kan ich doch den Lebens - lauff
  16. 16. Ergebnisbild: HK-OCR/FR9OptimierungdurchTestläufe
  17. 17. Beispiel – Leichenpredigt 1625
  18. 18. Beispiel HK-OCR/FR9 – ohne Training, ohne „Sprache“ HKOCR012 NoLang F Builtins Fehlende Zeichen: 108 ö?ß?üßüßüü LüIßüüüüßä LäjjüI-jzä äjönnnüene üeeweeewee ewüeeelnle eleeebleee zererFreen nrnürendbe nderlenhnh hörendeede DrenerDa Überflüssige Zeichen: 108 !JOTN!ZNNc MccccN,ccu cukccukcck cWWHcucuMc ffccZffcuM VkvfccvZvv Svmtmkvttm ZvvffctMkc tcskttsftu cctSistimm sSsZ)mik Vndes fein feftundsolcheZsiten/daderen schr vie! fein/ die auch mit Jobs sagen vnd klagm mochten ; Warumb bin ich nichkgsstorben von Mutterletb ani Warumb bin ich nicht vmbkommen/ ehe ich auff den Schostgesetzet wards iOolchejhrc klagcaber folvns fur distmahl ttli- cher massen zum Trost dieNen / tvicdcr die kiagc / vamit anjctzo das ChnrfursilichcHaust vnd diese Kirche er- fu!let ist/vber der Fursilichenieiche vnsersIungstgc- bornett Herm/ HermZohanN-StgHMttNden/ der such vierzchen Wochen ein Marggraff zu Brandenburg ...
  19. 19. Beispiel HK-OCR/FR9 – ohne Training mit selbst def.„Sprache“HKOCR010 OG17 F Builtins Fehlende Zeichen: 32 ??-------L --äSFeeloe ueeedeener Dt Überflüssige Zeichen: 43 ZOTZZZZZZZ Z,ZZZMkcZc cMZZZZzZZv cfcfZccssZ )ik Vnd es fein jetzund solche Zsiten Z da deren schr viel sein/ die auch mit Iobo sagen vnd klagen möchten ; Warumb bin ich nicht gestorben von Mutterletb ane Warumb bin ich nicht vmbkommen / ehe ich auff den Schoß gesetzet ward s iOolchejhrc klage aber sol vns für dißmahl etli cher massen zum Trost vierten Z wieder die klage z damit anjetzo das Churfürstliche Hauß vnd diese Kirche er füllet ist/vber der Fürstlichenieiche vnsers Iüngstge bornen HermZ Herrn Iohann-Sigißmunden/ der auch vierzehen Wochen ein Marggraff zu Brandenburg ...
  20. 20. Beispiel HK-OCR/FR9 – mit Training mit selbstdef.„Sprache“HKOCR217 OG17 F Tit60S+s4ML30S Fehlende Zeichen: 10 ;----SEct Überflüssige Zeichen: 5 TZ.e. ^. ^ ^ . ^ ----- Vnd es sein jetzund solche Zeiten /da deren sehr viel sein/ die auch mit Iobo sagen vnd klagen möchten z Warumb bin ich nicht gestorben von Mutterleib an? Warumb bin ich nicht vmbkommen/ ehe ich auff den Schoß gesetzet ward? ^olchejhre klage aber sol vns für dißmahl etli cher massen zum Trost dienen /^ wieder die klage /^ damit anjetzo das Churfürstliche Hauß vnd diese Kirche er füllet ist/vber der FürstliehenLeiche vnsers Iüngstge bornen Herrn/ Herrn Iohann-Sigißmunden/ der auch vierzehen Wochen ein Marggraff zu Brandenburg ...
  21. 21. Ergebnisse Das Training von Musterdateien zahlt sich in beiden OCR- Umgebungen aus, was für BIT Alpha auch angekündigt wurde, für HK-OCR/FR9 aber offenbar selbst vom Hersteller nicht erwartet wurde. Der Einsatz von Wortbibliotheken wirkt sich positiv auf die Ergebnisse aus, wobei dies in BIT Alpha auf einer vom Anwender detailliert steuerbaren lexikalischen Korrektur nach der OCR beruht, bei HK-OCR/FR9 dagegen die Wortbibliothek durch Definition sogenannter "Sprachen" und "Sprachgruppen" der FineReader-Engine offenbar schon bei der OCR die Erkennung beeinflusst. Verallgemeinernde Empfehlung derzeit nicht möglich, da Projektauswertung noch nicht abgeschlossen (Studie)
  22. 22. Spezielle Ergebnisse – „hoffnungsvollste“Parameterdateien, enthalten Informationen zu: Binarisierungsverfahren und -parametern (BIT Alpha: „bda“) Segmentierungsparametern auf Block- und Zeichenniveau (BIT Alpha: „bda“) Durch Training entstandene Zeichenbibliothek (BIT Alpha: „bda“ oder „bit“; HK-OCR/FR9: „ptn“) Zusammensetzung von Teilmustern zu Zeichen („Sequenzer“ in BIT Alpha: „seq“) gattungsspez. Wortbibliothek (ca. 70.000 Einträge), Einstellungen der Sprache/n, lexikalische Ersetzungsregeln (BIT Alpha: „lx2“; HK-OCR/FR9: „blan“, „lan“, „amd“)
  23. 23. Schlussfolgerungen / AusblickWeiterentwicklungsmöglichkeiten der Konfigurationsdateienfür weitere „Schriftengruppen“Austauschmöglichkeiten unter Nutzern gleicher Software undvergleichbaren MaterialsEinbeziehung größerer zeitgenössischer transkribierterTextcorpora in den WörterbuchaufbauSichtung und Unterscheidung weiterer „Schriftgruppen“ auchmit Hilfe mitgelieferter Einzelbilder der erkannten Buchstabenbereits OCR-gelesener TexteErstellung einer detaillierten StudieProzessierung der ausstehenden und Präsentation aller TexteErprobung automatischer Verfahren zur Textauszeichnung(Berufsbezeichnungen, Bibelstellen, Namenserkennung)Einbeziehung der gesamten Funeralschriftensammlung wäredenkbar
  24. 24. EndeVielen Dank für Ihre Aufmerksamkeit:Maria FederbuschMaria.federbusch@sbb.spk-berlin.de
  25. 25. Screenshots – BIT Alpha
  26. 26. Screenshots – BIT Alpha
  27. 27. Screenshots - HK-OCR
  28. 28. Screenshots - HK-OCR
  29. 29. Screenshot - HK-OCR

×