4. März 2010, München  Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT   Sven Schlarb, Österreichis...
Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher <ul><li>Gewölbte Buchseiten (verursacht durch ...
Tabellen
<ul><li>Extreme Wölbung </li></ul><ul><li>Historische Schrift  </li></ul><ul><li>Anmerkungen </li></ul><ul><li>Kapitel- un...
<ul><li>Knitterfalten (Feuchtigkeit) </li></ul><ul><li>Punkte und Flecken </li></ul><ul><li>Seiten- u. Kapitelzahl </li></ul>
<ul><li>Komplexes Layout </li></ul><ul><li>Logische Reihenfolge der Textblöcke </li></ul>
<ul><li>Fraktur </li></ul><ul><li>Seitenwölbung </li></ul><ul><li>Schwarzer Rand </li></ul><ul><li>Gekrümmte Textlinien </...
 
 
Randerkennung und -entfernung
Geometrische Korrektur (Wölbung)
Geometrische Korrektur - Falten
Binarisierung
Historische Lexika <ul><ul><li>Lexika für Deutsch, Niederländisch, Englisch sowie weitere Europäische Sprachen </li></ul><...
Eigennamen-Verzeichnis <ul><li>Kollaboratives Eigennamen-Verzeichnis </li></ul><ul><li>Eigennamen können als Lexikon in Ab...
Linguistische Nachverbesserung <ul><li>OCR (ABBYY)  und  OCR  A nalys e  (LMU -CIS ) </li></ul><ul><li>Normal Not normal  ...
Kollaborative Korrektur <ul><li>Integriertes Web-basiertes System für die kollaborative Nachverbesserung von OCR-Ergebniss...
Functional Extension Parser <ul><li>Erkennung der Strukturinformationen von Buchseiten </li></ul><ul><ul><li>Druckbereich ...
Word-Spotting <ul><li>Eine alternative Technik für die Indexierung historischer Dokumente </li></ul><ul><li>Nach der Wort-...
Interoperabilität
Modularisierung
http://www.impact-project.eu
Nächste SlideShare
Wird geladen in …5
×

Schlarb Werkzeuge Impact Workshop MUC

670 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
670
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
126
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Schlarb Werkzeuge Impact Workshop MUC

  1. 1. 4. März 2010, München Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT Sven Schlarb, Österreichische Nationalbibliothek
  2. 2. Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher <ul><li>Gewölbte Buchseiten (verursacht durch dicke Buchrücken) </li></ul><ul><li>Schräge und verzerrte Scans </li></ul><ul><li>Verkrümmte Textlinien (verursacht durch zerknittertes oder durch Feuchtigkeit gewölbtes Papier) </li></ul><ul><li>Störende Farbflecken, unterschiedliche Druckintensität </li></ul><ul><li>Durchscheinen oder Druckfarbe der Zeichen von der Kehrseite </li></ul><ul><li>Frakturschrift </li></ul><ul><li>Handschriftliche Anmerkungen im Text </li></ul><ul><li>Komplexes Layout, zum Beispiel Zeitungsseiten mit komplizierter Lesesequenz </li></ul><ul><li>Historische Sprache und Eigennamen aus dem zeitlichen Kontext des Dokuments </li></ul>
  3. 3. Tabellen
  4. 4. <ul><li>Extreme Wölbung </li></ul><ul><li>Historische Schrift </li></ul><ul><li>Anmerkungen </li></ul><ul><li>Kapitel- und Zeitenangaben </li></ul>
  5. 5. <ul><li>Knitterfalten (Feuchtigkeit) </li></ul><ul><li>Punkte und Flecken </li></ul><ul><li>Seiten- u. Kapitelzahl </li></ul>
  6. 6. <ul><li>Komplexes Layout </li></ul><ul><li>Logische Reihenfolge der Textblöcke </li></ul>
  7. 7. <ul><li>Fraktur </li></ul><ul><li>Seitenwölbung </li></ul><ul><li>Schwarzer Rand </li></ul><ul><li>Gekrümmte Textlinien </li></ul><ul><li>Seiten-/Kapitelzahl </li></ul>
  8. 10. Randerkennung und -entfernung
  9. 11. Geometrische Korrektur (Wölbung)
  10. 12. Geometrische Korrektur - Falten
  11. 13. Binarisierung
  12. 14. Historische Lexika <ul><ul><li>Lexika für Deutsch, Niederländisch, Englisch sowie weitere Europäische Sprachen </li></ul></ul><ul><ul><li>Werkzeuge zur Erstellung historischer Lexika </li></ul></ul><ul><ul><li>Schnittstelle zu ABBYY FRE zur Einbindung externer Lexika </li></ul></ul><ul><ul><ul><li>ABBYY legt offen wie der Wortlisten-Gewichtungsparameter basierend auf der Worthäufigkeit gebildet werden kann. </li></ul></ul></ul><ul><ul><ul><li>Aber: ABBYY FRE ist eine „Black Box“. Es gibt keine Informationen darüber, wie die Lexika genau verwendet werden, sondern es kann nur das Ergebnis beurteilt werden. </li></ul></ul></ul>
  13. 15. Eigennamen-Verzeichnis <ul><li>Kollaboratives Eigennamen-Verzeichnis </li></ul><ul><li>Eigennamen können als Lexikon in Abbyy eingebunden werden </li></ul>
  14. 16. Linguistische Nachverbesserung <ul><li>OCR (ABBYY) und OCR A nalys e (LMU -CIS ) </li></ul><ul><li>Normal Not normal Unknown </li></ul><ul><li>Modern Historical Hypothetical </li></ul><ul><li>With errors (highlighted) Compound Short </li></ul>
  15. 17. Kollaborative Korrektur <ul><li>Integriertes Web-basiertes System für die kollaborative Nachverbesserung von OCR-Ergebnissen </li></ul>
  16. 18. Functional Extension Parser <ul><li>Erkennung der Strukturinformationen von Buchseiten </li></ul><ul><ul><li>Druckbereich </li></ul></ul><ul><ul><li>Standard-Schriftart des Haupttextes </li></ul></ul><ul><ul><li>Seitenzahlen </li></ul></ul><ul><li>Anreicherung des OCR Resultats mit Strukturinformationen </li></ul>
  17. 19. Word-Spotting <ul><li>Eine alternative Technik für die Indexierung historischer Dokumente </li></ul><ul><li>Nach der Wort-Segmentierung werden die relevanten Wörter gesucht </li></ul><ul><li>Die Schlüsselwörter können bekannte Namen, Orte oder Begriffe sein (z.B. aus dem Eigennamenverzeichnis) </li></ul>
  18. 20. Interoperabilität
  19. 21. Modularisierung
  20. 22. http://www.impact-project.eu

×