BSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ein Überblick über das IMPACT Projekt
Twitter: @impactocr,
#impactproject
Hildelies Balk, IMPACT Project Director, KB Nationalbibliothek der Niederlande
2. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Aufbau der Präsentation
Herausforderungen bei der Digitalisierung von historischen Texten
Das IMPACT Projekte und seine Ziele
Ergebnisse des IMPACT Projekts
2
3. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Herausforderungen
3
4. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dutch
Newspaper
online
4
5. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Eine Nachricht an die Benutzer
5
6. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Herausforderungen für die Zeichenerkennung
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje jprant o^fen/bie ftcb .met
beSpaenfcbeu enbeeemgljen bifet Cbeiiupcen berbonbru befe
6
7. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Papier gewellt (auf Grund von Feuchtigkeit)
7
8. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Durchscheinen von Text
Niedrige Qualität der Vorlage: unscharf,
ausgefranst, schlechter Druck
8
9. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Frakturschriften
9
10. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Handgeschriebene Anmerkungen
10
11. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Komplexes Layout der Seiten
11
12. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Herausforderungen durch historische Sprache:
archaische Schreibweisen, orthographische
Variationen, Flexion und vieles mehr
Historische Schreibweisen des niederländischen Worts ‘wereld’
(die Welt):
werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt
wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels
zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts
werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts
werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled
12
13. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Herausforderungen auf institutioneller Ebene: Fehlen
von Erfahrungswerten und Expertise → Ineffizienz
13
14. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Das IMPACT Projekte und seine Ziele
14
15. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT nimmt sich der Probleme an
IMPACT – Improving Access to Text (2008-2011)
Large-scale integrating research project
Konsortium von 26 Partnern
Guter Mix aus öffentlichen und kommerziellen Organisationen
Benutzer, Wissenschaftler und Industrie arbeiten gemeinsam an Lösungen
Partner mit etablierten internationalen Beziehungen
Koordiniert von der Nationalbibliothek der Niederlande (KB)
Gefördert durch die EU (FP7 ICT Work Programme)
Ab 2012: nachhaltiges Kompetenzzentrum mit alternativen Ressourcen
15
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16
17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17
18. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ziele des IMPACT Projekts
Verbesserungen bei der Massendigitalisierung von historischen
Drucken durch:
Innovationen bei OCR Software und Sprachtechnologien
→ Tools für jeden Schritt eines Digitalisierungsworkflows,
vom Scannen bis zur Bereitstellung
Teilen von Expertise und Verbreitung von Wissen in ganz Europa
Sicherstellen dass Tools und Services nach dem Ende des Projekts
verfügbar bleiben
18
19. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ergebnisse aus dem IMPACT Projekt
Einige Beispiele
Zusammenfassung
19
20. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vorverarbeitung: Neue Ansätze zur Bildverbesserung
vorher nachher
Randentfernung und Textbegradigung, entwickelt durch NCSR und USAL
20
21. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR: Verbesserte kommerzielle Tools (verfügbar):
ABBYY FineReader Engine 10
Historische Europäische Schriften:
FRE10 Erkennung von historischen Schriften:
25% genauer als FRE9
38% genauer als FR XIX
21
22. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR Korrektur: Zwei effektive Tools bereit zur
Implementierung
Beide machen Gebrauch von
Freiwilligen
CONCERT von IBM:
collaborative correction,
integriert die Adaptive OCR
→ vielversprechende Piloten in
mehreren Bibliotheken
LMU Post correction tool
basierend auf
Sprachtechnologie
→ Piloten stehen kurz bevor
22
23. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Sprachtechnologien: Lexika für neuen europäische
Sprachen
Korrektur des langen S mit Hilfe des IMPACT Lexikon für historisches
Niederländisch
23
24. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachbearbeitung: Erkennung des Satzspiegel
Functional Extension
Parser von UIBK
Erkennung der
Strukturmerkmale
eines Dokuments
Anreicherung der OCR
Resultate mit
Strukturinformation
24
25. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung: IMPACT Framework
Modulare und transparente Methode um spezifische Workflows zu evaluieren
25
26. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung: IMPACT Dataset
Mehr als eine halbe Million repräsentative Seiten aus digitalisierten historischen
Dokumenten (Zeitungen, Bücher, Pamphlete, Protokolle) aus den Sammlungen von
11 Europäischen Bibliotheken, mit unique IDs und Metadaten
Wertvolle Ressource für zukünftige Forschung in OCR und Sprachtechnologien
26
27. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Ergebnisse: Zusammenfassung
Auf dem Markt: Verbesserte kommerzielle OCR
Bereit für Tests unter realen Bedingungen:
– Adaptive OCR Engine
– Tools für OCR Korrektur unter Einbeziehung Freiwilliger
– Computerlexica für neun Sprachen
Schon bald verfügbar:
– Digitalisierungframework mit Evaluierungstools und Dataset
– Datenbank mit Digitalisierungswissen, Richtlinien und Lernmaterialien
– Service für Strukturanreicherung, Satzspiegelerkennung
Für die weitere Entwicklung:
– Neue Ansätze zur Vorverarbeitung, OCR und Nachkorrektur
– Tools zum Erstellen von Lexica
Extra: Einzigartiges Netzwerk bringt Experten aus verschiedenen Bereichen zusammen
Kompetenzzentrum wird im Rahmen der Abschlusskonferenz am 24-25 Oktober 2011 gestartet
27
28. Twitter: @impactocr,
#impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Fragen?
impact@kb.nl
www.impact-project.eu
Vielen Dank für Ihre Aufmerksamkeit!
28