SlideShare ist ein Scribd-Unternehmen logo
Kanton Zürich
Direktion der Justiz und des Innern
Project
Automatic Text Recognition
dh summer school Lausanne
Tobias Hodel (Staatsarchiv Zürich)
Staatsarchiv
Direktion der Justiz
und des Innern
11.30-12.00 Introduction to text recognition (+ READ)
12.00-12.30 Use Transkribus
12.30-13.00 What's next for text recognition/ feedback
Program of workshop
Direktion der Justiz
und des Innern
- Recognition of layout and text structures
- Recognition of writing
- Implementation of dictionaries
- Type/Writer identification
Perspectives for institutions
- Best-practices for recognition of large amounts of documents
Perspectives for scholars
- How to use in Digital Humanities/DHist: What does quality for what purpose
How is text recognized?
Direktion der Justiz
und des Innern
Automated Text Recognition?
Direktion der Justiz
und des Innern
- Machine learning using neural networks
- Processes writing by line, rather than by character
- Needs to be trained by being shown document images and transcripts
- More training data --> more accurate recognition
- Create a model to transcribe and search a collection of documents
Automated Text Recognition
Direktion der Justiz
und des Innern
- Neural networks can also process printed text – with less training data!
- Transcribe documents or use OCR engine in Transkribus
- Use these transcripts to train a model
- Results with 1-2% CER are possible
Recognising printed text
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
- Making archival (esp. handwritten) documents more accessible
- New research infrastructure – Transkribus
- Funded until mid-2019 by the European Union
- 14 European partners
What is READ
Recognition and Enrichment of Archival Data
Direktion der Justiz
und des Innern
- University of Innsbruck (co-ordinator / Austria) --> Transkribus
- Universitat Politecnica de Valencia (Spain) --> HTR
- University College London (United Kingdom) --> Dissemination, e-Learning
- National Center for Scientific Research “Demokritos” (Greece) --> Layout Analysis
- Democritus University of Thrace (Greece) --> Layout Analysis
- University of London Computer Centre (United Kingdom) --> Webinterface
- Vienna University of Technology (Austria) --> Layout Analysis, Writer Identification, STent
- University of Rostock (Germany) --> HTR, Layout Analysis
- Leipzig University (Germany) --> Dictionaries, Named Entities
- Xerox Research Centre Europe (France) --> Document Understanding
- Ecole Polytechnique Federale de Lausanne (Switzerland) --> Large Scale Demonstrator
- National Archives Finland (Finland) --> Large Scale Demonstrator
- Passau Diocesan Archives (Germany) --> Large Scale Demonstrator
READ Partner
Direktion der Justiz
und des Innern
Projects with a
Memorandum of
Understanding
Direktion der Justiz
und des Innern
Bentham model
•
Based on Jeremy Bentham’s papers
(c.18-19 English)
•
Written by Bentham and his
secretaries
•
Trained on 896 pages – using
transcripts submitted by volunteers
•
5-10% CER is possible
Direktion der Justiz
und des Innern
1 Writer, 150 pages of trainingsmaterial:
10%
1 Writer, 450 pages of material for training:
4,4%
Same writer, 10 years later,
without material for training:
9,2%
1 Writer, 1132 pages of material for training:
3%
Text Recognition: What to expect
(Character Error Rate)
Direktion der Justiz
und des Innern
X Writers, 800 pages of material
for training:
18%
X Writers, 100'000+ pages of
material for training:
?? %
Text Recognition: What to expect
(Character Error Rate)
Direktion der Justiz
und des Innern
Let's get really started...
Transkribus: transkribus.eu / email@transkribus.eu / transkribus.eu/wiki/
READ: read.transkribus.eu (News)
Staatsarchiv Zürich: tobias.hodel@ji.zh.ch
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
(Web-)Interfaces
- Transcription
- Crowdsourcing
- Correction
- Search/extract
- E-Learning (available)
- ScanApp (available)
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
By UPVLC & HIMANIS (IRHT)
http://prhlt-kws.prhlt.upv.es/himanis/
(search for example for: «scriptor», play-around with „confidence“)
For further infos:
https://himanis.hypotheses.org/105
Keyword Spotting
Direktion der Justiz
und des Innern
Direktion der Justiz
und des Innern
Transkribus export to be presented in EVT (by HumaReC)
http://humarec-viewer.vital-it.ch
Transkribus and EVT
Edition Visualization Technology
Direktion der Justiz
und des Innern
●
10 Steps Guide
●
10 Steps Video
●
Transkribus Wiki
First Transkribus user day will take place in
Vienna, November 2nd
and 3rd
2017!
Find out more:

Weitere ähnliche Inhalte

Ähnlich wie Read @dh summer school Lausanne

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
cneudecker
 
Die SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und PerspektivenDie SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und Perspektiven
Dr. Achim Bonte
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Georg Rehm
 
Colloque infoclio 2010
Colloque infoclio 2010Colloque infoclio 2010
Colloque infoclio 2010infoclio.ch
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
Georg Rehm
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
Becker Hans-Georg
 
Poster histag digitale_geschichte
Poster histag digitale_geschichtePoster histag digitale_geschichte
Poster histag digitale_geschichte
Mareike König
 
Freie Software in der (Groß-)Forschung
Freie Software in der (Groß-)ForschungFreie Software in der (Groß-)Forschung
Freie Software in der (Groß-)Forschung
Andreas Schreiber
 

Ähnlich wie Read @dh summer school Lausanne (9)

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Die SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und PerspektivenDie SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und Perspektiven
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Colloque infoclio 2010
Colloque infoclio 2010Colloque infoclio 2010
Colloque infoclio 2010
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Poster histag digitale_geschichte
Poster histag digitale_geschichtePoster histag digitale_geschichte
Poster histag digitale_geschichte
 
Freie Software in der (Groß-)Forschung
Freie Software in der (Groß-)ForschungFreie Software in der (Groß-)Forschung
Freie Software in der (Groß-)Forschung
 

Kürzlich hochgeladen

Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichtenPolizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
OlenaKarlsTkachenko
 
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
Isa Jahnke
 
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
OlenaKarlsTkachenko
 
Wie spät ist es.pptx Wie spät ist es Wie spät ist es
Wie spät ist es.pptx Wie spät ist es Wie spät ist esWie spät ist es.pptx Wie spät ist es Wie spät ist es
Wie spät ist es.pptx Wie spät ist es Wie spät ist es
OlenaKarlsTkachenko
 
matematicasIIcastellano.pdfnavarraevau2024
matematicasIIcastellano.pdfnavarraevau2024matematicasIIcastellano.pdfnavarraevau2024
matematicasIIcastellano.pdfnavarraevau2024
amayaltc18
 
Mathematikunterricht in 1zu1 Ausstattungen.pptx
Mathematikunterricht in 1zu1 Ausstattungen.pptxMathematikunterricht in 1zu1 Ausstattungen.pptx
Mathematikunterricht in 1zu1 Ausstattungen.pptx
FlippedMathe
 

Kürzlich hochgeladen (6)

Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichtenPolizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
Polizeigeschichten.pptx PolizeigeschichtenPolizeigeschichten
 
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
Teaching and Learning Experience Design – der Ruf nach besserer Lehre: aber wie?
 
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
6 Verben Gruppe e a o.pptx 6 Verben Gruppe e a o
 
Wie spät ist es.pptx Wie spät ist es Wie spät ist es
Wie spät ist es.pptx Wie spät ist es Wie spät ist esWie spät ist es.pptx Wie spät ist es Wie spät ist es
Wie spät ist es.pptx Wie spät ist es Wie spät ist es
 
matematicasIIcastellano.pdfnavarraevau2024
matematicasIIcastellano.pdfnavarraevau2024matematicasIIcastellano.pdfnavarraevau2024
matematicasIIcastellano.pdfnavarraevau2024
 
Mathematikunterricht in 1zu1 Ausstattungen.pptx
Mathematikunterricht in 1zu1 Ausstattungen.pptxMathematikunterricht in 1zu1 Ausstattungen.pptx
Mathematikunterricht in 1zu1 Ausstattungen.pptx
 

Read @dh summer school Lausanne

  • 1. Kanton Zürich Direktion der Justiz und des Innern Project Automatic Text Recognition dh summer school Lausanne Tobias Hodel (Staatsarchiv Zürich) Staatsarchiv
  • 2. Direktion der Justiz und des Innern 11.30-12.00 Introduction to text recognition (+ READ) 12.00-12.30 Use Transkribus 12.30-13.00 What's next for text recognition/ feedback Program of workshop
  • 3. Direktion der Justiz und des Innern - Recognition of layout and text structures - Recognition of writing - Implementation of dictionaries - Type/Writer identification Perspectives for institutions - Best-practices for recognition of large amounts of documents Perspectives for scholars - How to use in Digital Humanities/DHist: What does quality for what purpose How is text recognized?
  • 4. Direktion der Justiz und des Innern Automated Text Recognition?
  • 5. Direktion der Justiz und des Innern - Machine learning using neural networks - Processes writing by line, rather than by character - Needs to be trained by being shown document images and transcripts - More training data --> more accurate recognition - Create a model to transcribe and search a collection of documents Automated Text Recognition
  • 6. Direktion der Justiz und des Innern - Neural networks can also process printed text – with less training data! - Transcribe documents or use OCR engine in Transkribus - Use these transcripts to train a model - Results with 1-2% CER are possible Recognising printed text
  • 11. Direktion der Justiz und des Innern - Making archival (esp. handwritten) documents more accessible - New research infrastructure – Transkribus - Funded until mid-2019 by the European Union - 14 European partners What is READ Recognition and Enrichment of Archival Data
  • 12. Direktion der Justiz und des Innern - University of Innsbruck (co-ordinator / Austria) --> Transkribus - Universitat Politecnica de Valencia (Spain) --> HTR - University College London (United Kingdom) --> Dissemination, e-Learning - National Center for Scientific Research “Demokritos” (Greece) --> Layout Analysis - Democritus University of Thrace (Greece) --> Layout Analysis - University of London Computer Centre (United Kingdom) --> Webinterface - Vienna University of Technology (Austria) --> Layout Analysis, Writer Identification, STent - University of Rostock (Germany) --> HTR, Layout Analysis - Leipzig University (Germany) --> Dictionaries, Named Entities - Xerox Research Centre Europe (France) --> Document Understanding - Ecole Polytechnique Federale de Lausanne (Switzerland) --> Large Scale Demonstrator - National Archives Finland (Finland) --> Large Scale Demonstrator - Passau Diocesan Archives (Germany) --> Large Scale Demonstrator READ Partner
  • 13. Direktion der Justiz und des Innern Projects with a Memorandum of Understanding
  • 15. Bentham model • Based on Jeremy Bentham’s papers (c.18-19 English) • Written by Bentham and his secretaries • Trained on 896 pages – using transcripts submitted by volunteers • 5-10% CER is possible
  • 16.
  • 17. Direktion der Justiz und des Innern 1 Writer, 150 pages of trainingsmaterial: 10% 1 Writer, 450 pages of material for training: 4,4% Same writer, 10 years later, without material for training: 9,2% 1 Writer, 1132 pages of material for training: 3% Text Recognition: What to expect (Character Error Rate)
  • 18. Direktion der Justiz und des Innern X Writers, 800 pages of material for training: 18% X Writers, 100'000+ pages of material for training: ?? % Text Recognition: What to expect (Character Error Rate)
  • 19. Direktion der Justiz und des Innern Let's get really started... Transkribus: transkribus.eu / email@transkribus.eu / transkribus.eu/wiki/ READ: read.transkribus.eu (News) Staatsarchiv Zürich: tobias.hodel@ji.zh.ch
  • 21. Direktion der Justiz und des Innern (Web-)Interfaces - Transcription - Crowdsourcing - Correction - Search/extract - E-Learning (available) - ScanApp (available)
  • 25. Direktion der Justiz und des Innern By UPVLC & HIMANIS (IRHT) http://prhlt-kws.prhlt.upv.es/himanis/ (search for example for: «scriptor», play-around with „confidence“) For further infos: https://himanis.hypotheses.org/105 Keyword Spotting
  • 27. Direktion der Justiz und des Innern Transkribus export to be presented in EVT (by HumaReC) http://humarec-viewer.vital-it.ch Transkribus and EVT Edition Visualization Technology
  • 28. Direktion der Justiz und des Innern ● 10 Steps Guide ● 10 Steps Video ● Transkribus Wiki First Transkribus user day will take place in Vienna, November 2nd and 3rd 2017! Find out more: