SlideShare ist ein Scribd-Unternehmen logo
1 von 22
ALTO, PAGE, & Co.
Formate für Volltexte
Clemens Neudecker (@cneudecker)
DINI AG KIM Workshop `21
27.04.2021
Wozu OCR?
• Volltextindexierung für
Suche
• Trefferanzeige im Viewer
mit Highlighting
(Koordinaten!)
• Metadatenanreicherung
• Erstellung von Ebooks
• Text- und Datenmining,
Digital Humanities, usw.
ALTO
• ALTO = Analyzed Layout and Text Object
• Entwickelt 2004 im EU-Projekt „Metadata Engine“ (METAe)
web.archive.org/web/20160318002552/http://meta-e.aib.uni-
linz.ac.at/
• 2009: Standardisierung durch Library of Congress
• XML-Schema basiert
• Wird meist in Kombination mit METS verwendet
• loc.gov/standards/alto/
• github.com/altoxml
• Aktuelle Version: 4.2 (Released 2020-07-14)
ALTO
• Vom DFG-Viewer unterstützter Standard für Volltexte
• Seitenbasiert, d.h. 1x Seite = 1x ALTO Datei
• ALTO erfordert <String>, daher ist eine Wortsegmentierung
bei der OCR immer zwingend erforderlich!
• OCR Software mit ALTO Unterstützung:
• Tesseract (ab Version 4)
• Kraken
• ABBYY FineReader (Server/Engine) – aber nur bis ALTO-Version 3.1
PAGE
• PAGE = Page Analysis and Ground Truth Environment
• Entwickelt von PRImA (Pattern Recognition and Image
Analysis Lab), Universität Salford, Greater Manchester, UK
(primaresearch.org)
• De-facto Standard für Ground Truth
• XML-Schema basiert
• Seitenbasiert, d.h. 1x Seite = 1x PAGE Datei
• Verwendung in wissenschaftlichen Publikationen und
Wettbewerben
• github.com/PRImA-Research-Lab/PAGE-XML
• Letzte Version: 2019-07-15 (Released: 2019-07-15)
PAGE
• Granulare Elemente/Attribute für bspw. Regionentypen
• PAGE-spezifische Konzepte:
• Reading Order
• Layers (z-Level)
• AlternativeImage
• OCR Software mit PAGE Unterstützung:
• OCR-D
• OCR4all
• Transkribus
• Aletheia
hOCR
• hOCR = Google OCR Format
• Ursprünglich entwickelt von Thomas Breuel für die OCR
Software OCRopus | ocropy
• HTML-basiert
• Zumeist 1x hOCR Datei für gesamtes Dokument
• kba.cloud/hocr-spec/1.2/
• Letzte Version: 1.2 (Released: 2020-02-06)
hOCR
• OCR Software mit hOCR Unterstützung:
• OCRopus | ocropy
• Kraken
• Tesseract
FR-XML
• FR-XML = ABBYY FineReader XML
• support.abbyy.com/hc/en-us/articles/360017336699-ABBYY-
FineReader-Engine-XML-Export
• Letzte Version: FineReader10-schema-v1 (Released: ???)
• Seitenbasiert, d.h. 1 Seite = 1 FR-XML Datei
• OCR Software mit FR-XML Unterstützung:
• ABBYY FineReader
• Kraken
• Dienstleister
TEI
• TEI = Text Encoding Initiative
• Standard für Transkriptionen, digitale Editionen
• Breite Verwendung in den Digital Humanities
• tei-c.org
• Dokumentenbasiert, d.h. 1x gesamtes Dokument = 1x TEI-Datei
• Kein XML-Schema sondern flexible „Toolbox“ von
Elementen/Attributen
• DTABf = Deutsches TextArchiv Basisformat
deutschestextarchiv.de/doku/basisformat/
Text
• Plain Text (ohne Markup/Strukturierung)
• Encoding (UTF8 vs. ASCII)
• Historische Sonderzeichen!
Vgl. ocr-d.de/en/gt-
guidelines/trans/ocr_d_koordinationsgremium_codierung.html
• Zeilenumbrüche (<CR> vs <LF>)
• Aber:
• Sehr geringe Dateigröße
• Häufiges Eingabeformat für bspw. TDM
OCR-D Spezifikationen
• METS als Containerformat ocr-d.de/en/spec/mets
• Erfordert unique ID <mods:identifier> (purl, urn, handle, url)
• Stellt vordefinierte FileGroups bereit <mets:fileGrp USE=„...“>
• Prozessinformationen werden dokumentiert via <mets:agent>
• PAGE als OCR Ausgabeformat ocr-d.de/en/spec/page
• Polygone für Regionentypen, Unicode für Text
• Informationen zu <AlternativeImage> (binarized, cropped, deskewed,
etc.)
• Angabe der <ReadingOrder>
Konvertierung
• github.com/cneud/ocr-conversion-scripts
• digi.bib.uni-mannheim.de/ocr-fileformat/
• github.com/kba/page-to-alto
• Was fehlt noch?
• ALTO  PAGE
• METS/ALTO bzw. METS/PAGE  IIIF Manifest
• METS/ALTO bzw. METS/PAGE  TEI (DTABf?)
Sonderfall Zeitungen
• Seitenübergreifende Strukturdaten („Fortsetzung dieses
Artikels auf S. 5“)
• Artikelsegmentierung
• Lesereihenfolge („Reading Order“)
<UnorderedGroup>
...
<OrderedGroup>
...
</OrderedGroup>
...
</UnorderedGroup>
Danke für die
Aufmerksamkeit!
Fragen?
Clemens Neudecker (@cneudecker)
DINI AG KIM Workshop
27.04.2021

Weitere ähnliche Inhalte

Ähnlich wie ALTO, PAGE & Co. Formate für Volltexte

Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Sourceyellowcow
 
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinProduce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinAndreas Jung
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLPeter Eisentraut
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...flimm
 
Internet und Webdesign (Historisches Dokument)
Internet und Webdesign (Historisches Dokument)Internet und Webdesign (Historisches Dokument)
Internet und Webdesign (Historisches Dokument)Eric Eggert
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
Einführung XHTML CSS JS // MM 08-11
Einführung XHTML CSS JS // MM 08-11Einführung XHTML CSS JS // MM 08-11
Einführung XHTML CSS JS // MM 08-11Noël Bossart
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenMarkus Erle
 
XML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comXML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comAndreas Jung
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenMarkus Erle
 
Internet-Geschichte und Webtechnologie (Historisches Dokument)
Internet-Geschichte und Webtechnologie (Historisches Dokument)Internet-Geschichte und Webtechnologie (Historisches Dokument)
Internet-Geschichte und Webtechnologie (Historisches Dokument)Eric Eggert
 
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...K15t
 
Icinga 2009 at Nagios Workshop
Icinga 2009 at Nagios WorkshopIcinga 2009 at Nagios Workshop
Icinga 2009 at Nagios WorkshopIcinga
 

Ähnlich wie ALTO, PAGE & Co. Formate für Volltexte (20)

Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinProduce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XML
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
 
Internet und Webdesign (Historisches Dokument)
Internet und Webdesign (Historisches Dokument)Internet und Webdesign (Historisches Dokument)
Internet und Webdesign (Historisches Dokument)
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
Bibliothekartag2009
Bibliothekartag2009Bibliothekartag2009
Bibliothekartag2009
 
Einführung XHTML CSS JS // MM 08-11
Einführung XHTML CSS JS // MM 08-11Einführung XHTML CSS JS // MM 08-11
Einführung XHTML CSS JS // MM 08-11
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wollten
 
XML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comXML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.com
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
 
Internet-Geschichte und Webtechnologie (Historisches Dokument)
Internet-Geschichte und Webtechnologie (Historisches Dokument)Internet-Geschichte und Webtechnologie (Historisches Dokument)
Internet-Geschichte und Webtechnologie (Historisches Dokument)
 
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
 
Icinga 2009 at Nagios Workshop
Icinga 2009 at Nagios WorkshopIcinga 2009 at Nagios Workshop
Icinga 2009 at Nagios Workshop
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans cneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 

ALTO, PAGE & Co. Formate für Volltexte

  • 1. ALTO, PAGE, & Co. Formate für Volltexte Clemens Neudecker (@cneudecker) DINI AG KIM Workshop `21 27.04.2021
  • 2. Wozu OCR? • Volltextindexierung für Suche • Trefferanzeige im Viewer mit Highlighting (Koordinaten!) • Metadatenanreicherung • Erstellung von Ebooks • Text- und Datenmining, Digital Humanities, usw.
  • 3. ALTO • ALTO = Analyzed Layout and Text Object • Entwickelt 2004 im EU-Projekt „Metadata Engine“ (METAe) web.archive.org/web/20160318002552/http://meta-e.aib.uni- linz.ac.at/ • 2009: Standardisierung durch Library of Congress • XML-Schema basiert • Wird meist in Kombination mit METS verwendet • loc.gov/standards/alto/ • github.com/altoxml • Aktuelle Version: 4.2 (Released 2020-07-14)
  • 4. ALTO • Vom DFG-Viewer unterstützter Standard für Volltexte • Seitenbasiert, d.h. 1x Seite = 1x ALTO Datei • ALTO erfordert <String>, daher ist eine Wortsegmentierung bei der OCR immer zwingend erforderlich! • OCR Software mit ALTO Unterstützung: • Tesseract (ab Version 4) • Kraken • ABBYY FineReader (Server/Engine) – aber nur bis ALTO-Version 3.1
  • 5.
  • 6. PAGE • PAGE = Page Analysis and Ground Truth Environment • Entwickelt von PRImA (Pattern Recognition and Image Analysis Lab), Universität Salford, Greater Manchester, UK (primaresearch.org) • De-facto Standard für Ground Truth • XML-Schema basiert • Seitenbasiert, d.h. 1x Seite = 1x PAGE Datei • Verwendung in wissenschaftlichen Publikationen und Wettbewerben • github.com/PRImA-Research-Lab/PAGE-XML • Letzte Version: 2019-07-15 (Released: 2019-07-15)
  • 7. PAGE • Granulare Elemente/Attribute für bspw. Regionentypen • PAGE-spezifische Konzepte: • Reading Order • Layers (z-Level) • AlternativeImage • OCR Software mit PAGE Unterstützung: • OCR-D • OCR4all • Transkribus • Aletheia
  • 8.
  • 9. hOCR • hOCR = Google OCR Format • Ursprünglich entwickelt von Thomas Breuel für die OCR Software OCRopus | ocropy • HTML-basiert • Zumeist 1x hOCR Datei für gesamtes Dokument • kba.cloud/hocr-spec/1.2/ • Letzte Version: 1.2 (Released: 2020-02-06)
  • 10. hOCR • OCR Software mit hOCR Unterstützung: • OCRopus | ocropy • Kraken • Tesseract
  • 11.
  • 12. FR-XML • FR-XML = ABBYY FineReader XML • support.abbyy.com/hc/en-us/articles/360017336699-ABBYY- FineReader-Engine-XML-Export • Letzte Version: FineReader10-schema-v1 (Released: ???) • Seitenbasiert, d.h. 1 Seite = 1 FR-XML Datei • OCR Software mit FR-XML Unterstützung: • ABBYY FineReader • Kraken • Dienstleister
  • 13.
  • 14. TEI • TEI = Text Encoding Initiative • Standard für Transkriptionen, digitale Editionen • Breite Verwendung in den Digital Humanities • tei-c.org • Dokumentenbasiert, d.h. 1x gesamtes Dokument = 1x TEI-Datei • Kein XML-Schema sondern flexible „Toolbox“ von Elementen/Attributen • DTABf = Deutsches TextArchiv Basisformat deutschestextarchiv.de/doku/basisformat/
  • 15.
  • 16. Text • Plain Text (ohne Markup/Strukturierung) • Encoding (UTF8 vs. ASCII) • Historische Sonderzeichen! Vgl. ocr-d.de/en/gt- guidelines/trans/ocr_d_koordinationsgremium_codierung.html • Zeilenumbrüche (<CR> vs <LF>) • Aber: • Sehr geringe Dateigröße • Häufiges Eingabeformat für bspw. TDM
  • 17.
  • 18. OCR-D Spezifikationen • METS als Containerformat ocr-d.de/en/spec/mets • Erfordert unique ID <mods:identifier> (purl, urn, handle, url) • Stellt vordefinierte FileGroups bereit <mets:fileGrp USE=„...“> • Prozessinformationen werden dokumentiert via <mets:agent> • PAGE als OCR Ausgabeformat ocr-d.de/en/spec/page • Polygone für Regionentypen, Unicode für Text • Informationen zu <AlternativeImage> (binarized, cropped, deskewed, etc.) • Angabe der <ReadingOrder>
  • 19. Konvertierung • github.com/cneud/ocr-conversion-scripts • digi.bib.uni-mannheim.de/ocr-fileformat/ • github.com/kba/page-to-alto • Was fehlt noch? • ALTO  PAGE • METS/ALTO bzw. METS/PAGE  IIIF Manifest • METS/ALTO bzw. METS/PAGE  TEI (DTABf?)
  • 20. Sonderfall Zeitungen • Seitenübergreifende Strukturdaten („Fortsetzung dieses Artikels auf S. 5“) • Artikelsegmentierung • Lesereihenfolge („Reading Order“) <UnorderedGroup> ... <OrderedGroup> ... </OrderedGroup> ... </UnorderedGroup>
  • 21.
  • 22. Danke für die Aufmerksamkeit! Fragen? Clemens Neudecker (@cneudecker) DINI AG KIM Workshop 27.04.2021