Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Formate für Volltexte

104 Aufrufe

Veröffentlicht am

Digital Humanities Netzwerk, 07-11-2018, Staatsbibliothek zu Berlin

Veröffentlicht in: Technologie
  • Login to see the comments

  • Gehören Sie zu den Ersten, denen das gefällt!

Formate für Volltexte

  1. 1. Formate für Volltexte Digital Humanities Netzwerk Staatsbibliothek zu Berlin 7.11.2018
  2. 2. ALTO • ALTO = Analyzed Layout and Text Object • Standard der Library of Congress • Wird meist in Kombination mit METS verwendet • loc.gov/standards/alto/
  3. 3. hOCR • hOCR = Google OCR Format • HTML-basiert • kba.cloud/hocr-spec/1.2/
  4. 4. PAGE • PAGE = Page Analysis and Ground Truth Environment • De-facto Standard für Ground Truth • Verwendung in wiss. Wettbewerben • Verwendung in DFG-Projekt „OCR-D“ • github.com/PRImA-Research-Lab/PAGE-XML
  5. 5. FRXML • FRXML = ABBYY FineReader XML • abbyy.technology/en:features:ocr:xml
  6. 6. TEI • TEI = Text Encoding Initiative • Standard für Transkriptionen, dig. Editionen • Breite Verwendung in den Digital Humanities • tei-c.org • DTABf = Deutsches TextArchiv Basisformat • deutschestextarchiv.de/doku/basisformat/
  7. 7. Text • Plain Text (ohne Markup) • Encoding (z.B. UTF8 vs. ASCII)
  8. 8. Konvertierung • github.com/cneud/ocr-conversion-scripts • digi.bib.uni-mannheim.de/ocr-fileformat/ • Was fehlt noch? PAGE  ALTO ALTO  DTABf (TEI)

×