Der Turkologische Anzeiger Online war ein erfolgreiches Digitalisierungsprojekt am Excellenzcluster "Asien und Europa" und eine Kooperation der Heidelberg Research Architecture mit der Computerlinguistik und der islamwissenschaft. Nach Projektende konnte die Plattform nur über eine bestimmte Zeit lauffähig gehalten werden. Der Vortrag führt in das Projekt und die Probleme bei der Erhaltung des Systems ein. Wesentliche Herausforderung war die Strukturierung der Daten auf der Basis internationaler Datenstandards und der Aufbau einer aktuellen und gut dokumentierten Datenbank. Abschliessend wird das Nachfolgesystem vorgestellt, das die Basis für eine nachhaltige Datenvorhaltung bei der UB Heidelberg darstellt.
Vortrag in der Reihe "Interdisziplinäres Forum digitaler Textwissenschaften" (InFoDiTex), Heidelberg, 8. Mai 2018
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologische Anzeiger Online (InFoDiTex 2018-05-08)
1. Die Erschließung eines vielsprachigen
bibliographischen Korpus:
Der Turkologische Anzeiger Online
InFoDiTex | Matthias Arnold | 8. 5. 2018
2. Agenda
• HCTS, HRA und Serviceangebote
• Das Projekt “Turkologischer Anzeiger Online”
• Das Projekt – nach dem Projekt
• Nachwort
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
3. HCTS und HRA
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
4. HCTS und HRA
• Interdisziplinärer Forschungscluster
• Mehrere Forschungsgruppen, Unterschiedliche inhaltliche
Ausrichtungen
• Exzellenzcluster 2007-2017, bereits 2014 Nachfolgeinstitution
gegründet: Heidelberg Centre for Transcultural Studies (HCTS)
• Frühjahr 2019 Einweihung und „Inbetriebnahme“ Centre for
Asian and Transcultural Studies (CATS) – Bibliotheks-Neubau
• Heidelberg Research Architecture (HRA) als Projektpartner
• Projektkonzeption und -betreuung
• Koordination der Weiterentwicklung, Begleitung des gesamten
Forschungsdaten-Lebenszyklus, bis zur nachhaltigen
Aufbewahrung (z.B. in HeiData)
• Schulungen und Workshops, MediaLab, OCR Service
(vollautomatisiert oder über Abbyy FineReader)
• Ausweitung des Nutzerkreises auf andere Institute
4
5. Service Beispiele
• Video Annotationsdatenbank Pan.do/ra – zeitbasierte
Annotationen in frei definierbaren Spuren, z.B.
Transkription, Beschreibung, Location, Keyword, Datum
• Bild-in-Bild Annotationsplattform Hyperimage – lineare und
nicht-lineare Verknüpfungen von Bildern oder Bildbereichen,
texten oder Gruppen; mehrsprachige Annotationen,
Publikation als interactive stand-alone Website, XML Daten
• Early Chinese Periodicals Online – Verfügbarmachung und
inhaltliche Erschliessung von Periodika, open access
Publikation, Verlinkung mit Normdatenservern, Aufbau TEI-
Modul für Volltext mit Mark-up
• In Vorbereitung: Citation Repository – Archivierung und
nachhaltige Verfügbarmachung von in wissenschaftlichen
Arbeiten zitierten online Quellen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
8. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
9. Der Turkologische Anzeiger
• Erschienen ab 1975, Bde. 1 - 9 als Teil der “Wiener
Zeitschrift für die Kunde des Morgenlandes”
• Gründer Andreas Tietze (†) und György Hazai
• Herausgeber Institut für Orientalistik der Universität Wien
bis 2017, jetzt Ungarische Akademie der Wissenschaften
• Systematische Bibliographie für die Turkologie und die
Osmanistik
• Monographien, Sammelwerke, Artikel in wissenschaftlichen
Zeitschriften und Rezensionen aus über 25 Ländern
• Kapitelüberschriften in Deutsch, Werktitel in
Originalsprache, teilweise mit deutscher Übersetzung
• Bde. 1-26: ca. 6000 Seiten, knapp 50.000 Einträge
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
12. Das Problem
• Bde. 1-9 als Teil einer Zeitschrift erschienen, danach
selbständig -> verschiedene Standorte in Bibliothek
• Präsenznutzung in Bibliothek
• Typische Einschränkungen einer Printausgabe:
• Autor- oder Subject-Suche muss bandweise erfolgen
• Interne Rück- und Querverweise
• Bände teilweise nicht mehr lieferbar
• Schlagwort-Erschliessung nur auf Deutsch
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
14. Der Plan
• Vorteile digitale Version
• Online Zugang
• Bandübergreifendes Suchen und Browsen
• Bandübergreifende thematische Suche
• Querverweise
• Export bibliographischer Zitationen
• Schlagworte auf deutsch und englisch
• Öffnung der Bibliographie für andere Fachbereiche
durch leichteren Zugang
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
15. Die Partner
• Unterstützung durch Herausgeber
• Institut für Orientalistik der Universität Wien
(Selbstverlag)
• Ungarische Akademie der Wissenschaften
• Einverständniserklärung der Nachfahren des Gründers
Prof. Tietze zu Open Access
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
16. Der Turkologische Anzeiger online
• Kooperation Exzellenzcluster
• Teilprojekt A7 (Roth)
• Heidelberg Research Architecture (HRA) (Gietz, Arnold)
• Institut für Computerlinguistik (Prof. Frank)
• Institut für Islamwissenschaft (Prof. Ursinus)
• Antrag erfolgreich am Cluster, short-term Grant 2010,
zusätzliche Mittel bis 2011
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
17. Arbeitsplan
• Digitalisierung, Bildbearbeitung und OCR
• Parsing (Citation Segmentation)
• Aufbau Datenbank + Datenablage
• Endnutzer Frontend
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
18. Digitalisierung und OCR
• Hochauflösende Scans (MediaLab)
• 600 ppi, Tiff uncompressed
• Image processing
• Beschnitt, Kontrast
• OCR mit Abbyy Finereader
• Erkennung bandweise
• Benutzerdefinierter Zeichensatz
• Ausgabeformat Word-ML (XML)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
19. Parsing
• Einträge
• Nummer, Autor, Titel, Ort, Datum, Zeitschrift (Abk.),
Ausgabe, Seiten
• Sammelband (kein Autor), Serien (mit Zählung),
Verweise (Erwähnung an anderer Stelle ind diesem
oder früheren Bd.), Übersetzung, Rezension(en),
Bericht(e)
• Querverweise: related records, z.B. Sammelband und
Einzelbeiträge
• Schlagwörter
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
20. Probleme
• Komplexe und inkonsistente Einträge
• Eintragstypen können von Band zu Band variieren
• Syntaktische Eingabefehler
• OCR Fehler
• Mehrsprachige kurze Einträge
• Über 20 Sprachen möglich, Griechisch im Original
• Übersetzungen (Ger, Eng, Fra)
• Mehrere Sprachen in einem Record möglich
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
21. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
22. Verbesserung des Parsing
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
• Markov Logic Networks and Joint Inference
• Statistische Methode (MLN)
• Technik des Maschinellen Lernens - Redundanzen (JI)
• Bibliographische Typen
• Artikel 75%, Monographien 18%, Sammelbände 5%,
Conference proceedings 2%
• Testdatensatz: 425 manuell editierte Einträge
• Ausnutzung von Redundanz auf Feld-Ebene, unsupervised,
high recall 88,0% und precision 88,3% bei JI auf Feldern
(JI-Field-TA)
• Cf. Heckmann et al, 2016
23. Datenbank und Frontend
• PostgreSQL
• Parsed data
• Project website
• Search/Browse
• Citations
http://turkology-annual.uni-hd.de/
24. Projektende
• Presentation
• Cluster Jahreskonferenzen 2009 und 2010
• Konferenz Scientific Computing and Cultural Heritage
SCCH 2013: Best Student Paper (2. Platz)
• DH-d Konferenz 2015 (Graz)
• Publikation
• Heckmann, Frank, Arnold, Gietz, Roth: Citation
Segmentation from Sparse & Noisy Data: A Joint
Inference Approach with Markov Logic Network, Digital
Scholarship in the Humanities 31 (2016), no. 2
doi:10.1093/llc/fqu061 (advance access: 8.12.2014)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
25. Projektende…
• Presentation
• Cluster Jahreskonferenzen 2009 und 2010
• Konferenz Scientific Computing and Cultural Heritage
SCCH 2013: Best Student Paper
• DH-d Konferenz 2015 (Graz)
• Publikation
• Heckmann, Frank, Arnold, Gietz, Roth: Citation
Segmentation from Sparse & Noisy Data: A Joint
Inference Approach with Markov Logic Network, Digital
Scholarship in the Humanities 31 (2016), no. 2
doi:10.1093/llc/fqu061 (advance access: 8.12.2014)
• Projekt beendet – alles gut?
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
26. Das Projekt – nach dem Projekt
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
27. Projektende …und danach?
• Mitarbeiter verlassen die Institution
• Studentische Programmierung manchmal “experimentell”
• Kaum Erfahrung mit komplexen Datenstrukturen (DB-
Konzeption)
• Wenig Parsing Erfahrung
• Zeitdruck durch Semesterende
• Meist fast keine Dokumentation
• Ergebnis:
• Keine nachhaltige Struktur, “Insellösung”, diverse
technische Abhängigkeiten
• kaum von “Externen” (SysOp) zu betreuen, zb
Updates/security patches
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
28. G.A.U.
• Mehrere Jahre “Digitale Archäologie”, Beheben diverser
Abstürze
• Immer mit viel Aufwand wieder angepasst, aber 2016 DB oft
nicht erreichbar
• Nach Server-Update: Shutdown
• Rundmail an Turkologen/Osmanisten weltweit: “Please help
us to sustain Turkology Annual Online”
• Einzelne feedbacks, aber kein “Rettungsprojekt”
• Parallel Kontaktaufnahme Dustin Heckmann (urspr.
Frontend Programmierung)
• -> Temporäre Wiederherstellung
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
29. Glück im Unglück
• Interesse und Zeit Programmierer (Dustin Heckmann) an
Neustrukturierung
• Zusätzlich eingeworbene Mittel verfügbar
• Sommer 2017 Konzeption Neustrukturierung
Ziele:
• Reorganisierte Daten in MongoDB, mit Versionierung
• Neu-Parsing (RegEx) und Verfügbarmachung aller
Daten
• Stabiles Bib-orientiertes Frontend (Invenio)
• Datenveröffentlichung in MODS und RAW (HeiData)
• Einspeisung Daten in UB-System
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
30. New TAO
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
• Zeigt fast alle
49548 records
• Raw string und
Full data (json)
• Noch auf
Testserver
• Veröffentlichung
zu Projektende
Juli 2018
• Mögliche Zukunft:
Community-based
enhancements
32. Some lessons learned
• Digitalisierungs- und Erschliessungsprojekt mit relativ
geringem Aufwand realisierbar
• Datenstrukturierung muss aber von vornherein auf
Nachhaltigkeit ausgerichtet werden
• Datenbankmodell konservativ statt experimentell,
idealerweise vorhandenes Datenbanksystem nutzen (in
HD bisher nichts vorhanden – UB – URZ?), Modell
dokumentieren
• Daten strukturiert erfassen, Ausgabe in (XML) Standard
ermöglichen (zb. MODS, VRA, TEI), Mapping bzw.
Konventionen dokumentieren
• Forschungsdaten auch unstrukturiert nachhaltig ablegen
(zb HeiData)
• Daten –wenn möglich– früh nachnutzbar machen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
33. Some lessons learned
• Infrastruktur
• Studentische Projekte kaum geeignet für langfristig
orientierte Ressourcen
• Nachhaltigkeit kann nur in vereinheitlichtem (Baukasten-)
System gewährleistet werden
• Nutzerinterfaces (frontends) sind ephemer, die Daten
müssen nachhaltig sein (in Standardformat)
• Vorhandene “Projekt-Inseln”
• Uniweit wird Infrastruktur gebraucht, um Einzellösungen
längerfristig anbieten zu können (URZ: “Rent-a-SysOp”,
HCTS/ZO experimentieren mit Snapshots)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
34. Was bedeutet das für die eigene Forschung?
• Neue Insellösungen vermeiden (möglichst nichts
“Selbstgestricktes”) – Uni-weite Basis-Infrastruktur (auch für
GW Anwendung) muss aufgebaut werden
• Forschungsdaten in Standardformaten vorhalten oder
exportierbar machen (MODS, TEI, VRA, RDF-LD, etc)
• Eigene Daten mit Normdaten verknüpfen
• Nutzen von Versionierungssystemen (GitHub, GitLab) –
uniweites Angebot wünschenswert
• Eigene Forschungsdaten in geeignetem Repositorium
ablegen (z.B. HeiData, auch geschützt) und möglichst früh
zugänglich (nachnutzbar) machen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
35. Kontakt
Matthias Arnold
06221 - 54 4094
matthias.arnold@uni-hd.de
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
36. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
37. 1. mad|hd – methods and applications digital humanities |
heidelberg (Sharepoint group)
2. Digital Humanities Heidelberg:
www.uni-heidelberg.de/digital-humanities
3. Heidelberger Forum Edition
https://heidelberger-forum-edition.de/
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online