SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
Die Erschließung eines vielsprachigen
bibliographischen Korpus:
Der Turkologische Anzeiger Online
InFoDiTex | Matthias Arnold | 8. 5. 2018
Agenda
• HCTS, HRA und Serviceangebote
• Das Projekt “Turkologischer Anzeiger Online”
• Das Projekt – nach dem Projekt
• Nachwort
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
HCTS und HRA
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
HCTS und HRA
• Interdisziplinärer Forschungscluster
• Mehrere Forschungsgruppen, Unterschiedliche inhaltliche
Ausrichtungen
• Exzellenzcluster 2007-2017, bereits 2014 Nachfolgeinstitution
gegründet: Heidelberg Centre for Transcultural Studies (HCTS)
• Frühjahr 2019 Einweihung und „Inbetriebnahme“ Centre for
Asian and Transcultural Studies (CATS) – Bibliotheks-Neubau
• Heidelberg Research Architecture (HRA) als Projektpartner
• Projektkonzeption und -betreuung
• Koordination der Weiterentwicklung, Begleitung des gesamten
Forschungsdaten-Lebenszyklus, bis zur nachhaltigen
Aufbewahrung (z.B. in HeiData)
• Schulungen und Workshops, MediaLab, OCR Service
(vollautomatisiert oder über Abbyy FineReader)
• Ausweitung des Nutzerkreises auf andere Institute
4
Service Beispiele
• Video Annotationsdatenbank Pan.do/ra – zeitbasierte
Annotationen in frei definierbaren Spuren, z.B.
Transkription, Beschreibung, Location, Keyword, Datum
• Bild-in-Bild Annotationsplattform Hyperimage – lineare und
nicht-lineare Verknüpfungen von Bildern oder Bildbereichen,
texten oder Gruppen; mehrsprachige Annotationen,
Publikation als interactive stand-alone Website, XML Daten
• Early Chinese Periodicals Online – Verfügbarmachung und
inhaltliche Erschliessung von Periodika, open access
Publikation, Verlinkung mit Normdatenservern, Aufbau TEI-
Modul für Volltext mit Mark-up
• In Vorbereitung: Citation Repository – Archivierung und
nachhaltige Verfügbarmachung von in wissenschaftlichen
Arbeiten zitierten online Quellen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Projektdatenbanken
Projektdatenbanken
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Der Turkologische Anzeiger
• Erschienen ab 1975, Bde. 1 - 9 als Teil der “Wiener
Zeitschrift für die Kunde des Morgenlandes”
• Gründer Andreas Tietze (†) und György Hazai
• Herausgeber Institut für Orientalistik der Universität Wien
bis 2017, jetzt Ungarische Akademie der Wissenschaften
• Systematische Bibliographie für die Turkologie und die
Osmanistik
• Monographien, Sammelwerke, Artikel in wissenschaftlichen
Zeitschriften und Rezensionen aus über 25 Ländern
• Kapitelüberschriften in Deutsch, Werktitel in
Originalsprache, teilweise mit deutscher Übersetzung
• Bde. 1-26: ca. 6000 Seiten, knapp 50.000 Einträge
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
TA 1 (1975) TA 26 (2009)
Das Problem
• Bde. 1-9 als Teil einer Zeitschrift erschienen, danach
selbständig -> verschiedene Standorte in Bibliothek
• Präsenznutzung in Bibliothek
• Typische Einschränkungen einer Printausgabe:
• Autor- oder Subject-Suche muss bandweise erfolgen
• Interne Rück- und Querverweise
• Bände teilweise nicht mehr lieferbar
• Schlagwort-Erschliessung nur auf Deutsch
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Das Projekt
“Turkologischer Anzeiger Online”
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Der Plan
• Vorteile digitale Version
• Online Zugang
• Bandübergreifendes Suchen und Browsen
• Bandübergreifende thematische Suche
• Querverweise
• Export bibliographischer Zitationen
• Schlagworte auf deutsch und englisch
• Öffnung der Bibliographie für andere Fachbereiche
durch leichteren Zugang
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Die Partner
• Unterstützung durch Herausgeber
• Institut für Orientalistik der Universität Wien
(Selbstverlag)
• Ungarische Akademie der Wissenschaften
• Einverständniserklärung der Nachfahren des Gründers
Prof. Tietze zu Open Access
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Der Turkologische Anzeiger online
• Kooperation Exzellenzcluster
• Teilprojekt A7 (Roth)
• Heidelberg Research Architecture (HRA) (Gietz, Arnold)
• Institut für Computerlinguistik (Prof. Frank)
• Institut für Islamwissenschaft (Prof. Ursinus)
• Antrag erfolgreich am Cluster, short-term Grant 2010,
zusätzliche Mittel bis 2011
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Arbeitsplan
• Digitalisierung, Bildbearbeitung und OCR
• Parsing (Citation Segmentation)
• Aufbau Datenbank + Datenablage
• Endnutzer Frontend
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Digitalisierung und OCR
• Hochauflösende Scans (MediaLab)
• 600 ppi, Tiff uncompressed
• Image processing
• Beschnitt, Kontrast
• OCR mit Abbyy Finereader
• Erkennung bandweise
• Benutzerdefinierter Zeichensatz
• Ausgabeformat Word-ML (XML)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Parsing
• Einträge
• Nummer, Autor, Titel, Ort, Datum, Zeitschrift (Abk.),
Ausgabe, Seiten
• Sammelband (kein Autor), Serien (mit Zählung),
Verweise (Erwähnung an anderer Stelle ind diesem
oder früheren Bd.), Übersetzung, Rezension(en),
Bericht(e)
• Querverweise: related records, z.B. Sammelband und
Einzelbeiträge
• Schlagwörter
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Probleme
• Komplexe und inkonsistente Einträge
• Eintragstypen können von Band zu Band variieren
• Syntaktische Eingabefehler
• OCR Fehler
• Mehrsprachige kurze Einträge
• Über 20 Sprachen möglich, Griechisch im Original
• Übersetzungen (Ger, Eng, Fra)
• Mehrere Sprachen in einem Record möglich
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Verbesserung des Parsing
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
• Markov Logic Networks and Joint Inference
• Statistische Methode (MLN)
• Technik des Maschinellen Lernens - Redundanzen (JI)
• Bibliographische Typen
• Artikel 75%, Monographien 18%, Sammelbände 5%,
Conference proceedings 2%
• Testdatensatz: 425 manuell editierte Einträge
• Ausnutzung von Redundanz auf Feld-Ebene, unsupervised,
high recall 88,0% und precision 88,3% bei JI auf Feldern
(JI-Field-TA)
• Cf. Heckmann et al, 2016
Datenbank und Frontend
• PostgreSQL
• Parsed data
• Project website
• Search/Browse
• Citations
http://turkology-annual.uni-hd.de/
Projektende
• Presentation
• Cluster Jahreskonferenzen 2009 und 2010
• Konferenz Scientific Computing and Cultural Heritage
SCCH 2013: Best Student Paper (2. Platz)
• DH-d Konferenz 2015 (Graz)
• Publikation
• Heckmann, Frank, Arnold, Gietz, Roth: Citation
Segmentation from Sparse & Noisy Data: A Joint
Inference Approach with Markov Logic Network, Digital
Scholarship in the Humanities 31 (2016), no. 2
doi:10.1093/llc/fqu061 (advance access: 8.12.2014)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Projektende…
• Presentation
• Cluster Jahreskonferenzen 2009 und 2010
• Konferenz Scientific Computing and Cultural Heritage
SCCH 2013: Best Student Paper
• DH-d Konferenz 2015 (Graz)
• Publikation
• Heckmann, Frank, Arnold, Gietz, Roth: Citation
Segmentation from Sparse & Noisy Data: A Joint
Inference Approach with Markov Logic Network, Digital
Scholarship in the Humanities 31 (2016), no. 2
doi:10.1093/llc/fqu061 (advance access: 8.12.2014)
• Projekt beendet – alles gut?
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Das Projekt – nach dem Projekt
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Projektende …und danach?
• Mitarbeiter verlassen die Institution
• Studentische Programmierung manchmal “experimentell”
• Kaum Erfahrung mit komplexen Datenstrukturen (DB-
Konzeption)
• Wenig Parsing Erfahrung
• Zeitdruck durch Semesterende
• Meist fast keine Dokumentation
• Ergebnis:
• Keine nachhaltige Struktur, “Insellösung”, diverse
technische Abhängigkeiten
• kaum von “Externen” (SysOp) zu betreuen, zb
Updates/security patches
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
G.A.U.
• Mehrere Jahre “Digitale Archäologie”, Beheben diverser
Abstürze
• Immer mit viel Aufwand wieder angepasst, aber 2016 DB oft
nicht erreichbar
• Nach Server-Update: Shutdown
• Rundmail an Turkologen/Osmanisten weltweit: “Please help
us to sustain Turkology Annual Online”
• Einzelne feedbacks, aber kein “Rettungsprojekt”
• Parallel Kontaktaufnahme Dustin Heckmann (urspr.
Frontend Programmierung)
• -> Temporäre Wiederherstellung
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Glück im Unglück
• Interesse und Zeit Programmierer (Dustin Heckmann) an
Neustrukturierung
• Zusätzlich eingeworbene Mittel verfügbar
• Sommer 2017 Konzeption Neustrukturierung
Ziele:
• Reorganisierte Daten in MongoDB, mit Versionierung
• Neu-Parsing (RegEx) und Verfügbarmachung aller
Daten
• Stabiles Bib-orientiertes Frontend (Invenio)
• Datenveröffentlichung in MODS und RAW (HeiData)
• Einspeisung Daten in UB-System
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
New TAO
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
• Zeigt fast alle
49548 records
• Raw string und
Full data (json)
• Noch auf
Testserver
• Veröffentlichung
zu Projektende
Juli 2018
• Mögliche Zukunft:
Community-based
enhancements
Nachwort
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Some lessons learned
• Digitalisierungs- und Erschliessungsprojekt mit relativ
geringem Aufwand realisierbar
• Datenstrukturierung muss aber von vornherein auf
Nachhaltigkeit ausgerichtet werden
• Datenbankmodell konservativ statt experimentell,
idealerweise vorhandenes Datenbanksystem nutzen (in
HD bisher nichts vorhanden – UB – URZ?), Modell
dokumentieren
• Daten strukturiert erfassen, Ausgabe in (XML) Standard
ermöglichen (zb. MODS, VRA, TEI), Mapping bzw.
Konventionen dokumentieren
• Forschungsdaten auch unstrukturiert nachhaltig ablegen
(zb HeiData)
• Daten –wenn möglich– früh nachnutzbar machen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Some lessons learned
• Infrastruktur
• Studentische Projekte kaum geeignet für langfristig
orientierte Ressourcen
• Nachhaltigkeit kann nur in vereinheitlichtem (Baukasten-)
System gewährleistet werden
• Nutzerinterfaces (frontends) sind ephemer, die Daten
müssen nachhaltig sein (in Standardformat)
• Vorhandene “Projekt-Inseln”
• Uniweit wird Infrastruktur gebraucht, um Einzellösungen
längerfristig anbieten zu können (URZ: “Rent-a-SysOp”,
HCTS/ZO experimentieren mit Snapshots)
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Was bedeutet das für die eigene Forschung?
• Neue Insellösungen vermeiden (möglichst nichts
“Selbstgestricktes”) – Uni-weite Basis-Infrastruktur (auch für
GW Anwendung) muss aufgebaut werden
• Forschungsdaten in Standardformaten vorhalten oder
exportierbar machen (MODS, TEI, VRA, RDF-LD, etc)
• Eigene Daten mit Normdaten verknüpfen
• Nutzen von Versionierungssystemen (GitHub, GitLab) –
uniweites Angebot wünschenswert
• Eigene Forschungsdaten in geeignetem Repositorium
ablegen (z.B. HeiData, auch geschützt) und möglichst früh
zugänglich (nachnutzbar) machen
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Kontakt
Matthias Arnold
06221 - 54 4094
matthias.arnold@uni-hd.de
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
1. mad|hd – methods and applications digital humanities |
heidelberg (Sharepoint group)
2. Digital Humanities Heidelberg:
www.uni-heidelberg.de/digital-humanities
3. Heidelberger Forum Edition
https://heidelberger-forum-edition.de/
Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online

Weitere ähnliche Inhalte

Ähnlich wie Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologische Anzeiger Online (InFoDiTex 2018-05-08)

Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...
Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...
Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...Thorsten Logge
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlingoobi_org
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Matthias Arnold
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Thomas Koch
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeitenscuy
 
2018 ecotourism academic-education-euro_eco_m_bauer
2018 ecotourism academic-education-euro_eco_m_bauer2018 ecotourism academic-education-euro_eco_m_bauer
2018 ecotourism academic-education-euro_eco_m_bauerrespontour
 
Umgang mit digitalen Forschungsdaten - Initiativen in Deutschland
Umgang mit digitalen Forschungsdaten - Initiativen in DeutschlandUmgang mit digitalen Forschungsdaten - Initiativen in Deutschland
Umgang mit digitalen Forschungsdaten - Initiativen in DeutschlandHeinz Pampel
 
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...goobi_org
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
 
Open Access kommunizieren -Strategien und Erfahrungen
Open Access kommunizieren -Strategien und ErfahrungenOpen Access kommunizieren -Strategien und Erfahrungen
Open Access kommunizieren -Strategien und ErfahrungenHeinz Pampel
 
Generierung von PDF aus XML/HTML mit PrintCSS
Generierung von PDF aus XML/HTML mit PrintCSSGenerierung von PDF aus XML/HTML mit PrintCSS
Generierung von PDF aus XML/HTML mit PrintCSSAndreas Jung
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 

Ähnlich wie Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologische Anzeiger Online (InFoDiTex 2018-05-08) (20)

Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...
Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...
Das "Geschichtsbureau" 2.0 - Eine Kompetenzwerkstatt am Fachbereich Geschicht...
 
20060223 Hist06 Lza Und Dfg
20060223 Hist06 Lza Und Dfg20060223 Hist06 Lza Und Dfg
20060223 Hist06 Lza Und Dfg
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlin
 
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Verbunddienstleistungen im Open-Access-Umfeld
Verbunddienstleistungen im Open-Access-UmfeldVerbunddienstleistungen im Open-Access-Umfeld
Verbunddienstleistungen im Open-Access-Umfeld
 
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
Ziziphus/Tamboti
Ziziphus/TambotiZiziphus/Tamboti
Ziziphus/Tamboti
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeiten
 
2018 ecotourism academic-education-euro_eco_m_bauer
2018 ecotourism academic-education-euro_eco_m_bauer2018 ecotourism academic-education-euro_eco_m_bauer
2018 ecotourism academic-education-euro_eco_m_bauer
 
Umgang mit digitalen Forschungsdaten - Initiativen in Deutschland
Umgang mit digitalen Forschungsdaten - Initiativen in DeutschlandUmgang mit digitalen Forschungsdaten - Initiativen in Deutschland
Umgang mit digitalen Forschungsdaten - Initiativen in Deutschland
 
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
 
Open Access kommunizieren -Strategien und Erfahrungen
Open Access kommunizieren -Strategien und ErfahrungenOpen Access kommunizieren -Strategien und Erfahrungen
Open Access kommunizieren -Strategien und Erfahrungen
 
Generierung von PDF aus XML/HTML mit PrintCSS
Generierung von PDF aus XML/HTML mit PrintCSSGenerierung von PDF aus XML/HTML mit PrintCSS
Generierung von PDF aus XML/HTML mit PrintCSS
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 

Mehr von Matthias Arnold

Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Matthias Arnold
 
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Matthias Arnold
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...Matthias Arnold
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Matthias Arnold
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseMatthias Arnold
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.Matthias Arnold
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Matthias Arnold
 

Mehr von Matthias Arnold (7)

Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
 
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines Database
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
 

Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologische Anzeiger Online (InFoDiTex 2018-05-08)

  • 1. Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologische Anzeiger Online InFoDiTex | Matthias Arnold | 8. 5. 2018
  • 2. Agenda • HCTS, HRA und Serviceangebote • Das Projekt “Turkologischer Anzeiger Online” • Das Projekt – nach dem Projekt • Nachwort Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 3. HCTS und HRA Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 4. HCTS und HRA • Interdisziplinärer Forschungscluster • Mehrere Forschungsgruppen, Unterschiedliche inhaltliche Ausrichtungen • Exzellenzcluster 2007-2017, bereits 2014 Nachfolgeinstitution gegründet: Heidelberg Centre for Transcultural Studies (HCTS) • Frühjahr 2019 Einweihung und „Inbetriebnahme“ Centre for Asian and Transcultural Studies (CATS) – Bibliotheks-Neubau • Heidelberg Research Architecture (HRA) als Projektpartner • Projektkonzeption und -betreuung • Koordination der Weiterentwicklung, Begleitung des gesamten Forschungsdaten-Lebenszyklus, bis zur nachhaltigen Aufbewahrung (z.B. in HeiData) • Schulungen und Workshops, MediaLab, OCR Service (vollautomatisiert oder über Abbyy FineReader) • Ausweitung des Nutzerkreises auf andere Institute 4
  • 5. Service Beispiele • Video Annotationsdatenbank Pan.do/ra – zeitbasierte Annotationen in frei definierbaren Spuren, z.B. Transkription, Beschreibung, Location, Keyword, Datum • Bild-in-Bild Annotationsplattform Hyperimage – lineare und nicht-lineare Verknüpfungen von Bildern oder Bildbereichen, texten oder Gruppen; mehrsprachige Annotationen, Publikation als interactive stand-alone Website, XML Daten • Early Chinese Periodicals Online – Verfügbarmachung und inhaltliche Erschliessung von Periodika, open access Publikation, Verlinkung mit Normdatenservern, Aufbau TEI- Modul für Volltext mit Mark-up • In Vorbereitung: Citation Repository – Archivierung und nachhaltige Verfügbarmachung von in wissenschaftlichen Arbeiten zitierten online Quellen Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 8. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 9. Der Turkologische Anzeiger • Erschienen ab 1975, Bde. 1 - 9 als Teil der “Wiener Zeitschrift für die Kunde des Morgenlandes” • Gründer Andreas Tietze (†) und György Hazai • Herausgeber Institut für Orientalistik der Universität Wien bis 2017, jetzt Ungarische Akademie der Wissenschaften • Systematische Bibliographie für die Turkologie und die Osmanistik • Monographien, Sammelwerke, Artikel in wissenschaftlichen Zeitschriften und Rezensionen aus über 25 Ländern • Kapitelüberschriften in Deutsch, Werktitel in Originalsprache, teilweise mit deutscher Übersetzung • Bde. 1-26: ca. 6000 Seiten, knapp 50.000 Einträge Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 10. TA 1 (1975) TA 26 (2009)
  • 11.
  • 12. Das Problem • Bde. 1-9 als Teil einer Zeitschrift erschienen, danach selbständig -> verschiedene Standorte in Bibliothek • Präsenznutzung in Bibliothek • Typische Einschränkungen einer Printausgabe: • Autor- oder Subject-Suche muss bandweise erfolgen • Interne Rück- und Querverweise • Bände teilweise nicht mehr lieferbar • Schlagwort-Erschliessung nur auf Deutsch Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 13. Das Projekt “Turkologischer Anzeiger Online” Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 14. Der Plan • Vorteile digitale Version • Online Zugang • Bandübergreifendes Suchen und Browsen • Bandübergreifende thematische Suche • Querverweise • Export bibliographischer Zitationen • Schlagworte auf deutsch und englisch • Öffnung der Bibliographie für andere Fachbereiche durch leichteren Zugang Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 15. Die Partner • Unterstützung durch Herausgeber • Institut für Orientalistik der Universität Wien (Selbstverlag) • Ungarische Akademie der Wissenschaften • Einverständniserklärung der Nachfahren des Gründers Prof. Tietze zu Open Access Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 16. Der Turkologische Anzeiger online • Kooperation Exzellenzcluster • Teilprojekt A7 (Roth) • Heidelberg Research Architecture (HRA) (Gietz, Arnold) • Institut für Computerlinguistik (Prof. Frank) • Institut für Islamwissenschaft (Prof. Ursinus) • Antrag erfolgreich am Cluster, short-term Grant 2010, zusätzliche Mittel bis 2011 Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 17. Arbeitsplan • Digitalisierung, Bildbearbeitung und OCR • Parsing (Citation Segmentation) • Aufbau Datenbank + Datenablage • Endnutzer Frontend Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 18. Digitalisierung und OCR • Hochauflösende Scans (MediaLab) • 600 ppi, Tiff uncompressed • Image processing • Beschnitt, Kontrast • OCR mit Abbyy Finereader • Erkennung bandweise • Benutzerdefinierter Zeichensatz • Ausgabeformat Word-ML (XML) Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 19. Parsing • Einträge • Nummer, Autor, Titel, Ort, Datum, Zeitschrift (Abk.), Ausgabe, Seiten • Sammelband (kein Autor), Serien (mit Zählung), Verweise (Erwähnung an anderer Stelle ind diesem oder früheren Bd.), Übersetzung, Rezension(en), Bericht(e) • Querverweise: related records, z.B. Sammelband und Einzelbeiträge • Schlagwörter Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 20. Probleme • Komplexe und inkonsistente Einträge • Eintragstypen können von Band zu Band variieren • Syntaktische Eingabefehler • OCR Fehler • Mehrsprachige kurze Einträge • Über 20 Sprachen möglich, Griechisch im Original • Übersetzungen (Ger, Eng, Fra) • Mehrere Sprachen in einem Record möglich Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 21. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 22. Verbesserung des Parsing Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online • Markov Logic Networks and Joint Inference • Statistische Methode (MLN) • Technik des Maschinellen Lernens - Redundanzen (JI) • Bibliographische Typen • Artikel 75%, Monographien 18%, Sammelbände 5%, Conference proceedings 2% • Testdatensatz: 425 manuell editierte Einträge • Ausnutzung von Redundanz auf Feld-Ebene, unsupervised, high recall 88,0% und precision 88,3% bei JI auf Feldern (JI-Field-TA) • Cf. Heckmann et al, 2016
  • 23. Datenbank und Frontend • PostgreSQL • Parsed data • Project website • Search/Browse • Citations http://turkology-annual.uni-hd.de/
  • 24. Projektende • Presentation • Cluster Jahreskonferenzen 2009 und 2010 • Konferenz Scientific Computing and Cultural Heritage SCCH 2013: Best Student Paper (2. Platz) • DH-d Konferenz 2015 (Graz) • Publikation • Heckmann, Frank, Arnold, Gietz, Roth: Citation Segmentation from Sparse & Noisy Data: A Joint Inference Approach with Markov Logic Network, Digital Scholarship in the Humanities 31 (2016), no. 2 doi:10.1093/llc/fqu061 (advance access: 8.12.2014) Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 25. Projektende… • Presentation • Cluster Jahreskonferenzen 2009 und 2010 • Konferenz Scientific Computing and Cultural Heritage SCCH 2013: Best Student Paper • DH-d Konferenz 2015 (Graz) • Publikation • Heckmann, Frank, Arnold, Gietz, Roth: Citation Segmentation from Sparse & Noisy Data: A Joint Inference Approach with Markov Logic Network, Digital Scholarship in the Humanities 31 (2016), no. 2 doi:10.1093/llc/fqu061 (advance access: 8.12.2014) • Projekt beendet – alles gut? Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 26. Das Projekt – nach dem Projekt Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 27. Projektende …und danach? • Mitarbeiter verlassen die Institution • Studentische Programmierung manchmal “experimentell” • Kaum Erfahrung mit komplexen Datenstrukturen (DB- Konzeption) • Wenig Parsing Erfahrung • Zeitdruck durch Semesterende • Meist fast keine Dokumentation • Ergebnis: • Keine nachhaltige Struktur, “Insellösung”, diverse technische Abhängigkeiten • kaum von “Externen” (SysOp) zu betreuen, zb Updates/security patches Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 28. G.A.U. • Mehrere Jahre “Digitale Archäologie”, Beheben diverser Abstürze • Immer mit viel Aufwand wieder angepasst, aber 2016 DB oft nicht erreichbar • Nach Server-Update: Shutdown • Rundmail an Turkologen/Osmanisten weltweit: “Please help us to sustain Turkology Annual Online” • Einzelne feedbacks, aber kein “Rettungsprojekt” • Parallel Kontaktaufnahme Dustin Heckmann (urspr. Frontend Programmierung) • -> Temporäre Wiederherstellung Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 29. Glück im Unglück • Interesse und Zeit Programmierer (Dustin Heckmann) an Neustrukturierung • Zusätzlich eingeworbene Mittel verfügbar • Sommer 2017 Konzeption Neustrukturierung Ziele: • Reorganisierte Daten in MongoDB, mit Versionierung • Neu-Parsing (RegEx) und Verfügbarmachung aller Daten • Stabiles Bib-orientiertes Frontend (Invenio) • Datenveröffentlichung in MODS und RAW (HeiData) • Einspeisung Daten in UB-System Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 30. New TAO Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online • Zeigt fast alle 49548 records • Raw string und Full data (json) • Noch auf Testserver • Veröffentlichung zu Projektende Juli 2018 • Mögliche Zukunft: Community-based enhancements
  • 31. Nachwort Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 32. Some lessons learned • Digitalisierungs- und Erschliessungsprojekt mit relativ geringem Aufwand realisierbar • Datenstrukturierung muss aber von vornherein auf Nachhaltigkeit ausgerichtet werden • Datenbankmodell konservativ statt experimentell, idealerweise vorhandenes Datenbanksystem nutzen (in HD bisher nichts vorhanden – UB – URZ?), Modell dokumentieren • Daten strukturiert erfassen, Ausgabe in (XML) Standard ermöglichen (zb. MODS, VRA, TEI), Mapping bzw. Konventionen dokumentieren • Forschungsdaten auch unstrukturiert nachhaltig ablegen (zb HeiData) • Daten –wenn möglich– früh nachnutzbar machen Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 33. Some lessons learned • Infrastruktur • Studentische Projekte kaum geeignet für langfristig orientierte Ressourcen • Nachhaltigkeit kann nur in vereinheitlichtem (Baukasten-) System gewährleistet werden • Nutzerinterfaces (frontends) sind ephemer, die Daten müssen nachhaltig sein (in Standardformat) • Vorhandene “Projekt-Inseln” • Uniweit wird Infrastruktur gebraucht, um Einzellösungen längerfristig anbieten zu können (URZ: “Rent-a-SysOp”, HCTS/ZO experimentieren mit Snapshots) Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 34. Was bedeutet das für die eigene Forschung? • Neue Insellösungen vermeiden (möglichst nichts “Selbstgestricktes”) – Uni-weite Basis-Infrastruktur (auch für GW Anwendung) muss aufgebaut werden • Forschungsdaten in Standardformaten vorhalten oder exportierbar machen (MODS, TEI, VRA, RDF-LD, etc) • Eigene Daten mit Normdaten verknüpfen • Nutzen von Versionierungssystemen (GitHub, GitLab) – uniweites Angebot wünschenswert • Eigene Forschungsdaten in geeignetem Repositorium ablegen (z.B. HeiData, auch geschützt) und möglichst früh zugänglich (nachnutzbar) machen Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 35. Kontakt Matthias Arnold 06221 - 54 4094 matthias.arnold@uni-hd.de Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 36. Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online
  • 37. 1. mad|hd – methods and applications digital humanities | heidelberg (Sharepoint group) 2. Digital Humanities Heidelberg: www.uni-heidelberg.de/digital-humanities 3. Heidelberger Forum Edition https://heidelberger-forum-edition.de/ Heidelberg Centre for Transcultural Studies - HRA | Matthias Arnold | Turkology Annual Online