DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK

Dr.-Ing. David Zellhöfer, Informations- und Datenmanagement
Leipzig, 18.01.2019 (BildWissen – KinderBuch)

Was unterscheidet den Use Case
„Bibliothek“ von den „Digital Humanities“?

17.08.2011Titel der Präsentation Seite 3
Nachweissysteme unterstützen im wesentlichen die
Anwendungsfälle:
Erschließen,
Auffinden,
Präsentieren und
Kontextualisierung
Der bibliothekarische
Anwendungsfall

Nachweissysteme unterstützen im wesentlichen die
Anwendungsfälle:
Erschließen,
Auffinden,
Präsentieren und
Kontextualisierung
von >12.6 Mio. Medien
16,6 Mio. digitalisierte Einzelseiten
Der bibliothekarische
Anwendungsfall

Erschließen und Kontextualisierung

Auffinden, Präsentieren und
Kontextualisierung aus Nutzersicht

Auffinden, Präsentieren und
Kontextualisierung aus Nutzersicht
Digitalisierung ist nur eine Brückentechnologie
Ziel: Inhalte inkl. Semantischer Auszeichnung (z.B.
Named Entity Recognition, Bildklassifikation)

Digital Humanities aus Sicht der Bibliothek

Forschungsfragen sind vielfältig und unbekannt
Informationssuchstrategien sind unterschiedlich
versus
Traditioneller Fokus in der Bibliothek:
gerichtete Suche, explorative Suche in der Regel
über Facettierung
Herausforderung
Digital Humanities

Forschungsfragen lassen sich nicht nur mit Meta-
Textdaten beantworten
Daten müssen für explorative und multimodale
Informationssuche angereichert werden
Bedarf an multimodalen Retrievalmechanismen und
entsprechenden Datenformaten und
Exportschnittstellen
Herausforderung
Digital Humanities

Datenqualität muss mit Hinblick auf maschinelle
Lesbarkeit optimiert werden (Exaktheit)
Normierung (z.B. GND, WikiData) und
Standardisierung (z.B. METS/MODS, ALTO) sind
Voraussetzung für maschinelle Analyse
Ingest ergänzender (Meta-)Daten aus
Forschungsergebnissen ungelöst
Herausforderung
Digital Humanities

GettyImages;http://www.spiegel.de/fotostrecke/vom-alten-rom-bis-heute-
die-macht-des-wetters-fotostrecke-63529-6.html
Umgang mit der Desillusion –
Initiativen der Staatsbibliothek zu Berlin

Drei Kernarbeitsbereiche
Distribution
Zusammenführung
heterogener Datenbestände
Verbesserung der Datenqualität in den Bereichen
Metadaten und Content

Nutzung standardisierte Schnittstellen (OAI-PMH und SRU)
Bereitstellung von Standardformaten (METS/MODS,
EAD/EAC, Dublin Core, ALTO, TIFF und JPEG)
Flexible Content-Server (DFG-Viewer und iiif (beta), HTTP)
https://digital-beta.staatsbibliothek-berlin.de/
Perspektivisch: REST-basierte Webservices
Distribution

Zentralisierung der Nachweissituation über Dublin-Core-
basierten Kernddatensatz für > 20 Systeme
Verbund- und Aggregationsprojekte
Handschriftenportal Deutschland (Berlin, Leipzig, Wolfenbüttel,
München)
QURATOR und Sonar (Kalliope, ZDB, ZEFYS etc.)
Schott-Portal (SBB, BSB, RISM etc.)
Zusammenführung der
Datenbestände

QURATOR (BMBF)
Nutzung von maschinellem Lernen für Named Entity Recognition,
Bilderkennung, Strukturdatenerkennung anhand von Bilddaten und OCR-
Fehlerhandling (im Postprocessing) (https://3pc.de/forschung/qurator/)
OCR-D (DFG)
Verbesserung der Erkennungsleistung der OCR auch für ”schwieriges”
Material (https://github.com/OCR-D/)
Verbesserung der
Datenqualität

https://github.com/elektrobohemian/StabiHacks
https://github.com/cneud
Proof of Concepts und
Demonstratoren
David Zellhöfer: Exploring Large Digital Libraries by Multimodal Criteria. TPDL 2016: 307-319

Musikkatalog (HTW Berlin)
Unicorns
Hochschulkooperationen mit
HTW Berlin
https://github.com/elektrobohemian/htwmusik
https://github.com/elektrobohemian/imi-unicorns

Etablierung eines DH-Netzwerkes mit Ziel verschiedene DH-
Demonstratoren im zukünftigen SBB Lab bereitzustellen
Fortbildungen im Bereich Datenmanagement- und Analyse
sowie maschineller Korrekturen/Datentransformation
Publikation der wesentlichen Workflows, die als Grundlage für
DH dienen (Digitalisierung, OCR, Strukturdaten etc.)
Listung aller Schnittstellen der Nachweissysteme für
EndnutzerInnen
Fortbildung von Mitarbeitern und
externe Kommunikation

Europeana (https://www.europeana.eu/portal/de)
Deutsche Digitale Bibliothek
(https://www.deutsche-digitale-bibliothek.de)
Individuelle Forschungsvorhaben oder
Initiativen wie CodingDaVinci,
Bewegungsbilder Digital
(Leporellos, Bewegtbücher etc.)
Die Staatsbibliothek als
Datenlieferant
https://codingdavinci.de/projects/2017/altpapier.html

Bereitstellung zusätzlicher, aufbereiteter Corpora, z.B.
n-Grams, Volltexte (in jeder Qualität), MPEG-7-Features,
Verarbeitungsskripte
Versionierung dieser Corpora
Bereitstellung trainierter Modelle, z.B. auf Basis von
TensorFlow
Bildähnlichkeitssuche im Bereich Druckermarken + Iconclass
Ausblick

Query by Example - Druckermarken

Wir sind auf Ihre Anforderungen angewiesen.
Fazit

Vielen Dank für Ihre Aufmerksamkeit.

DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (10)

Ähnlich wie DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK

Ähnlich wie DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK (20)

DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK