3. 17.08.2011Titel der Präsentation Seite 3
Nachweissysteme unterstützen im wesentlichen die
Anwendungsfälle:
Erschließen,
Auffinden,
Präsentieren und
Kontextualisierung
Der bibliothekarische
Anwendungsfall
4. 17.08.2011Titel der Präsentation Seite 4
Nachweissysteme unterstützen im wesentlichen die
Anwendungsfälle:
Erschließen,
Auffinden,
Präsentieren und
Kontextualisierung
von >12.6 Mio. Medien
16,6 Mio. digitalisierte Einzelseiten
Der bibliothekarische
Anwendungsfall
7. 17.08.2011Titel der Präsentation Seite 7
Auffinden, Präsentieren und
Kontextualisierung aus Nutzersicht
Digitalisierung ist nur eine Brückentechnologie
Ziel: Inhalte inkl. Semantischer Auszeichnung (z.B.
Named Entity Recognition, Bildklassifikation)
9. 17.08.2011Titel der Präsentation Seite 9
Forschungsfragen sind vielfältig und unbekannt
Informationssuchstrategien sind unterschiedlich
versus
Traditioneller Fokus in der Bibliothek:
gerichtete Suche, explorative Suche in der Regel
über Facettierung
Herausforderung
Digital Humanities
10. 17.08.2011Titel der Präsentation Seite 10
Forschungsfragen lassen sich nicht nur mit Meta-
Textdaten beantworten
Daten müssen für explorative und multimodale
Informationssuche angereichert werden
Bedarf an multimodalen Retrievalmechanismen und
entsprechenden Datenformaten und
Exportschnittstellen
Herausforderung
Digital Humanities
11. 17.08.2011Titel der Präsentation Seite 11
Datenqualität muss mit Hinblick auf maschinelle
Lesbarkeit optimiert werden (Exaktheit)
Normierung (z.B. GND, WikiData) und
Standardisierung (z.B. METS/MODS, ALTO) sind
Voraussetzung für maschinelle Analyse
Ingest ergänzender (Meta-)Daten aus
Forschungsergebnissen ungelöst
Herausforderung
Digital Humanities
14. Nutzung standardisierte Schnittstellen (OAI-PMH und SRU)
Bereitstellung von Standardformaten (METS/MODS,
EAD/EAC, Dublin Core, ALTO, TIFF und JPEG)
Flexible Content-Server (DFG-Viewer und iiif (beta), HTTP)
https://digital-beta.staatsbibliothek-berlin.de/
Perspektivisch: REST-basierte Webservices
Distribution
15. Zentralisierung der Nachweissituation über Dublin-Core-
basierten Kernddatensatz für > 20 Systeme
Verbund- und Aggregationsprojekte
Handschriftenportal Deutschland (Berlin, Leipzig, Wolfenbüttel,
München)
QURATOR und Sonar (Kalliope, ZDB, ZEFYS etc.)
Schott-Portal (SBB, BSB, RISM etc.)
Zusammenführung der
Datenbestände
16. QURATOR (BMBF)
Nutzung von maschinellem Lernen für Named Entity Recognition,
Bilderkennung, Strukturdatenerkennung anhand von Bilddaten und OCR-
Fehlerhandling (im Postprocessing) (https://3pc.de/forschung/qurator/)
OCR-D (DFG)
Verbesserung der Erkennungsleistung der OCR auch für ”schwieriges”
Material (https://github.com/OCR-D/)
Verbesserung der
Datenqualität
19. Etablierung eines DH-Netzwerkes mit Ziel verschiedene DH-
Demonstratoren im zukünftigen SBB Lab bereitzustellen
Fortbildungen im Bereich Datenmanagement- und Analyse
sowie maschineller Korrekturen/Datentransformation
Publikation der wesentlichen Workflows, die als Grundlage für
DH dienen (Digitalisierung, OCR, Strukturdaten etc.)
Listung aller Schnittstellen der Nachweissysteme für
EndnutzerInnen
Fortbildung von Mitarbeitern und
externe Kommunikation
20. Europeana (https://www.europeana.eu/portal/de)
Deutsche Digitale Bibliothek
(https://www.deutsche-digitale-bibliothek.de)
Individuelle Forschungsvorhaben oder
Initiativen wie CodingDaVinci,
Bewegungsbilder Digital
(Leporellos, Bewegtbücher etc.)
Die Staatsbibliothek als
Datenlieferant
https://codingdavinci.de/projects/2017/altpapier.html
21. Bereitstellung zusätzlicher, aufbereiteter Corpora, z.B.
n-Grams, Volltexte (in jeder Qualität), MPEG-7-Features,
Verarbeitungsskripte
Versionierung dieser Corpora
Bereitstellung trainierter Modelle, z.B. auf Basis von
TensorFlow
Bildähnlichkeitssuche im Bereich Druckermarken + Iconclass
Ausblick