@maxkaiser
Austrian Books Online
Digitaler Workflow und Access
Max Kaiser
Leiter Forschung & Entwicklung
Österreichische Nationalbibliothek
„Nationale Initiativen zur digitalen Information“
Wien, 4. Oktober 2013
@maxkaiser
Austrian Books Online
www.onb.ac.at/austrianbooksonline/
@maxkaiser
www.slideshare.net/maxkaiser
@maxkaiser
Überblick
→ Projektziele
→ Status Quo
→ Workflow: Bücher / Daten
→ Access / Volltextsuche
→ Ausblick
@maxkaiser
Digitalisierung
des gesamten historischen
Buchbestands der
Österreichischen Nationalbibliothek
@maxkaiser
600.000 Bände
200 Mio Seiten
@maxkaiser
16. Jahrhundert
Zweite Hälfte
19. Jahrhundert
@maxkaiser
Google Bücher
Digitale Bibliothek
Österreichische
Nationalbibliothek
@maxkaiser
Eckpunkte
der
Kooperation
@maxkaiser
→ Urheberrecht
→ Ausschließlich gemeinfreie Werke
→ Nicht-Exklusivität
→ Digitalisierung auch mit anderen
Partnern möglich
→ Transparenz
→ Öffentliche Ausschreibung
→ Detaillierte FAQs online
@maxkaiser@maxkaiser@maxkaiser
→ Zugänglichkeit der Digitalisate
→ Weltweit und kostenfrei für nicht-
kommerzielle Nutzung
→ Europeana und andere Plattformen
→ Weitergabe an Forschungspartner
@maxkaiser
70+ MitarbeiterInnen der
Österreichischen Nationalbibliothek
Davon 20+ ausschließlich für Projekt
→ Bücher-Logistik
→ Anpassung Metadaten
→ Katalogisierung
→ Konservierung / Restaurierung
→ Qualitätskontrolle
→ Software-Entwicklung
→ Projektmanagement
@maxkaiser
Wo steht
das Projekt
heute?
@maxkaiser
Frühjahr 2011
Beginn Digitalisierung
@maxkaiser~162.000Bände digitalisiert
heute
@maxkaiser~185.000Bände digitalisiert
Ende 2013
@maxkaiser
Jahrhunderte …
@maxkaiser
Sprachen …
@maxkaiser
Frühjahr 2013
Launch Bookviewer und Volltextsuche
@maxkaiser
Workflow
@maxkaiser
„book flow“
„digital flow“
@maxkaiser
book flow
@maxkaiser
→
→ @maxkaiser
Keine individuelle Auswahl …
@maxkaiser
→
→ @maxkaiser
Format
@maxkaiser
Format
@maxkaiser
→
→ @maxkaiser
Zustand
@maxkaiser
Konservatorische
Evaluierung
@maxkaiser
→
→ @maxkaiser
Wert
@maxkaiser
Logistik im
Prunksaal
@maxkaiser
Herausforderungen…
@maxkaiser
→
→ @maxkaiser
Herausforderungen…
@maxkaiser
→
→ @maxkaiser
Barcodierung
@maxkaiser
→
→ @maxkaiser
→
Anpassung Metadaten
@maxkaiser
→
→ @maxkaiser
8 Minuten / Buch
@maxkaiser
→
→ @maxkaiser
Bereit für die Digitalisierung …
→Digitalisierungszentrum in Deutschland
→Bücher ~ 3 Monate nicht benützbar
@maxkaiser@maxkaiser
@maxkaiser
book flowdigital flow
@maxkaiser
Digitalisierung
Daten-Download
Buchlogistik
Qualitätskontrolle
Speicherung
Access
ADOCO
(Austrian Books Online
Download & Control)
@maxkaiser
Workflow in ADOCO
Download Datenpaket von Google GRIN via HTTP
Entschlüsseln des Pakets via gnupg
Paket in Verzeichnis entpacken
MD5-Kontrolle aller Dateien (QA)
Ablage in Pairtree-Verzeichnis (NAS Shares)
GRIN-Metadaten mit aktuellem Zeitstempel
aktualisieren
@maxkaiserbig data …
http://blogs.loc.gov/digitalpreservation/files/2012/05/3875300483_a8875fea1c-500.jpg
@maxkaiser
Datenmenge
Durchschnitt pro Datenpaket (~Buch): 101 MB
101 MB * 600.000 = 60 TB
@maxkaiser
Datenspeicherung & Access
→ Datenspeicherung: inhouse
→ Daten redundant gespeichert
→ Access-Kopien aus JPEG2000 Master Files
on-the-fly generiert
@maxkaiser
Download und Speicherung
ADOCO
JPEG2000
HOCR
METS
TXT
ABO NAS-Speicher
Pair Tree-Algorithmus
ca. 60 TB
@maxkaiser
ÖNB
Hadoop-
Cluster
@maxkaiser
ÖNB Hadoop-Cluster: Laufender Betrieb
→ Regelmäßige MD5-Prüfsummenkontrolle aller
Dateien
→ Summation sämtlicher Dateigrößen zur
Steuerung der Speicherplanung
→ Abfragen über die METS Metadaten
→ Verteiltes METS-Parsen, Abfragen über HIVE
(HiveQL)
@maxkaiser
→Gezielte Experimente mit
Taverna Workflows
→MapReduce in der
Qualitätskontrolle
→Ermittlung von
Kenngrößen in großen
Datenmengen
ONB Hadoop Cluster: Use Cases
Beispiel: JPEG000-Validierung
@maxkaiser
→ Bildvergleich zur Analyse von Unterschieden
zweier Versionen eines digitalisierten Buchs
→ z.B. bei Re-Download von Digitalisaten
→ Tool: Matchbox (EU-Projekt SCAPE)
ONB Hadoop Cluster: Bildvergleich
@maxkaiser
Qualitäts-
kontrolle
@maxkaiser
→Automatisierte Routinen
→Repräsentative Stichproben
→EDV-unterstütztes Finden von Fehler-
Clustern
→Fehler-Kandidaten manuell überprüft
→Suche nach systematischen
und kritischen Fehlern
@maxkaiser
Durchscheinen
nicht-kritisch
@maxkaiser
Schnitt-Fehler
kritisch!
@maxkaiser
Qualitätskontrolle
via Sampling
Re-Processing
Re-Download
@maxkaiser
Fehler behoben
@maxkaiser
Langzeitarchivierung
→Methoden zum Management großer
Datenmengen
→Integration der Qualitätskontrolle in
Workflow und Werkzeuge
→Bereitstellung über Permalinks
→Metadaten für Langzeitarchivierung
@maxkaiser
Access
@maxkaiser
Katalog /
“Quick Search”
Volltextsuche
ABO
Book Viewer
ANNO
Zeitungsportal
technical slides ahead!
@maxkaiser
JPEG2000
HOCR
METS
TXT
ADOCO
METS-Generierung
Speicherung auf UDM-
Storage
ALEPH
X-Server
ANNO
Europeana
Newspapers
<<metadata>>
UDM
Holt METS- und
OCR-Daten -
Indexierung mit
SOLR/Lucene
Gespiegelter
Index für Suche
INDEXER
Suchserver
<<poll updates>>
<DocID+METS>
<replication>
METS
Beinhalten URLs (auf
Content Delivery Service
zeigend) zu OCR-Files
@maxkaiser
CDS
Content Delivery
Service
UDM
(Speicher)
Quick
Search /
Primo
Book-
viewer
ABO-NAS
Image Server:
JPEG2000JPG
Konvertierung
IIP
@maxkaiser
Verlinkung durch Permalinks
→ Persistente Verlinkung
→ Auflösung über Resolver der ÖNB:
→ Beispiel:
http://data.onb.ac.at/ABO/%2BZ167203406
→ Leitet um auf
http://digital.onb.ac.at/OnbViewer/viewer
.faces?doc=ABO_Z167203406
@maxkaiser
ABO  Verbund  Primo
→ Pro Buch (Barcode)
→ Format der Datenlieferung:
AC02030899 655o L $$mV:AT-OBV;B:AT-
OeNB$$qapplication/html$$uhttp://data.onb
.ac.at/ABO/%2BZ164219105$$xONB-
ABO$$3Volltext
→ Liste als Feed an OBVSG
→ Laden in ca. 30.000er Paketen nach ACC01
→ Über ACC-Pipe  PRIMO
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
Volltextsuche
@maxkaiser
→Volltextsuche in historischen Textquellen
der Österreichischen Nationalbibliothek
→Bücher, Zeitungen, Zeitschriften
→Integration in Quick Search / Primo
→Produktiv seit April 2013
@maxkaiser
Volltextindex: aktueller Stand
→ 350.000 Dokumente
→150.000 Bücher
→200.000 Zeitungsausgaben
→ 52 Millionen Seiten
→ 1 Milliarde unterschiedliche Terme
→ Volltextindex 280 GB
@maxkaiser
@maxkaiser
@maxkaiser
ABO
Book Viewer
@maxkaiser
Ausblick
@maxkaiser
→Mobilversion des Book-Viewers
→Volltext: neue Möglichkeiten für Forschung
→Suche nach Synonymen, Named Entities
(Personen und Orte)
→Linked Data
→Services für „datenzentrierte“ Forschung in
Kultur- und Sozialwissenschaften
→„Digital Humanities“
@maxkaiser
→ Tagung:
„Was können und wollen Digital Humanities“
25. Oktober 2013
→ Österreichische Nationalbibliothek
→ http://dhtagungwien.eventbrite.de/
@maxkaiser
Informationen
www.onb.ac.at/austrianbooksonline
www.onb.ac.at/austrianbooksonline/faq.htm
twitter.com/abooksonline
@maxkaiser
Danke!
max.kaiser@onb.ac.at
www.onb.ac.at
www.slideshare.net/maxkaiser
www.linkedin.com/in/maxkaiser
gplus.to/maxkaiser
twitter.com/maxkaiser

Austrian Books Online - Digitaler Workflow und Access