@maxkaiser
Austrian Books Online
Digitaler Workflow und Access
Max Kaiser
Leiter Forschung & Entwicklung
Österreichische N...
@maxkaiser
Austrian Books Online
www.onb.ac.at/austrianbooksonline/
@maxkaiser
www.slideshare.net/maxkaiser
@maxkaiser
Überblick
→ Projektziele
→ Status Quo
→ Workflow: Bücher / Daten
→ Access / Volltextsuche
→ Ausblick
@maxkaiser
Digitalisierung
des gesamten historischen
Buchbestands der
Österreichischen Nationalbibliothek
@maxkaiser
600.000 Bände
200 Mio Seiten
@maxkaiser
16. Jahrhundert
Zweite Hälfte
19. Jahrhundert
@maxkaiser
Google Bücher
Digitale Bibliothek
Österreichische
Nationalbibliothek
@maxkaiser
Eckpunkte
der
Kooperation
@maxkaiser
→ Urheberrecht
→ Ausschließlich gemeinfreie Werke
→ Nicht-Exklusivität
→ Digitalisierung auch mit anderen
Partn...
@maxkaiser@maxkaiser@maxkaiser
→ Zugänglichkeit der Digitalisate
→ Weltweit und kostenfrei für nicht-
kommerzielle Nutzung...
@maxkaiser
70+ MitarbeiterInnen der
Österreichischen Nationalbibliothek
Davon 20+ ausschließlich für Projekt
→ Bücher-Logi...
@maxkaiser
Wo steht
das Projekt
heute?
@maxkaiser
Frühjahr 2011
Beginn Digitalisierung
@maxkaiser~162.000Bände digitalisiert
heute
@maxkaiser~185.000Bände digitalisiert
Ende 2013
@maxkaiser
Jahrhunderte …
@maxkaiser
Sprachen …
@maxkaiser
Frühjahr 2013
Launch Bookviewer und Volltextsuche
@maxkaiser
Workflow
@maxkaiser
„book flow“
„digital flow“
@maxkaiser
book flow
@maxkaiser
→
→ @maxkaiser
Keine individuelle Auswahl …
@maxkaiser
→
→ @maxkaiser
Format
@maxkaiser
Format
@maxkaiser
→
→ @maxkaiser
Zustand
@maxkaiser
Konservatorische
Evaluierung
@maxkaiser
→
→ @maxkaiser
Wert
@maxkaiser
Logistik im
Prunksaal
@maxkaiser
Herausforderungen…
@maxkaiser
→
→ @maxkaiser
Herausforderungen…
@maxkaiser
→
→ @maxkaiser
Barcodierung
@maxkaiser
→
→ @maxkaiser
→
Anpassung Metadaten
@maxkaiser
→
→ @maxkaiser
8 Minuten / Buch
@maxkaiser
→
→ @maxkaiser
Bereit für die Digitalisierung …
→Digitalisierungszentrum in Deutschland
→Bücher ~ 3 Monate nich...
@maxkaiser@maxkaiser
@maxkaiser
book flowdigital flow
@maxkaiser
Digitalisierung
Daten-Download
Buchlogistik
Qualitätskontrolle
Speicherung
Access
ADOCO
(Austrian Books Online
...
@maxkaiser
Workflow in ADOCO
Download Datenpaket von Google GRIN via HTTP
Entschlüsseln des Pakets via gnupg
Paket in Verz...
@maxkaiserbig data …
http://blogs.loc.gov/digitalpreservation/files/2012/05/3875300483_a8875fea1c-500.jpg
@maxkaiser
Datenmenge
Durchschnitt pro Datenpaket (~Buch): 101 MB
101 MB * 600.000 = 60 TB
@maxkaiser
Datenspeicherung & Access
→ Datenspeicherung: inhouse
→ Daten redundant gespeichert
→ Access-Kopien aus JPEG200...
@maxkaiser
Download und Speicherung
ADOCO
JPEG2000
HOCR
METS
TXT
ABO NAS-Speicher
Pair Tree-Algorithmus
ca. 60 TB
@maxkaiser
ÖNB
Hadoop-
Cluster
@maxkaiser
ÖNB Hadoop-Cluster: Laufender Betrieb
→ Regelmäßige MD5-Prüfsummenkontrolle aller
Dateien
→ Summation sämtliche...
@maxkaiser
→Gezielte Experimente mit
Taverna Workflows
→MapReduce in der
Qualitätskontrolle
→Ermittlung von
Kenngrößen in ...
@maxkaiser
→ Bildvergleich zur Analyse von Unterschieden
zweier Versionen eines digitalisierten Buchs
→ z.B. bei Re-Downlo...
@maxkaiser
Qualitäts-
kontrolle
@maxkaiser
→Automatisierte Routinen
→Repräsentative Stichproben
→EDV-unterstütztes Finden von Fehler-
Clustern
→Fehler-Kan...
@maxkaiser
Durchscheinen
nicht-kritisch
@maxkaiser
Schnitt-Fehler
kritisch!
@maxkaiser
Qualitätskontrolle
via Sampling
Re-Processing
Re-Download
@maxkaiser
Fehler behoben
@maxkaiser
Langzeitarchivierung
→Methoden zum Management großer
Datenmengen
→Integration der Qualitätskontrolle in
Workflo...
@maxkaiser
Access
@maxkaiser
Katalog /
“Quick Search”
Volltextsuche
ABO
Book Viewer
ANNO
Zeitungsportal
technical slides ahead!
@maxkaiser
JPEG2000
HOCR
METS
TXT
ADOCO
METS-Generierung
Speicherung auf UDM-
Storage
ALEPH
X-Server
ANNO
Europeana
Newspa...
@maxkaiser
CDS
Content Delivery
Service
UDM
(Speicher)
Quick
Search /
Primo
Book-
viewer
ABO-NAS
Image Server:
JPEG2000JP...
@maxkaiser
Verlinkung durch Permalinks
→ Persistente Verlinkung
→ Auflösung über Resolver der ÖNB:
→ Beispiel:
http://data...
@maxkaiser
ABO  Verbund  Primo
→ Pro Buch (Barcode)
→ Format der Datenlieferung:
AC02030899 655o L $$mV:AT-OBV;B:AT-
OeN...
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
@maxkaiser
Volltextsuche
@maxkaiser
→Volltextsuche in historischen Textquellen
der Österreichischen Nationalbibliothek
→Bücher, Zeitungen, Zeitschr...
@maxkaiser
Volltextindex: aktueller Stand
→ 350.000 Dokumente
→150.000 Bücher
→200.000 Zeitungsausgaben
→ 52 Millionen Sei...
@maxkaiser
@maxkaiser
@maxkaiser
ABO
Book Viewer
@maxkaiser
Ausblick
@maxkaiser
→Mobilversion des Book-Viewers
→Volltext: neue Möglichkeiten für Forschung
→Suche nach Synonymen, Named Entitie...
@maxkaiser
→ Tagung:
„Was können und wollen Digital Humanities“
25. Oktober 2013
→ Österreichische Nationalbibliothek
→ ht...
@maxkaiser
Informationen
www.onb.ac.at/austrianbooksonline
www.onb.ac.at/austrianbooksonline/faq.htm
twitter.com/abooksonl...
@maxkaiser
Danke!
max.kaiser@onb.ac.at
www.onb.ac.at
www.slideshare.net/maxkaiser
www.linkedin.com/in/maxkaiser
gplus.to/m...
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Nächste SlideShare
Wird geladen in …5
×

Austrian Books Online - Digitaler Workflow und Access

1.366 Aufrufe

Veröffentlicht am

Presentation at "Nationale Initiativen zur digitalen Information", Vienna, 04 October 2013

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.366
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
346
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Austrian Books Online - Digitaler Workflow und Access

  1. 1. @maxkaiser Austrian Books Online Digitaler Workflow und Access Max Kaiser Leiter Forschung & Entwicklung Österreichische Nationalbibliothek „Nationale Initiativen zur digitalen Information“ Wien, 4. Oktober 2013
  2. 2. @maxkaiser Austrian Books Online www.onb.ac.at/austrianbooksonline/
  3. 3. @maxkaiser www.slideshare.net/maxkaiser
  4. 4. @maxkaiser Überblick → Projektziele → Status Quo → Workflow: Bücher / Daten → Access / Volltextsuche → Ausblick
  5. 5. @maxkaiser Digitalisierung des gesamten historischen Buchbestands der Österreichischen Nationalbibliothek
  6. 6. @maxkaiser 600.000 Bände 200 Mio Seiten
  7. 7. @maxkaiser 16. Jahrhundert Zweite Hälfte 19. Jahrhundert
  8. 8. @maxkaiser Google Bücher Digitale Bibliothek Österreichische Nationalbibliothek
  9. 9. @maxkaiser Eckpunkte der Kooperation
  10. 10. @maxkaiser → Urheberrecht → Ausschließlich gemeinfreie Werke → Nicht-Exklusivität → Digitalisierung auch mit anderen Partnern möglich → Transparenz → Öffentliche Ausschreibung → Detaillierte FAQs online
  11. 11. @maxkaiser@maxkaiser@maxkaiser → Zugänglichkeit der Digitalisate → Weltweit und kostenfrei für nicht- kommerzielle Nutzung → Europeana und andere Plattformen → Weitergabe an Forschungspartner
  12. 12. @maxkaiser 70+ MitarbeiterInnen der Österreichischen Nationalbibliothek Davon 20+ ausschließlich für Projekt → Bücher-Logistik → Anpassung Metadaten → Katalogisierung → Konservierung / Restaurierung → Qualitätskontrolle → Software-Entwicklung → Projektmanagement
  13. 13. @maxkaiser Wo steht das Projekt heute?
  14. 14. @maxkaiser Frühjahr 2011 Beginn Digitalisierung
  15. 15. @maxkaiser~162.000Bände digitalisiert heute
  16. 16. @maxkaiser~185.000Bände digitalisiert Ende 2013
  17. 17. @maxkaiser Jahrhunderte …
  18. 18. @maxkaiser Sprachen …
  19. 19. @maxkaiser Frühjahr 2013 Launch Bookviewer und Volltextsuche
  20. 20. @maxkaiser Workflow
  21. 21. @maxkaiser „book flow“ „digital flow“
  22. 22. @maxkaiser book flow
  23. 23. @maxkaiser → → @maxkaiser Keine individuelle Auswahl …
  24. 24. @maxkaiser → → @maxkaiser Format
  25. 25. @maxkaiser Format
  26. 26. @maxkaiser → → @maxkaiser Zustand
  27. 27. @maxkaiser Konservatorische Evaluierung
  28. 28. @maxkaiser → → @maxkaiser Wert
  29. 29. @maxkaiser Logistik im Prunksaal
  30. 30. @maxkaiser Herausforderungen…
  31. 31. @maxkaiser → → @maxkaiser Herausforderungen…
  32. 32. @maxkaiser → → @maxkaiser Barcodierung
  33. 33. @maxkaiser → → @maxkaiser → Anpassung Metadaten
  34. 34. @maxkaiser → → @maxkaiser 8 Minuten / Buch
  35. 35. @maxkaiser → → @maxkaiser Bereit für die Digitalisierung … →Digitalisierungszentrum in Deutschland →Bücher ~ 3 Monate nicht benützbar
  36. 36. @maxkaiser@maxkaiser
  37. 37. @maxkaiser book flowdigital flow
  38. 38. @maxkaiser Digitalisierung Daten-Download Buchlogistik Qualitätskontrolle Speicherung Access ADOCO (Austrian Books Online Download & Control)
  39. 39. @maxkaiser Workflow in ADOCO Download Datenpaket von Google GRIN via HTTP Entschlüsseln des Pakets via gnupg Paket in Verzeichnis entpacken MD5-Kontrolle aller Dateien (QA) Ablage in Pairtree-Verzeichnis (NAS Shares) GRIN-Metadaten mit aktuellem Zeitstempel aktualisieren
  40. 40. @maxkaiserbig data … http://blogs.loc.gov/digitalpreservation/files/2012/05/3875300483_a8875fea1c-500.jpg
  41. 41. @maxkaiser Datenmenge Durchschnitt pro Datenpaket (~Buch): 101 MB 101 MB * 600.000 = 60 TB
  42. 42. @maxkaiser Datenspeicherung & Access → Datenspeicherung: inhouse → Daten redundant gespeichert → Access-Kopien aus JPEG2000 Master Files on-the-fly generiert
  43. 43. @maxkaiser Download und Speicherung ADOCO JPEG2000 HOCR METS TXT ABO NAS-Speicher Pair Tree-Algorithmus ca. 60 TB
  44. 44. @maxkaiser ÖNB Hadoop- Cluster
  45. 45. @maxkaiser ÖNB Hadoop-Cluster: Laufender Betrieb → Regelmäßige MD5-Prüfsummenkontrolle aller Dateien → Summation sämtlicher Dateigrößen zur Steuerung der Speicherplanung → Abfragen über die METS Metadaten → Verteiltes METS-Parsen, Abfragen über HIVE (HiveQL)
  46. 46. @maxkaiser →Gezielte Experimente mit Taverna Workflows →MapReduce in der Qualitätskontrolle →Ermittlung von Kenngrößen in großen Datenmengen ONB Hadoop Cluster: Use Cases Beispiel: JPEG000-Validierung
  47. 47. @maxkaiser → Bildvergleich zur Analyse von Unterschieden zweier Versionen eines digitalisierten Buchs → z.B. bei Re-Download von Digitalisaten → Tool: Matchbox (EU-Projekt SCAPE) ONB Hadoop Cluster: Bildvergleich
  48. 48. @maxkaiser Qualitäts- kontrolle
  49. 49. @maxkaiser →Automatisierte Routinen →Repräsentative Stichproben →EDV-unterstütztes Finden von Fehler- Clustern →Fehler-Kandidaten manuell überprüft →Suche nach systematischen und kritischen Fehlern
  50. 50. @maxkaiser Durchscheinen nicht-kritisch
  51. 51. @maxkaiser Schnitt-Fehler kritisch!
  52. 52. @maxkaiser Qualitätskontrolle via Sampling Re-Processing Re-Download
  53. 53. @maxkaiser Fehler behoben
  54. 54. @maxkaiser Langzeitarchivierung →Methoden zum Management großer Datenmengen →Integration der Qualitätskontrolle in Workflow und Werkzeuge →Bereitstellung über Permalinks →Metadaten für Langzeitarchivierung
  55. 55. @maxkaiser Access
  56. 56. @maxkaiser Katalog / “Quick Search” Volltextsuche ABO Book Viewer ANNO Zeitungsportal
  57. 57. technical slides ahead!
  58. 58. @maxkaiser JPEG2000 HOCR METS TXT ADOCO METS-Generierung Speicherung auf UDM- Storage ALEPH X-Server ANNO Europeana Newspapers <<metadata>> UDM Holt METS- und OCR-Daten - Indexierung mit SOLR/Lucene Gespiegelter Index für Suche INDEXER Suchserver <<poll updates>> <DocID+METS> <replication> METS Beinhalten URLs (auf Content Delivery Service zeigend) zu OCR-Files
  59. 59. @maxkaiser CDS Content Delivery Service UDM (Speicher) Quick Search / Primo Book- viewer ABO-NAS Image Server: JPEG2000JPG Konvertierung IIP
  60. 60. @maxkaiser Verlinkung durch Permalinks → Persistente Verlinkung → Auflösung über Resolver der ÖNB: → Beispiel: http://data.onb.ac.at/ABO/%2BZ167203406 → Leitet um auf http://digital.onb.ac.at/OnbViewer/viewer .faces?doc=ABO_Z167203406
  61. 61. @maxkaiser ABO  Verbund  Primo → Pro Buch (Barcode) → Format der Datenlieferung: AC02030899 655o L $$mV:AT-OBV;B:AT- OeNB$$qapplication/html$$uhttp://data.onb .ac.at/ABO/%2BZ164219105$$xONB- ABO$$3Volltext → Liste als Feed an OBVSG → Laden in ca. 30.000er Paketen nach ACC01 → Über ACC-Pipe  PRIMO
  62. 62. @maxkaiser
  63. 63. @maxkaiser
  64. 64. @maxkaiser
  65. 65. @maxkaiser
  66. 66. @maxkaiser Volltextsuche
  67. 67. @maxkaiser →Volltextsuche in historischen Textquellen der Österreichischen Nationalbibliothek →Bücher, Zeitungen, Zeitschriften →Integration in Quick Search / Primo →Produktiv seit April 2013
  68. 68. @maxkaiser Volltextindex: aktueller Stand → 350.000 Dokumente →150.000 Bücher →200.000 Zeitungsausgaben → 52 Millionen Seiten → 1 Milliarde unterschiedliche Terme → Volltextindex 280 GB
  69. 69. @maxkaiser
  70. 70. @maxkaiser
  71. 71. @maxkaiser ABO Book Viewer
  72. 72. @maxkaiser Ausblick
  73. 73. @maxkaiser →Mobilversion des Book-Viewers →Volltext: neue Möglichkeiten für Forschung →Suche nach Synonymen, Named Entities (Personen und Orte) →Linked Data →Services für „datenzentrierte“ Forschung in Kultur- und Sozialwissenschaften →„Digital Humanities“
  74. 74. @maxkaiser → Tagung: „Was können und wollen Digital Humanities“ 25. Oktober 2013 → Österreichische Nationalbibliothek → http://dhtagungwien.eventbrite.de/
  75. 75. @maxkaiser Informationen www.onb.ac.at/austrianbooksonline www.onb.ac.at/austrianbooksonline/faq.htm twitter.com/abooksonline
  76. 76. @maxkaiser Danke! max.kaiser@onb.ac.at www.onb.ac.at www.slideshare.net/maxkaiser www.linkedin.com/in/maxkaiser gplus.to/maxkaiser twitter.com/maxkaiser

×