2. Fit – wofür?
• Für den (DFG) Projektantrag
• Für die Direktion / die Politik
• Für die Ewigkeit (LZA)
• Für die Nutzer
3. Das Göttinger
Digitalisierungszentrum
• Abteilung der Staats- und Universitätsbibliothek
Göttingen (SUB)
• seit 1997, zu Beginn 4 Jahre gefördert von der
Deutschen Forschungsgemeinschaft (DFG)
• Nationales und Internationales Service- und
Kompetenzzentrum
• Entwicklung eines Produktionsworkflows für große
Mengen an Digitalisaten im Printbereich
• Standardisierungsaktivitäten
• Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen
Seiten online bereitgestellt
• Konzeption, Beratung und Durchführung von Projekten
(häufig kooperativ)
• Zielsetzung: Masse UND Klasse
13. 6. Digitalisierung
• Scanumfang
– Von Buchdeckel zu Buchdeckel
– Alle Seiten
– Titel + Inhalt
– Einzelne Kapitel / Artikel
• Ziel
– Auf lokalen Scanrechner
– Auf zentralen Scanserver
• On the fly
• Nach Digitalisierung
• Im Batchbetrieb (über Nacht)
15. 8. Imagenachbearbeitung
Bildnachbearbeitung mit „PixEdit“ im Batchmodus:
Ausschneiden und Zentrieren, Reinigen, „de-
speckle und speckle“
Original nach de-speckling nachspeckling
16.
17. Volltexterfassung
• OCR – „schmutzig“ (unkorrigiert)
• OCR – korrigiert (über 99,5%)
• Manuell – einfach mit Korrekturlesen
• Manuell – Doublekeying mit
automatischem Fehlerabgleich
– Ca.: 1€ pro 1.000 Zeichen
• Problematisch: Fraktur, Handschriften,
Inkunablen, …
– Warten! Die OCR kann jederzeit nachgeholt
19. Ausgabevariationen Volltext
• Versteckt: nur für Retrieval
– Highlighting der Treffer im Image (Wortkoordinaten benötigt)
• Anzeige des Trefferkontext für Suchergebnis-Kontrolle
(+/- 100 Zeichen)
• PDF:
– Volltext hinter Image
– Volltext vor Image (Auffüllung)
• Ausgabe Volltext
– Ohne Formatierung
– Mit Formatierung
– Schmutzig / bereinigt
– Zur Bewertung der Suchgenauigkeit
– TEI Format: für Wissenschaftler direkt verwertbar
• Rechtliche Rahmenbedingungen (Subito-Urteil)
20.
21.
22.
23. Das neue Nutzungsparadigma
Vergangenheit Gegenwart
Projektbezogene Webseiten Portale
Institutionelle Repositorien Verteilte Suche
24. Zukunft (sehr bald!)
• Dezentrale Web Services
– Basierend auf
• Personalisierung
• Soziale / Wissenschaftliche Communities
• Semantische Netze
• Grid Computing (Ende der Ressourcenknappheit)
– Bieten an:
• Dynamische, personalisierte Dienste (privates Bücherregal, …)
• Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von
Informationen
• Collaborative Arbeitsumgebungen
• Adressierung kleinster Informationseinheiten
• “Scientific Mashups”
– Online / Offline wird verschwinden (ist!)
– NASA Portal
30. Strukturdaten Pro / Contra
• Pro
– Bessere Bedienung
• Navigation im PDF
• Digitales Inhaltsverzeichnis auf Webseite
– Exaktere Suche
• Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext
unter)
• Verlässlich
– Erweiterte Dienste
• Download einzelner Kapitel als PDF
• Zusammenbinden neuer „digitaler Bücher“ mit Print on
Demand
• Contra
– Produktion zeitaufwändig (30-50 Minuten pro Band)
– Teilweise subsumierbar durch OCR-Volltext
31. Das METS Dokumentenmodell
• Logische Struktur
– Monographie / Kapitel / Artikel etc.
• Physische Struktur
– Seiten, Spalten
• Beschreibende Metadaten (Autor, Jahr etc.)
• Technische Metadaten (Bildformat/Auflösung etc.)
• Volltext (mit Wortkoordinaten)
• Eingebettete Dateien (Images)
• Vorteile:
– Alles in 1 Datei (XML)
– Komplette Dokumentlogik ist „aus sich heraus“ verstehbar
– Import/Export
• Nachteil: bisher aufwendige Implementierung
34. 10. Präsentation / Verwertung
• Online-Präsentation
– Seitenweise in Browser
– Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF)
– Eigene Web-Applikation
• British Library
• Open Content Aliance
• Offline Nutzung
– Intranet (s.o.)
– CD / DVD
• Images
• Applikation
– FTP
35.
36. Ausgabe im GDZ
• Rendering „on the fly“ – frei wählbarer
Zoomfaktor
• Pre-Rendering der nächsten Seite
• Im PDF (strukturiert) originalauflösende
TIFFs
• Digitales Inhaltsverzeichnis
37. 11. Zugang / Evaluation
• Gemeinfreies Material
– Urheberrecht: vor 1900
– Weltweit freier Zugang (open access)
• Geschütztes Material
– Beispiel Digizeitschriften:
– Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG
Wort)
– Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur
Verfügung
– Ausschüttung an Verlag und VG
• Technische Umsetzung
– IP-Bereiche
– Passwort / Nutzername
– Konsortien
– Backend-Verwaltung
– Biling-Service
39. Schnittstellen
• GDZ-Dokumentenserverserver (incl. OAI)
• OPAC der SUB Göttingen
• Flexible Präsentationssysteme (Virtuelle
Fachbibliotheken etc.)
• Verbundkataloge
• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)
• EROMM (Digitale Master)
• Deutsche Digitale Bibliothek (DDB)
• European Digital Library (EDL)
– November 2008!
40. Schnittstellen zu Diensten
• Geo-Tagging
• Wikipedia
• Social Bookmarking
• Verwertungsdienste
– Print on Demand
– OCR Correction on Demand
– Digitization on Demand
• Es wird immer einfacher!
– API (Application Programming Interface)
• Zentrales Diensteverzeichnis für Digitale Bibliotheken
41. 12. Langzeitarchivierung
• Über welchen Zeitraum reden wir?
– 10 Jahre (CD-Rs)
– 50 Jahre
– 200 Jahre
• Drei Komponenten:
– Physikalische Archivierung
– Lesegeräte
• NASA
– Formate
• PDF, .DOC
43. Der Dornröschenschlaf der
Bibliotheken
• Was haben wir in den letzten Jahren
erfunden?
– Retrodigitalisierung
– Langzeitarchivierung
• Was hätten wir erfinden sollen?
– eLearning
– Google
• Google Maps
– Del.icio.us
– YouTube
– Wikipedia
– iPhone
44. Abwägung
• Nicht das „Grundhandwerk“
vergessen/verlernen
• Zweite Schritt vor dem Ersten Schritt
Problematik
• Bibliotheken brauchen auch Erfinder, und
eine Umgebung in der sie sich wohl fühlen!
45. Vielen Dank für Ihre Aufmerksamkeit!
Ralf Stockmann
stockmann@sub.uni-goettingen.de
Göttinger Digitalisierungszentrum