Digitalisierungsprojekte zukunftssicher gestalten:              Planung und DurchführungFit für die digitale Bibliothek?  ...
Fit – wofür?•   Für den (DFG) Projektantrag•   Für die Direktion / die Politik•   Für die Ewigkeit (LZA)•   Für die Nutzer
Das GöttingerDigitalisierungszentrum • Abteilung der Staats- und Universitätsbibliothek   Göttingen (SUB) • seit 1997, zu ...
Ablauf eines Digitalisierungsprojektes 1.    Zielsetzung 2.    Auswahl des Materials 3.    Benchmarking / Standards 4.    ...
Management Wheel
Logistiksoftware•   Bildet Workflow ab•   Organisationseinheit: physischer Band•   Controlling•   Personalmanagement•   Au...
Workflow Orchestrierung
Bearbeitungsstand
Controlling
Laufzeiten
Modulares Open Source       Konzept
5. Arbeitsvorbereitung• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme...
6. Digitalisierung• Scanumfang  –   Von Buchdeckel zu Buchdeckel  –   Alle Seiten  –   Titel + Inhalt  –   Einzelne Kapite...
7. Qualitätskontrolle• Fehlende Seiten• Doppelte Seiten• Seitenreihenfolge• Qualität• Schmutz• Werkzeug: Bildviewer (etwa:...
8. Imagenachbearbeitung Bildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de- speck...
Volltexterfassung• OCR – „schmutzig“ (unkorrigiert)• OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• ...
Finereader Lizenzen
Ausgabevariationen Volltext• Versteckt: nur für Retrieval   – Highlighting der Treffer im Image (Wortkoordinaten benötigt)...
Das neue Nutzungsparadigma       Vergangenheit              Gegenwart Projektbezogene Webseiten           Portale  Institu...
Zukunft (sehr bald!)• Dezentrale Web Services   – Basierend auf      •   Personalisierung      •   Soziale / Wissenschaftl...
Konsequenzen• Bedeutungswandel  – Weniger:     • Eigner / Institution     • Niederige Qualität     • Abgeschottete “Black ...
DFG Viewer (Alpha)
Benötigte Schnittstellen• OAI Harvesting• Eines der definierten Metadaten-Profile    – ZVDD    – MuseumDAT    – EAI• Adres...
9. Metadaten• Bibliographische Metadaten (Mindeststandard)  – Verbindung mit dem Verbundkatalog (PICA/GBV)    und dem OPAC...
Warum Strukturdaten?Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
Strukturdaten Pro / Contra• Pro  – Bessere Bedienung        • Navigation im PDF        • Digitales Inhaltsverzeichnis auf ...
Das METS Dokumentenmodell• Logische Struktur    – Monographie / Kapitel / Artikel etc.• Physische Struktur    – Seiten, Sp...
Goobi METS Editor
IntegrierterBildbetrachter   OCR integration    (AJAX)
10. Präsentation / Verwertung• Online-Präsentation  – Seitenweise in Browser  – Nur als gebundene Datei (PDF, DEJAVU, Mult...
Ausgabe im GDZ• Rendering „on the fly“ – frei wählbarer  Zoomfaktor• Pre-Rendering der nächsten Seite• Im PDF (strukturier...
11. Zugang / Evaluation•   Gemeinfreies Material     – Urheberrecht: vor 1900     – Weltweit freier Zugang (open access)• ...
Zugriffsstatistik• Counter.org• Unterteilung nach  – Material  – Nutzer• Anonymisiert / personalisiert• Auswertungsinterva...
Schnittstellen• GDZ-Dokumentenserverserver (incl. OAI)• OPAC der SUB Göttingen• Flexible Präsentationssysteme (Virtuelle  ...
Schnittstellen zu Diensten• Geo-Tagging• Wikipedia• Social Bookmarking• Verwertungsdienste   – Print on Demand   – OCR Cor...
12. Langzeitarchivierung• Über welchen Zeitraum reden wir?  – 10 Jahre (CD-Rs)  – 50 Jahre  – 200 Jahre• Drei Komponenten:...
JHOVE  JSTOR/Harvard Object Validation          EnvironmentKonformitätsvalidierung für:– AIFF, AIFF-C– ASCII– GIF 87a, 89a...
Der Dornröschenschlaf der        Bibliotheken• Was haben wir in den letzten Jahren  erfunden?  – Retrodigitalisierung  – L...
Abwägung• Nicht das „Grundhandwerk“  vergessen/verlernen• Zweite Schritt vor dem Ersten Schritt  Problematik• Bibliotheken...
Vielen Dank für Ihre Aufmerksamkeit!                              Ralf Stockmann             stockmann@sub.uni-goettingen....
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Nächste SlideShare
Wird geladen in …5
×

Fit für die digitale Bibliothek? (2007)

793 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
793
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
5
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Fit für die digitale Bibliothek? (2007)

  1. 1. Digitalisierungsprojekte zukunftssicher gestalten: Planung und DurchführungFit für die digitale Bibliothek? Dipl. Sozw. Ralf Stockmann Niedersächsische Staats- und Universitätsbibliothek Göttingen
  2. 2. Fit – wofür?• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer
  3. 3. Das GöttingerDigitalisierungszentrum • Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB) • seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG) • Nationales und Internationales Service- und Kompetenzzentrum • Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich • Standardisierungsaktivitäten • Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen Seiten online bereitgestellt • Konzeption, Beratung und Durchführung von Projekten (häufig kooperativ) • Zielsetzung: Masse UND Klasse
  4. 4. Ablauf eines Digitalisierungsprojektes 1. Zielsetzung 2. Auswahl des Materials 3. Benchmarking / Standards 4. Produktionsorganisation / Logistik 5. Arbeitsvorbereitungen (AV) 6. Digitalisierung 7. Qualitätskontrolle (QK) 8. Bildoptimierung / Verarbeitung 9. OCR / Volltextgenerierung 10. Metadatengenerierung 11. Präsentation / Verwertung 12. Zugang / Evaluation 13. (Langzeit) Archivierung
  5. 5. Management Wheel
  6. 6. Logistiksoftware• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …
  7. 7. Workflow Orchestrierung
  8. 8. Bearbeitungsstand
  9. 9. Controlling
  10. 10. Laufzeiten
  11. 11. Modulares Open Source Konzept
  12. 12. 5. Arbeitsvorbereitung• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner
  13. 13. 6. Digitalisierung• Scanumfang – Von Buchdeckel zu Buchdeckel – Alle Seiten – Titel + Inhalt – Einzelne Kapitel / Artikel• Ziel – Auf lokalen Scanrechner – Auf zentralen Scanserver • On the fly • Nach Digitalisierung • Im Batchbetrieb (über Nacht)
  14. 14. 7. Qualitätskontrolle• Fehlende Seiten• Doppelte Seiten• Seitenreihenfolge• Qualität• Schmutz• Werkzeug: Bildviewer (etwa: ACDSee)• Rückgabe an Scanner / Feedback / selbst korrigieren
  15. 15. 8. Imagenachbearbeitung Bildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de- speckle und speckle“Original nach de-speckling nachspeckling
  16. 16. Volltexterfassung• OCR – „schmutzig“ (unkorrigiert)• OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit automatischem Fehlerabgleich – Ca.: 1€ pro 1.000 Zeichen• Problematisch: Fraktur, Handschriften, Inkunablen, … – Warten! Die OCR kann jederzeit nachgeholt
  17. 17. Finereader Lizenzen
  18. 18. Ausgabevariationen Volltext• Versteckt: nur für Retrieval – Highlighting der Treffer im Image (Wortkoordinaten benötigt)• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)• PDF: – Volltext hinter Image – Volltext vor Image (Auffüllung)• Ausgabe Volltext – Ohne Formatierung – Mit Formatierung – Schmutzig / bereinigt – Zur Bewertung der Suchgenauigkeit – TEI Format: für Wissenschaftler direkt verwertbar• Rechtliche Rahmenbedingungen (Subito-Urteil)
  19. 19. Das neue Nutzungsparadigma Vergangenheit Gegenwart Projektbezogene Webseiten Portale Institutionelle Repositorien Verteilte Suche
  20. 20. Zukunft (sehr bald!)• Dezentrale Web Services – Basierend auf • Personalisierung • Soziale / Wissenschaftliche Communities • Semantische Netze • Grid Computing (Ende der Ressourcenknappheit) – Bieten an: • Dynamische, personalisierte Dienste (privates Bücherregal, …) • Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von Informationen • Collaborative Arbeitsumgebungen • Adressierung kleinster Informationseinheiten• “Scientific Mashups” – Online / Offline wird verschwinden (ist!) – NASA Portal
  21. 21. Konsequenzen• Bedeutungswandel – Weniger: • Eigner / Institution • Niederige Qualität • Abgeschottete “Black Box” Software mit “vanilla” features – Mehr: • Metadaten • Volltext • Granularität • Hohe Auflösungen • Schnittstellen / Protokolle • Spezialisierte, gekapselte, kombinierbare Werkzeuge• Beispiel: DFG-Viewer
  22. 22. DFG Viewer (Alpha)
  23. 23. Benötigte Schnittstellen• OAI Harvesting• Eines der definierten Metadaten-Profile – ZVDD – MuseumDAT – EAI• Adressierbarkeit einzelner Images• Sinnvoll aber freiwillig: – RSS-Feed (Neu hinzugekommene Werke, demnächst über personalisierte Nutzersuchen) – Open URL – TEI• Sehr klare Standardisierungstendenzen
  24. 24. 9. Metadaten• Bibliographische Metadaten (Mindeststandard) – Verbindung mit dem Verbundkatalog (PICA/GBV) und dem OPAC• Technische Metadaten• Datenbanken (z.B. Wörterbücher)• Klassifizierungen (z.B. Dewey)• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
  25. 25. Warum Strukturdaten?Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
  26. 26. Strukturdaten Pro / Contra• Pro – Bessere Bedienung • Navigation im PDF • Digitales Inhaltsverzeichnis auf Webseite – Exaktere Suche • Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext unter) • Verlässlich – Erweiterte Dienste • Download einzelner Kapitel als PDF • Zusammenbinden neuer „digitaler Bücher“ mit Print on Demand• Contra – Produktion zeitaufwändig (30-50 Minuten pro Band) – Teilweise subsumierbar durch OCR-Volltext
  27. 27. Das METS Dokumentenmodell• Logische Struktur – Monographie / Kapitel / Artikel etc.• Physische Struktur – Seiten, Spalten• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)• Vorteile: – Alles in 1 Datei (XML) – Komplette Dokumentlogik ist „aus sich heraus“ verstehbar – Import/Export• Nachteil: bisher aufwendige Implementierung
  28. 28. Goobi METS Editor
  29. 29. IntegrierterBildbetrachter OCR integration (AJAX)
  30. 30. 10. Präsentation / Verwertung• Online-Präsentation – Seitenweise in Browser – Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF) – Eigene Web-Applikation • British Library • Open Content Aliance• Offline Nutzung – Intranet (s.o.) – CD / DVD • Images • Applikation – FTP
  31. 31. Ausgabe im GDZ• Rendering „on the fly“ – frei wählbarer Zoomfaktor• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende TIFFs• Digitales Inhaltsverzeichnis
  32. 32. 11. Zugang / Evaluation• Gemeinfreies Material – Urheberrecht: vor 1900 – Weltweit freier Zugang (open access)• Geschütztes Material – Beispiel Digizeitschriften: – Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG Wort) – Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur Verfügung – Ausschüttung an Verlag und VG• Technische Umsetzung – IP-Bereiche – Passwort / Nutzername – Konsortien – Backend-Verwaltung – Biling-Service
  33. 33. Zugriffsstatistik• Counter.org• Unterteilung nach – Material – Nutzer• Anonymisiert / personalisiert• Auswertungsintervall• Technische Umsetzung – Logfilenalyse (etwa: Apache Webserver) – Integriertes Nutzertracking (Session Cookies)
  34. 34. Schnittstellen• GDZ-Dokumentenserverserver (incl. OAI)• OPAC der SUB Göttingen• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)• Verbundkataloge• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)• EROMM (Digitale Master)• Deutsche Digitale Bibliothek (DDB)• European Digital Library (EDL) – November 2008!
  35. 35. Schnittstellen zu Diensten• Geo-Tagging• Wikipedia• Social Bookmarking• Verwertungsdienste – Print on Demand – OCR Correction on Demand – Digitization on Demand• Es wird immer einfacher! – API (Application Programming Interface)• Zentrales Diensteverzeichnis für Digitale Bibliotheken
  36. 36. 12. Langzeitarchivierung• Über welchen Zeitraum reden wir? – 10 Jahre (CD-Rs) – 50 Jahre – 200 Jahre• Drei Komponenten: – Physikalische Archivierung – Lesegeräte • NASA – Formate • PDF, .DOC
  37. 37. JHOVE JSTOR/Harvard Object Validation EnvironmentKonformitätsvalidierung für:– AIFF, AIFF-C– ASCII– GIF 87a, 89a– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2– JPEG 2000 JP2, JPX– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, LinearizedPDF– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,2.2, DNG– UTF-8– WAVE, BWF– XMLhttp://hul.harvard.edu/jhove/
  38. 38. Der Dornröschenschlaf der Bibliotheken• Was haben wir in den letzten Jahren erfunden? – Retrodigitalisierung – Langzeitarchivierung• Was hätten wir erfinden sollen? – eLearning – Google • Google Maps – Del.icio.us – YouTube – Wikipedia – iPhone
  39. 39. Abwägung• Nicht das „Grundhandwerk“ vergessen/verlernen• Zweite Schritt vor dem Ersten Schritt Problematik• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
  40. 40. Vielen Dank für Ihre Aufmerksamkeit! Ralf Stockmann stockmann@sub.uni-goettingen.de Göttinger Digitalisierungszentrum

×