Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der Wissenschaftspraxis<br />Dipl. Sozw. Ralf Stoc...
Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet<br />Auftrag: Grundl...
Ausgangslage<br />Deutschland: DFG-Praxisregeln<br />Verwendung von TIFF<br />Kompression nur verlustfrei<br />KB: Einführ...
Produktion des GDZ 2010<br />8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden<br />Durchschnitt...
Standpunkt DFG: <br />„Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur dur...
Lösungsansatz: Kompression<br />Für bitonaleScans schon immer erfolgreich eingesetzt<br />600 dpi optische Auflösung<br />...
JPEG 2000<br />Pro<br />Sowohl lossless als verlustbehaftete Kompression möglich<br />Quellofen<br />Kompression granular ...
These<br />„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Vari...
Gegenthesen<br />Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Di...
Beispiel JPG Artefakte<br />
Beispiel Headroom<br />Original RAW<br />Optimierung aus JPG<br />Optimierung aus RAW<br />
Testsystem<br />Mac OS 10.6.2<br />Adobe Photoshop CS4<br />Adobe JPEG 2000 Filter<br />ZEUTSCHEL OS 10000 300 dpi Buchsca...
Test 1Auswirkungen Kompression<br />300 dpi<br />15,7 x 22,6 cm<br />Ca. 5 Megapixel<br />
Messverfahren: Differenzbild<br />Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt<br />Ebene 1: Referenzebene (TIF...
Beispiel: einheitliche Störung (Rauschfilter)<br />Original<br />3% Rauschen<br />
Differenzbild(bitonalisiert mit threshhold 3)<br />Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichun...
Partielle Verfremdungen: unscharf maskieren<br />Original<br />unscharfmaskiert<br />Differenzwert 31<br />
Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)<br />Original<br />90 / -<br />8...
Differenzmessung(Kompression JPEG 2000 / Differenzwert)<br />Lossless / 0<br />90 / 0<br />80 / 1<br />70 / 8<br />60 / 41...
Übersicht<br />
Test 2Varianz bei Neuaufnahme<br />Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert d...
Visueller Vergleich<br />Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar<br />
Differenzbild TIFF zu TIFF<br />Differenzwert 82<br />Original<br />
Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurde<br />Differenzwert 86<br />nach Rotation<br />Differenzwert 90 <br />
Einordnung<br />
Zwischenergebnis<br />Selbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan...
Test 3Headroom TIFF vs. JPEG 2000 / 70<br />Differenzwert 8<br />
Extreme Tonwertkorrektur<br />Original<br />Angepasst TIFF<br />
Angepasst TIFF vs. JPG 2000 / 70<br />TIFF angepasst<br />JPEG 2000 angepasst<br />
Differenzbilder<br />80er Kompression Differenzwert: 54<br />70er Kompression Differenzwert: 80<br />
Zwischenergebnis<br />Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für we...
Fazit<br />Für den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung e...
Nächste SlideShare
Wird geladen in …5
×

Visually Lossless Kompression für die Digitalisierung an Bibliotheken

2.445 Aufrufe

Veröffentlicht am

Seit einiger Zeit wird im Digitalisierungsbereich an Bibliotheken eine neue Begrifflichkeit diskutiert: „visually lossless compression“. Das Konzept geht davon aus, das eine verlustbehaftete Datenkompression dann hinzunehmen ist wenn auch unter fortschrittlichen Nutzungsbedingungen (kalibrierter Monitor, hohe Zoomstufe) Unterschiede zum nicht komprimierten Original vielleicht zu messen, aber nicht visuell wahrzunehmen sind. Als Dateiformat wird hier insbesondere JPEG 2000 in Feld geführt. Nach der hier dargestellten Messreihe konnte ich nachweisen, das in der Tat die Unterschiede die durch eine maßvolle Komprimierung entstehen erheblich weniger mess- und sichtbar sind als die Unterschiede die entstehen wenn ich dieselbe Seite vom selben Scanoperateur auf dem selben Gerät noch einmal scannen lasse. Der mögliche Platzgewinn liegt hier in etwa um den Faktor 3, was ein spürbarer Gewinn wäre, aber andererseits noch kein Quantensprung. Hier ist zu Recht zu hinterfragen, ob dieser moderate Vorteil bei der Dateigröße mit dem Prinzipiellen Makel des Weglassens bestehender Daten wirklich erkauft werden sollte. Als Argument dagegen wird angebracht das die Speicherpreise sehr schnell sinken, wir also in absehbarer Zeit kein Problem mehr mit der Speicherung haben werden. Dies mag für Consumerstorage aus den Elektronikmärkten zutreffend sein, für redundanten Archivspeicher hingegen liegen die Preise seit ca. 3 Jahren konstant, ohne dass sich eine Änderung abzeichnen würde.

Veröffentlicht in: Bildung, Technologie, Kunst & Fotos
0 Kommentare
3 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.445
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
22
Aktionen
Geteilt
0
Downloads
16
Kommentare
0
Gefällt mir
3
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Visually Lossless Kompression für die Digitalisierung an Bibliotheken

  1. 1. Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der Wissenschaftspraxis<br />Dipl. Sozw. Ralf Stockmann<br />SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum<br />Kolloquium: Datenkomprimierung bei Bild, Audio und Video<br />
  2. 2. Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet<br />Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken<br />Entwicklung von Verfahren und best practice<br />Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren<br />Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten<br />Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite)<br />Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)<br />
  3. 3. Ausgangslage<br />Deutschland: DFG-Praxisregeln<br />Verwendung von TIFF<br />Kompression nur verlustfrei<br />KB: Einführung des Begriffes „visuallylossless“<br />Mit der Massendigitalisierung explodieren die Storage-Anforderungen<br />Ein Rechenbeispiel (GDZ 2010):<br />
  4. 4. Produktion des GDZ 2010<br />8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden<br />Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten)<br />Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB<br />Summe: 115 TB pro Jahr<br />
  5. 5. Standpunkt DFG: <br />„Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“ <br />
  6. 6. Lösungsansatz: Kompression<br />Für bitonaleScans schon immer erfolgreich eingesetzt<br />600 dpi optische Auflösung<br />Verlustfreie FAX G4 Kompression (160KB statt 24 MB)<br />Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannen<br />Problem: Farbscans<br />
  7. 7. JPEG 2000<br />Pro<br />Sowohl lossless als verlustbehaftete Kompression möglich<br />Quellofen<br />Kompression granular regelbar<br />Zoomstufen können direkt aus Original abgeleitet werden<br />Metadaten im Header gut strukturierbar<br />Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut)<br />Contra<br />Geringe Verbreitung (Browser, Editoren)<br />Rendering aufwändiger<br />Ungewisse Zukunft<br />
  8. 8. These<br />„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“<br />
  9. 9. Gegenthesen<br />Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen.<br />Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.<br />
  10. 10. Beispiel JPG Artefakte<br />
  11. 11. Beispiel Headroom<br />Original RAW<br />Optimierung aus JPG<br />Optimierung aus RAW<br />
  12. 12. Testsystem<br />Mac OS 10.6.2<br />Adobe Photoshop CS4<br />Adobe JPEG 2000 Filter<br />ZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €)<br />Vorlagen aus aktuellen Scanprojekten des GDZ<br />
  13. 13. Test 1Auswirkungen Kompression<br />300 dpi<br />15,7 x 22,6 cm<br />Ca. 5 Megapixel<br />
  14. 14. Messverfahren: Differenzbild<br />Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt<br />Ebene 1: Referenzebene (TIFF uncompressed)<br />Ebene 2: Testebene (verändert)<br />Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar<br />Je heller das Bild desto stärker die Abweichung<br />
  15. 15. Beispiel: einheitliche Störung (Rauschfilter)<br />Original<br />3% Rauschen<br />
  16. 16. Differenzbild(bitonalisiert mit threshhold 3)<br />Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung) <br />
  17. 17. Partielle Verfremdungen: unscharf maskieren<br />Original<br />unscharfmaskiert<br />Differenzwert 31<br />
  18. 18. Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)<br />Original<br />90 / -<br />80 / 800%<br />70 / 600%<br />60 / 300%<br />50 / 200%<br />40 / 200%<br />
  19. 19. Differenzmessung(Kompression JPEG 2000 / Differenzwert)<br />Lossless / 0<br />90 / 0<br />80 / 1<br />70 / 8<br />60 / 41<br />50 / 64<br />40 / 75<br />
  20. 20. Übersicht<br />
  21. 21. Test 2Varianz bei Neuaufnahme<br />Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF<br />
  22. 22. Visueller Vergleich<br />Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar<br />
  23. 23. Differenzbild TIFF zu TIFF<br />Differenzwert 82<br />Original<br />
  24. 24. Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurde<br />Differenzwert 86<br />nach Rotation<br />Differenzwert 90 <br />
  25. 25. Einordnung<br />
  26. 26. Zwischenergebnis<br />Selbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehen<br />Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät<br />Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar)<br />„visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden.<br />Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)<br />
  27. 27. Test 3Headroom TIFF vs. JPEG 2000 / 70<br />Differenzwert 8<br />
  28. 28. Extreme Tonwertkorrektur<br />Original<br />Angepasst TIFF<br />
  29. 29. Angepasst TIFF vs. JPG 2000 / 70<br />TIFF angepasst<br />JPEG 2000 angepasst<br />
  30. 30. Differenzbilder<br />80er Kompression Differenzwert: 54<br />70er Kompression Differenzwert: 80<br />
  31. 31. Zwischenergebnis<br />Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen.<br />Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation<br />Einen echten Mehrwert liefert nur ein RAW Format<br />
  32. 32. Fazit<br />Für den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed.<br />Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden.<br />Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit.<br />Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren?<br />Ja: Consumer Speicher<br />Fraglich: Archivspeicher (seit Jahren konstant teuer)<br />

×