SlideShare ist ein Scribd-Unternehmen logo
Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der WissenschaftspraxisDipl. Sozw. Ralf StockmannSUB Göttingen, Abteilung Forschung und EntwicklungGöttinger DigitalisierungszentrumKolloquium: Datenkomprimierung bei Bild, Audio und Video
Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründetAuftrag: Grundlagenforschung im Bereich Digitalisierung an BibliothekenEntwicklung von Verfahren und best practiceAndere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisierenInsgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten SeitenIm Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite)Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
AusgangslageDeutschland: DFG-PraxisregelnVerwendung von TIFFKompression nur verlustfreiKB: Einführung des Begriffes „visuallylossless“Mit der Massendigitalisierung explodieren die Storage-AnforderungenEin Rechenbeispiel (GDZ 2010):
Produktion des GDZ 20108 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 ScanstundenDurchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten)Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MBSumme: 115 TB pro Jahr
Standpunkt DFG: „Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
Lösungsansatz: KompressionFür bitonaleScans schon immer erfolgreich eingesetzt600 dpi optische AuflösungVerlustfreie FAX G4 Kompression (160KB statt 24 MB)Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannenProblem: Farbscans
JPEG 2000ProSowohl lossless als verlustbehaftete Kompression möglichQuellofenKompression granular regelbarZoomstufen können direkt aus Original abgeleitet werdenMetadaten im Header gut strukturierbarGute Robustheit gegen Fehler (Bild wird dennoch aufgebaut)ContraGeringe Verbreitung (Browser, Editoren)Rendering aufwändigerUngewisse Zukunft
These„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
GegenthesenDurch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen.Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
Beispiel JPG Artefakte
Beispiel HeadroomOriginal RAWOptimierung aus JPGOptimierung aus RAW
TestsystemMac OS 10.6.2Adobe Photoshop CS4Adobe JPEG 2000 FilterZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €)Vorlagen aus aktuellen Scanprojekten des GDZ
Test 1Auswirkungen Kompression300 dpi15,7 x 22,6 cmCa. 5 Megapixel
Messverfahren: DifferenzbildZwei Ebenen in Photoshop, exakt gleicher BildausschnittEbene 1: Referenzebene (TIFF uncompressed)Ebene 2: Testebene (verändert)Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbarJe heller das Bild desto stärker die Abweichung
Beispiel: einheitliche Störung (Rauschfilter)Original3% Rauschen
Differenzbild(bitonalisiert mit threshhold 3)Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)
Partielle Verfremdungen: unscharf maskierenOriginalunscharfmaskiertDifferenzwert 31
Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)Original90 / -80 / 800%70 / 600%60 / 300%50 / 200%40 / 200%
Differenzmessung(Kompression JPEG 2000 / Differenzwert)Lossless / 090 / 080 / 170 / 860 / 4150 / 6440 / 75
Übersicht
Test 2Varianz bei NeuaufnahmeZwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
Visueller VergleichVergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar
Differenzbild TIFF zu TIFFDifferenzwert 82Original
Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurdeDifferenzwert 86nach RotationDifferenzwert 90
Einordnung
ZwischenergebnisSelbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehenEs gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im ScangerätStrukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar)„visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden.Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
Test 3Headroom TIFF vs. JPEG 2000 / 70Differenzwert 8
Extreme TonwertkorrekturOriginalAngepasst TIFF
Angepasst TIFF vs. JPG 2000 / 70TIFF angepasstJPEG 2000 angepasst
Differenzbilder80er Kompression Differenzwert: 5470er Kompression Differenzwert: 80
ZwischenergebnisBeim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen.Bestehende Differenzunterschiede potenzieren sich mit dem Grad der BildmanipulationEinen echten Mehrwert liefert nur ein RAW Format
FazitFür den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed.Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden.Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit.Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren?Ja: Consumer SpeicherFraglich: Archivspeicher (seit Jahren konstant teuer)

Weitere ähnliche Inhalte

Andere mochten auch

Das will ich werden
Das will ich werden Das will ich werden
Das will ich werden
369bart
 
PNL _ Carminia Rodriguez
PNL _ Carminia RodriguezPNL _ Carminia Rodriguez
PNL _ Carminia Rodriguez
deysi uft
 
Energias
EnergiasEnergias
Energias
EvaaHerediia
 
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und SozialversicherungrechtGrenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Cosmos Verlag AG
 
El moño
El moñoEl moño
El moño
bell2013
 
Servidores trabajo
Servidores trabajoServidores trabajo
Servidores trabajo
joseloquisoemendoza
 
2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)
Voluntariado A IC
 
Guión técnico
Guión técnicoGuión técnico
Guión técnico
Karina Ivonne
 
El concepto del líder y el maestro como líder
El concepto del líder y el maestro como líderEl concepto del líder y el maestro como líder
El concepto del líder y el maestro como líder
ivanova16
 
El sistema solar
El sistema solarEl sistema solar
El sistema solar
Carmen Nereira
 
Características tic
Características ticCaracterísticas tic
Características tic
krissdiaz9
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
crhz
 
Trabajo de habilidades del pensamiento
Trabajo de habilidades del pensamientoTrabajo de habilidades del pensamiento
Trabajo de habilidades del pensamiento
victorjami150
 
Fauna
FaunaFauna
Fauna
Jhoan0605
 
Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.
Karina Ivonne
 
Herramientas de las tic
Herramientas de las ticHerramientas de las tic
Herramientas de las tic
MYCIEL
 
Tejidos vanessa
Tejidos vanessaTejidos vanessa
Tejidos vanessa
elainemaestre04
 
Byrne, rhonda el secreto
Byrne, rhonda   el secretoByrne, rhonda   el secreto
Byrne, rhonda el secreto
Ina Aguirre Pàmies
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
Ralf Stockmann
 
KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014
Patricia Brune
 

Andere mochten auch (20)

Das will ich werden
Das will ich werden Das will ich werden
Das will ich werden
 
PNL _ Carminia Rodriguez
PNL _ Carminia RodriguezPNL _ Carminia Rodriguez
PNL _ Carminia Rodriguez
 
Energias
EnergiasEnergias
Energias
 
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und SozialversicherungrechtGrenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
 
El moño
El moñoEl moño
El moño
 
Servidores trabajo
Servidores trabajoServidores trabajo
Servidores trabajo
 
2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)
 
Guión técnico
Guión técnicoGuión técnico
Guión técnico
 
El concepto del líder y el maestro como líder
El concepto del líder y el maestro como líderEl concepto del líder y el maestro como líder
El concepto del líder y el maestro como líder
 
El sistema solar
El sistema solarEl sistema solar
El sistema solar
 
Características tic
Características ticCaracterísticas tic
Características tic
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Trabajo de habilidades del pensamiento
Trabajo de habilidades del pensamientoTrabajo de habilidades del pensamiento
Trabajo de habilidades del pensamiento
 
Fauna
FaunaFauna
Fauna
 
Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.
 
Herramientas de las tic
Herramientas de las ticHerramientas de las tic
Herramientas de las tic
 
Tejidos vanessa
Tejidos vanessaTejidos vanessa
Tejidos vanessa
 
Byrne, rhonda el secreto
Byrne, rhonda   el secretoByrne, rhonda   el secreto
Byrne, rhonda el secreto
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014
 

Ähnlich wie Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Digitale Kamera und Modulationstransferfunktion
Digitale Kamera und ModulationstransferfunktionDigitale Kamera und Modulationstransferfunktion
Digitale Kamera und Modulationstransferfunktion
Roland Bruggmann
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Institute for Digital Humanities, University of Cologne
 
Photoshop Einführung Teil 1
Photoshop Einführung Teil 1Photoshop Einführung Teil 1
Photoshop Einführung Teil 1
Nils Peters
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
Institute for Digital Humanities, University of Cologne
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
Ralf Stockmann
 
Persitent Identifier in Goobi
Persitent Identifier in GoobiPersitent Identifier in Goobi
Persitent Identifier in Goobi
Ralf Stockmann
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009
Ralf Stockmann
 
Erstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second LifeErstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second Life
Stefanie Knoth
 
Grundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloesGrundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloes
WGS
 
Computergrafik
ComputergrafikComputergrafik
Computergrafik
Wolf Spalteholz
 
GIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für AstrofotografenGIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für Astrofotografen
Sternwarte Sankt Andreasberg
 

Ähnlich wie Visually Lossless Kompression für die Digitalisierung an Bibliotheken (13)

Digitale Kamera und Modulationstransferfunktion
Digitale Kamera und ModulationstransferfunktionDigitale Kamera und Modulationstransferfunktion
Digitale Kamera und Modulationstransferfunktion
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Quality
QualityQuality
Quality
 
Photoshop Einführung Teil 1
Photoshop Einführung Teil 1Photoshop Einführung Teil 1
Photoshop Einführung Teil 1
 
Mühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUCMühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUC
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
 
Persitent Identifier in Goobi
Persitent Identifier in GoobiPersitent Identifier in Goobi
Persitent Identifier in Goobi
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009
 
Erstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second LifeErstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second Life
 
Grundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloesGrundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloes
 
Computergrafik
ComputergrafikComputergrafik
Computergrafik
 
GIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für AstrofotografenGIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für Astrofotografen
 

Mehr von Ralf Stockmann

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social Intranet
Ralf Stockmann
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Ralf Stockmann
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kann
Ralf Stockmann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Ralf Stockmann
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Ralf Stockmann
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale Wissensräume
Ralf Stockmann
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen können
Ralf Stockmann
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
Ralf Stockmann
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
Ralf Stockmann
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
Ralf Stockmann
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Ralf Stockmann
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Ralf Stockmann
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Ralf Stockmann
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)
Ralf Stockmann
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Ralf Stockmann
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)
Ralf Stockmann
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Ralf Stockmann
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der Softwareentwicklung
Ralf Stockmann
 

Mehr von Ralf Stockmann (20)

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social Intranet
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale Wissensräume
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen können
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der Softwareentwicklung
 

Kürzlich hochgeladen

Microsoft Roadshow Stuttgart AI-Presentation Wurzer
Microsoft Roadshow Stuttgart AI-Presentation WurzerMicrosoft Roadshow Stuttgart AI-Presentation Wurzer
Microsoft Roadshow Stuttgart AI-Presentation Wurzer
MIPLM
 
Das Biologiestudium an der Universität Duisburg-Essen
Das Biologiestudium an der Universität Duisburg-EssenDas Biologiestudium an der Universität Duisburg-Essen
Das Biologiestudium an der Universität Duisburg-Essen
Team Studienorientierung (Universität Duisburg-Essen)
 
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
Wolfgang Geiler
 
Unterrichten der Programmierung 📚 Python 🐍
Unterrichten der Programmierung 📚 Python 🐍Unterrichten der Programmierung 📚 Python 🐍
Unterrichten der Programmierung 📚 Python 🐍
Miguel Delamontagne
 
Psychologie an der Universität Duisburg-Essen
Psychologie an der Universität Duisburg-EssenPsychologie an der Universität Duisburg-Essen
Psychologie an der Universität Duisburg-Essen
Team Studienorientierung (Universität Duisburg-Essen)
 
Das Chemiestudium an der Universität Duisburg-Essen
Das Chemiestudium an der Universität Duisburg-EssenDas Chemiestudium an der Universität Duisburg-Essen
Das Chemiestudium an der Universität Duisburg-Essen
Team Studienorientierung (Universität Duisburg-Essen)
 
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
kylerkelson6767
 
Lehramt an der Universität Duisburg Essen
Lehramt an der Universität Duisburg EssenLehramt an der Universität Duisburg Essen
Lehramt an der Universität Duisburg Essen
Team Studienorientierung (Universität Duisburg-Essen)
 
Medizin an der Universität Duisburg - Essen
Medizin an der Universität Duisburg - EssenMedizin an der Universität Duisburg - Essen
Medizin an der Universität Duisburg - Essen
Team Studienorientierung (Universität Duisburg-Essen)
 

Kürzlich hochgeladen (9)

Microsoft Roadshow Stuttgart AI-Presentation Wurzer
Microsoft Roadshow Stuttgart AI-Presentation WurzerMicrosoft Roadshow Stuttgart AI-Presentation Wurzer
Microsoft Roadshow Stuttgart AI-Presentation Wurzer
 
Das Biologiestudium an der Universität Duisburg-Essen
Das Biologiestudium an der Universität Duisburg-EssenDas Biologiestudium an der Universität Duisburg-Essen
Das Biologiestudium an der Universität Duisburg-Essen
 
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
Klimaabkühlung durch die CO2 Kanone, Konvektionskreislauf,Klimaabkühlung stat...
 
Unterrichten der Programmierung 📚 Python 🐍
Unterrichten der Programmierung 📚 Python 🐍Unterrichten der Programmierung 📚 Python 🐍
Unterrichten der Programmierung 📚 Python 🐍
 
Psychologie an der Universität Duisburg-Essen
Psychologie an der Universität Duisburg-EssenPsychologie an der Universität Duisburg-Essen
Psychologie an der Universität Duisburg-Essen
 
Das Chemiestudium an der Universität Duisburg-Essen
Das Chemiestudium an der Universität Duisburg-EssenDas Chemiestudium an der Universität Duisburg-Essen
Das Chemiestudium an der Universität Duisburg-Essen
 
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
Abortion Pills In Dubai☎️ "+971)555095267 " to buy abortion pills in Dubai, A...
 
Lehramt an der Universität Duisburg Essen
Lehramt an der Universität Duisburg EssenLehramt an der Universität Duisburg Essen
Lehramt an der Universität Duisburg Essen
 
Medizin an der Universität Duisburg - Essen
Medizin an der Universität Duisburg - EssenMedizin an der Universität Duisburg - Essen
Medizin an der Universität Duisburg - Essen
 

Visually Lossless Kompression für die Digitalisierung an Bibliotheken

  • 1. Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der WissenschaftspraxisDipl. Sozw. Ralf StockmannSUB Göttingen, Abteilung Forschung und EntwicklungGöttinger DigitalisierungszentrumKolloquium: Datenkomprimierung bei Bild, Audio und Video
  • 2. Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründetAuftrag: Grundlagenforschung im Bereich Digitalisierung an BibliothekenEntwicklung von Verfahren und best practiceAndere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisierenInsgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten SeitenIm Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite)Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
  • 3. AusgangslageDeutschland: DFG-PraxisregelnVerwendung von TIFFKompression nur verlustfreiKB: Einführung des Begriffes „visuallylossless“Mit der Massendigitalisierung explodieren die Storage-AnforderungenEin Rechenbeispiel (GDZ 2010):
  • 4. Produktion des GDZ 20108 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 ScanstundenDurchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten)Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MBSumme: 115 TB pro Jahr
  • 5. Standpunkt DFG: „Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
  • 6. Lösungsansatz: KompressionFür bitonaleScans schon immer erfolgreich eingesetzt600 dpi optische AuflösungVerlustfreie FAX G4 Kompression (160KB statt 24 MB)Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannenProblem: Farbscans
  • 7. JPEG 2000ProSowohl lossless als verlustbehaftete Kompression möglichQuellofenKompression granular regelbarZoomstufen können direkt aus Original abgeleitet werdenMetadaten im Header gut strukturierbarGute Robustheit gegen Fehler (Bild wird dennoch aufgebaut)ContraGeringe Verbreitung (Browser, Editoren)Rendering aufwändigerUngewisse Zukunft
  • 8. These„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
  • 9. GegenthesenDurch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen.Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
  • 11. Beispiel HeadroomOriginal RAWOptimierung aus JPGOptimierung aus RAW
  • 12. TestsystemMac OS 10.6.2Adobe Photoshop CS4Adobe JPEG 2000 FilterZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €)Vorlagen aus aktuellen Scanprojekten des GDZ
  • 13. Test 1Auswirkungen Kompression300 dpi15,7 x 22,6 cmCa. 5 Megapixel
  • 14. Messverfahren: DifferenzbildZwei Ebenen in Photoshop, exakt gleicher BildausschnittEbene 1: Referenzebene (TIFF uncompressed)Ebene 2: Testebene (verändert)Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbarJe heller das Bild desto stärker die Abweichung
  • 15. Beispiel: einheitliche Störung (Rauschfilter)Original3% Rauschen
  • 16. Differenzbild(bitonalisiert mit threshhold 3)Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)
  • 17. Partielle Verfremdungen: unscharf maskierenOriginalunscharfmaskiertDifferenzwert 31
  • 18. Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)Original90 / -80 / 800%70 / 600%60 / 300%50 / 200%40 / 200%
  • 19. Differenzmessung(Kompression JPEG 2000 / Differenzwert)Lossless / 090 / 080 / 170 / 860 / 4150 / 6440 / 75
  • 21. Test 2Varianz bei NeuaufnahmeZwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
  • 22. Visueller VergleichVergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar
  • 23. Differenzbild TIFF zu TIFFDifferenzwert 82Original
  • 24. Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurdeDifferenzwert 86nach RotationDifferenzwert 90
  • 26. ZwischenergebnisSelbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehenEs gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im ScangerätStrukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar)„visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden.Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
  • 27. Test 3Headroom TIFF vs. JPEG 2000 / 70Differenzwert 8
  • 29. Angepasst TIFF vs. JPG 2000 / 70TIFF angepasstJPEG 2000 angepasst
  • 30. Differenzbilder80er Kompression Differenzwert: 5470er Kompression Differenzwert: 80
  • 31. ZwischenergebnisBeim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen.Bestehende Differenzunterschiede potenzieren sich mit dem Grad der BildmanipulationEinen echten Mehrwert liefert nur ein RAW Format
  • 32. FazitFür den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed.Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden.Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit.Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren?Ja: Consumer SpeicherFraglich: Archivspeicher (seit Jahren konstant teuer)