Identifikace formátů: Jednorázový nebo opakovaný proces?
Jan Hutař, Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
Test příspěvku je ve sborníku
Identifikace formátů: Jednorázový nebo opakovaný proces?
1. Identifikace formátů:
Jednorázový nebo opakovaný
proces?
Jan Hutař,
Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK)
Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
2. Identifikace formátů:
Jednorázový nebo opakovaný
proces?
• Národní archiv NZ a LTP problematika
• Formátové strategie obecně
• Změny prostředí, nástrojů a informací v
posledních 10 letech
• PRONOM a identifikace formátů
3. Národní archiv NZ a LTP
problematika
Hutař, Jan -
Archives New Zealand - budování digitálního
archivu pro dlouhodobou ochranu digitálních
dokumentů. Jan Hutař. Archivní časopis. Roč. 63,
č. 1 (2013), s. 5-24
Prezentace 27.5.2015 v Praze
http://www.slideshare.net/dp-blog-cz/jan-huta-
dlouhodob-ochrana-digitlnch-informac-v-nrodnm-
archivu-na-novm-zlandu
4. Národní archiv NZ a LTP
problematika
• 2005 - Public Record Act
• 2009 - Digital Continuity Action Plan (DCAP)
• Government Digital Archive Programme
GDAP (1), GDAP (2),...
• Storage jako služba
• Transfery
• Poměrně silný tým
5. Formátové strategie obecně
Měnící se důraz v LTP
• HW (bit level) a úložná média >> Informační
obsah (significant properties), logická ochrana
obsahu
• Debaty o strategiích LTP (migrace, emulace) v
teoretické, spekulativní a výzkumné rovině
• V praxi instituce nemigrují
– některé normalizují na vstupu
– mnohé “neznají svůj obsah” (sign.
properties)
7. Formátové strategie obecně
Significant properties
• Rozsah
K čemu jsou techMD extrahovaná ze souborů?
Potřebuje administrátor archivu hledat podle precint
size? Podle čeho? Víme to dnes?
• Způsob uchování
Je ta informace vůbec použitelná? (normalizace
výstupu extraktorů vs raw výstupy)
8. Formátové strategie obecně
Paradoxy dlouhodobé digitální archivace
• 2001: We want to maintain digital information
intact, but we also want to be able to access this
information in a dynamic use context
Chen, Su-Shing. "The paradox of digital preservation."
Computer 34.3 (2001): 24-28.
• 2016: Pro zajištění trvalého uchování digitálních
dokumentů potřebujeme na technologiích závislé
nástroje a informační zdroje, které se neustále
mění….
9. Formátové strategie obecně
Nový důraz - měnící se prostředí
• Ne migrace do nového formátu, ale nové
nástroje, nové informace, nové postupy
• Změny PRONOMu v posledních 10 letech
• Dopady na praxi
• Extrakce vs identifikace formátu - identifikace je
klíčová
11. PRONOM
–od roku 2004 (pro potřeby TNA)
–pravidelné aktualizace
–zásadní změna přístupu od verze 6 -
tzv. container signature files
–DB formátů - stále stejná
12. Identifikace formátů - proces
• Identifikace formátu je většinou považována
za jednorázovou operaci
• Ingest je vždy priorita, následně většinou jen
bit level operace
• NA a NK NZ uvažují o tom, jak zavést re-
identifikaci do svých procesů už delší dobu
13. Identifikace formátů - NZ
• NK NZ - archivuje dig. data od roku 2008
• NA NZ - archivuje dig. data od roku 2011
• Od té doby se nezměnily formáty, které
považujeme za důvěryhodné, změnily se
informace v PRONOM, signatures a nástroje...
• Opakování identifikace dat z roku 2008 dnes
přinese jiné výsledky (PUID)
• TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3,
fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
14. Změny v PRONOM / DROID
Jak DROID funguje a proč se výsledky po nějaké
době mění?
• DROID k identifikaci formátů používá signature file, XML
publikované několikrát ročně
• Signature je sekvence bytů, nebo seznam více sekvencí bytů,
které mohou být v konkrétním souboru určitého formátu
obsaženy
• Pro některé formáty může jít pouze o sled bytů na počátku
souboru, signature ale může být podstatně komplikovanější
• DROID v6 (2011) nově 2 signature soubory
– binární, DROID používal od počátku,
– nový pro kontejnerové formáty
15. Identifikace formátů
• DROID nejprve kontroluje, zda formát souboru
je kontejnerový, pokud je > použije container
signature file a ne binární signature file
• trigger PUIDs
– OLE2 formát (fmt/111)
– dva ZIP formáty (fmt/189 a x-fmt/263)
• Kontejnerové signatures jsou navrženy tak, aby
byly přesnější než binární.
16.
17. Změny v PRONOM
• formáty nejsou mazány - deaktivovány a
nahrazeny (deprecated in favor of) = vlastně
odebrání signature
• přidání koncovek ke konkrétnímu formátu
• změny priorit formátu X vzhledem k formátu Y
• přidání signature!
• změna signature!
18. Změny v PRONOM
Ja rychle se informace v PRONOM mění?
• PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů
• Ne všechny formáty v PRONOMu mají signature, některé nemají
a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má
signature, 429 signature nemá)
Signature file verze 86 z července 2016
• 46 zcela nových formátů,
• 23 formátů bylo aktualizováno a
• přidáno bylo 46 signatures
• byly přidány nové formáty bez signature a některé formáty již
existující v PRONOM databázi dostaly vlastní signature
19. Opakovaná identifikace?
Možnosti
1. Jednou za 5 let provést identifikaci formátů všech souborů v
archivu
– množství souborů, nároky na výpočetní výkon a čas
2. Opakovat identifikaci formátů výběrově na části obsahu
digitálního archivu vybrané na základě nějakých kritérií
3. Identifikovat soubory s PUIDy, které byly v posledním vydání
signature files nahrazeny, upraveny či zrušeny a tyto podrobit
nové identifikaci formátů
– nezahrne formáty, které jsou v PRONOMu nové, případně
formáty, které neměly signature a nově jej mají.
20. Opakovaná identifikace?
• SW - jsou na to LTP systémy připraveny? Je to
technicky možné?
– verzování AIP
• Mají na to instituce zdroje?
– infrastruktura
– personál
21. Opakovaná identifikace na NZ
Realizace je plánována na rok 2017
• NK NZ 9 milionů souborů, 1,5 milionu
intelektuálních entit, 120TB, 162 PUID
>opakovat identifikaci formátů pro všechny soubory
• NA NZ 4,5 milionu souborů, asi 220 tisíc entit,
120TB, 39 PUID (transfery začnou až 2017)
>výběrové opakování, pro určité formáty a sbírky
(96% jsou dnes Tiff a Jpeg)