SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Identifikace formátů:
Jednorázový nebo opakovaný
proces?
Jan Hutař,
Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK)
Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
Identifikace formátů:
Jednorázový nebo opakovaný
proces?
• Národní archiv NZ a LTP problematika
• Formátové strategie obecně
• Změny prostředí, nástrojů a informací v
posledních 10 letech
• PRONOM a identifikace formátů
Národní archiv NZ a LTP
problematika
Hutař, Jan -
Archives New Zealand - budování digitálního
archivu pro dlouhodobou ochranu digitálních
dokumentů. Jan Hutař. Archivní časopis. Roč. 63,
č. 1 (2013), s. 5-24
Prezentace 27.5.2015 v Praze
http://www.slideshare.net/dp-blog-cz/jan-huta-
dlouhodob-ochrana-digitlnch-informac-v-nrodnm-
archivu-na-novm-zlandu
Národní archiv NZ a LTP
problematika
• 2005 - Public Record Act
• 2009 - Digital Continuity Action Plan (DCAP)
• Government Digital Archive Programme
GDAP (1), GDAP (2),...
• Storage jako služba
• Transfery
• Poměrně silný tým
Formátové strategie obecně
Měnící se důraz v LTP
• HW (bit level) a úložná média >> Informační
obsah (significant properties), logická ochrana
obsahu
• Debaty o strategiích LTP (migrace, emulace) v
teoretické, spekulativní a výzkumné rovině
• V praxi instituce nemigrují
– některé normalizují na vstupu
– mnohé “neznají svůj obsah” (sign.
properties)
Formátové strategie obecně
Significant properties - know your data
Paranoidiní vs Pragmatický přístup
• stačí jen velikost, PUID, mime type…
• nebo:
Formátové strategie obecně
Significant properties
• Rozsah
K čemu jsou techMD extrahovaná ze souborů?
Potřebuje administrátor archivu hledat podle precint
size? Podle čeho? Víme to dnes?
• Způsob uchování
Je ta informace vůbec použitelná? (normalizace
výstupu extraktorů vs raw výstupy)
Formátové strategie obecně
Paradoxy dlouhodobé digitální archivace
• 2001: We want to maintain digital information
intact, but we also want to be able to access this
information in a dynamic use context
Chen, Su-Shing. "The paradox of digital preservation."
Computer 34.3 (2001): 24-28.
• 2016: Pro zajištění trvalého uchování digitálních
dokumentů potřebujeme na technologiích závislé
nástroje a informační zdroje, které se neustále
mění….
Formátové strategie obecně
Nový důraz - měnící se prostředí
• Ne migrace do nového formátu, ale nové
nástroje, nové informace, nové postupy
• Změny PRONOMu v posledních 10 letech
• Dopady na praxi
• Extrakce vs identifikace formátu - identifikace je
klíčová
Identifikace formátů - nástroje
•TNA PRONOM - alternativy?
•Nástroje jako DROID, Siegfried,
Fido, TriD, Apache Tika, File, ...
•PUID (PRONOM Unique ID) -
alternativy?
PRONOM
–od roku 2004 (pro potřeby TNA)
–pravidelné aktualizace
–zásadní změna přístupu od verze 6 -
tzv. container signature files
–DB formátů - stále stejná
Identifikace formátů - proces
• Identifikace formátu je většinou považována
za jednorázovou operaci
• Ingest je vždy priorita, následně většinou jen
bit level operace
• NA a NK NZ uvažují o tom, jak zavést re-
identifikaci do svých procesů už delší dobu
Identifikace formátů - NZ
• NK NZ - archivuje dig. data od roku 2008
• NA NZ - archivuje dig. data od roku 2011
• Od té doby se nezměnily formáty, které
považujeme za důvěryhodné, změnily se
informace v PRONOM, signatures a nástroje...
• Opakování identifikace dat z roku 2008 dnes
přinese jiné výsledky (PUID)
• TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3,
fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
Změny v PRONOM / DROID
Jak DROID funguje a proč se výsledky po nějaké
době mění?
• DROID k identifikaci formátů používá signature file, XML
publikované několikrát ročně
• Signature je sekvence bytů, nebo seznam více sekvencí bytů,
které mohou být v konkrétním souboru určitého formátu
obsaženy
• Pro některé formáty může jít pouze o sled bytů na počátku
souboru, signature ale může být podstatně komplikovanější
• DROID v6 (2011) nově 2 signature soubory
– binární, DROID používal od počátku,
– nový pro kontejnerové formáty
Identifikace formátů
• DROID nejprve kontroluje, zda formát souboru
je kontejnerový, pokud je > použije container
signature file a ne binární signature file
• trigger PUIDs
– OLE2 formát (fmt/111)
– dva ZIP formáty (fmt/189 a x-fmt/263)
• Kontejnerové signatures jsou navrženy tak, aby
byly přesnější než binární.
Změny v PRONOM
• formáty nejsou mazány - deaktivovány a
nahrazeny (deprecated in favor of) = vlastně
odebrání signature
• přidání koncovek ke konkrétnímu formátu
• změny priorit formátu X vzhledem k formátu Y
• přidání signature!
• změna signature!
Změny v PRONOM
Ja rychle se informace v PRONOM mění?
• PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů
• Ne všechny formáty v PRONOMu mají signature, některé nemají
a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má
signature, 429 signature nemá)
Signature file verze 86 z července 2016
• 46 zcela nových formátů,
• 23 formátů bylo aktualizováno a
• přidáno bylo 46 signatures
• byly přidány nové formáty bez signature a některé formáty již
existující v PRONOM databázi dostaly vlastní signature
Opakovaná identifikace?
Možnosti
1. Jednou za 5 let provést identifikaci formátů všech souborů v
archivu
– množství souborů, nároky na výpočetní výkon a čas
2. Opakovat identifikaci formátů výběrově na části obsahu
digitálního archivu vybrané na základě nějakých kritérií
3. Identifikovat soubory s PUIDy, které byly v posledním vydání
signature files nahrazeny, upraveny či zrušeny a tyto podrobit
nové identifikaci formátů
– nezahrne formáty, které jsou v PRONOMu nové, případně
formáty, které neměly signature a nově jej mají.
Opakovaná identifikace?
• SW - jsou na to LTP systémy připraveny? Je to
technicky možné?
– verzování AIP
• Mají na to instituce zdroje?
– infrastruktura
– personál
Opakovaná identifikace na NZ
Realizace je plánována na rok 2017
• NK NZ 9 milionů souborů, 1,5 milionu
intelektuálních entit, 120TB, 162 PUID
>opakovat identifikaci formátů pro všechny soubory
• NA NZ 4,5 milionu souborů, asi 220 tisíc entit,
120TB, 39 PUID (transfery začnou až 2017)
>výběrové opakování, pro určité formáty a sbírky
(96% jsou dnes Tiff a Jpeg)
Děkujeme za pozornost
Jan.Hutar@dia.govt.nz
marek.melichar@ruk.cuni.cz

Weitere ähnliche Inhalte

Was ist angesagt?

Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematicadp-blog-cz
 
Michal Konečný - Systém Archivematica z pohledu uživatele
Michal Konečný - Systém Archivematica z pohledu uživateleMichal Konečný - Systém Archivematica z pohledu uživatele
Michal Konečný - Systém Archivematica z pohledu uživateleLTP-portal-cz
 
LTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRLTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRdp-blog-cz
 
Digital curation
Digital curationDigital curation
Digital curationpavluskas
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyMoravskaZemskaKnihovna
 
Michal Růžička - Napojení systému Archivematica na úložiště CESNET
Michal Růžička - Napojení systému Archivematica na úložiště CESNETMichal Růžička - Napojení systému Archivematica na úložiště CESNET
Michal Růžička - Napojení systému Archivematica na úložiště CESNETLTP-portal-cz
 
Vlastimil Krejčíř - Systémový pohled na software Archivematica
Vlastimil Krejčíř - Systémový pohled na software ArchivematicaVlastimil Krejčíř - Systémový pohled na software Archivematica
Vlastimil Krejčíř - Systémový pohled na software ArchivematicaLTP-portal-cz
 
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...LTP-portal-cz
 

Was ist angesagt? (9)

Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematica
 
Michal Konečný - Systém Archivematica z pohledu uživatele
Michal Konečný - Systém Archivematica z pohledu uživateleMichal Konečný - Systém Archivematica z pohledu uživatele
Michal Konečný - Systém Archivematica z pohledu uživatele
 
LTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRLTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CR
 
Digital curation
Digital curationDigital curation
Digital curation
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
 
Michal Růžička - Napojení systému Archivematica na úložiště CESNET
Michal Růžička - Napojení systému Archivematica na úložiště CESNETMichal Růžička - Napojení systému Archivematica na úložiště CESNET
Michal Růžička - Napojení systému Archivematica na úložiště CESNET
 
Vlastimil Krejčíř - Systémový pohled na software Archivematica
Vlastimil Krejčíř - Systémový pohled na software ArchivematicaVlastimil Krejčíř - Systémový pohled na software Archivematica
Vlastimil Krejčíř - Systémový pohled na software Archivematica
 
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...
Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní kn...
 
Ndk mu
Ndk muNdk mu
Ndk mu
 

Ähnlich wie Identifikace formátů: Jednorázový nebo opakovaný proces?

Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek ÚISK FF UK
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůMoravskaZemskaKnihovna
 
Symposium 2022 - Proc upgradovat ma Domino 1201.pdf
Symposium 2022 - Proc upgradovat ma Domino 1201.pdfSymposium 2022 - Proc upgradovat ma Domino 1201.pdf
Symposium 2022 - Proc upgradovat ma Domino 1201.pdfMartin Hansgut
 
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůJindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůÚISK FF UK
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)Tomas Moser
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planPetra Dedicova
 
Distribuce DI z JSDI - praktické zkušenosti
Distribuce DI z JSDI - praktické zkušenostiDistribuce DI z JSDI - praktické zkušenosti
Distribuce DI z JSDI - praktické zkušenostivlcinsky
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNETCESNET
 
Změny v Národním stadnardu a jejich dopad na původce i dodavatele
Změny v Národním stadnardu a jejich dopad na původce i dodavateleZměny v Národním stadnardu a jejich dopad na původce i dodavatele
Změny v Národním stadnardu a jejich dopad na původce i dodavateleInstitut pro správu dokumentů, z.s.
 
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.MoravskaZemskaKnihovna
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptxMagdalnaBohuslavov
 
On-line nástroje pro plánování, projektový management a time management + sof...
On-line nástroje pro plánování, projektový management a time management + sof...On-line nástroje pro plánování, projektový management a time management + sof...
On-line nástroje pro plánování, projektový management a time management + sof...Allix
 
Data - to nejcennější, co máme
Data - to nejcennější, co mámeData - to nejcennější, co máme
Data - to nejcennější, co mámeSEFIRA spol. s r.o.
 

Ähnlich wie Identifikace formátů: Jednorázový nebo opakovaný proces? (20)

05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx
 
06 Cvičení.pptx
06 Cvičení.pptx06 Cvičení.pptx
06 Cvičení.pptx
 
Ndk
NdkNdk
Ndk
 
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
 
LTP-workshop
LTP-workshopLTP-workshop
LTP-workshop
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentů
 
Symposium 2022 - Proc upgradovat ma Domino 1201.pdf
Symposium 2022 - Proc upgradovat ma Domino 1201.pdfSymposium 2022 - Proc upgradovat ma Domino 1201.pdf
Symposium 2022 - Proc upgradovat ma Domino 1201.pdf
 
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůJindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
Distribuce DI z JSDI - praktické zkušenosti
Distribuce DI z JSDI - praktické zkušenostiDistribuce DI z JSDI - praktické zkušenosti
Distribuce DI z JSDI - praktické zkušenosti
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publish
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNET
 
Změny v Národním stadnardu a jejich dopad na původce i dodavatele
Změny v Národním stadnardu a jejich dopad na původce i dodavateleZměny v Národním stadnardu a jejich dopad na původce i dodavatele
Změny v Národním stadnardu a jejich dopad na původce i dodavatele
 
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx
 
On-line nástroje pro plánování, projektový management a time management + sof...
On-line nástroje pro plánování, projektový management a time management + sof...On-line nástroje pro plánování, projektový management a time management + sof...
On-line nástroje pro plánování, projektový management a time management + sof...
 
Data - to nejcennější, co máme
Data - to nejcennější, co mámeData - to nejcennější, co máme
Data - to nejcennější, co máme
 
TNPW2-2016-01
TNPW2-2016-01TNPW2-2016-01
TNPW2-2016-01
 

Identifikace formátů: Jednorázový nebo opakovaný proces?

  • 1. Identifikace formátů: Jednorázový nebo opakovaný proces? Jan Hutař, Digital Preservation Analyst, Archives New Zealand (Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
  • 2. Identifikace formátů: Jednorázový nebo opakovaný proces? • Národní archiv NZ a LTP problematika • Formátové strategie obecně • Změny prostředí, nástrojů a informací v posledních 10 letech • PRONOM a identifikace formátů
  • 3. Národní archiv NZ a LTP problematika Hutař, Jan - Archives New Zealand - budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Jan Hutař. Archivní časopis. Roč. 63, č. 1 (2013), s. 5-24 Prezentace 27.5.2015 v Praze http://www.slideshare.net/dp-blog-cz/jan-huta- dlouhodob-ochrana-digitlnch-informac-v-nrodnm- archivu-na-novm-zlandu
  • 4. Národní archiv NZ a LTP problematika • 2005 - Public Record Act • 2009 - Digital Continuity Action Plan (DCAP) • Government Digital Archive Programme GDAP (1), GDAP (2),... • Storage jako služba • Transfery • Poměrně silný tým
  • 5. Formátové strategie obecně Měnící se důraz v LTP • HW (bit level) a úložná média >> Informační obsah (significant properties), logická ochrana obsahu • Debaty o strategiích LTP (migrace, emulace) v teoretické, spekulativní a výzkumné rovině • V praxi instituce nemigrují – některé normalizují na vstupu – mnohé “neznají svůj obsah” (sign. properties)
  • 6. Formátové strategie obecně Significant properties - know your data Paranoidiní vs Pragmatický přístup • stačí jen velikost, PUID, mime type… • nebo:
  • 7. Formátové strategie obecně Significant properties • Rozsah K čemu jsou techMD extrahovaná ze souborů? Potřebuje administrátor archivu hledat podle precint size? Podle čeho? Víme to dnes? • Způsob uchování Je ta informace vůbec použitelná? (normalizace výstupu extraktorů vs raw výstupy)
  • 8. Formátové strategie obecně Paradoxy dlouhodobé digitální archivace • 2001: We want to maintain digital information intact, but we also want to be able to access this information in a dynamic use context Chen, Su-Shing. "The paradox of digital preservation." Computer 34.3 (2001): 24-28. • 2016: Pro zajištění trvalého uchování digitálních dokumentů potřebujeme na technologiích závislé nástroje a informační zdroje, které se neustále mění….
  • 9. Formátové strategie obecně Nový důraz - měnící se prostředí • Ne migrace do nového formátu, ale nové nástroje, nové informace, nové postupy • Změny PRONOMu v posledních 10 letech • Dopady na praxi • Extrakce vs identifikace formátu - identifikace je klíčová
  • 10. Identifikace formátů - nástroje •TNA PRONOM - alternativy? •Nástroje jako DROID, Siegfried, Fido, TriD, Apache Tika, File, ... •PUID (PRONOM Unique ID) - alternativy?
  • 11. PRONOM –od roku 2004 (pro potřeby TNA) –pravidelné aktualizace –zásadní změna přístupu od verze 6 - tzv. container signature files –DB formátů - stále stejná
  • 12. Identifikace formátů - proces • Identifikace formátu je většinou považována za jednorázovou operaci • Ingest je vždy priorita, následně většinou jen bit level operace • NA a NK NZ uvažují o tom, jak zavést re- identifikaci do svých procesů už delší dobu
  • 13. Identifikace formátů - NZ • NK NZ - archivuje dig. data od roku 2008 • NA NZ - archivuje dig. data od roku 2011 • Od té doby se nezměnily formáty, které považujeme za důvěryhodné, změnily se informace v PRONOM, signatures a nástroje... • Opakování identifikace dat z roku 2008 dnes přinese jiné výsledky (PUID) • TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3, fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
  • 14. Změny v PRONOM / DROID Jak DROID funguje a proč se výsledky po nějaké době mění? • DROID k identifikaci formátů používá signature file, XML publikované několikrát ročně • Signature je sekvence bytů, nebo seznam více sekvencí bytů, které mohou být v konkrétním souboru určitého formátu obsaženy • Pro některé formáty může jít pouze o sled bytů na počátku souboru, signature ale může být podstatně komplikovanější • DROID v6 (2011) nově 2 signature soubory – binární, DROID používal od počátku, – nový pro kontejnerové formáty
  • 15. Identifikace formátů • DROID nejprve kontroluje, zda formát souboru je kontejnerový, pokud je > použije container signature file a ne binární signature file • trigger PUIDs – OLE2 formát (fmt/111) – dva ZIP formáty (fmt/189 a x-fmt/263) • Kontejnerové signatures jsou navrženy tak, aby byly přesnější než binární.
  • 16.
  • 17. Změny v PRONOM • formáty nejsou mazány - deaktivovány a nahrazeny (deprecated in favor of) = vlastně odebrání signature • přidání koncovek ke konkrétnímu formátu • změny priorit formátu X vzhledem k formátu Y • přidání signature! • změna signature!
  • 18. Změny v PRONOM Ja rychle se informace v PRONOM mění? • PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů • Ne všechny formáty v PRONOMu mají signature, některé nemají a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má signature, 429 signature nemá) Signature file verze 86 z července 2016 • 46 zcela nových formátů, • 23 formátů bylo aktualizováno a • přidáno bylo 46 signatures • byly přidány nové formáty bez signature a některé formáty již existující v PRONOM databázi dostaly vlastní signature
  • 19. Opakovaná identifikace? Možnosti 1. Jednou za 5 let provést identifikaci formátů všech souborů v archivu – množství souborů, nároky na výpočetní výkon a čas 2. Opakovat identifikaci formátů výběrově na části obsahu digitálního archivu vybrané na základě nějakých kritérií 3. Identifikovat soubory s PUIDy, které byly v posledním vydání signature files nahrazeny, upraveny či zrušeny a tyto podrobit nové identifikaci formátů – nezahrne formáty, které jsou v PRONOMu nové, případně formáty, které neměly signature a nově jej mají.
  • 20. Opakovaná identifikace? • SW - jsou na to LTP systémy připraveny? Je to technicky možné? – verzování AIP • Mají na to instituce zdroje? – infrastruktura – personál
  • 21. Opakovaná identifikace na NZ Realizace je plánována na rok 2017 • NK NZ 9 milionů souborů, 1,5 milionu intelektuálních entit, 120TB, 162 PUID >opakovat identifikaci formátů pro všechny soubory • NA NZ 4,5 milionu souborů, asi 220 tisíc entit, 120TB, 39 PUID (transfery začnou až 2017) >výběrové opakování, pro určité formáty a sbírky (96% jsou dnes Tiff a Jpeg)