+ All Categories
Home > Technology > Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů: Jednorázový nebo opakovaný proces?

Date post: 24-Jan-2017
Category:
Upload: dp-blog-cz
View: 378 times
Download: 2 times
Share this document with a friend
22
Identifikace formátů: Jednorázový nebo opakovaný proces? Jan Hutař, Digital Preservation Analyst, Archives New Zealand (Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
Transcript
Page 1: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů:Jednorázový nebo opakovaný proces?

Jan Hutař, Digital Preservation Analyst, Archives New Zealand(Marek Melichar, ÚVT UK)

Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016

Page 2: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů:Jednorázový nebo opakovaný proces?

• Národní archiv NZ a LTP problematika• Formátové strategie obecně• Změny prostředí, nástrojů a informací v

posledních 10 letech• PRONOM a identifikace formátů

Page 3: Identifikace formátů: Jednorázový nebo opakovaný proces?

Národní archiv NZ a LTP problematika

Hutař, Jan - Archives New Zealand - budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Jan Hutař. Archivní časopis. Roč. 63, č. 1 (2013), s. 5-24

Prezentace 27.5.2015 v Prazehttp://www.slideshare.net/dp-blog-cz/jan-huta-dlouhodob-ochrana-digitlnch-informac-v-nrodnm-archivu-na-novm-zlandu

Page 4: Identifikace formátů: Jednorázový nebo opakovaný proces?

Národní archiv NZ a LTP problematika

• 2005 - Public Record Act

• 2009 - Digital Continuity Action Plan (DCAP)

• Government Digital Archive Programme GDAP (1), GDAP (2),...

• Storage jako služba

• Transfery

• Poměrně silný tým

Page 5: Identifikace formátů: Jednorázový nebo opakovaný proces?

Formátové strategie obecněMěnící se důraz v LTP

• HW (bit level) a úložná média >> Informační obsah (significant properties), logická ochrana obsahu

• Debaty o strategiích LTP (migrace, emulace) v teoretické, spekulativní a výzkumné rovině

• V praxi instituce nemigrují – některé normalizují na vstupu – mnohé “neznají svůj obsah” (sign. properties)– jiné nemají čas, finance, staff, necítí potřebu

Page 6: Identifikace formátů: Jednorázový nebo opakovaný proces?

Formátové strategie obecněSignificant properties - know your data

Paranoidiní vs Pragmatický přístup

• stačí jen velikost, PUID, mime type…

• nebo:

Page 7: Identifikace formátů: Jednorázový nebo opakovaný proces?

Formátové strategie obecněSignificant properties

• RozsahK čemu jsou techMD extrahovaná ze souborů? Potřebuje administrátor archivu hledat podle precint size? Podle čeho? Víme to dnes? • Způsob uchováníJe ta informace vůbec použitelná? (normalizace výstupu extraktorů vs raw výstupy)

-

Page 8: Identifikace formátů: Jednorázový nebo opakovaný proces?

Formátové strategie obecněParadoxy dlouhodobé digitální archivace

• 2001: We want to maintain digital information intact, but we also want to be able to access this information in a dynamic use context

Chen, Su-Shing. "The paradox of digital preservation." Computer 34.3 (2001): 24-28.

• 2016: Pro zajištění trvalého uchování digitálních dokumentů potřebujeme na technologiích závislé nástroje a informační zdroje, které se neustále mění….

-

Page 9: Identifikace formátů: Jednorázový nebo opakovaný proces?

Formátové strategie obecněNový důraz - měnící se prostředí

• Ne migrace do nového formátu, ale nové nástroje, nové informace, nové postupy

• Změny PRONOMu v posledních 10 letech• Dopady na praxi• Extrakce vs identifikace formátu - identifikace je

klíčová

-

Page 10: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů - nástroje

•TNA PRONOM - alternativy? •Nástroje jako DROID, Siegfried, Fido, TriD, Apache Tika, File, ...

•PUID (PRONOM Unique ID) - alternativy?

-

Page 11: Identifikace formátů: Jednorázový nebo opakovaný proces?

PRONOM–od roku 2004 (pro potřeby TNA)–pravidelné aktualizace –zásadní změna přístupu od verze 6 -

tzv. container signature files–DB formátů - stále stejná

Page 12: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů - proces

• Identifikace formátu je většinou považována za jednorázovou operaci

• Ingest je vždy priorita, následně většinou jen bit level operace

• NA a NK NZ uvažují o tom, jak zavést re-identifikaci do svých procesů už delší dobu

Page 13: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů - NZ• NK NZ - archivuje dig. data od roku 2008• NA NZ - archivuje dig. data od roku 2011• Od té doby se nezměnily formáty, které

považujeme za důvěryhodné, změnily se informace v PRONOM, signatures a nástroje...

• Opakování identifikace dat z roku 2008 dnes přinese jiné výsledky (PUID)

• TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3, fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6

Page 14: Identifikace formátů: Jednorázový nebo opakovaný proces?

Změny v PRONOM / DROIDJak DROID funguje a proč se výsledky po nějaké době mění? • DROID k identifikaci formátů používá signature file, XML

publikované několikrát ročně

• Signature je sekvence bytů, nebo seznam více sekvencí bytů, které mohou být v konkrétním souboru určitého formátu obsaženy

• Pro některé formáty může jít pouze o sled bytů na počátku souboru, signature ale může být podstatně komplikovanější

• DROID v6 (2011) nově 2 signature soubory

– binární, DROID používal od počátku,

– nový pro kontejnerové formáty

Page 15: Identifikace formátů: Jednorázový nebo opakovaný proces?

Identifikace formátů• DROID nejprve kontroluje, zda formát souboru je

kontejnerový, pokud je > použije container signature file a ne binární signature file

• trigger PUIDs– OLE2 formát (fmt/111) – dva ZIP formáty (fmt/189 a x-fmt/263)

• Kontejnerové signatures jsou navrženy tak, aby byly přesnější než binární.

Page 16: Identifikace formátů: Jednorázový nebo opakovaný proces?
Page 17: Identifikace formátů: Jednorázový nebo opakovaný proces?

Změny v PRONOM• formáty nejsou mazány - deaktivovány a

nahrazeny (deprecated in favor of) = vlastně odebrání signature

• přidání koncovek ke konkrétnímu formátu• změny priorit formátu X vzhledem k formátu Y• přidání signature!• změna signature!

Jan Hutař
tohle je vzdy uvedeno v release notes kdyz je format deprecated
Page 18: Identifikace formátů: Jednorázový nebo opakovaný proces?

Změny v PRONOMJa rychle se informace v PRONOM mění? • PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů

• Ne všechny formáty v PRONOMu mají signature, některé nemají a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má signature, 429 signature nemá)

Signature file verze 86 z července 2016

• 46 zcela nových formátů,

• 23 formátů bylo aktualizováno a

• přidáno bylo 46 signatures

• byly přidány nové formáty bez signature a některé formáty již existující v PRONOM databázi dostaly vlastní signature

Page 19: Identifikace formátů: Jednorázový nebo opakovaný proces?

Opakovaná identifikace? Možnosti 1. Jednou za 5 let provést identifikaci formátů všech souborů v

archivu

– množství souborů, nároky na výpočetní výkon a čas

2. Opakovat identifikaci formátů výběrově na části obsahu digitálního archivu vybrané na základě nějakých kritérií

3. Identifikovat soubory s PUIDy, které byly v posledním vydání signature files nahrazeny, upraveny či zrušeny a tyto podrobit nové identifikaci formátů

– nezahrne formáty, které jsou v PRONOMu nové, případně formáty, které neměly signature a nově jej mají.

Page 20: Identifikace formátů: Jednorázový nebo opakovaný proces?

Opakovaná identifikace? • SW - jsou na to LTP systémy připraveny? Je to

technicky možné?

– verzování AIP

• Mají na to instituce zdroje?

– infrastruktura

– personál

Page 21: Identifikace formátů: Jednorázový nebo opakovaný proces?

Opakovaná identifikace na NZ Realizace je plánována na rok 2017• NK NZ 9 milionů souborů, 1,5 milionu

intelektuálních entit, 120TB, 162 PUID>opakovat identifikaci formátů pro všechny soubory • NA NZ 4,5 milionu souborů, asi 220 tisíc entit,

120TB, 39 PUID (transfery začnou až 2017)>výběrové opakování, pro určité formáty a sbírky (96% jsou dnes Tiff a Jpeg)


Recommended