Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Post on 24-Jan-2017

904 views 2 download

transcript

Řešení pro dlouhodobou archivaci v Národní knihovně

ČRŠárka Hálečková a Tomáš Burda

Správa LTP

• obsahový správce• technický správce• spolupráce s Oddělením pro standardy

Osnova přednášky

• LTP jako součást projektu NDK• hlavní komponenty subsystému LTP LTP Safe Transformační modul a jeho výkonné uzly

(tzv. „muly“) modul úložiště – IBM information archive

Osnova přednášky

• zabezpečení a kontroly• technické detaily• postřehy z praxe, silné a slabé stránky

zvoleného řešení• diskuse

LTP v rámci NDK

• LTP jako součást projektu NDK sdílí hardware (přináší určité problémy)

• sdílení výkonu• sdílení chyb• sdílení diskových polí

má svou míru autonomie• samostatná instance Safe• samostatné LTP WF (včetně samostatné instance

Transformačního modulu)

NDK = LTP + digitalizační WF

NDK

LTP Digitalizační WF

LTP Safe LTP WF

= uživatelské rozhraní AiP Safe, výkonná část Logica/CGI

LTP WF

WF SAFE LTP SAFE

Transformační modul

Mule ESB

IBM informationarchive

LTP Safe• systém pro správu balíčků• transkripce při ingestu (těží z hlavních i

vedlejších mets)• relační databáze (SQL) -> svižná reakce• vlastní LTP WF• přístup k datům – metadata z DB, metadata a

celé balíčky z pásky• verzování balíčků• vztažení balíčků k různým dalším informacím

– dodavatelé, verze standardů

LTP Safe• automatické i manuální kontroly• správa různého typu exportů

– export DIP– export do LTP WF

• přehled o IE• sledování akcí vykonaných nad balíčkem• sledování propojení příbuzných IE

(vícesvazky, periodika)• deaktivace balíčků• automatické statistiky (možnost vlastních)

LTP Safe

Transformační modul

• společný pro WF Safe a LTP Safe(2 instance)

• vykonává akce nad balíčky• skládá se z většího množství vzájemně

integrovaných opensource komponent mule ESB (Master, Slave) procesní plány (Drools Guvnor) JBPM (Java Business Process Management) Task Handler

Transformační modul

JBoss

MQ

Master Mule

Mule Slave

Mule Slave

Mule Slave

Mule Slave

Mule Slave

Safe Aplikační server (správa)

Fronty úkolů (messagequeue)

Hlavní mula komunikuje se Safe a zařazuje/vyzvedává úkoly do/z MQ

Mule ESB• umožňuje vykonávat operace nad balíčky

distribuovaným způsobem• škálovatelnost (možnost rozšiřovat podle potřeby)• muly různě výkonné• muly virtuální a fyzické (pro časově a výpočetně

náročnější operace)• postaveno kompletně na opensource

technologiích• muly můžeme programovat pomocí „procesních

plánů“ (předpisů, jak se mají jednotlivé muly chovat)

Mule ESB

• Mule Master komunikuje s workflow a zařazuje úkoly do front MQ (plánuje operace, které mají být vykonány nad jednotlivými rozpracovanými balíčky)

• z MQ si berou Mule Slave úkoly podlesvých možností

• vykonávané procesy si muly zapisují do logů (zpětná vazba pro správce, např. přiřešení chyb)

IBM Information archive

• systém pro vlastní uložení dat

• komunikace s LTP• ukládání na pásky• důvěryhodný archiv• autonomní systém

Zabezpečení – řešení v NK• 3 sady pásek 1x RW – ukládá se ihned v Hostivaři 2x WORM – uložení se zpožděním

• 1x uložení v Klementinum• 1x odvoz do MZK

• s RW se pracuje, další dvě jsou záložní• systém kontrol kontrola integrity dat → namátková denní automatická

kontrola proti RW, spouští se od 2:00 do 2:30 kontrola pásek prostřednictvím IBM infrmation archive

(kontrola i WORM pásek), 1x za 2 roky export DIP s validací vyvolaný správcem LTP (např. po

opravě)

Technický (IT) pohledna IBM IA

• zálohování vs. archivace• transparentnost vůči aplikační vrstvě• použitá média (obecně, ve vztahu k NDK)• životní cyklus uložených informací médií (kontroly) LTO mechanik produktu jako takového (IA vs. SSAM)

• integrace, logické rozdělení (postřehy z praxe)• další rozvoj (disky, HA, PoC ... ?)

Technický (IT) pohledna NDK TM

• CDM pracovní prostor BAGIT, CDMID založený na UUID rozklad zátěže na bázi HASH

• použitá rozhraní, unikátní způsob integrace open a closed source export/import balíčků služby na straně AiP Safe (webservices a jejich obsluha, podpisy) procesy na straně Transformačního modulu (parametry procesu, utility a

jejich kategorie) synchnonní/asynchronní utility (komponenty BPMN) externí systémy (ALEPH NK/MZK, K4, registr digitaizace, resolver

URN:NBN) vývojové prostředí (SVN, JENKINS)

• procesní konzole, řízení linky, řešení chybových stavů

Modelování procesůNDK TM (ukázka)

Postřehy z praxe(slabé stránky)

• sdílení chyb s digitalizačním WF (zahlcení, odstávky)

• nedostatečná aktualizace šablon vůči vývoji standardů

• case-sensitivita• externí dodavatelé (chybně provázané informace

ve vedlejších mets → do LTP Safe se nenačítajíinformace o zpracování vazba event-agent-object)

• chyby v zanoření úrovně přílohy (příloha čísla, příloha ročníku u periodik → následné problémy při zpřístupnění v systému Kramerius)

Chybné zobrazení informací o zpracování

Postřehy z praxe(silné stránky)

• oddělené metadatové a datové části balíčku na páskách (úspora místa, času, peněz)

• metadatové části i v databázi (vhodné pro rychlé kontroly)

• verzování• distribuovaný systém – snadno rozšiřitelný• kvalitní IBM information archive• specifikace standardů na dobré úrovni

Diskuse

• Máte nějaké otázky?