+ All Categories
Home > Technology > Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Date post: 24-Jan-2017
Category:
Upload: ltp-portal-cz
View: 904 times
Download: 2 times
Share this document with a friend
23
Řešení pro dlouhodobou archivaci v Národní knihovně ČR Šárka Hálečková a Tomáš Burda
Transcript
Page 1: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Řešení pro dlouhodobou archivaci v Národní knihovně

ČRŠárka Hálečková a Tomáš Burda

Page 2: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Správa LTP

• obsahový správce• technický správce• spolupráce s Oddělením pro standardy

Page 3: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Osnova přednášky

• LTP jako součást projektu NDK• hlavní komponenty subsystému LTP LTP Safe Transformační modul a jeho výkonné uzly

(tzv. „muly“) modul úložiště – IBM information archive

Page 4: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Osnova přednášky

• zabezpečení a kontroly• technické detaily• postřehy z praxe, silné a slabé stránky

zvoleného řešení• diskuse

Page 5: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

LTP v rámci NDK

• LTP jako součást projektu NDK sdílí hardware (přináší určité problémy)

• sdílení výkonu• sdílení chyb• sdílení diskových polí

má svou míru autonomie• samostatná instance Safe• samostatné LTP WF (včetně samostatné instance

Transformačního modulu)

Page 6: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

NDK = LTP + digitalizační WF

NDK

LTP Digitalizační WF

LTP Safe LTP WF

= uživatelské rozhraní AiP Safe, výkonná část Logica/CGI

Page 7: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

LTP WF

WF SAFE LTP SAFE

Transformační modul

Mule ESB

IBM informationarchive

Page 8: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

LTP Safe• systém pro správu balíčků• transkripce při ingestu (těží z hlavních i

vedlejších mets)• relační databáze (SQL) -> svižná reakce• vlastní LTP WF• přístup k datům – metadata z DB, metadata a

celé balíčky z pásky• verzování balíčků• vztažení balíčků k různým dalším informacím

– dodavatelé, verze standardů

Page 9: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

LTP Safe• automatické i manuální kontroly• správa různého typu exportů

– export DIP– export do LTP WF

• přehled o IE• sledování akcí vykonaných nad balíčkem• sledování propojení příbuzných IE

(vícesvazky, periodika)• deaktivace balíčků• automatické statistiky (možnost vlastních)

Page 10: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

LTP Safe

Page 11: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Transformační modul

• společný pro WF Safe a LTP Safe(2 instance)

• vykonává akce nad balíčky• skládá se z většího množství vzájemně

integrovaných opensource komponent mule ESB (Master, Slave) procesní plány (Drools Guvnor) JBPM (Java Business Process Management) Task Handler

Page 12: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Transformační modul

JBoss

MQ

Master Mule

Mule Slave

Mule Slave

Mule Slave

Mule Slave

Mule Slave

Safe Aplikační server (správa)

Fronty úkolů (messagequeue)

Hlavní mula komunikuje se Safe a zařazuje/vyzvedává úkoly do/z MQ

Page 13: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Mule ESB• umožňuje vykonávat operace nad balíčky

distribuovaným způsobem• škálovatelnost (možnost rozšiřovat podle potřeby)• muly různě výkonné• muly virtuální a fyzické (pro časově a výpočetně

náročnější operace)• postaveno kompletně na opensource

technologiích• muly můžeme programovat pomocí „procesních

plánů“ (předpisů, jak se mají jednotlivé muly chovat)

Page 14: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Mule ESB

• Mule Master komunikuje s workflow a zařazuje úkoly do front MQ (plánuje operace, které mají být vykonány nad jednotlivými rozpracovanými balíčky)

• z MQ si berou Mule Slave úkoly podlesvých možností

• vykonávané procesy si muly zapisují do logů (zpětná vazba pro správce, např. přiřešení chyb)

Page 15: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

IBM Information archive

• systém pro vlastní uložení dat

• komunikace s LTP• ukládání na pásky• důvěryhodný archiv• autonomní systém

Page 16: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Zabezpečení – řešení v NK• 3 sady pásek 1x RW – ukládá se ihned v Hostivaři 2x WORM – uložení se zpožděním

• 1x uložení v Klementinum• 1x odvoz do MZK

• s RW se pracuje, další dvě jsou záložní• systém kontrol kontrola integrity dat → namátková denní automatická

kontrola proti RW, spouští se od 2:00 do 2:30 kontrola pásek prostřednictvím IBM infrmation archive

(kontrola i WORM pásek), 1x za 2 roky export DIP s validací vyvolaný správcem LTP (např. po

opravě)

Page 17: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Technický (IT) pohledna IBM IA

• zálohování vs. archivace• transparentnost vůči aplikační vrstvě• použitá média (obecně, ve vztahu k NDK)• životní cyklus uložených informací médií (kontroly) LTO mechanik produktu jako takového (IA vs. SSAM)

• integrace, logické rozdělení (postřehy z praxe)• další rozvoj (disky, HA, PoC ... ?)

Page 18: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Technický (IT) pohledna NDK TM

• CDM pracovní prostor BAGIT, CDMID založený na UUID rozklad zátěže na bázi HASH

• použitá rozhraní, unikátní způsob integrace open a closed source export/import balíčků služby na straně AiP Safe (webservices a jejich obsluha, podpisy) procesy na straně Transformačního modulu (parametry procesu, utility a

jejich kategorie) synchnonní/asynchronní utility (komponenty BPMN) externí systémy (ALEPH NK/MZK, K4, registr digitaizace, resolver

URN:NBN) vývojové prostředí (SVN, JENKINS)

• procesní konzole, řízení linky, řešení chybových stavů

Page 19: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Modelování procesůNDK TM (ukázka)

Page 20: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Postřehy z praxe(slabé stránky)

• sdílení chyb s digitalizačním WF (zahlcení, odstávky)

• nedostatečná aktualizace šablon vůči vývoji standardů

• case-sensitivita• externí dodavatelé (chybně provázané informace

ve vedlejších mets → do LTP Safe se nenačítajíinformace o zpracování vazba event-agent-object)

• chyby v zanoření úrovně přílohy (příloha čísla, příloha ročníku u periodik → následné problémy při zpřístupnění v systému Kramerius)

Page 21: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Chybné zobrazení informací o zpracování

Page 22: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Postřehy z praxe(silné stránky)

• oddělené metadatové a datové části balíčku na páskách (úspora místa, času, peněz)

• metadatové části i v databázi (vhodné pro rychlé kontroly)

• verzování• distribuovaný systém – snadno rozšiřitelný• kvalitní IBM information archive• specifikace standardů na dobré úrovni

Page 23: Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Diskuse

• Máte nějaké otázky?


Recommended