Date post: | 03-Jul-2015 |
Category: |
Documents |
Upload: | tomas-bouda |
View: | 733 times |
Download: | 0 times |
1
Národní digitální knihovna
www.ndk.cz
PhDr. Bohdana Stoklasová & kol.
Blok expertů, MU KISK, 7.4.2011
Obsah
Rámec
Cíle
Současný stav a perspektivy
Systém NDK – celkový pohled, vazby
Subsystémy (digitalizace, transformace, LTP, zpřístupnění)
Přínos pro uživatele
Přínos pro knihovny
2
Rámec
Strukturální fondy EU – IOP
Výzva č. 07 – Elektronizace služeb veřejné správy
Oblast podpory: 1.1a, 1.1b – Rozvoj informační společnosti ve veřejné správě
Smart Administration jako nový kontext
d) Elektronizace služeb veřejné správy … digitalizace vybraných datových zdrojů, jejich zpřístupňování (vč. ochrany a zpřístupnění publikovaných digitálních dokumentů), dlouhodobého ukládání včetně podpory vybavení Národní digitální knihovny, Národního datového úložiště a regionálních datových úložišť vzájemně propojených
Cca 300 mil. Kč (85% ESF, 15% státní rozpočet)
Nositel Národní knihovna ČR
Partner Moravská zemská knihovna v Brně
3
Cíle
1. Digitalizace
2. Dlouhodobá ochrana
3. Zpřístupnění
4
Digitalizace
Digitalizace významné části bohemikální produkce 19.-21. století knihy vydané na území České republiky, napsané v
češtině nebo pojednávající o Česku
celkem do konce roku 2019 více než 50 milionů stran, cca 300 000 svazků
historické fondy výběrově (SA – i zde plné texty)
pokračování po roce 2014 – do roku 2019 povinná udržitelnost projektu, v dalších letech – rychlost digitalizace (= doba nutná pro digitalizaci jádra kulturního dědictví) závislá na disponibilních financích
5
Dlouhodobá ochrana
Dlouhodobé uložení dokumentů ve spolehlivém digitálním úložišti prostor pro bezpečné uložení dosud
digitalizovaných dokumentů + archiv českého webu
prostor pro bezpečné uložení digitálních dokumentů vytvořených či získaných v projektu NDK i v rámci dalších projektů (včetně Google).
6
Zpřístupnění
Zpřístupnění digitálních dokumentů v jednotném, uživatelsky vlídném rozhraní vysoká míra možné personalizace
z jednoho místa budou přístupné digitalizované dokumenty i placené online databáze
7
Současný stav
Harmonogram: 2010-2014
Příprava od 2004, oficiálně od 2008
Současný stav: výběrová řízení
Management a publicita - vyhlášeno
SI – příprava podkladů pro výběrové řízení
8
Perspektivy
2011: výběrová řízení, dodávky technologií, testy
2012: poloprovoz (skluz, nutná další směna)
2013-2014: plný provoz
2014: ukončení
2015: zpráva
2015 -2019: dlouhodobá udržitelnost
2019 -- pokračování
9
Systém NDK
10
Digitalizace
11
Digitalizace
12
Souslednost jednotlivých pracovních operací v rámci digitalizační linky
Sklad Fyzická kontrola
čárového kódu
Kontrola
fyzického
stavu
Předání/Převzetí
dokumentů na
pracoviště Přípravy
Pracoviště
Přípravy
1. kontrola možných duplicit =
porovnání ALEPH
• kontrola základních biblograf.
údajů mezi originálním
dokumentem a ALEPHem
• kontrola výskytu příznaku dig v
NKC či SKC
• vznik dílčí knihovny
• vznik výpůjčky
• výpis duplicit (manuální kontrola)
2. kontrola možných duplicit =
porovnání RD.cz
• import dílčí knihovny do RD.cz
(vyškolený pracovník přípravy)
• automatická kontrola duplicit
(pomocí SYSNO, pole 001,
čČNB, čárového kódu atd.)
• výpis duplicit (manuální
kontrola) – v případě duplicit se
dokument vrací a ruší se
výpůjčka
Vznik dávky pro
proces digitalizace
Rozhodnutí o
způsobu skenování
(robot x manuál, typ
skeneru, šedá škála
x barva atd.)
Zjištění jazyka a
typu fontů (OCR,
latinka x švabach,
čeština x němčina
atd.)
Rozhodnutí o
popisu dílčích částí
(u předem
vytipovaných
dokumentů)
Fyzické roztřídění
dokumentů pro
určitý skener
Kompletace denní
skenovací dávky
Předání/Převzetí dokumentů
na pracoviště Skenování
• v rámci této operace
vznikne ve workflow
„skenovací složka“, kam se
budou ukládat obrazové
soubory a dále se vygenerují
úkoly popisující kroky
zpracování; ve složce již
musí být zákl. xml s DMD
Pracoviště
Skenování
Plnění skenovací
složky obrázky (tiff)
+ připojení
základních AMD o
skenerech a užitých
softwarech
(generováno
automaticky)
?Základní operace
s obraz. soubory
(ořez a narovnání)?
Kontrola úplnosti a
kvality
• neúplné -
originální dokument
se vrací do ORF,
skeny se mažou
(zachování pouze
při větším množství
souborů
Kompletace denní
várky ve
„skenovacích
složkách“
Předání/Převzetí
dokumentů na
pracoviště
Zpracování dat
Pracoviště
Zpracování dat
Stáhnutí „skenovací
složky“
• informace se
projeví u vedoucích
pracovníků
Zpracování
obrazových
souborů
• rutinní image
processing
Načtení DMD a
kontrola kvality
metadat
OCR dle
stanoveného
způsobu do
ALTOxml
U předem
zvolených titulů
popis vnitřních
částí
Tvorba
strukturálních
metadat
Kompletace digitálního
dokumentu a následné
vytvoření PSP a přesun do
transformačního modulu →
po uložení a zpřístupnění se
automaticky u dokumentu
nastaví statut „Dokončeno“
a odstraní se z workflow (s
definovanou prodlevou)
Kramerius
LTP
Změna statutu
exempláře
(NKF,UKF)
Generování
URN:NBN
Objemy
26 000 000 stran do konce roku 2014
24 000 000 stran do konce roku 2019
27 000 s./den (s každým ztraceným dnem –nárůst celkového dluhu o tento počet)
1 140 s./hodinu (s každou ztracenou hodinou – nárůst celkového dluhu o tento počet)
13
Formáty
bibliografické formáty – MARCxml, MARC2
popisná metadata – MODS, DublinCore, METS
administrativní/technická metadata – MIX, PREMIS
obrazové soubory – TIFF, JPEG, JPEG2000, PDF-A
OCR – txt, ALTOxml
14
LTP - OAIS pro NDK
15
Model OAIS
16
Ochrana
analogové x digitální dokumenty
nejen fyzická ochrana (bit stream)
též logická ochrana
17
Ingest – vstup fáze 1 Transformace
vstup – PSP
vytvoření SIP balíčků
příchozí data (UC, MC i migrace) a metadatapřevedena do vnitřního formátu LTP systému a systémů zpřístupnění
různá workflows, různé kroky, různí dodavatelé
kontroly kompletnosti, kvality, struktury aj.
18
Ingest – vstup fáze 2
vytvoření balíčků AIP – pro archivní dokumenty
automatické identifikace a validace formátů souborů
automatické obohacení metadat
normalizace - případná migrace do preferovaných formátů
využití služeb třetích stran – registry: PRONOM/DROID; extraktory – vaidátory: JHOVE2, NZME
monitorování pohybu dat > možnost reagovat (dodavatel, administrátor)
19
Archivní modul
jádro systému dlouhodobé ochrany
uložení a správa AIP balíčků
základem je archivní úložiště – tj. vlastní technologie uchovávání digitálních dokumentů na fyzických úložištích
komplexní data i metadata management nad AIP
administrativní rozhraní archivního modulu
20
Plánování ochrany
inteligentní pomoc správcům s plánováním dlouhodobé ochrany
využití metadat o vložených formátech a platformách, na kterých fungují; a dalších technologiích, které mohou mít dopad na použitelnost archivovaných dat
formát>risk (správa risků)>hodnocení risků>test set>test opatření>validace a hodnocení>ostrá migrace
základní nástroje pro migraci dat nebo možnost napojení na externí nástroje (ideálně obojí)
21
Administrace a monitoring
propracovaný modul pro monitoring –prostupuje celým systémem
podpora sledování pohybu dokumentů v jednotlivých fázích životního cyklu balíčků SIP>AIP>DIP a uchování těchto informací
monitorování a záznam prováděných akcí
nastavení systému – přístupy, práva k akcím atd.
22
Přístup
LTP je systém pro archivaci
uživatelské kopie jsou mimo systém
vytváření DIP balíčků v různých verzích na základě různých požadavků
kontrola přístupů administrátorů – dle rolí, skupin, institucí …
propojení na autentikační nástroje NK a MZK (LDAP, Active Directory aj.)
23
Centrální přístup
24
Zastřešení
Stávající aplikace (katalogy, databáze, Kramerius, Manuscriptrium, WebArchiv, placené zdroje)
Nové aplikace a služby
Jediné, jednoduché a nastavitelné rozhraní
Jednoduché pro uživatele, složité uvnitř (technologie, správa, úpravy dat)
25
Infrastruktura - umístění
Klementinum
Hostivař
Brno – MZK
26
Lokality
27
Historický areál Klementinum, Praha 1© 2010 METROPROJEKT Praha a.s.
Lokality
28
Dostavba depozitáře Hostivař, Praha 15
© 2010 ATREA spol.s r.o.
Lokality
29
Moravská zemská knihovna, Brno
Objemy dat projektu NDK
Digitalizace projektu NDK
Webarchiv
30
Master copy User copy
Konec 2010 87 TB 31 TB
Konec 2014 413 TB 147 TB
Master copy User copy
Konec 2010 51 TB 51 TB
Konec 2014 172 TB 172 TB
Předpokládané schéma aplikací
31
Lokalita Praha 15Lokalita Praha 1
Kramerius
Zálohování
Archivace
HSM
Zálohování
Archivace
HSM
Webarchiv
NAS
NAS
Manuscriptorium
Lokalita Brno
Zálohování
Archivace
HSM
NAS
NAS
NAS
NASKramerius
Webarchiv
Kramerius
LTP
Digitalizace
CESNET2Ostatní
Digitalizace
Přínos pro uživatele
50 mil. digitalizovaných stran
dlouhodobá (stálá) dostupnost digitálních dat vzniklých digitalizací analogových dokumentů i born digital dokumentů
možnost vyhledávání v plných textech
možnost získání volných dokumentů
možnost získání dalších dokumentů v souladu s AZ (v místě samém, v síti knihoven?)
možnost přístupu ne zdarma, ale za rozumnou cenu (čím více uživatelů, tím nižší cena)
centrální přístup k různým zdrojům
32
Novodobé fondy
33
Historické fondy
34
Přínos pro knihovny
standardy/metodika pro digitalizaci
koordinace/registrace digitalizace v ČR
standardy/metodika pro LTP
vzorové centrální zpřístupnění
tým „poradců“ (Praha, Brno)
možnost vidět komplexní systém digitalizace/LTP/zpřístupnění v ČR
získání předloh pro tisk = zrychlení katalogizace v NK ČR i v MZK
35
Statisíce knih a periodik online!
36