Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek

Post on 24-Jan-2017

50 views 2 download

transcript

Digitální zpřístupnění Digitální zpřístupnění knihovních sbírekknihovních sbírek

Adolf KnollAdolf KnollNárodní knihovna České Národní knihovna České

republikyrepublikyadolf.knoll@nkp.czadolf.knoll@nkp.cz

Digitalizační aktivityDigitalizační aktivity► 1992/1993 – První pilotní projekt programu 1992/1993 – První pilotní projekt programu

UNESCO Paměť světaUNESCO Paměť světa► 1995 – další pilotní projekty1995 – další pilotní projekty► 1996 – počátek rutinní digitalizace1996 – počátek rutinní digitalizace► 2000 – národní programy2000 – národní programy► 2003/2004 – spuštění digitálních knihoven2003/2004 – spuštění digitálních knihoven► ->-> 2010 – vytvoření virtuálního 2010 – vytvoření virtuálního

badatelského prostředí pro historické badatelského prostředí pro historické dokumenty a sbírkydokumenty a sbírky

StandardizaceStandardizace► Složený digitální Složený digitální

dokument:dokument: Datová částDatová část Metadatová částMetadatová část

► Jak strukturovat?Jak strukturovat?

► Komplexní Komplexní dokumentový formátdokumentový formát

Značkovací jazykyZnačkovací jazyky►Platforma SGML je pro takový formát Platforma SGML je pro takový formát

ideálníideální►Naše programy:Naše programy:

Vlastní SGML implementace (DOBM) – 1996 Vlastní SGML implementace (DOBM) – 1996 – v r. 1999 jako doporučení UNESCO– v r. 1999 jako doporučení UNESCO

XML platforma od r. 2003/2004XML platforma od r. 2003/2004►Namapování standardů pro popis Namapování standardů pro popis

obsahu, doporučených postupů a dalších obsahu, doporučených postupů a dalších řešenířešení

Metadata

Metadata – co popsatMetadata – co popsat► IdentifikaceIdentifikace►ObsahObsah►StrukturaStruktura►Technické parametryTechnické parametry►KomunikaceKomunikace

► Jak: naše konkrétní řešení jsou Jak: naše konkrétní řešení jsou promítnuta do těchto strukturálních promítnuta do těchto strukturálních součástísoučástí

ZPŘÍSTUPNĚNÍ PROSTŘEDNICTVÍM DEFINOVANÉ KOMPATIBILITY

Identifikační metadataIdentifikační metadata► Katalogizační a další identifikační pravidlaKatalogizační a další identifikační pravidla► MARC, Dublin Core, MASTER, …, v knihovnáchMARC, Dublin Core, MASTER, …, v knihovnách► EAD v archivechEAD v archivech► AMICO, CIDOC, REACH Element Set, …, v AMICO, CIDOC, REACH Element Set, …, v

muzeíchmuzeích► … … in …in …

► ROLE: identifikovat virtuální reprezentaci ROLE: identifikovat virtuální reprezentaci originálu (ve vztahu k originálu)originálu (ve vztahu k originálu)

Metadata pro popis obsahuMetadata pro popis obsahu► Žádná pevná pravidla nejsou k dispozici – nebo Žádná pevná pravidla nejsou k dispozici – nebo

jen částečně – většinou ověřené praktické jen částečně – většinou ověřené praktické postupypostupy

►Musíme je vzít a formálně zabudovat do Musíme je vzít a formálně zabudovat do struktury dokumentustruktury dokumentu

► Většinou základní povinná úroveň je velmi Většinou základní povinná úroveň je velmi jednoduchá, ale musí vyhovět nejčastějším jednoduchá, ale musí vyhovět nejčastějším uživatelským potřebámuživatelským potřebám

Strukturální metadataStrukturální metadata►Musí být namapována struktura celého Musí být namapována struktura celého

dokumentu (se všemi nejčastějšími dokumentu (se všemi nejčastějšími zvláštnostmi):zvláštnostmi): Fyzické částiFyzické části Logické části, které chceme specifickým Logické části, které chceme specifickým

způsobem pojednat (články, kapitoly, způsobem pojednat (články, kapitoly, vztažené objekty, …)vztažené objekty, …)

►Zde je často nesnadné stanovit Zde je často nesnadné stanovit povinné elementypovinné elementy

Technická metadataTechnická metadataExistence vysoce profesionálních standardůExistence vysoce profesionálních standardů

vs.vs.Naše pragmatické a skutečné potřebyNaše pragmatické a skutečné potřeby

► Rigorózní standardy je třeba aplikovat tam, Rigorózní standardy je třeba aplikovat tam, kde mohou dobře sloužit cílům projektu, ale kde mohou dobře sloužit cílům projektu, ale tam, kde by byly jen cílem pro sebe sama, tam, kde by byly jen cílem pro sebe sama, bychom měli mít odvahu se rozhodnout jinakbychom měli mít odvahu se rozhodnout jinak

► ROLE: vyřešit současné a budoucí zobrazení, ROLE: vyřešit současné a budoucí zobrazení, přehrání nebo tisk správně a na nezbytné přehrání nebo tisk správně a na nezbytné kvalitativní úrovnikvalitativní úrovni

Komunikační metadataKomunikační metadata►Zajišťují integraci do širšího virtuálního Zajišťují integraci do širšího virtuálního

prostředíprostředí►Komunikace mezi aplikacemi digitální Komunikace mezi aplikacemi digitální

knihovny a vyhledávacími portályknihovny a vyhledávacími portály►Standardizované protokoly: Z39.50, Standardizované protokoly: Z39.50,

OAI-PMHOAI-PMH, …, …► Je třeba si odsouhlasit profily, tj. Je třeba si odsouhlasit profily, tj.

minimální identifikační záznamyminimální identifikační záznamy

Digital Library Applications

Manuscriptorium Kramerius

KATALOGY(Souborný katalog ČR bude mít funkci

souborného katalogu digitálního obsahu)

PORTÁLY

TEL (http://theeuropeanlibrary.org)JIB (http://www.jib.cz)

CERL-MSS (https://diva.ub.uu.se/test/cerl/index.xml)

Metadata: jak popsatMetadata: jak popsat► Cílem je strukturovaný formát definovaný Cílem je strukturovaný formát definovaný

formálně jako DTD nebo W3C Schémaformálně jako DTD nebo W3C Schéma

►Mnoho z výše uvedených skutečností závisí Mnoho z výše uvedených skutečností závisí na našem výběru/rozhodnutína našem výběru/rozhodnutí

►Naše formáty pro digitalizované dokumenty: Naše formáty pro digitalizované dokumenty: rukopisy, periodika, monografie, zvukové rukopisy, periodika, monografie, zvukové dokumenty, sbírkové předměty, dokumenty, sbírkové předměty, komunikační profily, historický fultextkomunikační profily, historický fultext

Budoucí vývojBudoucí vývoj► XML platforma se zdá zatím dostatečně XML platforma se zdá zatím dostatečně

robustnírobustní►Nové přístupy a dílčí platformy se budou Nové přístupy a dílčí platformy se budou

objevovat – například METS (strukturovaná objevovat – například METS (strukturovaná kontejnerizace)kontejnerizace)

► Jestliže jsou naše analýzy správné, budou starší Jestliže jsou naše analýzy správné, budou starší a novější základně mezi sebou kompatibilnía novější základně mezi sebou kompatibilní

► Změny stojí peníze: nástroje na výrobu Změny stojí peníze: nástroje na výrobu digitálních dokumentů, na jejich zpřístupnění, digitálních dokumentů, na jejich zpřístupnění, na…na…

Data

Data: co ukázatData: co ukázat►Datové soubory jsou cílem Datové soubory jsou cílem

uživatelského zájmu (obrazy, fulltext, uživatelského zájmu (obrazy, fulltext, audio nebo video soubory)audio nebo video soubory)

►Originál je jimi přímo reprezentovánOriginál je jimi přímo reprezentován►Kvalita dat:Kvalita dat:

Archivní souboryArchivní soubory Uživatelské souboryUživatelské soubory

►Obě úrovně jsou primárně definovány Obě úrovně jsou primárně definovány cíli našich projektůcíli našich projektů

Archivní souboryArchivní soubory► Funkce ochrany a záchrany originálůFunkce ochrany a záchrany originálů► Většinou ISO nebo velmi rozšířené standardy:Většinou ISO nebo velmi rozšířené standardy:

TIFF, JPEGTIFF, JPEG WAVWAV MPEGMPEG

NekomprimovanéNekomprimované KomprimovanéKomprimované

►bezeztrátověbezeztrátově► ztrátověztrátově

Uživatelské souboryUživatelské soubory►Redukce objemu dat:Redukce objemu dat:

Snížení rozlišení nebo toku dat (bit rate)Snížení rozlišení nebo toku dat (bit rate) Komprese Komprese

Pouze obrazy (+ je třeba zvážit i snížení Pouze obrazy (+ je třeba zvážit i snížení počtu barev):počtu barev):►Mixed Raster ContentMixed Raster Content►Multiresolutional imageMultiresolutional image►Obrazové serveryObrazové servery

Snížení rozlišení/toku datSnížení rozlišení/toku dat► Použití pouze známých formátůPoužití pouze známých formátů►Definovat cíle a smysl dodávání datDefinovat cíle a smysl dodávání dat►Dodávat jen takové rozlišení, které je Dodávat jen takové rozlišení, které je

mírně vyšší než požadovaný limit (náhled, mírně vyšší než požadovaný limit (náhled, základní kvality, normální kvalita, …)základní kvality, normální kvalita, …)

► Většinou oblast JPEG nebo TIFF/GIF Většinou oblast JPEG nebo TIFF/GIF (černobílý obraz); MP3 nebo WMA; WMV (černobílý obraz); MP3 nebo WMA; WMV nebo MPEG4 na Internetunebo MPEG4 na Internetu

Ztrátová kompreseZtrátová komprese►Tradiční schémata: Tradiční schémata:

DCT JPEGDCT JPEG MPEG1, MPEG2MPEG1, MPEG2

►Nová schémata:Nová schémata: JBIG pro černobílý obraz (zatím nerozšířeno)JBIG pro černobílý obraz (zatím nerozšířeno) Wavelet schémata (JPEG 2000 a další Wavelet schémata (JPEG 2000 a další

formáty)formáty) MPEG4MPEG4

Mixed Raster ContentMixed Raster Content

Multiresolutional imageMultiresolutional image

ALL in ONE FILE

Obrazové serveryObrazové serveryDynamické generování požadovaných Dynamické generování požadovaných

částí obrazu resp. kvalitových hladinčástí obrazu resp. kvalitových hladin

ManuscriptoriumManuscriptoriumSkutečnostSkutečnost

ManuscriptoriumManuscriptorium►souborný katalog vč. některých souborný katalog vč. některých

zahraničních institucízahraničních institucí►ca. 1700 dokumentů, tj. cca 800 000 ca. 1700 dokumentů, tj. cca 800 000

stran vč. několika zahraničníchstran vč. několika zahraničních►obrazový Express Server na mapyobrazový Express Server na mapy►Komunikace Z39.50 (MARC21), OAI-Komunikace Z39.50 (MARC21), OAI-

PMH (DC, MARC21, OpenM, MODS)PMH (DC, MARC21, OpenM, MODS)

ManuscriptoriumManuscriptoriumZáměryZáměry

► TEI strukturované texty (pilot nyní)TEI strukturované texty (pilot nyní)► CERL-MSS CERL-MSS

https://diva.ub.uu.se/test/cerl/index.xmlhttps://diva.ub.uu.se/test/cerl/index.xml► TELTEL► Audio dataAudio data►Mezinárodní rozšíření – nástroje pro jeho Mezinárodní rozšíření – nástroje pro jeho

podporu, výzva dalším institucím, podporu, výzva dalším institucím, mezinárodní workshop před Inforemmezinárodní workshop před Inforem

► Účast v mezinárodních projektechÚčast v mezinárodních projektech

KrameriusKrameriusSoučasnostSoučasnost

►1,5 milionu stran (dalších 0,5 milionu 1,5 milionu stran (dalších 0,5 milionu připraveno)připraveno)

►2 velké aplikace (NK, Akademie věd)2 velké aplikace (NK, Akademie věd)►Zabudováno v komerčních nástrojích Zabudováno v komerčních nástrojích

firmy Elsys Engineeringfirmy Elsys Engineering►Wavelet a Mixed Raster Content Wavelet a Mixed Raster Content

technologietechnologie

KrameriusKrameriusSoučasnostSoučasnost

►Zlepšení komunikace OAI-PMH (DC Zlepšení komunikace OAI-PMH (DC qualified)qualified)

►Dokončení provázanosti na Souborný Dokončení provázanosti na Souborný katalog ČR (vzájemná propojenost)katalog ČR (vzájemná propojenost)

►Další dokumenty: t.č. implementace Další dokumenty: t.č. implementace DTD pro sbírkové předměty, návrh pro DTD pro sbírkové předměty, návrh pro zvukové dokumentyzvukové dokumenty

Digitální knihovny a zdrojeDigitální knihovny a zdroje►http://www.manuscriptorium.comhttp://www.manuscriptorium.com►http://kramerius.nkp.czhttp://kramerius.nkp.cz

►Zdroje:Zdroje: http://digit.nkp.czhttp://digit.nkp.cz (naše DTD) (naše DTD)