DigitalizaceMetadataProjekty
Pavla ŠvástováMoravská zemská knihovna
1.3.2012 KISK FF MU Blok expertů
Obsah
01. Digitalizační workflow○ z regálu až do digitální knihovny
02. Metadata○ teorie○ metadatová schémata
03. Projekty○ co se dělá u nás a ve světě○ Kramerius 4, VuFind, kolaborativní projekty
Moravská zemská knihovna
Digitalizace a digitalizační workflow
● Digitalizace○ převod fyzického dokumentu do digitální podoby○ jedna z metod ochrany knihovního fondu○ cesta ke zpřístupnění kulturního dědictví
● Digitalizační workflow○ výběr a příprava dokumentu○ skenování a úprava obrázků○ metadatový popis a identifikátory○ publikování v digitální knihovně○ dlouhodobá archivace
Moravská zemská knihovna
Digitalizační workflow
Moravská zemská knihovna
Co vzít v potaz, než začnu digitalizovat?
● co chci digitalizovat?○ knihy, periodika, diplomové práce, grafiky, mapy, 3D objekty,
obrazy, zvuk, video● proč chci digitalizovat?
○ archivace a zpřístupnění poškozených nebo vzácných dokumentů, nedostupných nebo hodně využívaných dokumentů...
● jak chci digitalizovat?● náklady na digitalizaci, výrobu metadat, archivaci,
nákup a HW a SW● vývoj SW a HW
Moravská zemská knihovna
● vyhledání nejkvalitnější předlohy● kompletace dokumentu (periodika)● katalogizace a přidělení identifikátorů● restaurování poškozených dokumentů● odstranění prachu● analýza stavu dokumentu, vybrání vhodné
techniky skenování, případně rozřezání● příprava pracoviště (optimální a rovnoměrné
nasvícení)
Co vzít v potaz, než začnu digitalizovat?
Moravská zemská knihovna
Skenování aneb jak vyrobit obrázky?
● černobílé? škála šedi? barva?● rozlišení (300-600 DPI)● velikost obrázku (MB)● (stránka monografie A5 x nejkvalitněji
naskenovaná mapa)● v jakém formátu uložit dokument? které formáty
se hodí pro dlouhodobou ochranu? (tiff, jp2, jpg, djvu)
● kompletnost dokumentu (kontrola kvality)● systém ukládání (adresářová struktura)
Moravská zemská knihovna
Skenování - skenery
●Treventus ScanRobot 2.0●4DigitalBooks●Kirtas APT 1200
Moravská zemská knihovna
Zpracování obrazu
● ořez● narovnání● barevná škála a kalibrace● výroba náhledů z originálního obrázku● konverze do různých formátů (z tiff do jp2)
Moravská zemská knihovna
Výroba OCR
● optical character recognition● převod obrazového textu do počítačem
čitelné podoby● FineReader● kvalita OCR● opravy OCR?
○ kolaborativni opravy (Národní australská knihovna), http://trove.nla.gov.au/newspaper
○ projekt IMPACT, http://www.impact-project.eu/
Moravská zemská knihovna
Jak obrázky popsat aneb výroba metadat
● identifikátory○ čísla z knihovního katalogu = provázání s fyzickou
jednotkou (systémové číslo, signatura, čárový kód, čČNB, evidenční číslo)
○ identifikace celého dokumentu, ročníku novin, kapitoly knihy, každé stránky
● metadata○ data, která uchovávájí informace o vzniku dokumentu,
o jeho vlastnostech, struktuře atd.
Moravská zemská knihovna
Metadata
CO TO JE???!!!
Moravská zemská knihovna
Metadata
● „metadata is constructed, constructive and actionable“ (Understanding the Semantic Web: Bibliographic Data and Metadata, Karen Coyle http://alatechsource.metapress.com/content/p3022442071g7655)
● Constructed – metadata jsou uměle vytvořená, nenacházejí se v přírodě, jsou nadstavbou nad něčím jiným, lidskou invencí
● Constructive – metadata jsou vytvářena cíleně, aby vyřešila nějaký problém
● Actionable – cílem metadat je, aby byla smysluplně využita
Moravská zemská knihovna
Knihovní metadata
● knihovnictví je od počátků založeno na vytváření a využívání metadat
● knihovní metadata řeší problém, jak se vyznat v rozsáhlejších sbírkách dat
● vznik schémat – jak popsat knihu? co zažívá knihovník při popisu knížky?
● metadatové schéma - soubor prvků určitého formátu, díky němuž lze metadata zaznamenat a vytvořit jejich strukturu
● STANDARDY! STANDARDY! STANDARDY!
Moravská zemská knihovna
Knihovní metadata - vývoj
● původně vznikala fyzicky vyjádřená metadata o fyzických dokumentech (kniha byla zkatalogizována a její metadata zapsána na katalogizační lístek)
● nástup počítačového zápisu a zpracování fyzických knihovních jednotek – MARC
● zdigitalizované dokumenty a born digital dokumenty – nové potřeby popisu – DC, MODS, METS
Moravská zemská knihovna
Knihovní metadata - typy
● popisná = bibliografická = deskriptivní● technická● administrativní a autorsko-právní● strukturální
Moravská zemská knihovna
Popisná metadata
● MARC (Machine Readable Cataloguing – strojově čitelný – umožňuje strojové zpracování a výměnu, MARC21, MARCXML)○ http://www.loc.gov/marc/○ příklad
● MODS (Metadata Object Description Schema)○ http://www.loc.gov/standards/mods/○ příklad
● DC (Dublin Core)○ http://dublincore.org/○ ESE – formát pro Europeanu
● TEI (Text Encoding Iniciative)○ http://www.tei-c.org/index.xml
● VRA CORE (Visual Record Association)○ http://www.loc.gov/standards/vracore/
Moravská zemská knihovna
Technická metadata
● týkají se spíše digitalizovaných / digitálních dokumentů● obsahují informace např. o:
○ použitých softwarových nástrojích a jejich verzích (není .doc jako .doc), hardwarových nástrojích (typ skeneru), obrazových souborech (formát a jeho specifikace, rozlišení, velikost obrázku, barevnost...), kódování, kompatibilitě...
● MIX (Metadata for Images in XML)○ http://www.loc.gov/standards/mix/○ příklad
● ALTO (Analyzed Layout and Text Object)○ http://www.loc.gov/standards/alto/○ příklad
Moravská zemská knihovna
Administrativní a autorsko-právní metadata
● autorsko-právní otázky – kdo vlastní práva k dokumentu, kdy bude volně přístupný, za jakých podmínek apod.
● prezervační funkce – co se s dokumentem děje za celou jeho kariéru od vzniku až po zpřístupnění – konverze do nových verzí či jiných formátů
● PREMIS (The Preservation Metadata Implementation Strategies) ○ http://www.loc.gov/standards/premis/○ příklad
Moravská zemská knihovna
Strukturální metadata
● digitální objekty tvoří souhrn dat a metadat, které je potřeba logicky provázat
● př. naskenovanou a metadaty opatřenou knihu tvoří:○ soubor obrázků v různé kvalitě a různých formátech○ xml soubor bibliografických metadat ve formátu MODS○ xml soubor technických metadat ve formátu MIX○ xml soubor administrativních metadat ve formátu PREMIS○ xml soubor OCR ve formátu ALTO
● METS (Metadata Encoding and Transmission Standard)○ http://www.loc.gov/standards/mets/○ příklad
Moravská zemská knihovna
Zpřístupnění digitálních dokumentů
● vystavení dokumentů online ○ v digitální knihovně ke čtení○ ke stažení (e-books)○ uložení na digitální nosič
● myslet na autorský zákon!● uživatelská přívětivost prostředí● dáváme dokumentům přidanou hodnotu (2.0
služby)
Moravská zemská knihovna
Digitální knihovna
● úložiště digitálních dokumentů● potřebuje pro svůj provoz všechny výše
zmíněné typy metadat● umožňuje vyhledávání a prohlížení
dokumentů● umožňuje správu dokumentů
Moravská zemská knihovna
Archivace digitálních dokumentů
● archivuje se nejlepší kvalita obrázku a veškerá příslušející metadata
● uložení na disky (operativnější a rychlejší) nebo na pásky (pomalejší, ale bezpečnější)
● zálohování!● kontrola přístupů● LTP systémy
Moravská zemská knihovna
Dlohodobá ochrana digitálních dat
● LTP systémy – softwarová ochrana● bezpečná úložiště – hardwarová ochrana
● open source nástroje:○ RODA, ARCHIVEMATICA, AIDA, MOPSEUS
● komerční řešení○ Rosseta (ExLibris), SDB (Tessela),...
Moravská zemská knihovna
Projekty
Moravská zemská knihovna
Kramerius 4
● digitální knihovna● vývoj: NK, KNAV, MZK● kramerius.mzk.cz● novinky a plány:
○ virtuální sbírky a kolekce○ uživatelské účty (možnost
tvořit si osobní kolekce)○ vylepšení GUI○ lepší statistiky pro
administrátory● vývoj● příklad
Moravská zemská knihovna
Registr digitalizace
● zabránění duplicit při digitalizaci
● najdu zde centrálně to, co je digitalizované
● workflow digitalizace● www.registrdigitalizace.cz● vývoj
Moravská zemská knihovna
Europeana
● cílem projektu je agregovat veškeré zdigitalizované kulturní dědictví z celé Evropy a jednotně zpřístupnit
● www.europeana.eu
Moravská zemská knihovna
Trove – Národní knihovna austrálie
●kolaborativní opravy OCR u starých novin a časopisů
●zapojení široké veřejnosti do činnosti knihovny
●trove.nla.au/newspaper●www.nla.gov.au/ndp/●info o projektu
Moravská zemská knihovna
Impact
●cílem projektu je zlepšit kvalitu OCR a tak umožnit lepší vyhledávání v dokumentech
●http://www.impact-project.eu/home/●video
Moravská zemská knihovna
What is on the menu?
● projekt NYPL● knihovna zdigitalizovala na 12tis. obědových menu● přepis jídelních lístků● menus.nypl.or
Moravská zemská knihovna
Digitalkoot – Národní finská knihovna
● historická periodika● hraním hry opravujeme
OCR● přihlášení přes facebook● www.digitalkoot.fi/en● hra
Moravská zemská knihovna v Brněwww.mzk.cz
Pavla Švástová[email protected]
Děkuji za pozornost.
Dotazy?