+ All Categories
Home > Documents > Jiří Polišenský

Jiří Polišenský

Date post: 05-Jan-2016
Category:
Upload: neila
View: 35 times
Download: 0 times
Share this document with a friend
Description:
Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru". Jiří Polišenský. Archivy, knihovny a muzea v digitálním světě 2009. Obsah. Charakteristika projektu Cíle projektu METS – charakteristika METS – základní části METS - standardy - PowerPoint PPT Presentation
29
Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea v digitálním světě 2009
Transcript
Page 1: Jiří Polišenský

Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" 

Jiří Polišenský

Archivy, knihovny a muzea v digitálním světě 2009

Page 2: Jiří Polišenský

Obsah

1. Charakteristika projektu2. Cíle projektu3. METS – charakteristika 4. METS – základní části5. METS - standardy6. Zlepšení výsledků OCR7. Časové a tematické rozvrstvení8. Nástroj BookSave9. Nástroj BookStore10. Báze WordBase11. ComponentsDescriptionGenerator12. Projekt IMPACT

Archivy, knihovny a muzea v digitálním světě 2009

Page 3: Jiří Polišenský

Charakteristika projektu

Projekt se realizuje v rámci programu MK ČR DC - Zpřístupnění a ochrana kulturních, uměleckých a vědeckých zdrojů. 1. podprogram: Integrované interaktivní zpřístupnění kulturního dědictví

Termín: 2006 – 2010 Řešitel J. Polišenský NK ČR, spoluřešitel M.

Lhoták KNAV Náklady: 5 323 000 Kč Spolupracující firmy: Qbizm, a.s., Elsyst

Engineering

Archivy, knihovny a muzea v digitálním světě 2009

Page 4: Jiří Polišenský

Cíle projektu

1. Implementaci kontejnerového formátu METS do Systému Kramerius

2. Zvýšení úspěšností rozpoznávání starších bohemikálních dokumentů pomocí OCR vytvořením a využitím znalostních bází pro češtinu z období let 1800 až 1989

3. vytvoření nástroje pro popis vnitřních částí digitalizovaných dokumentů a převod jejich interního informačního aparátu do textové podoby

Archivy, knihovny a muzea v digitálním světě 2009

Page 5: Jiří Polišenský

Formát METS charakteristika

METS (Metadata Encoding and Transmission Standard)

http://www.loc.gov/standards/mets/ Kontejnerový formát určený pro ukládání

a archivaci digitálních dokumentů v systémech digitálních knihoven a pro výměnu mezi nimi

Archivy, knihovny a muzea v digitálním světě 2009

Page 6: Jiří Polišenský

Formát METS části

Kontejnerový formát METS obsahuje celkem 6 datových sekcí: sekci hlavička HdrSec sekci popisných metadat dmdSec sekci administrativních metadat amdSec sekci souborů fileSec strukturální mapu structMap sekci strukturálních odkazů structLink

Archivy, knihovny a muzea v digitálním světě 2009

Page 7: Jiří Polišenský

Formát METS standardy

Deskriptivní metadata: MARC 21, Dublin Core

Technická a administrativní metadata: PREMIS a MIX

Dokumenty METS se vytváří ve formátu XML

Archivy, knihovny a muzea v digitálním světě 2009

Page 8: Jiří Polišenský
Page 9: Jiří Polišenský
Page 10: Jiří Polišenský

Zlepšení výsledků OCR

Digitalizují se dokumenty poškozené používáním a degradací papíru

Výsledky rozpoznávání jsou negativně ovlivněny kvalitou dokumentů

Nevyrovnaná úroveň úspěšnosti rozpoznávání OCR snižuje vytěžitelnost prostřednictvím vyhledávacích nástrojů

Další zlepšování kvality obrazových souborů již neposkytuje lepší výsledky OCR

Pro zlepšení byla zvolena metoda budování znalostních bází českého jazyka

Archivy, knihovny a muzea v digitálním světě 2009

Page 11: Jiří Polišenský

Časové a tematické rozvrstvení Pro realizaci tohoto cíle bylo třeba rozdělit

používaný jazyk na časová období a tematické skupiny:

Časová období:I. období: 1800–1850

II. období: 1850–1880

III. období: 1880–1918

III. období: 1880–1918

IV. období: 1918 -1945

V. období: 1945–1989

Archivy, knihovny a muzea v digitálním světě 2009

Page 12: Jiří Polišenský

Časové a tematické rozvrstvení

Tematické skupiny: 1. Přírodní vědy (matematika, fyzika, chemie, astronomie, geologie, geografie, paleontologie,

biologie – botanika, zoologie, antropologie; ostatní nevyčleněné přírodovědné obory) 2. Lékařství (zdravověda, farmakologie, veterinární léčba, léčitelství, bylinářství) 3. Zemědělství (zemědělské obory, zahrádkářství, chovatelství, lesnictví, myslivost) 4. Průmysl (technika, řemesla, doprava – železnice, automobilismus, letecká doprava; pošta) 5. Společenské vědy (psychologie, sociologie, jazykověda, literární věda, knihovnictví,

archivnictví, statistika, demografie; ostatní nevyčleněné obory; slovníky) 6. Filozofie a náboženství (filozofické systémy, světová náboženství, teologie, sekty, astrologie,

okultismus, magie, spirituální discipliny) 7. Politika a právo (politologie, diplomacie, státní správa, legislativa, kriminalistika, problematika

terorismu v dobových kontextech) 8. Ekonomie (hospodářství, finančnictví, účetnictví, obchod, řízení, hospodářský zeměpis) 9. Dějiny (archeologie, genealogie, místopis, vlastivěda, národopis, etnologie; cestopisy;

vojenství) 10. Vzdělávání (pedagogika, školství, výchova) 11. Umění (beletrie, poezie, dramatická tvorba, literatura faktu, výtvarné umění, fotografie,

kinematografie, architektura, teatrologie, tanec, muzikologie a hudba) 12. Žurnalistika (celonárodní a regionální deníky, periodika pro děti a mládež; publicistika;

kalendáře; zájmové činnosti - vaření, domácnost, móda, ruční práce, sběratelství; sport, turistika; všeobecnosti a ostatní)

Archivy, knihovny a muzea v digitálním světě 2009

Page 13: Jiří Polišenský

Nástroj BookSave

Nástroj slouží pro opravy rozpoznaných textů Základem je běžná verze SW FineReader 7 Nástroj umožňuje následující operace:

vytvořit novou dávku dokumentů nastavit parametry rozpoznávání a provést

rozpoznání dokumentů provést kontrolu a opravu rozpoznaných textů uložit textové soubory uložit dávku

Archivy, knihovny a muzea v digitálním světě 2009

Page 14: Jiří Polišenský

Nástroj BookSave

Uložené dávky je třeba zpracovat pomocí následujících operací: spuštění aplikace BookSave vyplnění popisu knihy (identifikační údaje o

knize, časová vrstva, tematická skupina) výběru textových souborů importu do slovní báze

Archivy, knihovny a muzea v digitálním světě 2009

Page 15: Jiří Polišenský
Page 16: Jiří Polišenský

Báze WordBase

Báze WordBase slouží pro ukládání rozpoznaných a opravených slov

Uložená slova mají zachovanou vazbu na původní část dokumentu a informaci o časovém období a tematické skupině

V současné době je ve slovní bázi uloženo 1 891 695 slovních tvarů

Archivy, knihovny a muzea v digitálním světě 2009

Page 17: Jiří Polišenský
Page 18: Jiří Polišenský

Nástroj BookStore

Nástroj BookStore slouží k provádění operací nad bází WordBase (prohlížení, editace)

Jednoduché uživatelské rozhraní sestává ze tří částí: seznam monografií seznam stran ve vybrané monografii seznam slov na vybrané straně

Archivy, knihovny a muzea v digitálním světě 2009

Page 19: Jiří Polišenský
Page 20: Jiří Polišenský

Plnění slovních bází

NK ČR zakoupila 3 notebooky vč. licencí na FR NK ČR a KNAV provádí výběr dokumentů a

jejich skenování Pomocí externích pracovníků na DPČ se

provádí rozpoznávání a opravy textů Import opravených dokumentů do báze

WordBase provádí firma EE, která pomocí dalších externistů provádí i „čištění“ báze

Archivy, knihovny a muzea v digitálním světě 2009

Page 21: Jiří Polišenský

Nástroj pro popis vnitřních částí Nástroj by měl sloužit pro automatizovaný popis

vnitřních částí dokumentů jako jsou názvy kapitol, článků, příp. obsahy, rejstříky apod.

Součástí nástroje je SW FineReader 8 (vývojová verze) který se využívá pro nalezení zón s textem, rozpoznání textu (vč. fraktury), uložení textu v různých formátech (TXT, PDF, DOC)

Firma EE připravuje i export do formátu ALTO XML (mimo rámec projektu)

Archivy, knihovny a muzea v digitálním světě 2009

Page 22: Jiří Polišenský

Nástroj pro popis vnitřních částí Nástroj pro popis vnitřních částí (vytváření rozšířených

metadat) má provizorní rozhraní Uživatel označí vybranou složku v některém z formátů

(JPG, TIFF, BMP) Před rozpoznáním OCR je možné zadat některé volitelné

parametry Invertovat barvy – bílý text na černém pozadí Exportovat XML – export struktury strany do formátu

ALTO XML Získat český text – do XML se uloží text v českém jazyce

ke každému požadovanému nadpisu (v multijazyčných monografiích)

Neuronová síť – testování rozpoznávání objektů na straně pomocí umělé inteligence

Archivy, knihovny a muzea v digitálním světě 2009

Page 23: Jiří Polišenský
Page 24: Jiří Polišenský

Nástroj pro popis vnitřních částí Před rozpoznáním je třeba označit objekt

a v dialogovém okně zadat typ zóny: Globální – označený text se vyhledává v

celém kontextu strany Lokální – označený text se vyhledává vždy

jen v uživatelem označené oblasti Obrázek – vyhledává obrázky v celém

kontextu strany Číslo strany – vyhledává lokálně čísla stran

v levé i pravé části

Archivy, knihovny a muzea v digitálním světě 2009

Page 25: Jiří Polišenský
Page 26: Jiří Polišenský

Nástroj pro popis vnitřních částí

Po rozpoznání všech stran je možné získané texty nebo údaje opravovat nebo editovat

Uživatel po označení přepínače „Opravit“ vyvolá kliknutím na jakoukoliv textovou oblast dialogové okno „Atributy vybrané zóny“

V tomto okně je možné opravit nebo změnit vlastnosti označeného textu

Archivy, knihovny a muzea v digitálním světě 2009

Page 27: Jiří Polišenský
Page 28: Jiří Polišenský

Projekt IMPACT

Projekt IMPACT je zaměřen na zlepšení přístupu k historickým textům a odstranění bariér masové digitalizace evropského kulturního dědictví

V rámci projektu se řeší také problematika zlepšení výsledků OCR pomocí jazykových bází.

NK ČR byla oslovena s nabídkou rozšíření projektu o český jazyk ve spolupráci s Ústavem českého národního korpusu

V rámci projektu by NK ČR měla digitalizovat české dokumenty, zajišťovat konverzi OCR a opravy textů

Archivy, knihovny a muzea v digitálním světě 2009

Page 29: Jiří Polišenský

Děkuji za pozornost

[email protected]

Archivy, knihovny a muzea v digitálním světě 2009


Recommended