Date post: | 03-Jan-2016 |
Category: |
Documents |
Upload: | reed-sullivan |
View: | 27 times |
Download: | 0 times |
Kooperační systém článkové bibliografie a báze ANL, ANL
FULLINFOS´ 2003
Knižnice - mosty informačnej spoločnosti
Stará Lesná, 7.-10.4.
Ivana Anděrová, oddělení analytického zpracování
NKČR
KOSABI, ANOPRESS
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích
na Internetu -1• Nutnost nových modelů získávání, zpracování a zpřístupňování
bibliografických informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování
• Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části.
• Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).
• Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).
Současné trendy ve zpřístupňování plných textů a bibliografických informací o
článcích na Internetu -2• Metadata : bibliografický záznam (MARC), DC - metadatový formát pro
www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované.
• Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).
• Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě.
• XML/RDF: popis systému značek DTD (Document Type Description) tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky.
• Identifikace plných textů: URL , PURL (databáze, PURL je přiřazeno danému URL), URN , SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv).
• Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o
článcích na Internetu - 3• Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol
HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML, XHTML, XML/RDF.
• Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).
• Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).
• Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o
článcích na Internetu - 4
• Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny.
• Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí.
• Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně.
• Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla.
Článková bibliografie a zpřístupnění plných textů - některé projekty řešené
v NKČR• Souborná databáze Kooperačního systému
článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004).
• Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003).
• Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a „širší“ (plus oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem.
• Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL.
• Kooperace po linii regionální a oborové. • Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r.
1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR.
• Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty.
• Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI.
Bibliografické zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL
FULL. SKAT (Lanius)
ANL, ANL FULLNKČR
KOSABI
MZK
????
krajská knihovna
odborná knihovna
SKAT (LANIUS)městské/okresní knihovny
Excerpční základna KOSABI
• Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost:
• A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR
• B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
• C: noviny (ústřední, regionální) a kulturně politické časopisy
• D: populárně naučné časopisy• Vyloučena periodika místní, závodní a zábavného
charakteru, časopisy pro děti event. mládež
Úplnost excerpce a kategorie titulů
• A: 1 (100-80 %)
• B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %)
• C: 2, 3 (80-25, někdy méně) %)
• D: 3 (25 – méně %)
Výběr typů článků• Faktograficky přínosné články.• Články odborné, články s dokumentární a uměleckou hodnotou.• Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení).• Zprávy a informace o kulturních, sportovních, politických, vědeckých
aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích).
• Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře.
• Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky).
• Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné).
• Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.
Profil ANL a ANL FULL
• Výběrové článkové databáze.• Obory: všechny (lékařství a sport okrajově, technika posílila).• Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL
FULL zatím převažuje kategorie C .• Úplnost excerpce (výběr článků vzhledem k typům seriálů). • Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2,
MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML.
• ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-).• ANL FULL/linka zpracování bibliografických záznamů z
plných textu/TOPIC (107 000 plných textů s metadaty, 16 titulů, r. 1997-).
• Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface
Akvizice dokumentů -
ANL
Lokální pracovní
stanice systémů
servery (lokální)
Aplikační,datové
ANL
OPAC Web servery (lokální)
OPACWeb server – báze
ANL
ALEPH MNG KOSABI (Oracle, Linux)
Server ANL
MNG KOSABI – bibliografická báze ANL,
plnotextová báze ANL FULL
(Dell, TOPIC, WinNT), ANL
FULL
Server full.nkp.cz
Akviziceplných textů
(pro ANL FULL z báze TamTam)
Internet Information
Server – báze ANL FULL
Linka TTDE
Management báze ANL
• Aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace:
• upload předávání dat od kooperujících institucí do KOSABI;
• import dat na server ANL, export dat do báze ANL- ALEPH);
• kontrola na duplicity vně ALEPHu - klíče;• báze titulů.
Management ANL FULL
• Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam).
• Báze ANL FULL v systému TOPIC.
• Strukturovaný portál Periodika na WWW.
Linka zpracování bibliografických záznamů z plných textů - lokální stanice
TamTamdokumenty
TTSNK
TamTam Data Extractor
TTDE
extrakce dat
generování dat
editování dat
TTDE
extrakce dat
generování dat
editování dat
Formulář UNIMARC-A UNIMARC Dublin CoreZobrazovací
hlavička
Indexovací
hlavička
Výstup
HTML, DC
pro TOPIC+
UNIMARC
pro ALEPH
Vyhledání příslušného zdroje
Označení článků a jejich stáhnutí
Doplnění dat do formuláře – 1. strana ze 3. Po doplnění
dat odeslání dat do ANL a ANL FULL
Bibliografická báze ANL. Zobrazení plného textu přes bibliografický
záznam ANL
Plnotextová báze ANL FULL. Systém TOPIC - principy
Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o.
• Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky.
• Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy.
• Kvantifikace obsahu dokumentů.
• Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization).
• Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).
Topik=dotaz• Dotaz - výraz složený ze slov a frází, který hledáme v
dané databázi.• Topik - je předem definovaný uložený strukturovaný
dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání.
• Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy).
• Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu.
• Topik je konceptuální popis znalosti o dané problematice ve formě znalostního stromu.
• Definice topiků tvoří tzv. znalostní bázi.
Detail topiku ekologie, životní prostředí
Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání
• Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků.
• Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz.
• Tři druhy formulářů: základní, rozšířený, rozšířený s tématy.
• Seznam výsledků: jednoduchý, se souhrnem, seskupený.
• Třídění seznamu: skóre, výsl./str., vlastní třídění.
• Zobrazení metadat: uživatelské formáty, pracovní formáty.
• Rejstříky - nadefinováno 17 rejstříků.
Dotaz v rozšířeném formuláři s tématy - topik ekologie, životní prostředí, dotaz krajina
Vyhledaný článek na základě topiku ekologie, životní prostředí
Metadata v XML
Označení článků ke stažení
Stažení plných textů - TTSNK
Soubor bibliografických
záznamů pro ANL ALEPH s propojením na
plný text a báze ANL
Zpracování plných textů - TTDE
Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ
Vyhledávání a zobrazení záznamů s
propojením na plný text v
ALEPHu - báze ANL
Vyhledávání, zobrazení
metadat a plných textů - báze ANL
FULL v NK na serveru
FULL.NKP.CZ
Export metadat,
plných textů
Soubor metadat (plných textů) pro prostor mezi NK aj.
inst. (nakladatelství, vydavatelství, inf.
agentury aj.)
Majitel plného
textu/vlastník autorských
práv (nakladatel, vydavatel,
inf. agentura aj.)
---
Budoucnost linky?
• Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně.
• Přerozdělení titulů, kde bude potřeba• KOSABI a SKAT - koordinace zpracování titulů
v budoucnu.• Spolupráce s dalšími knihovnami a informačními
institucemi.• Spolupráce se společností Anopress, event.
navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).
Perspektivy KOSABI•Organizace
• Doladit převod z některých systémů do standardního UNIMARCu a báze ANL.
• Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu).
• Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu.
• Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI.
• Napojení linky zpracování na autority• Spolupráce s projektem Webarchiv?
•Metody zpracování, standardizace
•KOSABI a jeho výstupy
• Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj.
• Báze ANL FULL zpřístupněna v JIB jako odkaz.• Plné texty báze ANL FULL a přes bázi ANL
přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi.
• Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.
Některé paralely a odlišnosti na Slovensku a v Česku
• Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku.
• Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB.• Súborný katalog knižníc SR, Souborný katalog ČR, Caslin.• Systém ALEPH v obou národních knihovnách.• Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza
regionálnej bibliografie Košice, Rožňava, Trebišov.• Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius).• Česko - fy Anopress, Slovensko fy Slovakia Online a Siac.• Slovensko - poskytování povinných kopií elektronických publikací
UK v Bratislavě a SNK, Česko - nikoli ?
Prezentované informace včetně použité literatury jsou přístupné na adresách: http://full.nkp.cz, http://full.nkp.cz/nkkr/NKKR.html(periodikum Národní knihovna)http:// www.nkp.cz (z Katalogy a databáze, báze ANL aj.)http://www.anopress.cz(báze TamTam)
Ivana Anděrová, NKČR, oddělení analytického zpracování [email protected]