+ All Categories
Home > Documents > SYSTÉM M-CAST V HYBRIDNÍCH KNIHOVNÁCH?sdruk.mlp.cz/data/xinha/sdruk/2007-3-373.pdf · 373....

SYSTÉM M-CAST V HYBRIDNÍCH KNIHOVNÁCH?sdruk.mlp.cz/data/xinha/sdruk/2007-3-373.pdf · 373....

Date post: 28-Feb-2019
Category:
Upload: buidieu
View: 214 times
Download: 0 times
Share this document with a friend
16
SYSTÉM M-CAST V HYBRIDNÍCH KNIHOVNÁCH? Marie Balíková, Národní knihovna ČR M-CAST Multilingual Content Aggregation System Vícejazyčsystém agregace informací je vícejazyčný vyhledávací systém založený na principu sémantického vyhledávání, určený pro vyhledávání informací v rozsáhlých textových databázích, jako jsou digitální knihovny (včetně ně- kdy zvlášť vyčleňované skupiny internetových knihoven), informační zdro- je nakladatelství a tiskových agentur, nebo databáze vědeckých informací poskytující informační služby široké odborné i laické veřejnosti. Stručná charakteristika systému M-CAST Projekt M-CAST, který se realizoval v letech 2004-2006, je projekt me- zinárodní, navazoval na výsledky evropského projektu TRUST a byl finan- cován Evropskou unií. 1 Na projektu spolupracovala řada subjektů z veřejné i soukromé sféry. Při závěrečném hodnocení projektu na půdě EU byla zvláště vyzdvižena spolupráce mezi producenty systému a jeho uživateli, tj. testujícími knihovnami. 16 Účastníci projektu TRUST Vícejazyčný sémantický, kognitivní mechanismus vyhledávání textů využívající sémantické technologie, IST-1999-56416 Dotazování v přirozeném jazyce TRUST - vyhledávání ve: francouzštině, italštině, polštině, portugalštině M-CAST – + angličtina čeština 1 více informací v příspěvku "Systém M-CAST (Multilingual Content Aggregation System — Vícejazyčný systém agregace informací)" dostupném z WWW: http://www.inforum.cz/pdf/2007/balikova-marie.pdf 373
Transcript

SYSTÉM M-CAST V HYBRIDNÍCH KNIHOVNÁCH? Marie Balíková, Národní knihovna ČR M-CAST − Multilingual Content Aggregation System − Vícejazyčný systém agregace informací je vícejazyčný vyhledávací systém založený na principu sémantického vyhledávání, určený pro vyhledávání informací v rozsáhlých textových databázích, jako jsou digitální knihovny (včetně ně-kdy zvlášť vyčleňované skupiny internetových knihoven), informační zdro-je nakladatelství a tiskových agentur, nebo databáze vědeckých informací poskytující informační služby široké odborné i laické veřejnosti. Stručná charakteristika systému M-CAST Projekt M-CAST, který se realizoval v letech 2004-2006, je projekt me-zinárodní, navazoval na výsledky evropského projektu TRUST a byl finan-cován Evropskou unií.1 Na projektu spolupracovala řada subjektů z veřejné i soukromé sféry. Při závěrečném hodnocení projektu na půdě EU byla zvláště vyzdvižena spolupráce mezi producenty systému a jeho uživateli, tj. testujícími knihovnami.

16

Účastníci projektu

TRUSTVícejazyčný sémantický, kognitivní mechanismusvyhledávání textůvyužívajícísémantické technologie, IST-1999-56416Dotazování v přirozeném jazyce

TRUST - vyhledávání ve:francouzštině, italštině, polštině,portugalštiněM-CAST – + angličtina

čeština

1 více informací v příspěvku "Systém M-CAST (Multilingual Content Aggregation System — Vícejazyčný systém agregace informací)" dostupném z WWW: http://www.inforum.cz/pdf/2007/balikova-marie.pdf

373

Vícejazyčný vyhledávací systém M-CAST je založen na principech sémantických technologií (sémantického vyhledávání). V komunikaci uži-vatele s vyhledávacím databázovým systémem se používá metoda kladení dotazů v přirozeném jazyce, tj. speciální postup, který je součástí technolo-gie zpracování přirozeného jazyka. Systém M-CAST umožňuje sémantické vyhledávání v šesti jazycích: ve francouzštině, portugalštině, italštině, pol-štině, angličtině a češtině. Příklady dotazů What is the anthem of the European Union? What is „Europe Direct“ ? What is the flag of the European Union? Where is Bohunice power plant? Quel est le drapeau de l'Union Européenne? Gdzie jest elektrownia jądrowa Bohunice? Kdy byla Karlova univerzita zpřístupněna ženám? Kdy byly předány insignie české Karlově univerzitě? Kdy byl upálen Mistr Jan Hus? Kde se konala schůze svazu zednářů Jan Hus? Jaké zásady se drží čeští zednáři? Co držel Zeus v pravé ruce? Kto napisał Sonety Krymskie? W jakiej powieści zginął Pan Wołodyjowski? Gdzie się toczy akcja powieści W pustyni i w puszczy? Kim był Kapen Genezyp de Vahaz? Systém M-CAST se tak řadí do rodiny vyhledávacích systémů, jejichž konečným cílem je v podstatě opuštění umělých selekčních jazyků jakožto vyhledávacích nástrojů. Schopnost uživatele komunikovat s vyhledávacím systémem formou celých vět odpovídá současným trendům ve vývoji interaktivních vyhledá-vacích systémů na bázi sémantických technologií. „Důvody jsou zřejmé – jednoduchost obsluhy, zrychlení procesu vyhledávání a široká uživatelská základna.“ (Boldiš, 2005). „Mezi argumenty zdůvodňujícími užitečnost ná-strojů pro komunikaci s tabulkově strukturovanými databázemi v přiroze-ném jazyce bývají uváděny − vedle evidentní výhody, že se uživatel nemusí učit žádný formální dotazovací jazyk − zejména následující: − Existují typy dotazů, které se v přirozených jazycích formulují velmi snadno, kdežto ve formulářově orientovaných formálních dotazovacích jazycích velmi obtížně a v jazycích typu SQL mohou vyžadovat náročné konstrukce. Jedná se na-příklad o určité typy negace (Ve kterém oddělení nejsou programátoři?) ne-bo o dotazy s obecnou kvantifikací (Která společnost dodává všem odděle-

374

ním?). − Dotazujeme-li se na jiný aspekt něčeho, co už bylo vyhledáno, sta-čí uvést např.: „Vypiš jejich adresy“, nebo: „Jaké mají hodnocení?“ Ve for-málních dotazovacích jazycích je podobné navazování na předchozí poža-davky obecně obtížnější" (Strossa, 2004). V souvislosti s vývojem vyhledávacích systémů na bázi sémantických technologií se naskýtají dvě otázky: 1. Do jaké míry jsou představy o jednoduchém, bezproblémovém vyhle-dávání pomocí přirozeného jazyka v krátkém časovém horizontu reálné a splnitelné? − Odpověď se odvíjí od schopnosti tvůrců jednotlivých systémů vyřešit problémy související s morfologickou, syntaktickou a především sémantickou analýzou jednotlivých národních jazyků, která je základním předpokladem pro vývoj jednojazyčných vyhledávacích systémů tohoto ty-pu. V případě vícejazyčných systémů je důležité zajistit navíc kompatibilitu mezi jednotlivými "národními" lingvistickými moduly. Připomeňme si pro-cesy, které jsou základním předpokladem pro úspěšné indexování prohledá-vaných informačních zdrojů i dotazů, pomocí nichž uživatel získá potřebné relevantní informace. Ve vyhledávacích systémech na bázi přirozeného ja-zyka platí základní princip, že postupy použité při indexování dokumentů musí být totožné s postupy použitými při indexování dotazů a odpovědí. V textech dokumentů i dotazů musejí být identifikována slova, mezery, inter-punkce a začátky a konce vět, texty dokumentů i dotazů musejí být rozlože-ny na základní selekční jednotky (tokenizace); v textech dokumentů i dota-zů se ve slovech odstraňuje jejich zakončení a ponechává se kmen / kořen (slovní základ), resp. (při lemmatizaci) je určena pro každý slovní tvar jeho základní podoba (stemming, lem(m)atizace); dále je ze základu lexikální jednotky vygenerována množina všech tvarů této lexikální jednotky (deri-vace); v textech prohledávaných informačních zdrojů a dotazů se dále pro-vádí morfologická disambiguace slovních tvarů, nevýznamová a nespecific-ká slova jsou pomocí negativního slovníku (slovníku stop-slov) odstraněna, atd. Z uvedeného vyplývá, že jde o značně komplexní proces, jehož úspěšné vyřešení můžeme očekávat spíše v delším časovém horizontu. 2. Je skutečně opodstatněné a nutné vyvíjet pro komunikaci uživatele s „počítačem“ tak náročný vyhledávací systém? Jinak řečeno, bude „nor-mální“ uživatel klást dotazy celou větou, má-li již teď k dispozici formuláře pro kladení sofistikovaných dotazů a nepoužívá je? Strossa v uvedeném článku k tomuto poznamenává: „Lze jistě namítnout, že normální uživatel počítače stěží může mít důvod používat v komunikaci s ním tak zbytečně složité fráze. Zde je ovšem třeba si uvědomit, že výzkumy podobného typu už počítají s nedalekou dobou běžné komunikace mezi uživatelem a počíta-čem v mluvené řeči a v podmínkách, kdy uživateli vůbec nemusí být jasné, zda právě komunikuje s člověkem nebo s počítačem. Pak uvedený argument

375

ztrácí smysl.“ Předpokládejme tedy, že „normální“ uživatel bude klást do-tazy v přirozeném jazyce, bude vyhledávat ve vícejazyčném prostředí, a zaměřme se nyní na možnosti, které mu v tomto směru nabízí systém M-CAST. Soustředíme se na možnosti vyhledávání v češtině. Architektura systému M-CAST Základní schéma systému M-CAST je patrné z následujícího obrázku,

databáze dokumentů

MCAP portál

M-CAST

ze kterého mimo jiné vyplývá, že pro kvalitu vyhledávacího nástroje jsou důležité tři komponenty: pro funkčnost systému je rozhodující velikost a reprezentativnost databáze indexovaných dokumentů, funkčnost a vý-konnost jednotlivých komponentů vyhledávacího nástroje M-CAST a funkcionalita portálu MCAP. Velikost a reprezentativnost databáze indexovaných dokumentů jejichž indexovaný obsah je uložen v interní databázi, ve které následně vy-hledávají uživatelé. Tato velikost a reprezentativnost je do jisté míry měřít-kem množství a kvality informací, které lze ve vyhledávacím systému najít. Systém M-CAST podobně jako ostatní systémy založené na sémantických technologiích neindexuje všechny tištěné či elektronické dokumenty do-stupné v daném oboru/daných oborech, protože informační zdroje zařazené do databáze M-CAST podléhají výběru podle předem stanovených kritérií.

376

Databáze indexovaných dokumentů NK zpřístupněné pro testování sys-tému M-CAST NK ČR představuje typickou hybridní knihovnu, která nemá k dispozici bohaté reprezentativní sbírky digitálních či digitalizovaných dokumentů, je-jichž existence je základním předpokladem a podmínkou úspěšné aplikace metody dotazování v přirozeném jazyce. Proto bylo zvoleno náhradní řeše-ní. Pro testovací fázi systému M-CAST zpřístupnila NK ČR tyto databáze: • Kramerius (kramerius.nkp.cz), která obsahuje sbírku digitalizovaných

periodik a monografií; vyhledává se v plných textech, výsledkem hle-dání může být každá strana dokumentu, slouží k testování českého mo-dulu;

• MEMORIA (www.manuscriptorium.com) obsahující sbírku historic-kých dokumentů; vyhledává se v popisných údajích, výsledkem hledání jsou metadatové záznamy, slouží k testování českého modulu;

• ALEPH (sigma.nkp.cz), tj. elektronický katalog Národní knihovny ČR; vyhledává se v popisných údajích, výsledkem hledání jsou metadatové záznamy, slouží k testování českého modulu;

• EU Constitution (europa.eu/constitution/) — Evropská ústava obsahuje texty ve všech jazycích M-CASTu, slouží tedy k testování vícejazyčné-ho modulu.

Funkcionalita a výkonnost nástroje pro indexaci dokumentů a extrakci odpovědí, lingvistického procesoru a kompatibilita jednotlivých lingvis-tických modulů Složitost struktury lingvistického procesoru a jednotlivých lingvistic-kých modulů jsou patrné z následujících schémat.

italskýlingvistický

modul

portugalský lingvistický

modul

polský lin-gvistický

modul

Nástroj pro in-dexaci

Nástroj pro extrakci

In-dexy

Databáze dokumentů Vizualizacevýsledků

- odpovědí

francouzský lingvistický modul

český lingvis-

tický modul

anglický lingvistický

modul

377

Lingvistický procesor představuje nejdůležitější součást systému M-CAST. Obsahuje nástroj pro detekci jazyka, analyzátor dotazů, konvertor formátů dokumentů a lingvistické moduly jednotlivých jazyků. Lingvistické moduly pro jednotlivé jazyky byly vytvářeny na sobě ne-závisle; reflektují potřeby jednotlivých národních jazyků, sdílejí však zá-kladní obecné principy aplikované při automatizovaném zpracová-ní přirozeného jazyka. Ukázka nejpropracovanějšího lingvistického modulu – francouzský lingvis-tický modul

Portál M-CAP Portál M-CAP je schopen kombinovat různé aplikace a informační zdroje do jediné ucelené prezentace: uživatelé v různých rolích mohou vidět odlišný obsah dle svých přístupových oprávnění nebo svého profilu; mohou si také obsah přizpůsobit. Portál M-CAP je koncipován tak, aby umožnil in-tegraci stávajících vyhledávacích nástrojů používaných v dané instituci. Na obrázku vidíme návrh potenciálního využití systému M-CAST v knihovně, která chce své stávající vyhledávací možnosti obohatit o rešeršní strategii dotazování v přirozeném jazyce a zvolí portál M-CAP jako základní nástroj. Je možný i obrácený postup: instituce zapojí portál M-CAP do stávajícího portálu.

378

Ukázka možného zapojení M-CAST systému do stávajícího portálu institu-ce (ilustrativní ukázka)

M-CAST

Vyhledávání v systému M-CAST Jaké typy vyhledávání podporuje systém M-CAST? Systém podporuje dva typy vyhledávání: jednoduché a pokročilé. Při jednoduchém vyhledávání se zapíše do vyhledávacího boxu dotaz, kte-rým může být otázka v přirozeném jazyce, nebo skupina selekčních termí-nů. Systém M-CAST odpoví vytvořením stránky s výsledky, tj. nabídne přesnou odpověď na dotaz a seznam úryvků odpovědí. Nejvíce relevantní odpovědi jsou umístěny jako první.

379

Jednoduché vyhledávání Dotazy v přirozeném jazyce Z pozice uživatele zpracovává systém M-CAST dotazy položené v při-rozeném jazyce a nabízí přesné a jednoznačné odpovědi podpořené úryvky odpovědí, které jsou extrahovány z obsáhlé databáze indexovaných doku-mentů. Jednou z nejdůležitějších podmínek úspěšnosti vyhledávání pomocí této metody je soubor dobře formulovaných otázek. Dotazy aplikované v systému M-CAST mají být faktografické, jednoduché, jasně a přesně for-mulované. Všechny informace, které jsou předmětem dotazu, musejí být obsaženy v databázi indexovaných dokumentů. Délka dotazů v přirozeném jazyce Dotazy používané při aplikaci metody dotazování v přirozeném jazyce jsou obvykle krátké, skládají se ze tří, čtyř slov. Dotaz formulovaný jako ce-lá věta vede však automaticky k jeho prodlužování. Dlouhá otázka obsahují-cí více klíčových významových prvků, „pivotů“, může mít za následek, že při vyhledávání dokumentů jsou relevantní dokumenty odfiltrovány a na-bídnuty dokumenty méně relevantní, obsahující více klíčových slov, avšak nerelevantních pro daný dotaz. Např. dotaz "Který umělecký soubor vy-stoupí na zahájení výstavy Velká Morava v Berlíně?" je příliš dlouhý, obsa-huje 6 významových prvků; přímá odpověď, ani úryvek obsahující přímou odpověď na tento dotaz nebyly získány. Pokročilé vyhledávání Kromě jednoduchého vyhledávání umožňuje M-CAST provádět pokročilé vyhledávání, při kterém je možné zúžit „oblast vyhledávání“ podle tří úrov-ní kategorií klasifikačního systému MDT. První úroveň: • 0 Všeobecnosti. Informatika a informační vědy • 1 Filozofie. Psychologie • 2 Náboženství. Teologie • 3 Společenské vědy. Statistika. Politika. Vláda. Ekonomie. Správa. • Vojenství. Folkloristika • 4 Neobsazeno • 5 Přírodní vědy. Matematika • 6 Aplikované vědy. Lékařství. Technika • 7 Umění. Rekreace. Zábava. Hudba. Sport • 8 Jazyky. Lingvistika. Literatura • 9 Geografie. Biografie. Dějiny

380

Kategorie MDT si lze vybrat ze seznamu v prvním řádku kliknutím na roz-balovací šipku vpravo, ve druhém a třetím řádku se po kliknutí na šipku ob-jeví nabídka kategorie nižší úrovně.

Odpovědi v systému M-CAST Extrakce odpovědí Uživatelův dotaz je podroben syntaktické a sémantické analýze a je určen typ dotazu. Výsledek sémantické analýzy dotazu může být negativně ovliv-něn tím, že kontext dotazu je poměrně malý, neboť dotaz je na rozdíl od textu dokumentu výrazně kratší. Na základě sémantické analýzy dotazu jsou podle váhy stanovena význa-mově důležitá klíčová slova, „pivots“. Při vyhledávání se používají tyto vý-razy obohacené o synonyma, o odpovídající koncepty, a přiřazené k typu otázky. Po analýze dotazu jsou prohledávány všechny indexy a jsou vybrá-ny textové bloky, které nejvíce odpovídají parametrům dotazu; z nich jsou vybrány jednotlivé relevantní odpovědi, u nichž je stanovena váha na zákla-dě statisticko-lingvistických metod a jejich pořadí. Pro vícejazyčné vyhledávání v systému M-CAST je jako propojovací jazyk použita angličtina. Systém M-CAST generuje na uživatelův dotaz v přirozeném jazyce celý soubor, blok odpovědí, který se skládá z: • přímé odpovědi; • úryvku obsahujícího/podporujícího přímou odpověď; • možnosti vizualizace zdrojového dokumentu.

381

Přímá odpověď Přímé odpovědi jsou většinou jmenné entity (jméno, místo, chronologický údaj, jmenné a slovesné fráze). Např. přímá odpověď na otázku "Co držel Zeus v levé ruce?" je "žezlo". Úryvek odpovědi Systém M-CAST generuje spolu s přímou odpovědí i odpovídající úryvek zdrojového dokumentu, který zasazuje přímou odpověď do potřebného mi-nimálního kontextu. Úryvek obsahující přímou odpověď na výše uvedenou otázku je tedy: "V pravé ruce držel Zeus bohyni vítězství, jak se právě k němu sklání, chtíc hlavu jeho věncem ozdobiti; v levé držel žezlo." Vizualizace zdrojového dokumentu Poslední část bloku odpovědi představuje potenciální vizualizace zdrojové-ho dokumentu, tedy hypertextový odkaz vedoucí k příslušné stránce zdrojo-vého dokumentu. Použije-li uživatel při vyhledávání izolované selekční termín/termíny (neformuluje dotaz celou větou), blok odpovědi neobsahuje přímou odpo-věď, nýbrž se skládá pouze z • úryvku obsahujícího/podporujícího přímou odpověď; • možnosti vizualizace zdrojového dokumentu. M-CAST v hybridních knihovnách – NK ČR Jak jsme již uvedli, základní metodou vyhledávání je dotaz v přiroze-ném jazyce, dotaz celou větou. Tento typ vyhledávání je určen pro rozsáhlé sbírky digitálních či digitalizovaných dokumentů. Je možné klást v systému M-CAST i jiný typ dotazu, např. pomocí selekčního termínu či souboru/setu selekčních termínů? Je možné v systému M-CAST použít ke specifikaci do-tazu jiný typ selekčního jazyka, např. klasifikační systém MDT? Tyto otázky úzce souvisí s otázkou, kterou jsme si položili v úvodu: Je možné aplikovat systém M-CAST i v hybridních knihovnách? Hybridní knihovna je knihovna integrující klasickou knihovnu představova-nou především tištěnými dokumenty a digitální knihovnu, obvykle s cílem zkvalitnění služeb uživatelům.2

Hybridní knihovna „představuje spojení klasické, nezbytně automatizo-vané, knihovny, jejích informačních zdrojů, zastoupených zejména fyzic-kými dokumenty, jejích služeb s digitální knihovnou, jejíž fond je tvořen výhradně informačními zdroji v digitální podobě. Je knihovnou, která inte-gruje množství rozličných informačních zdrojů. Významnou je skutečnost, že dostupnost fondů, interních i externích, tvořených informačními zdroji fyzickými a digitálními, je zajištěna jednotným způsobem. Prostřednictvím

2 http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/hybridnI_knihovna.html

382

jednotného rozhraní, které je vzhledem k úsilí umožnit konečnému uživateli pracovat s informačními zdroji samostatně, bez výraznější pomoci ze strany knihovníka, co nejjednodušší, tzv. uživatelsky přívětivé. Vedle jednotného přístupu do heterogenních distribuovaných databází znamená hybridní knihovna taktéž integraci technologií, postupů, metod a nástrojů zprostřed-kování informací (či přímo poznatků), integraci nabídky informačních slu-žeb, tak jak se průběžně vyvíjely v prostředí klasickém – analogovém a v prostředí počítačových sítí – digitálním“.3

Typickou ukázkou hybridní knihovny je NK ČR, která zpřístupňuje tra-diční i elektronické dokumenty a je jedním z testovacích pracovišť systému M-CAST. V průběhu vývoje a testování systému jsme se snažili rozšířit možnosti vyhledávání systému o prvky a postupy, které jsou typické pro hybridní knihovny. Výsledkem je výše zmíněná integrace klasifikačního systému MDT do procesu vyhledávání a možnost klást dotaz pomocí soubo-ru selekčních termínů. Za účelem dalšího testování systému M-CAST apli-kovaného v hybridních knihovnách využívá NK ČR výsledky jiného projek-tu, tj. obohacení bibliografických záznamů o obsahy popisovaných doku-mentů (projekt TOC – Table Of Content), který byl zahájen po schválení novely autorského zákona. Od poloviny r. 2006 existuje možnost obohatit bibliografické záznamy u odborné a populárně-naučné produkce o obsahy popisovaných dokumentů. Primárním cílem projektu bylo otestovat způsob zapojení obsahů do bibliografických záznamů a jejich prezentaci pro uživa-tele i možnost předání v rámci bibliografických záznamů dalším institucím. Připojené obsahy jsou uživatelům zatím zpřístupněny ve speciálním formá-tu. Sekundárním cílem je ověřit možnost aplikace vyhledávacího systému M-CAST v tomto typu informačních institucí. Ukázky aplikace vyhledávacího systému M-CAST v obsahových údajích (projekt TOC – Table Of Content) formulace dotazu: fráze (soubor selekčních termínů) z obsahových údajů „hodně muziky za málo peněz“

3 Exelová, Brigita. Knihovna, její měnící se role v současném informačním prostředí : hybridní knihovna. Kniha v 21. století [online]. 2006. Dostupný z WWW: http://www.fpf.slu.cz/ustavy/ustav-bohemistiky-a-knihovnictvi/konference-kniha-v 21-stoleti/kniha-v-21-stoleti-rok-2005.pdf

383

výsledek dotazu: úryvek odpovědi obsahující danou frázi

Ukázka pokročilého vyhledávání − integrace systému MDT dotaz: selekční termín "schopnosti"; typ dotazu: pokročilé vyhledávání

384

oblast dotazu zúžena integrací dvou úrovní MDT

dotaz: „bankovnictví na území Českých zemí“, oblast dotazu zúžena inte-grací dvou úrovní MDT

385

M-CAST v hybridních veřejných knihovnách? V poslední době se v odborných knihovnických kruzích stále častěji hovoří o tom, že rozvoj veřejných knihoven úzce souvisí s jejich proměnou v hybridní knihovny. Potenciál veřejných hybridních knihoven je v infor-mační společnosti značný, neboť tyto knihovny mohou lépe definovat vztah k potřebám znalostní společnosti a dostát nárokům na ně kladeným v oblasti zprostředkování znalostí. Vyhledávací systémy založené na sémantických technologiích mohou v budoucnu sehrát významnou roli v oblasti uspokojení potřeb znalostní spo-lečnosti a v oblasti zkvalitnění služeb veřejných knihoven. Může být systém M-CAST aplikován i v těchto knihovnách? Většina veřejných knihoven buduje a zpřístupňuje v současné době databá-ze regionálních osobností, událostí apod., které jsou ve většině případů bu-dovány jako plnotextové. Aplikace systému M-CAST v těchto databázích by umožnila klást uživatelům těchto knihoven dotazy v přirozeném jazyce. Příklady potenciálního využití vyhledávacího systému M-CAST dotazy: Kde studoval Bohumír Jaroněk? Kde působila rodina Jaroňků?

386

Kde působil František Bartoš?

Závěr Výsledky projektu M-CAST jsou v souladu s cíli evropského programu eContent v oblasti vícejazyčného vyhledávání. Prokázaly možnosti uplatně-ní systému dotazů v přirozeném jazyce v prostředí hybridních i digitálních knihoven. Technologie zpracování přirozeného jazyka (natural language processing) se úspěšně uplatňují v oblasti analýzy dotazů, indexování do-kumentů a extrakce otázek i ve vícejazyčném prostředí. Budoucím záměrem je rozvíjet a zlepšovat systém M-CAST v několika směrech. V současné době dokáže systém zodpovědět zhruba 70 % fakto-grafických otázek a 30–40 % nefaktografických otázek, a to ve francouzšti-ně a portugalštině. Nyní je potřeba soustředit se na to, aby i ostatní jazyky dosáhly stejného procenta zodpovězených faktografických otázek, a sou-časně zvýšit výrazně poměr zodpovězených nefaktografických otázek ve všech jazycích. V neposlední řadě je třeba zapojit do systému další jazyky (uvažuje se o němčině), včetně jazyků nelatinkového písma (arabština, čín-ština). Projekt je v současné době formálně ukončen (obhajoba proběhla úspěšně 8.3.2007); nyní se hledají možnosti další kooperace a především fi-nancování. V NK ČR práce na projektu pokračují. V současné době se NK ČR zaměřuje na vytváření předpokladů pro aplikaci systému v hybridních knihovnách všech typů: zkoumají se další možnosti integrace klasifikačního systému MDT, připojují se údaje obsahů v rámci projektu TOC.

387

Dosavadní vývoj systému M-CAST ve srovnání s podobnými projekty ukazuje, že zvolená řešení jsou správná a perspektivní. Tímto však byla rea-lizována první fáze: další vývoj vedoucí ke standardnímu a rutinnímu využi-tí systému je teprve před námi.

Bibliografie Amaral, Carlos. Laurent, Dominique (2006) Implementation of a QA system in a re-al context [Paper Presented at TEL-ME-MOR/M-CAST Seminar On Subject Ac-cess, Prague, November 24, 2006] Available at http://knihovnam.nkp.cz/sekce.php3?page=07_Pro/08_TEL_ME_MOR/ Telme-Subj06.htm

Balíková, Marie (2006) M-CAST in libraries [Paper Presented at TEL-ME-MOR/M-CAST Seminar On Subject Access, Prague, November 24, 2006] Available at http://knihovnam.nkp.cz/sekce.php3?page=07_ Pro/08_TEL_ME_MOR/Telme-Subj06.htm

Czerniejewski, Borys (2006) Multilingual Content Aggregation System based on TRUST Search Engine (M-CAST) [Paper Presented at TEL-ME-MOR/M-CAST Seminar On Subject Access, Prague, November 24, 2006] Available at http://knihovnam.nkp.cz/sekce.php3?page=07_Pro/08_TEL_ME_MOR/ Telme-Subj06.htm

Lisek, Sebastian (2006) P2P networks for distributed queries [Paper Presented at TEL-MEMOR/M-CAST Seminar On Subject Access, Prague, November 24, 2006] Available at http://knihovnam.nkp.cz/sekce.php3? page=07_Pro/08_TEL_ME_MOR/TelmeSubj06.htm

Strossa, Petr (2006) Information Query Formulation in a Slavonic Language and its Automatic Processing : Experience from Polish and Czech in comparison to Wes-tern European Languages [Paper Presented at TEL-ME-MOR/M-CAST Seminar On Subject Access, Prague, November 24, 2006] Available at http:// knihov-nam.nkp.cz/sekce.php3?page= 07_Pro/08_TEL_ME_MOR/TelmeSubj06.htm

Boldiš, Petr. Vyhledávače: současné problémy a trendy vývoje. Knihovna plus [on-line]. 2005, č. 1 [cit. 2007-07-15]. Dostupný z WWW: http://knihovna.nkp.cz/knihovnaplus51/boldis.htm. ISSN 1801-5948

Strossa, Petr. Komunikace mezi člověkem a počítačem v přirozeném jazyce. Science WORLD [online]. Dostupný z WWW: http://www.scienceworld.cz/sw.nsf/lingvistika/10D74E2E7ED7559EC1256F32005ACF20?OpenDocument&cast=1

388


Recommended