+ All Categories
Home > Documents > Vztah mezi tvarotvornými a slovotvornými vzory v...

Vztah mezi tvarotvornými a slovotvornými vzory v...

Date post: 19-Nov-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
15
Vztah mezi tvarotvornými a slovotvornými vzory v češtině Relations between Inflectional and Derivational Patterns in Czech Karel Pala, Radek Sedláček, Marek Veber Laboratoř zpracování přirozeného jazyka Fakulta informatiky Masarykovy univerzity v Brně {pala,rsedlac,mara}@fi.muni.cz Abstrakt: Hlavním cílem tohoto příspěvku je popsat formální proceduru spojující tvarotvorné a slovotvorné procesy v češtině a ukázat, že tyto mohou být za použití adekvátních počítačových programů a reprezentativních zdrojů dat aplikovány i na ostatní slovanské jazyky. Při naší práci jsme využívali dva programy vyvíjené v Laboratoři zpracování přirozeného jazyka (LZPJ) na Fakultě informatiky Masarykovy univerzity v Brně, a sice morfologický analyzátor ajka a program i_par pro údržbu a morfologické databáze. Abstract: One of the main goals of this paper is to describe a formal procedure linking inflectional and derivational processes in Czech and indicate that they can be, if appropriate tools and resources are used, applied to other Slavonic languages. The tools developed at the NLP Laboratory FI MU, have been used, particularly the morphological analyser ajka and the program i_par for processing and maintaining morphological databases. 1 Úvod V článku se zabýváme studiem vztahů mezi flexí a derivací v češtině. Nejdříve je třeba zmínit tvarotvornou, flektivní morfologii, která se zabývá tvořením nových slovních tvarů, tj. studuje procesy, jako je skloňování podstatných jmen, přídavných jmen, zájmen a číslovek, časování sloves, ale také stupňování přídavných jmen a příslovcí. Tvarotvorná analýza češtiny je v současnosti již poměrně dobře formálně popsána
Transcript
Page 1: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

Vztah mezi tvarotvornými a slovotvornými vzory v češtině

Relations between Inflectional and Derivational Patterns in Czech

Karel Pala, Radek Sedláček, Marek Veber

Laboratoř zpracování přirozeného jazykaFakulta informatiky Masarykovy univerzity v Brně

{pala,rsedlac,mara}@fi.muni.cz

Abstrakt:Hlavním cílem tohoto příspěvku je popsat formální proceduru spojující tvarotvorné a slovotvorné procesy v češtině a ukázat, že tyto mohou být za použití adekvátních počítačových programů a reprezentativních zdrojů dat aplikovány i na ostatní slovanské jazyky. Při naší práci jsme využívali dva programy vyvíjené v Laboratoři zpracování přirozeného jazyka (LZPJ) na Fakultě informatiky Masarykovy univerzity v Brně, a sice morfologický analyzátor ajka a program i_par pro údržbu a morfologické databáze.

Abstract:One of the main goals of this paper is to describe a formal procedure linking inflectional and derivational processes in Czech and indicate that they can be, if appropriate tools and resources are used, applied to other Slavonic languages. The tools developed at the NLP Laboratory FI MU, have been used, particularly the morphological analyser ajka and the program i_par for processing and maintaining morphological databases.

1 ÚvodV článku se zabýváme studiem vztahů mezi flexí a derivací v češtině. Nejdříve je třeba zmínit tvarotvornou, flektivní morfologii, která se zabývá tvořením nových slovních tvarů, tj. studuje procesy, jako je skloňování podstatných jmen, přídavných jmen, zájmen a číslovek, časování sloves, ale také stupňování přídavných jmen a příslovcí. Tvarotvorná analýza češtiny je v současnosti již poměrně dobře formálně popsána (Osolsobě, 1996; Hajič, 1994) a máme k dispozici programové nástroje, které umožňují jak analýzu, tak generování všech českých slovních tvarů. Konkrétně nám jde o morfologický analyzátor ajka (Sedláček, 1999) a systém i_par (Veber, 2002) pro údržbu a správu morfologické databáze.

Druhou oblastí je derivační morfologie, která popisuje procesy tvoření nových ze slov základových. Tyto procesy se uplatňují na úrovni morfémů, tzn., že vytvoření nového slova je výsledkem jistého způsobu kombinace morfémů (předpon, kořenů, přípon apod.). Podle toho pak mluvíme o prefixaci, sufixaci, případně infixaci a konverzi. Je třeba mít na paměti, že tyto formální procesy však mají sémantické důsledky.

Vztahy mezi derivačními procesy a flektivní morfologií byly v české lingvistické literatuře intenzivně zkoumány (viz například díla Dokulila, 1962; Karlíka et al., 1995; Petra, 1986, Rusínové). Lze zde nalézt neformální popisy slovotvorných procesů operující s pojmy, jako je fundace, mutace, transpozice, modifikace, adaptace aj.

Nejzajímavější jazykové analýzy se snaží nalézt vztahy mezi tvarotvornými a slovotvornými vzory. Například Karlík (1995) ukazuje, že činitelská podstatná jména vytvořená příponou –

Page 2: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

tel se skloňují podle klasického tvarotvorného vzoru muž. Lze tedy vyslovit hypotézu, že některé flektivní vzory určují množinu derivačních sufixů tvořících konzistentní sémantickou skupinu.

V tomto textu si klademe za cíl zmapovat vztahy mezi flektivními a derivačními vzory. V porovnání s předchozím výzkumem ovšem předkládáme analýzu založenou na rozsáhlé kolekci dat: náš slovník kmenů pro češtinu obsahuje 385 066 položek. Přiřazení vybraných tvarotvorných a slovotvorných vzorů bylo provedeno poloautomaticky s pomocí nástroje i_par a české morfologické databáze obsahující informace o flektivních vzorech. Celkem jich v současnosti pro všechny slovní druhy evidujeme 2042.

Slovotvorné vztahy tak, jak se popisují v lingvistických teoriích, je možné po drobných úpravách přirovnat k sémantickým vztahům používaným v současných ontologiích a využít je v existujících inferenčních strojích jako nezbytnou část počítačového zpracování přirozeného jazyka (NLP).

2 Tvarotvorná analýzaTvarotvorná analýza je nedílnou součástí komplexního morfematické segmentace slova, ve které plní dvojí úlohu. Jednak je jejím úkolem identifikovat v zadaném slovním tvaru kmen a koncovku. V případě, že se nejedná o základní tvar slova (tzv. lemma), je třeba navíc ke kmeni připojit koncovku základního tvaru. Slovotvorná analýza totiž pracuje pouze s lemmaty.

V naší práci využíváme pro tvarotvornou analýzu program ajka, který vznikl (Sedláček, Smrž, 2001) v LZPJ na FI MU. Tento program funguje zároveň jako lemmatizátor a morfologický značkovač.

Analyzátor ajka je založen na algoritmickém popisu české formální morfologie (Osolsobě, 1996) a na reprezentaci strojového slovníku češtiny pomocí datové struktury trie (Knuth, 1976) implementované v podobě minimálního konečného automatu (Daciuk et al., 1998).

3 Základní slovotvorný vztah fundaceVšechna slova slovní zásoby rozdělujeme ze slovotvorného hlediska na motivovaná a nemotivovaná. U motivovaných slov dovedeme vysvětlit jejich význam jiným slovem (cvičiště je místo, kde se cvičí), nemotivovaná slova takto vysvětlit nemůžeme, jejich význam je jen v označení věci, proto se také někdy nazývají slova značková (stůl, tráva). Při slovotvorném rozboru se zabýváme jen slovy motivovanými, protože jedině ona mají slovotvornou strukturu a lze rekonstruovat proces jejich vzniku.

Utvoření motivovaného slova se zjišťuje podle základního slovotvorného vztahu, tzv. fundace. Ten spojuje slovo fundované se slovem fundujícím v tom smyslu, že fundující slovo je to, na kterém se slovo fundované zakládá, které je východiskem jeho vzniku. Směr fundace vyznačujeme šipkou (škola → škol-ní, les → pra-les).

Je třeba zdůraznit, že fundace má svou stránku formální a významovou. Formální stránka se projevuje shodou v hláskové podobě obou slov. Někdy je shoda částí slov naprostá, jindy je společná část slova více či méně obměněna. Tyto obměny však nejsou nahodilé, ale zákonité a jejich druhy mohou být dostatečně přesně určeny. Významové stránce fundačního vztahu se budeme podrobněji věnovat dále.

Page 3: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

Zjištěním fundačního vztahu u všech motivovaných slov získáváme komplex relací, které tvoří hierarchickou strukturu. V nauce o tvoření slov se hovoří o slovních čeledích, slovotvorných svazcích a slovotvorných řadách. Čeleď tvoří všechna příbuzná slova mající společný kořen. Jádrem čeledi je nemotivované slovo kořenné, ostatní slova v čeledi jsou z něj utvořena, a to buď přímo (led → led-ový) nebo nepřímo prostřednictvím jiného příbuzného slova. Takto se vytvářejí slovotvorné řady (led → led-ový → ledov-ec).

K jednomu fundujícímu slovu se může vztahovat několik slov fundovaných nezávisle na sobě. Tato skupina se nazývá slovotvorný svazek (led → led-ní; led→ led-ový). Slovní čeleď pak sestává ze slovotvorných řad a svazků.

Vhodným formálním matematickým aparátem pro zachycení výše uvedených vztahů a struktur jsou grafy. V tomto případě se jedná o speciální typy grafů, a sice stromy, které se dále sdružují v lesy. V uzlech stromů jsou základní tvary slov, následný uzel je utvořen na základě svého předchůdce.

V současné době existuje v LZPJ k dispozici nástroj, který umožňuje zachytit jakékoliv vztahy mezi slovy. Jedná se o program i_par vyvíjený primárně Markem Veberem (2002). Ve spolupráci s ním jsme navrhli obecnější relační strukturu, v níž je možné realizovat i fundaci.

4 Významová stránka fundaceVýznamová složka fundačního vztahu spočívá v tom, že se význam motivovaného slova dá odvodit z významu slova motivujícího (učitel je ten, kdo učí; zoubek je malý zub). Význam vyplývající ze slovotvorných poměrů se označuje jako slovotvorný nebo vnitřní.

Motivovaná slova se společným obecným významem tvoří slovotvornou kategorii, např. názvy činitelské. Podle druhu významového vztahu motivovaného slova ke slovu motivujícímu lze rozlišovat tři základní druhy kategorií: mutační, transpoziční a modifikační. Mutační kategorie označuje jinou skutečnost než slova fundující (zeď → zed-ník). Transpoziční kategorie vyznačuje shodný obecný význam, rozdíl je jen ve slovnědruhové příslušnosti (chválit → chvál-a) a modifikační kategorie se ve významu liší jen příznakem od slov motivujících (nůž → nož-ík).

Z hlediska strojového zpracování sémantiky slov považujeme vnitřní význam za jeden z podstatných faktorů. Nabízí se jako alternativa nebo další rozvinutí stávajících sémantických sítí, které jsou založeny na jiných významových vztazích, jako je synonymie, blízká synonymie, hyponymie, hyperonymie, holonymie a meronymie (Vossen, 1998). Vztah fundace totiž také dovoluje vybudovat jistý typ sémantické sítě, která je ovšem založena na vnitřních významech slov. Zpracování vnitřního významu tedy ve svém konečném důsledku rozšiřuje možnosti strojové reprezentace znalostí.

5 Slovotvorná analýzaÚkolem slovotvorné analýzy je ze základního slovotvorného vztahu zjistit slovotvornou strukturu fundovaného slova, jeho slovotvorný základ a formant.

Za slovotvorný základ je považována ta část fundovaného slova, kterou přejalo ze slova fundujícího. Po významové stránce je tedy nositelem jádra významu. Při srovnání obou slov je to část, kterou má fundované slovo shodnou se slovem fundujícím. Po formální stránce může mít slovotvorný základ fundovaného slova podobu hláskově shodnou se slovem

Page 4: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

fundujícím nebo hláskově obměněnou podle pravidel hláskového střídání. Obměňuje se přitom samohláska základu nebo koncová souhláska základu nebo skupina souhlásek na konci základu.

Ke slovotvornému základu slova přistupuje prvek, který z něho vytváří slovo. Ve slovotvorné teorii se obecně hovoří o formantu. Formantem může být přípona (kotel-na), která zařazuje slovo do širší významové skupiny (např. –na vytváří názvy míst), koncovka (zkáz-a), kdy gramatický morfém navíc přejímá ještě úlohu morfému slovotvorného, předpona (s-lepit), jež význam slova pouze obměňuje a nemění ani slovnědruhovou příslušnost ani tvaroslovnou charakteristiku slova, nebo složený formant, a to buď předponu s příponou (pří-ruč-ní) nebo předponu s koncovkou (před-měst-í).

6 Vztah mezi flexí a derivacíData, která lze nalézt v současných zdrojích (Karlík et al., 1995) jsou co do rozsahu omezená. Obsahují pouze vybrané příklady a základní derivační procesy. Informace o funkčním zatížení jednotlivých přípon buď chybí zcela, nebo se redukuje na vyjádření „velmi frekventovaný“, „frekventovaný“, „málo frekventovaný“ bez udání jakýchkoliv čísel. K získání adekvátnějších a přesnějších čísel proto pracujeme s reprezentativnějším souborem dat v systému i_par a se slovníkem kmenů analyzátoru ajka.

Všechny kmeny jsou ve slovníku přiřazeny k příslušným flektivním vzorům, např. pro podstatná jména rozlišujeme 746 vzorů pokrývajících 131188 substantivních kmenů. Počet vzorů se může zdát velký, ale je třeba uvážit, že v algoritmickém popisu české flexe pracujeme s hierarchickou subklasifikací vzorů, která je založena na systému klasických 14 vzorů, jež se uvádějí v standardních českých mluvnicích.

Současná data nám umožňují zjistit funkční zatížení definované jako počet substantiv s danou příponou a odpovídajícím sémantickým rysem, např. agent, instrument, vlastnost apod. Nejprve je nutné znát počet lemmat s danou příponou. Tabulka 1 například ukazuje, že podstatných jmen s příponou –ák je 1379. Nicméně mnohem užitečnější je informace o sémantickém rysu každého z nich. Tímto získáme všechny sémantické skupiny, ke kterým mohou náležet substantiva s danou příponou. Identifikaci sémantických skupin snadno získáme pohledem na flektivní vzory. Začneme-li s gramatickými značkami, zjistíme, že podstatná jména na –ák spadají do dvou velkých skupin:

činitelé spolu s ostatními živými tvory (celkem 733) a neživé věci jako jsou nástroje apod. (celkem 633, neklasifikovaných 13).

Frekvence % Vzor Rod Sém. znak641 47,1 Vlk muž. živ. agentiva326 23,6 Flok muž. neživ. neklasifikováno263 19,1 Krk muž. neživ. neklasifikováno77 5,6 Štěrbák muž. živ. příjmení16 1,2 Dupák muž. neživ. tance10 0,7 Azték muž. živ. názvy kmenů10 0,7 Hřibák muž. neživ. neklasifikováno7 0,5 Pulčík muž. neživ. názvy hub6 0,4 Kozák muž. neživ. neklasifikováno5 0,4 Dubák muž. neživ. neklasifikováno5 0,4 Batak muž. živ. etnické skupiny13 1,0 Ostatní neklasifikovánoCelkem 1379

Tabulka 1: Substantiva rodu mužského končící na –ák

Page 5: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

Frekvence % Vzor Rod Sém. znak908 93,9 Učitel muž. živ. agentiva15 1,6 Bez muž. neživ. neklasifikováno11 1,1 Mocnitel muž. neživ. matem. výrazy8 0,8 Součinitel muž. neživ. matem. výrazy7 0,7 Hotel muž. neživ. hotely5 0,5 Cíl muž. neživ. neklasifikováno4 0,4 Stroj muž. neživ. neklasifikováno4 0,4 Soutěž žen. neklasifikováno3 0,3 Obyvatel muž. živ. obyvatelé2 0,2 strašpytel muž. živ. neklasifikovánoCelkem 967

Tabulka 2: Substantiva končící na –tel

7 Pravidla pro slovotvorné procesyAž dosud jsme hovořili o odvozování nových slov jako o procesu kombinace morfémů, tj. kořenů, předpon, přípon atd. Formálně vzato, jsou však slovotvorné procesy operacemi nad řetězci písmen nesoucích gramatické a lexikální informace. Je snadné nahlédnout, že slovotvorné procesy jsou více méně pravidelné, a proto mohou být popsány jistým druhem pravidel.

Odvozování je hierarchicky strukturovaný proces, a proto i pravidla (vzory) budeme konstruovat kaskádovitě, tj. budeme hierarchicky vytvářet složitější vzory.

Na základě lingvisticky stanovené hypotézy, tedy jakéhosi vzoru definujícího změny mezi slovními tvary a dalšími omezeními na podobu značek příslušných hledaným heslům, lze ve stávající morfologické databázi vyhledat n-tice jednotek, kde:

všechny členy jsou v databázi obsaženy; jednotlivé členy n-tice splňují požadovanou hypotézu.

Člen Tvar Podmínka1. S-izace Subst. Žen.2. S-istický Adj.3. S-ista Subst. Muž. Živ.4. S-ismus Subst. Muž. Neživ.

Tabulka 3: Příklad hypotézy

Předpokládejme nyní, že existuje algoritmus, který v příslušné morfologické databázi nalezne n-tice, které odpovídají lingvisticky stanovené hypotéze.

1. člen 2. člen 3. člen 4. členVzor růže otrocký_P husita_P komunismus

realizace realistický Realista realismuscentralizace centralistický Centralista centralismushumanizace centralistický Centralista humanismusidealizace idealistický Idealista idealismuskomunizace komunistický Komunista komunismus... ... ... ...

Vzor růže starořecký_P husita_P komunismusromanizace romanistický Romanista Romanismusspiritualizace spiritualistický Spiritualista spiritualismussynchronizace synchronistický Synchronista synchronismus

Page 6: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

kolektivizace kolektivistický Kolektivista kolektivismusmodernizace modernistický Modernista modernismus... ... ... ...

Tabulka 4: Automaticky nalezené čtveřice splňující hypotézu

Nyní v nalezeném seznamu n-tic uživatel určí, které n-tice jsou správné a které nikoliv. Vznikne tak seznam pozitivních příkladů a seznam výjimek ze stanovené hypotézy.Zde je třeba si uvědomit, že jednotky jsou již přiřazeny ke stávajícím tvarotvorným vzorům, které pravděpodobně od jednotek generují další tvary. Pro pozitivní příklady je možné vytvořit vzory, které dokáží z jednoho členu n-tice generovat ostatní jednotky.Hierarchickým spojením nového vzoru s původními vzory pro jednotlivé členy n-tice lze z jediného hesla odvodit nejen v n-tici sousední jednotky, ale i další tvary, které jsou generované od jednotek obsažených v n-tici pomocí příslušných původních vzorů.

Pokud změny ve slovním tvaru realizované novým vzorem vyjadřují jasnou sémantickou relaci, pak lze jednotky „virtualizovat“, tj. v lexikonu neudržovat všechny jednotky, ale pro každou z nalezených n-tic pouze ty jednotky, které jsou základními (či spíše motivujícími) tvary pro jednotky hesla sousední.

Jednotky, které takto ze slovníku vyřadíme, jsme schopni sestavit podle nového vzoru z příslušného motivujícího tvaru. Algoritmicky lze určit jak původní slovní tvary, které se od odvozené jednotky dříve generovaly, tak i odvodit původní lexikální význam. Zredukujeme tedy lexikon s využitím popisu slovotvorného procesu, který přináší prediktabilní změny v sémantice odvozovaných jednotek. Tento proces lze ilustrovat následujícím grafem.

Obrázek 1: Hierarchie slovotvorných vzorů

Je zde vidět, že podjednotky humanizace, humanisticky, humanistický, humanistčin, humanistka, humanistův, humanista, humanismus mohou být přiřazena buď k příslušným tvarotvorným vzorům: humanizace: růže

humanisticky: otrocky humanistický: otrocký humanistčin: matčin humanistka: matka humanistův: otcův

Page 7: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

humanista: husita humanismus: komunismus

nebo: humanizace: růže

humanistický: otrocký_P humanista: husita_P humanismus: komunismus

nebo k slovotvornému vzoru, resp. metavzoru: humanismus: komunismus_P

Ve druhém a třetím případě je patrná redukce lexikonu. Vzor komunismus_P odvozuje tvary výměnou řetězců na konci základního tvaru a příslušnou změnou atributů konstruované značky:

smus zace, sticky, sta, smus

Zde se nám přímo nabízí paralela s konečnými překladovými automaty (FST). Velmi dobře můžeme využít především vlastnosti řetězení FST (Roche, 1997). Tato vlastnost nám umožní konstruovat vzory jako hierarchické moduly, což je výhodné především pro omezení duplicity ukládaných informací a ke zvýšení přehlednosti.

8 Získávání slovotvorných vztahůV předchozím oddíle jsme se zabývali rozšiřováním morfologické databáze na základě pravidelných změn tvarů, které lze pozorovat ve slovotvorných procesech (Osolsobě et al., 2002). Ukázali jsme, že pokud slovotvorné procesy popíšeme pravidly, lze dosáhnout redukceslovníku kmenů a případně získat dokonce slovník kořenů.Abychom proces hledání diskrétního popisu slovotvorných procesů zjednodušili, implementovali jsme algoritmus, který hledá vztahy mezi řetězci odpovídajícími jednotlivým heslům ze slovníku morfologické databáze.Vstupem pro tento algoritmus je popis variací jednotlivých slovních tvarů spolu s podmínkami pro atributy příslušných značek.Pro popis variací slovních tvarů použijeme:

proměnné $1, $2, … konstanty (odpovídající afixům) A11, operátor zřetězení + řetězce Si

podmínky, tj. omezení pro hodnoty daných atributů C1,C2,…

VstupJako zadání úlohy předpokládáme:

n…počet hledaných členů n-tici (S1,C1)…(Sn,Cn)

Vstup lze zapsat tak, že vedle sebe nebudou stát ani dvě konstanty, ani dvě proměnné, neboť: dvě sousední konstanty lze spojit do jedné, dvě proměnné lze oddělit konstantou pro řetězec nulové délky, pokud požadujeme proměnnou na začátku, resp. konci řetězce, pak položíme Ai,1, resp.

Ai,m rovno konstantě pro řetězec nulové délky. Každý řetězec Si lze tedy vždy zadat bez újmy na obecnosti takto:

Page 8: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

Si = Ai,1 + $1 + Ai,2 + $2 + Ai,3 + …+ $m + Ai,m+1

Víme, že Ai,j jsou konstanty a $j jsou proměnné. Pro libovolný řetězec Si lze tedy napsat regulární gramatiku:

S Ai,1 $1 N1 N1 Ai,2 $2 N2 … Nm Ai,m+1

$1|…|$m E E a|aE|b|bE|…

Je zřejmé, že lze pro každý řetězec Si sestavit nedeterministický překladový automat, který na vstup dostane slovní tvar a na výstup dá množinu všech přípustných ohodnocení proměnných $1…$m, tj.množinu (i prázdnou) m-tic prvků.

9 AlgoritmusPři hledání výsledku nejprve vybereme ty dvojice (Si,Ci), které mají v podmínce zakotven požadavek, aby jim odpovídající tvary byly v databázi. Těmto tvarům, řetězcům a dvojicím říkejme hledané. Tvary, které umíme algoritmicky určit z nalezených na základě dosazení hodnot za proměnné v řetězcích, označíme jako dedukované.Podobně jako v logickém programování (viz unifikaci v jazyce Prolog) i zde lze svým způsobem hovořit o volných a vázaných výskytech proměnných.Při přijetí daného slovního tvaru překladovým automatem (pro řetězec Si) je výstupem příslušné ohodnocení proměnných, které jsou obsaženy v Si. Pokud se stejné proměnné vyskytují i v dalších řetězcích, je možné je nahradit (často užívaný termín je instanciovat} hodnotami.Pro hledané řetězce Si tedy sestavíme postupně příslušné konečné překladové automaty s využitím instanciování proměnných. Pokud již v automatu nejsou žádné volné proměnné, pak je zřejmé, že příslušná dvojice je dedukovaná. (Současně může být i hledaná, to označímejako dedukovaná+hledaná).Pořadí, ve kterém se budou jednotlivé automaty aplikovat, je předmětem optimalizací. Jistou část prohledávaného stavového prostoru můžeme předem vyloučit na základě podmínek Ci, tj.stačí prohledávat/vyloučit hesla přiřazená u vzorů, které zaručují/vylučují některé atributy značky.Předpokládáme, že pomocí hledaných řetězců lze instanciovat všechny proměnné použité v dedukovaných řetězcích tak, abychom mohli přesně určit dedukované tvary pouze ze znalosti hledaných tvarů, tj. že dedukované řetězce neobsahují volné proměnné. V opačném případě musíme algoritmus předčasně ukončit.

Optimalizace určí pořadí aplikace jednotlivých automatů, které obsahují volné proměnné. Začneme s prohledáváním databáze, vezmeme první automat podle pořadí daného optimalizací. Postupně projdeme všechny jednotky a pro každou jednotku, kterou automat akceptuje, pak postupně pro všechna možná ohodnocení provedeme instanciaci proměnných a pokračujeme ve vyhledávání jednotek přípustných pro další (dle stanoveného uspořádání) automat, tj. hledáme další prvek výsledné n-tice.Pokud instanciujeme všechny proměnné, určíme všechny dedukované tvary a pokud jsou všechny dedukované+hledané tvary v databázi, pak na výstup můžeme odeslat aktuálně určenou n-tici.

10 První výsledky Obrázek 2 zobrazuje jednotlivé kroky při vytváření příslušné slovotvorné sítě. První krok reprezentuje tvoření mužských přivlastňovacích přídavných jmen příponou –ův. Je zřejmé, že

Page 9: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

tvoření je pravidelné, paradigmatické, neboť počet lemmat se nezměnil; všechna byla přiřazena k flektivnímu vzoru otcův. V kroku A dochází ke tvoření přechýlených názvů příponou –ka. Je možné si všimnout, že vzory neumětel a Kocáb_nM byly odstraněny. Také počet lemmat přiřazených ke vzoru učitel se zredukoval na polovinu, konkrétně z 908 na 454. To znamená, že v naší morfologické databázi polovina činitelských názvů na –tel netvoří ženský protějšek. U tohoto výsledku očekáváme, že se potvrdí analýzou rozsáhlejšího korpusu. Krok B je opět pravidelný, představuje totiž tvoření ženských přivlastňovacích přídavných jmen příponou –in. V kroku C se vytvářejí přídavná jména příponou –ský a je vidět, že jde o proces mnohem méně pravidelný. Ze 454 možných lemmat přiřazených ke vzoru učitel tvoří pouze 113+21+16=150 příslušná přídavná jména. Tato adjektiva jsou navíc rozdělena do tří tvarotvorných vzorů pražský, společenský a kremžský podle toho, zda tvoří druhý stupeň, negaci a příslovce či nikoliv. Další krok D je opět pravidelný, jedná se o tvoření příslovcí z přídavných jmen zkrácením koncového -ý na –y. Tabulka 5 demostruje, že například z adjektiv přiřazených ke vzoru kremžský příslušná příslovce vytvářet nelze. Poslední krok E je nepravidelný, reprezentuje odvození podstatného jména příponou –ství z příslušného přídavného jména na –ský.

Obrázek 2: Slovotvorné hnízdo –tel, -ův, -ka, -in, -ský, -sky, -ství

11 ZávěrCílem článku bylo ukázat, jak mohou být popsány slovotvorné vztahy v češtině s pomocí morfologického analyzátoru ajka a systému i_par pro správu morfologické databáze. Data nezbytná pro relevantní popis obsahují: slovník kmenů analyzátoru čítající 385066 položek. Tyto kmeny pokrývají všechny slovní druhy. Dále využíváme 2042 flektivních vzorů a množinu přípon vybraných pro účely této práce. Jedná se o přípony: -tel, -ák, -ův, -ka, -in, -ský, -cký, -sky, -cky, -ství, -ismus, -ista, -izace.

V rámci článku jsme rovněž na vybraných příkladech demonstrovali, jak lze tvarotvorných vzorů využít při vytváření obecnějších, ale méně pravidelných vzorů slovotvorných. Předvedli jsme, jak jsou tyto dva typy vzorů vzájemně propojeny a naznačili aplikaci slovotvorných vzorů při algoritmickém popisu derivačních procesů v češtině. Zejména tento výsledek považujeme za přínos k současné teorii. Podle našeho názoru jsou vybrané příklady dostatečně obecné na to, abychom byli schopni tvrdit, že tímto způsobem lze popsat český slovotvorný systém v celé jeho šíři.

V příspěvku jsme pracovali pouze s českými daty, nicméně věříme, že pokud by byla k dispozici podobná data pro ruštinu, slovenštinu, srbštinu nebo chorvatštinu atd., bylo by možné dojít ke stejným výsledkům. Je samozřejmé, že by bylo nutné formulovat jiné typy derivačních procesů pro ostatní slovanské jazyky, ale při využití podobného systému

Page 10: Vztah mezi tvarotvornými a slovotvornými vzory v češtiněnlp.fi.muni.cz/publications/cus2003_pala_rsedlac_mara/... · Web viewTabulka 2: Substantiva končící na –tel 7 Pravidla

flektivních vzorů a příslušných skupin derivačních přípon by systémy ajka a i_par jistě umožnily zjištění slovotvorných vztahů i v tomto případě naprosto spolehlivě a adekvátně.

Pokračování tohoto výzkumu povede k vybudování českého derivačního slovníku s integrovanými slovotvornými pravidly a k následné implementaci slovotvorného analyzátoru češtiny.

PoděkováníTento výzkum byl podporován finančními prostředky z výzkumného záměru číslo CEZ:J07/98:143300003 Ministerstva školství České republiky.

Literatura1. Daciuk, J. et al. 1998. Incremental Construction of Acyclic Finite-State Automata and

Transducers, In Finite State Method in NLP, Bilknet University, Ankara. 2. Dokulil, M. 1962. Tvoření slov v češtině I, Nakladatelství ČSAV, Praha.3. Hajič, J. 1994. Unification Morphology Grammar. Disertační práce, Matematicko-

fyzikální fakulta UK, Praha.4. Karlík, P. et al. 1995. Příruční mluvnice češtiny. Nakladatelství Lidové noviny, Praha.5. Knuth, D. 1976. The Art of Computer Programming, díl 1., Addison Wesley.6. Osolsobě, K. 1996. Algoritmický popis české formální morfologie a strojový slovník

češtiny. Disertační práce, Filozofická fakulta MU, Brno7. Osolsobě, K. et al. 2002. A procedure for Word Derivation Processes Concerning Lexicon

Extension in Highly Inflected Languages. In: Proceedings of LREC 2002, ELRA, Las Palmas.

8. Petr, J. 1986. Mluvnice češtiny II. Academia, Praha.9. Roche, E., Schabes, Y. 1997. Finite-State Language Processing, MIT Press.10. Sedláček, R. 1999. Morfologický analyzátor češtiny. Diplomová práce, Fakulta

informatiky MU, Brno.11. Sedláček, R., Smrž, P. 2001. A New Czech Morphological Analyser Ajka. In: Proceedings

of TSD 2001, Springer, Berlin.12. Veber, M. 2002. Nástroje pro textové korpusy a morfologické databáze. Disertační práce,

Fakulta informatiky MU, Brno13. Vossen, P. 1998. Set of Common Base Concepts in EuroWordNet-2. Technická zpráva

2D001, Department of Computational Linguistics, Amsterodam.


Recommended