+ All Categories
Home > Documents > Testování konzistence a úplnosti valen č ního slovníku č eských sloves

Testování konzistence a úplnosti valen č ního slovníku č eských sloves

Date post: 12-Jan-2016
Category:
Upload: morse
View: 36 times
Download: 4 times
Share this document with a friend
Description:
Testování konzistence a úplnosti valen č ního slovníku č eských sloves. Markéta Lopatková, Zdeněk Žabokrtský Centr um komputační lingvistiky MFF UK, Prague { lopatkova,zabokrtsky }@ ckl.mff.cuni.cz. ITAT 2003 1. Motivation. ‘traditional’ linguistics - PowerPoint PPT Presentation
20
Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková, Zdeněk Žabokrtský Centrum komputační lingvistiky MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz ITAT 2003 1
Transcript
Page 1: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Testování konzistence a úplnosti valenčního slovníku českých sloves

Markéta Lopatková, Zdeněk ŽabokrtskýCentrum komputační lingvistiky MFF UK, Prague

{lopatkova,zabokrtsky}@ckl.mff.cuni.cz

ITAT 2003 1

Page 2: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Motivation

‘traditional’ linguistics source of data for linguistic research verification of theoretical criteria set up

natural language processing lemmatization morphological tagging syntactic analysis word sense disambiguation ‘semantic analysis’ machine translation building other resources

language acquisition

ITAT 2003 2

Page 3: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Trocha teorie – co je valence?

„Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Svozilová et al., Slovesa pro praxi)

teorie: Funkční generativnípopis (FGD) (Sgall et al., 1986) závislostně orientovaný stratifikační

rovina podkladové reprezentace

(‘tektogramatická rovina’) (Hajičová et al., 2000) teorie valence (esp. Panevová, 1994)

ITAT 2003 3

Page 4: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Trocha teorie – co je valence?

valenční rámec: syntakticko-sémantická struktura slovesných doplnění

(pro jednotlivé významy slovesa) slovesná doplnění:

aktanty (vnitřní doplnění) vs. volná doplnění Actor, Patient, Addressee, Origin, Effect např. časová, místní, způsobová

obligatorní vs. fakultativní kritéria:

syntaktická Actor a Patient

sémantická další aktanty (Addressee, Origin and Effect) volná doplnění

ITAT2003 4

Page 5: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Příklady

Matka.ACT předělala dětem.ADDR loutku.PAT z Kašpárka.ORIG na čerta.EFF. (Panevová)Rodiče.ACT čekají na dítě.PAT před školou.LOC.Petr.ACT Pavlovi.ADDR řekl o katastrofě.PAT.Děti.ACT přišli pozdě.TWHEN (domů, sem.DIR3).Venku.LOC prší.V Praze.LOC se sejdeme na Hlavním nádraží.LOC u pokladen.LOC. (Panevová)Jan.ACT oslovil Marii.PAT na ulici.LOC. Kniha.ACT vyšla. (Panevová)Chlapec.ACT vyrostl v muže.PAT. (Panevová)Z banálního nachlazení.PAT se vyvinulo závažné onemocnění.ACT.

ITAT 2003 5

Page 6: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Valenční slovník českých sloves – VALLEX

komplexní informace o slovesném lexému všechny významy slovesa (Lopatková, Žabokrtský, 2002) informace o jednotlivých valenčních rámcích

typicky odpovídají jednotlivým významům slovesa popsána pomocí glos a příkladů

informace specifikující členy valenčního rámce ‘funktor’ – vztah mezi slovesem a doplněním typ doplnění - obligatorní / fakultativní / typické povrchová forma

mluvit ... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt)mluvila s ním o dětech vyměnit ... ACT(1;obl) ADDR(3;opt) PAT(4;obl) EFF(za+4;obl) ruské zajatce.PAT vyměnili za naše lidi.EFFvyměnila mu.ADDR marky.PAT za dolary.EFF

doplňující syntaktické informace

ITAT 2003 6

Page 7: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Valenční slovník českých sloves – VALLEX

doplňující syntaktické informace: reflexivita (in progress) reciprocita gramatická kontrola vid a vidové protějšky primární / posunuté / idiomatické užití syntacticko-sémantická třída (in progress) odkazy na Český EuroWordNet (in progress)

současný stav: 1 450 sloves s 3 860 valenčními rámci

t.j. 2,7 rámce na sloveso slovesa podle frekvence v ČNK a PDT pokrytí cca 85% na ‘běžícím textu’ v PDT

kromě slovesa být a modálních sloves

ITAT 2003 7

Page 8: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves
Page 9: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Proč testovat konzistenci a úplnost slovníku?

proč neexistence teorie čemu věnována pozornost

vyvinout metodologii evaluace slovníku, kvalifikovaný odhad množství chyb, mezianotátorské shody

ITAT 2003 9

Page 10: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Jaké nástroje lze použít?

vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,

rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích

SPP, SSJČ, SČFI, Czech EWN, ČNK XSH XML Editing Shell (P. Pajas)

dotazy přesahující možnosti grafického rozhraní

ITAT 2003 10

Page 11: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves
Page 12: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves
Page 13: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Jaké nástroje lze použít?

vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,

rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích

SPP, SSJČ, SČFI, Czech EWN, ČNK XSH XML Editing Shell (P. Pajas)

dotazy přesahující možnosti grafického rozhraní

ITAT 2003 13

Page 14: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves
Page 15: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Jaké nástroje lze použít?

vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,

rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích

SPP, SSJČ, SČFI, Czech EWN, ČNK XSH - XML Editing Shell (P. Pajas)

dotazy přesahující možnosti grafického rozhraní

ITAT 2003 15

Page 16: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Jak tedy zajistit konzistenci a úplnost?

odstranění čistě technických nedostatků prohřešky proti striktně formulované notaci

porovnání s jinými lexikografickými zdroji existence a konzistence zdrojů

ověřování na ČNK 60-100 výskytů lexému (náhodně vybráno) ověření vhodného rozčlenění rámců na významy ověřování úplnosti

testování konzistence uvnitř VALLEXu

ITAT 2003 16

Page 17: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

K čemu valenční slovník?

reaching the consistency of assigning the valency structure (PDT-VALLEX)

automatic syntactic analysis (‘shallow parsing’) ‘tectogrammatical parser’

automatic system for creating an underlying representation of Czech sentences

source data for building the valency lexicon of nouns

CIL XVII, Prague, July 26, 2003 21

Page 18: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

Jazykové zdroje

teoretické články (Panevová) The Manual for Tectogrammatical Tagging of the Prague Dependency Treebank

(Hajičová et al., 2000) seznamy slovesných doplnění užívané při anotaci PDT elektronický valenční slovník povrchových realizací BRIEF(FI MU Brno, Pala,

Ševeček, 1997) tištěné slovníky

Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves

Slovník spisovného jazyka českého (SSJČ, 1964)Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978)Slovník českých synonym (SČS, 1994)Slovník české frazeologie a idiomatiky (SČFI, 1983)

Český národní korpus (ČNK) EuroWordNet, Czech WordNet

CIL XVII, Prague, July 26, 2003 22

Page 19: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

References I. Hajičová, E. et al. (2000) A Manual for Tectogrammatical Tagging of the Prague

Dependency Treebank. UFAL/CKL Technical Report TR-2000-09. Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves.

UFAL/CKL Technical Report TR-2002-15. Lopatková, M., Žabokrtský, Z. (2002) Valency Dictionary of Czech Verbs. In: LREC 2002,

Proceedings, pp. 949-956. Lopatková, M. (2003) Valency in the Prague Dependency Treebank:

Building the Valency Lexicon. PBML 79. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I,

PBML 22, pp. 3-40, Part II, PBML 23, pp. 17-52. Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff

(ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243.

Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a

specifika 2, Masarykova Univerzita, Brno, pp. 173-180. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In:

Proceedings of MTT 2003, Paris. (in press) Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic

Aspects. Dordrecht: Reidel, Prague: Academia.

CIL XVII, Prague, July 26, 2003 23

Page 20: Testování konzistence a úplnosti valen č ního slovníku  č eských sloves

References II.

Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno.

Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML 22, pp. 3-40, Part II, PBML 23, pp. 17-52.

Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243.

Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14.

Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180.

Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press)

Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia.

CIL XVII, Prague, July 26, 2003 24


Recommended