+ All Categories
Home > Documents > Magda Ševčíková sevcikova @ufal.mff.cuni.cz

Magda Ševčíková sevcikova @ufal.mff.cuni.cz

Date post: 12-Jan-2016
Category:
Upload: clarke
View: 45 times
Download: 1 times
Share this document with a friend
Description:
Workshop řešitelského týmu grantu GA ČR P406/10/0875. Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality. Magda Ševčíková sevcikova @ufal.mff.cuni.cz. Souborovost v datech PDT a PDTSC - PowerPoint PPT Presentation
22
Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková [email protected] Workshop řešitelského týmu grantu GA ČR P406/10/0875
Transcript
Page 1: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

Anotace souborovosti v datech PDT a PDTSC

Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality

Magda Ševčíková[email protected]

Workshop řešitelského týmu grantu GA ČR P406/10/0875

Page 2: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Souborovost v datech PDT a PDTSC Revize vybraných modálních významů v PDT

Slovesný způsob Větná modalita

Page 3: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Singulár a plurál v češtině: forma vs. funkce

morfologická kategorie čísla v češtině singulárové vs. plurálové formy význam singularity (jedna entita) vs. plurality (více než jedna entita, větší

množství entit): jedna hruška, dvě hrušky, ..., pět hrušek jedny nůžky, dvoje nůžky, ..., patery nůžky

plurálová forma někdy neodkazuje k pouhému většímu množství entit, ale k jejich typickému souboru / souborům (souborový význam) př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich

plurálová forma prototypicky označuje právě soubor / soubory jiná substantiva se pro vyjádření souborového významu spojují se

souborovou číslovkou Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na

výletě“. (SYN2005)

Page 4: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Souborovost jako význam substantiv souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný

význam pluralia tantum – asymetrie formy a funkce v singuláru souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou

číslovky -> zachycovat na tektogramatické rovině (ve FGP, PDT)

souborovost úzce spojena s kategorií čísla opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam

plurálu jednotlivin (single) čtyři významy

sg.single … singulárové formy sg.group, pl.single, pl.group … plurálové formy

na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group

homonymie plurálu – zjednoznačnění souborovou číslovkou – v PDT velmi řídké kontextem, znalostí světa -> ruční anotace

Page 5: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Ruční anotace souborovosti v datech PDT 2.0

cíl ověřit, zda je souborový význam identifikovatelný zjistit četnost souborového významu v autentických textech

souborový význam potenciálně u všech plurálových forem všech substantiv (60 017 z 833195 tokenů anotovaných na tektogramatické rovině) vzhledem k předpokládané nízké četnosti souborového významu takový

postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů)

pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický

Page 6: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Pracovní seznam substantiv k anotaci

zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce

celkem 141 substantiv:adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks, , kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče ,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub

Page 7: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Ruční anotace souborovosti v datech PDT 2.0

říjen 2010 až leden 2011 paralelní anotace, dvě anotátorky

krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí příprava a vyhodnocení

anotace: Lenka Smejkalová 31 souborů

v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext

mezianotátorská shoda:

Page 8: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Zachycení souborovosti gramatémem typgroup

význam souborovosti úzce souvisí s kategorií čísla ? včlenění souborovosti do stávajícího gramatému number

změna hodnot gramatému čísla souborovost jako zvláštní gramatém typgroup

provázaný s gramatémem number hodnoty gramatému typgroup

single, group, nr hodnoty gramatémů typgroup a number a anotační možnosti

prostý plurál → typgroup=single, number=pl jeden soubor → typgroup=group, number=sg více souborů → typgroup=group, number=pl jeden nebo víc souborů → typgroup=group, number=nr nerozhodnutelné → typgroup=nr, number=nr

Page 9: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Včlenění ruční anotace, automatická anotace

uzly se sempos=n.denot|n.denot.neg u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému

typgroup vyplněny na základě anotace změny v hodnotě gramatému number

uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky

jedny → typgroup=group, number=sg s vyšší hodnotou → typgroup=group, number=pl

u ostatních uzlů vyplnit typgroup=single number beze změny

--> PDT 2.5

Page 10: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Ruční anotace 1. části dat PDTSC jaro 2011, paralelní anotace (tytéž anotátorky) 585 výskytů

Malach: 359 Companions: 226

Page 11: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Ruční anotace 2. části dat PDTSC jaro 2012, paralelní anotace (výměna jedné anotátorky) 1957 výskytů (Malach, Companions)

Page 12: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Publikace

Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011

Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176.

Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47.

Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182.

Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.

Page 13: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Slovesný způsob v PDT 2.0

slovesný způsob v PDT 2.0 zachycen gramatémem verbmod hodnoty ind, imp, cdn

rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense (cdn+sim, cdn+ant)

kondicionál po aby a kdyby anotován jako indikativ – víc než 1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant)

poloautomatická anotace (ZŽ, MŠ, 2005/6)

Page 14: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Nový gramatém slovesného způsobu

gramatém verbmod nahrazen gramatémem factmod „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl

neimperativní formy vs. imperativ použitím neimperativní formy prezentuje mluvčí daný děj jako reálný

(indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.)

imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi

pro factmod definovány 3 hodnoty asserted (indikativ), potential (kond. přít.), irreal (kond. min.) imperativ vyřazen

implementace: 4 hodnoty asserted, potential, irreal, appeal (imperativ) --> PDT 3.0

Page 15: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Vyplňování gramatému factmod

poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) factmod náleží stejným uzlům jako verbmod využívány informace z morfologické roviny, konfrontovány s hodnotami

verbmod gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako

imperativ) opraveny jednotlivé chyby v tektogramatické anotaci

manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)

Page 16: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x

verbmod PDT 2.0 train factmod PDT 2.x train

ind 60 118 asserted 58 834

cdn (+sim) 2 835 potential 4 108

cdn (+ant) 8 irreal 8

imp 286 appeal 293

nil 5 396 nil 5 401

Page 17: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita jako význam věty

modální význam „celé věty“ (česká i zahraniční literatura o modalitě) oznámení vs. otázka vs. rozkaz, popř. další

větná modalita ve FGP a PDT oznámení, otázka, rozkaz, přání, zvolání kombinace formálních prostředků (slovesný způsob, koncová

interpunkce, částice) koordinované klauze mohou mít různou modalitu

př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo?

gramatém sentmod hodnoty enunc, inter, imper, desid, excl

Page 18: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita v PDT 2.0

poloautomatická procedura (ZŽ, MŠ, 2005/6) sentmod vyplněn

u přímého potomka technického kořene PRED DENOM nodetype=coap

u kořene vsuvky (PAR) př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc.

u kořene přímé řeči (is_dsp_root=1) př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání

Martinezová.

„algoritmus“ pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper pokud mezi dětmi analytického protějšku otazník -> sentmod=inter pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace

(desid/excl/imper; 92 uzlů v trénovacích datech) zbytek uzlů: sentmod=enunc

Page 19: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita nově pro PDT 3.0

gramatém i sada hodnot stejné jako v PDT 2.0 poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) rozšíření množiny uzlů, u kterých vyplňován sentmod

ze sady kandidátských uzlů přímý potomek technického kořene kořen vsuvky (PAR) kořen přímé řeči (is_dsp_root=1) kořene názvu (ID)

test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou

př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy.

vyjmuty uzly s nodetype=coap, anotovány zvlášť u uzlů, které nebyly kořenem koordinace, aplikován algoritmus

ruční anotace u 82 uzlů (v trénovacích datech)

Page 20: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita v koordinacích

v trénovacích datech PDT 2.x 7598 coap uzlů řídících 17320 kořenů koordinovaných klauzí (efektivní děti s is_member=1) pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper manuální anotace:

kořeny klauzí koordinovaných s imperativními klauzemi kořeny koordinovaných klauzí, které byly součástí vět zakončených

otazníkem otazník se vztahuje jen k poslední klauzi

kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť

celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89) ostatní věty obsahující koordinované klauze končily tečkou (popř. bez

interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou

ve 100 náhodně vybraných větách jen klauze se sentmod=enunc automatické přiřazení hodnoty enunc

Page 21: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita v PDT 2.0 a PDT 2.x

Page 22: Magda Ševčíková sevcikova @ufal.mff.cuni.cz

[email protected] GA ČR P406/10/0875, 12. dubna 2012

Větná modalita v PDT 2.0 a PDT 2.x


Recommended