Standardy pro anotaci jazykových dat

Standardy pro anotaci jazykových dat

Daniel Zeman

http://ckl.mff.cuni.cz/~zeman/

Počítačové zpracování přirozeného jazyka

5.11.2002 http://ckl.mff.cuni.cz/~zeman/ 2

XML

• eXtensible Markup Language

• http://www.xml.org/xml/resources_focus_beginnerguide.shtml


Značkování

• Počítačové zpracování přirozeného jazyka velmi často znamená „značkování“: k původně holému textu přibývají informace zjištěné na různých úrovních.

• V užším smyslu jde o zjednoznačnění morfologie.

• Jaký je jazyk pro vpisování informací do textu?


SGML: Standard Generalized Markup Language

• „markup“ = „opatřit poznámkami“

• K rozlišení textu a poznámek využívá „SGML tags“ — SGML značky.

Skákal pes přes oves.

<f>Skákal<f>pes<f>přes<f>oves<d>.

<f>Skákal<l>skákat<f>pes<l>pes<f>…

<f>Skákal<l>skákat<r>1<f>pes<l>pes<g>1…


Poslání SGML

• SGML nevzniknul za lingvistickými účely.

• Standard pro strukturování (×formátování) dokumentů.– Dokumenty sdíleny mezi různými systémy.– Dokumenty s dlouhým životním cyklem.– Nárok na automatické zpracování (formátování,

vyhledávání, jiná manipulace).


Je to potřeba?

• Řada formátů je de-facto standardních, protože jsou čitelné pro větší část uživatelů.– Binární formáty (např. Microsoft Word)– Textové formáty (např. RTF, TeX)

• Proč tedy nestačí tyto „standardy“ a musí se zavádět něco nového?


Nevýhody existujících standardů

• Binární formáty: problémy s uložením vícebytových hodnot, nečitelné pro člověka, čitelné jen pro konkrétní software, často ani nejsou dokumentované a veřejné.

• Textové: lepší, ale soustřeďují se na vzhled dokumentu, ne na jeho logickou strukturu.


Příklad dokumentu:novinový článek


Formát prostého textu

ZE ZAHRANIČÍ

........Gerhard Schröder v Praze

První zahraniční cesta vítěze voleb vede…

„Vztahy s Čechy jsou naší prioritou,“ …

..............Igor Hnízdo

..............-----------

Řadu let vládla v Německu Kohlova CDU…


Formát RTF(Rich Text Format)

{\i\caps\f22\fs20 Ze zahrani\'e8\'ed

\par }\pard\plain \qc\b\f1\fs28\lang1029\kerning28 {\f0\fs40 Gerhard Schr\'f6der v\~Praze

\par }\pard\plain \qc\b\i\f1\lang1029 {\i0\f22\fs22 Prvn\'ed zahrani\'e8n…

\par }\pard\plain \lang1029 {\f16 \ldblquote Vztahy s\~\'c8echy jsou…

\par }\pard \qc {\b\f1\fs20\ul Igor Hn\'edzdo


Formát (La)TeX

{\sc\large Ze zahraničí}

{\centerline\bf\Huge Gerhard Schröder v~Praze}

{\centerline\bf\LARGE První zahraniční…}

{\Large\uv{Vztahy s~Čechy jsou…} řekl…}

{\bf\Large\underline Igor Hnízdo}


Oddělit logickou strukturuod vzhledu dokumentu

• Vzhled kódován mezi textem: příliš mnoho příkazů, nečitelné.

• Vzhled závisí na software a hardware: je k dispozici ten a ten font? Umíme podtrhávat…?

• Každý autor může pro tentýž prvek (např. nadpis) použít jiný vzhled.


Formát SGML

<RUBRIKA>Ze zahraničí</RUBRIKA>

<NADPIS>Gerhard Schröder v Praze</NADPIS>

<PODTITUL>První zahraniční cesta vítěze…

<UVOD><Q>Vztahy s Čechy jsou naší prioritou,</Q> řekl…</UVOD>

<AUTOR>Igor Hnízdo</AUTOR>

<ODSTAVEC>Řadu let vládla…

<ODSTAVEC>…


Ale v RTF jsou stylya v TeXu makra!

{\rtf1\ansi\ansicpg1250\uc1 {\fonttbl{\f0\froman\fcharset0\fprq2 Times New Roman;}{\f1…

{\stylesheet{\s0\sb100\sa100\widctlpar\adjustright \lang1029 \snext0 Normální;} {\s1\sb240\sa60\keepn\widctlpar\adjustright \b\f1\fs28\lang1029\kerning28 \sbasedon0 \snext15 Nadpis 1;}…

{\s1\qc Gerhard Schröder v\~Praze}


Proč nestačí styly v RTF?

• Autoři by nejdříve museli chtít styly používat.

• Nikdo jim nebrání ručně přidat např. „tučné písmo“, ale dokonce ani konce řádků a mezery pro posunutí textu na požadované místo.

• V SGML tuto možnost nemusejí vůbec dostat.


I SGML lze využít (či zneužít) ke kódování vzhledu

<HTML><BODY>

ZE ZAHRANIÈÍ

Gerhard Schröder v Praze

První zahranièní cesta vítìze voleb vede k nám</BODY></HTML>


Kdy nemá smysl rozlišovat logickou strukturu a vzhled

• U dokumentů s jednorázovým použitím, s krátkou životností.

• U dokumentů, které nesdílí více jednotlivců či organizací.

• U dokumentů, které kromě vytištění nevyžadují žádné automatické zpracování.


Jiný příklad použití: CALS

• Computer-aided Acquisition and Logistics Support.

• Americké ministerstvo obrany: stovky dokumentů ke každému bombardéru.

• Dokumentace od různých dodavatelů s různými editory.

• Standard CALS obsahuje SGML (+ návod).


Historie SGML a spol.

• pozdní 60. léta: nroff• 1970: vzniká Unix• 1978: pracovní skupina ANSI• počátek 80. let: přebírá ISO• 1980: vzniká MS-DOS• 1986: standard SGML (ISO 8879:1986)• 1987: první verze RTF (TeX je starší)• 1988: CALS (obsahuje SGML)• 1990: vznikají MS Windows 3.1• 1993: zatím nejrozšířenější aplikace SGML: HTML


Tři části SGML

• SGML deklarace. Znaková sada, oddělovače (</>…).

• DTD (definice typu dokumentu — document type definition).

• Text dokumentu obohacený o SGML značky.


Příklad DTD

<!ELEMENT CLANEK - - (RUBRIKA?, NADPIS, PODTITUL?, UVOD?, AUTOR, TELO)>

<!ELEMENT RUBRIKA - O (#PCDATA)>

<!ELEMENT NADPIS - O (#PCDATA)>

<!ELEMENT PODTITUL - O (#PCDATA)>

<!ELEMENT UVOD - O ((#PCDATA | Q)+)>

<!ELEMENT TELO - O (ODSTAVEC+)>

<!ELEMENT ODSTAVEC - O ((#PCDATA | Q)+)>

<!ELEMENT Q - - (#PCDATA)>


Jméno SGML prvku

• 1 až 8 znaků.

• První znak musí být písmeno A-Z, a-z (žádná diakritika).

• Další znaky mohou být písmena, číslice, tečka a pomlčka — tzv. jmenné znaky.

• Ve jménech prvků se nerozlišují velká a malá písmena.


Minimalizace

• U některých prvků je možné vynechat koncovou, případně počáteční značku.

• Například pokud víme, že za nadpisem vždy následuje podtitul, který nemůže být součástí nadpisu, <PODTITUL> zastupuje i </NADPIS>.

• <!ELEMENT NADPIS - O (#PCDATA)>

• „O“ nebo „o“ jako „omitted“ (ne 0)!


Operátory v popisu složení prvku

• <! Odlišuje deklarace prvků od jejich výskytů.

• (…) Závorky ohraničují tzv. modelovou skupinu.

• , & | Spojovací operátory.• ? * + Indikátory výskytů.• #PCDATA List v hierarchii, prostý text.


Operace sřetězení: , (čárka)

• <!ELEMENT A - - (B, C)>

• Prvek A se skládá z prvků B a C, které se musí vyskytnout za sebou v uvedeném pořadí.


Operace sjednocení: & (ampersand)

• <!ELEMENT A - - (B & C)>

• Prvek A se skládá z prvků B a C, které se musí vyskytnout oba, ale v libovolném pořadí.


Operace disjunkce: | (svislítko)

• <!ELEMENT A - - (B | C)>

• Prvek A odpovídá buď prvku B, nebo prvku C, ale ne oběma za sebou.


Volitelnost: ? (otazník)

• <!ELEMENT A - - (B?)>

• Prvek A může být realizován prvkem B, nebo může být prázdný.

• <!ELEMENT A - - (B?, C)>

• Prvek A se skládá z B a C, kde prvně jmenovaný je nepovinný.


Volitelnost a iterace: * (hvězdička)

• <!ELEMENT A - - (B*)>

• Prvek A může být prázdný, nebo obsahovat libovolný počet prvků B.


Nejméně jeden výskyt: + (plus)

• <!ELEMENT A - - (B+)>

• Prvek A se skládá z libovolného počtu prvků B, nejméně však z jednoho.


Priorita operátorů

• Indikátory výskytů mají vyšší prioritu než spojovací operátory. Srovnejte:

<!ELEMENT P - - (#PCDATA|Q)*>

ale<!ELEMENT P - - (#PCDATA|Q*)>

• Uvnitř jedněch závorek se smí vyskytnout pouze jeden druh spojovacího operátoru.


#PCDATA

• Parsed Character Data

• List hierarchie, terminální symbol.

• Platné SGML znaky, ne obrázky apod.

• Data musí být „parsed“ (analyzována), aby se rozbalily entity (viz později) a aby se vědělo, co je text a co SGML značky.

• Implicitně obsahuje operátor *.


Mimo hierarchii:zahrnutí prvku

• Prvek B zahrnutý do definice prvku A se může vyskytnout ve kterémkoli podprvku C prvku A, aniž by to muselo být explicitně řečeno v deklaraci C.

• K zahrnutí (inkluzi) se používá operátor + (tentokrát prefixový, ne postfixový).<!ELEMENT A - - ((C1&C2),C3) +(B)>


Mimo hierarchii:vyloučení prvku

• Ruší zahrnutí prvku v daném podstromu. Například proto, že prvek se nemůže vyskytnout uvnitř sebe sama.

• K vyloučení (exkluzi) se používá operátor – (prefixový).

<!ELEMENT C1 - - (#PCDATA) -(B)>


Zvláštní druhy prvků

• ANY = #PCDATA nebo libovolný prvek deklarovaný v tomtéž DTD (jen pro ladění)

• CDATA: ignorovat oddělovače kromě </

• RCDATA: podobné, ale rozpoznají se odkazy na entity a znaky.

• EMPTY: prázdné, sama značka má význam pro zpracování (např. <TODAY>)


Prvky s atributy

<DOPIS DRUH=FIREMNI>

<ODSTAVEC CISLO=5>Toto je pátý odstavec dopisu.</ODSTAVEC>

</DOPIS>

<!ELEMENT DOPIS - - (ODSTAVEC*)>

<!ATTLIST DOPIS DRUH (FIREMNI|SOUKROMY) FIREMNI>

<!ATTLIST element atribut hodnoty implicitní_hodnota>


Typy hodnot atributů

CDATA <TABLE ARRANGE="1 2/3 4">

ENTITY <ARTWORK NAME="PIC">

ENTITIES <ARTWORK NAME="PIC1 PIC2">

ID <BIB ID="Capek">

IDREF <BIBREF REFID="Capek">

IDREFS <BIBREF REFID="Capek Polacek">

NAME <MAIL FROM="Karel">

NAMES <MAIL FROM="Karel Honza">

NMTOKEN <BUILDING NO="R-021">


Typy hodnot atributů (pokračování)

NMTOKENS <BUILDING NO="R-021 R-023">

NOTATION <FORMULA NOTATION="EQN">

NUMBER <C N="7">

NUMBERS <TABLE NO="5 0 8 7">

NUTOKEN <PHONE NO="2191-4288">

NUTOKENS <PHONE NO="2191 - 4288">


Pro jeden prvek nejvýše jeden seznam atributů

<!ATTLIST f case (lower|cap|upper) lower cphr NMTOKEN #IMPLIED id NMTOKEN #IMPLIED>

(Volné místo mezi slovy se interpretuje jako jediná mezera, a to i v uvozovkách.)

<!ATTLIST SEZNAM DRUH (odrazky,cislovany) odrazky ZNAK (odrazky,hvezdicky,cisla) cislo>


Implicitní hodnoty atributů

• Prázdný řetězec je povolen pro typ CDATA.

#FIXED hodnota je pevná, udává se za klíčovým slovem #FIXED

#REQUIRED atribut je povinný

#CURRENT naposledy použitá hodnota

#CONREF pro křížové odkazy

#IMPLIED zpracovatel hodnotu zná


Entity

• Zástupce znaku nebo řetězce.

• Zástupce externího souboru. Obsah souboru se vloží na daném místě do dokumentu.

• „Datový text“.

• Uzávorkovaný text.


Parametrický literál

• Řetězec nebo znak, na který se v dokumentu odkazujeme, ale jeho obsah se stanoví někde jinde — podobně jako parametry u procedur.

<!ENTITY UFAL "Ústav formální a aplikované lingvistiky">

<!ENTITY OMEGA "Ω">

Značkou jednotky elektrického odporu je &OMEGA; (čti omega).


Odkaz na nedefinovanou entitu

Značkou pro ohm je &bflmpsvz;.• Pokud bflmpsvz nebylo definováno, analyzátor oznámí

chybu. Místo chybového hlášení je možné všechny neznámé entity rozbalit na varovný text, pokud deklarujeme „defaultní“ entitu.

<!ENTITY #DEFAULT "Varování: Odkaz na nedefinovanou entitu.">


Externí entita

• Tam, kde se vyskytne odkaz na externí entitu, se do dokumentu vloží obsah jiného souboru.

• Dva druhy externích entit:– Lokální jsou známé pouze na našem počítači či

síti.– Veřejné jsou k dispozici každému.


Lokální externí entita

• Lokální entita umožňuje rozdělit velký dokument na více souborů, například po kapitolách.

<!ENTITY KAPITOL1 SYSTEM "C:\Kapitola 1.sgml">


Veřejná externí entita

• Veřejná entita umožňuje použít DTD nebo sadu entit a prvků, definovanou jako navazující standard.

<!ENTITY PUBLISH PUBLIC "ISO 8879:1986//ENTITIES Publishing//EN" "c:\a.ent">

• Pro registraci veřejných identifikátorů zvláštní standard ISO 9070:1991. (vlastník//třída text//jazyk)


Propojení dokumentu a DTD

• Každý dokument musí buď přímo obsahovat DTD, nebo alespoň odkaz na externí DTD.

<!DOCTYPE DOPIS SYSTEM "dopis.dtd">

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">


Vložení DTD do dokumentu

<!DOCTYPE MAIL [

<!ELEMENT MAIL - - ((FROM & TO), BODY, CLOSE?)>

<!ELEMENT (TO|FROM|CLOSE) - O #PCDATA>

<!ELEMENT BODY - O (P)*>

<!ELEMENT P - O (#PCDATA|Q)*>

<!ELEMENT Q - - (#PCDATA)>

<!ATTLIST MAIL STATUS (PUBLIC|CONFIDEN) PUBLIC>]>

<MAIL>…


Text Encoding Initiative

• Aplikace SGML (řada DTD apod.)• Zaměřená na výzkum v humanitních vědách —

jedna z prvních takto rozsáhlých nekomerčních aplikací.

• Založena a sponzorována třemi vědeckými asociacemi včetně Association for Computational Linguistics.

• TEI guidelines zpracovány 1989–1994.


TEI guidelines

• SGML se snaží uzákonit to, co je společné všem počítačovým zpracováním textu.

• TEI jde dál a snaží se pokrýt společné potřeby „počítačově-humanitních věd“ včetně počítačové lingvistiky.

• 1300 stran SGML definic pro nejrůznější druhy textu: TEI guidelines.

• Spíše než o standard jde o doporučení, aby se usnadnila komunikace vědeckých pracovišť.


Text Encoding Initiative

• Definuje množinu DTD, resp. stavebních kamenů, z nichž mohou být DTD ušita na míru problému. Umožňuje tak to, co je společné více problémům, kódovat stejně.


Modularita TEI DTD

• Ústřední sady značek (core tag sets): předpokládá se, že je potřebuje každý dokument, jsou proto k dispozici vždy.

• Základní sady značek (base tag set) jsou vždy společné jedné třídě dokumentů. Jeden dokument potřebuje právě jednu základní sadu.

• Přídavné sady značek (additional tag sets) mohou potřebovat dokumenty libovolné třídy, ale jsou to specializované značky, potřebné obvykle ve specializované aplikaci.

• Pomocné sady značek (auxiliary tag sets) obsahují prvky se zvláštním posláním.


Modularita TEI DTD (pokračování)

• Tentýž prvek může být definován různě v různých základních sadách.

• Kromě této výjimky nesmí být tentýž prvek definován na více místech, tj. ani ve více různých přídavných sadách, ani ve dvou sadách z různých skupin (ústřední a pomocné).


Příklad: TEI kompatibilní dokument

<!DOCTYPE tei.2 [

<!ENTITY % TEI.prose "INCLUDE">

<!ENTITY % TEI.linking "INCLUDE">

]>

<tei.2>



</tei.2>


TEI: otevřený standard

• Modulární schéma umožňuje rozšiřitelnost: lze doplňovat další sady značek.

• V konkrétním dokumentu si každý může dodefinovat své prvky, pokud mu TEI vidění světa nestačí.

• Spíše než o standard jde o doporučení.


Ústřední sady značek

• Jsou dvě:– Definice prvků nacházejících se ve všech druzích dokumentů.

• Zvýrazněné fráze (rozdělené na zdůraznění, technické termíny, cizí slova, tituly děl…).• Fráze v uvozovkách (rozdělené na přímou řeč, glosy, citáty…).• Jména, čísla, míry, data, časy…• Seznamy všeho druhu.• Nástroje pro redakční korektury.• Odkazy (hypertext), bibliografické citace.

– Záhlaví, které musí mít každý dokument (jedna z mála povinných věcí v TEI).• Popis dokumentu a zdrojů, z nichž byl odvozen, autorská práva, distribuční podmínky…

(elektronické knihovny)• Popis zvoleného kódování.• Tématické zařazení, použité jazyky, zařazení autora…• Historie změn dokumentu.

• „Nikdo pravděpodobně nepotřebuje každou věc, kterou umíme popsat. Ale každou věc, kterou umíme popsat, pravděpodobně někdo potřebuje.“


Základní sady značek

• Šest sad pro dokumenty, u nichž převažuje zařazení do jedné třídy: próza, verše, drama, přepis mluveného slova, slovník, terminologická databáze.

• Další dvě sady pro dokumenty, které třídy kombinují: obecná a smíšená. Liší se podle zacházení s částmi dokumentu.


Dělení dokumentu na části

• V různých dokumentech různé názvy částí: kapitoly, oddíly, díly, části…

• Bez ohledu na název podobné vlastnosti:– Jsou členěny hierarchicky.

– Samostatná část je nekompletní.

• Bez ohledu na název stejný prvek v TEI: <SEG> pro rekurzi, <S> pro obyčejné členění (věty).

• Atribut TYPE: jiné než hierarchické vlastnosti.


Třídy prvků

• Prvky ze sad TEI jsou řazeny do tříd.• Modelové třídy: prvky se objevují na stejném

místě ve struktuře dokumentu.• Atributové třídy: prvky mají stejné atributy.• Jeden prvek může patřit do více tříd současně.• Třídy mohou mít podtřídy i nadtřídy.• Třídy jsou definovány v DTD pomocí

parametrických entit lze přidávat prvky do tříd.


Přidávání prvků do tříd

<!ENTITY % x.divtop "">

<!ENTITY % m.divtop "%x.divtop head | byline | epigraph">

Chceme-li přidat do třídy m.divtop nový prvek (třeba <keywords>) a umožnit tak jeho použití kdekoli, kde jsou povoleny i ostatní prvky třídy, jediné, co musíme udělat, je předefinovat parametrickou entitu x.divtop:

<!ENTITY % x.divtop "keywords |">


Přejmenovávání a odstraňování prvků

• Následující deklarace přejmenuje prvek na <para>:<!ENTITY % n.p "para">

• Následující deklarace odstraní prvek <mentioned>:<!ENTITY % mentioned "IGNORE">


Globální atributová třída

• Atributy, které existují u všech TEI prvků:– ID je SGML identifikátor prvku (jedinečný).– N je jméno nebo číslo prvku, ne nutně jedinečné

(kanonická reference TEI).– LANG udává jazyk, a tedy i písmo, použité pro

obsah prvku.– REND může popsat zobrazení obsahu (např.

tučně), pokud není vzhled dán jinak.


Přídavné sady značek

• Je jich zatím deset.

• Specifické účely: např. přepis řeči; kontextová informace potřebná v textových korpusech; podrobnější rozbor jmen a dat; abstrakce jako sítě, grafy, stromy; matematické vzorce a tabulky…

• Obecnější účely: např. propojování odkazů a paralelních textů; lingvistická analýza (např. identifikace morfémů); struktury rysů; stupeň nejistoty či nejednoznačnosti zakódované informace…

Date post:	30-Dec-2015
Category:	Documents
Upload:	elaine-lowery
View:	36 times
Download:	2 times

Standardy pro anotaci jazykových dat

Documents