Nástroje pro paralelní korpusy

Post on 07-Jan-2016

49 views 4 download

description

Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen. Nástroje pro paralelní korpusy. Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003. Osnova. K čemu jsou paralelní korpusy - PowerPoint PPT Presentation

transcript

1/47

Nástroje pro paralelní korpusy

Alexandr RosenÚstav teoretické a komputační lingvistiky

Filosofická fakulta University Karlovy v Praze

alexandr.rosen@ff.cuni.czhttp://utkl.ff.cuni.cz/~rosen

Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003

2/47

Osnova

1. K čemu jsou paralelní korpusy

2. Jak vytvořit paralelní korpus

3. Hledání v paralelních korpusech

4. Další využití paralelních korpusů

5. Projekt paralelních korpusů na FF UK

3/47

1. K čemu jsou paralelní korpusy

pro lexikografy

pro překladatele

pro učitele a studenty cizích jazyků

pro translatology, literární vědce, dialektology

k vyhledávání informací ve více jazycích (cross-language information retrieval)

ke zjednoznačnění textu v jednom jazyce

4/47

pro lexikografy

paralelní konkordance

identifikace kolokací a jejich ekvivalentů

extrakce ekvivalentů

5/47

pro překladatele

paralelní konkordance

překladová paměť (Translation Memory)

překlad podle příkladů (Example-Based Machine Translation)

statistický překlad

kontrola překladu

automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)

6/47

Nevýhody paralelních korpusů

texty nejsou autentické, většinou jen překlady

texty nejsou reprezentativní, paralelně lze získat jen některé typy textů

předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat

je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti

7/47

2. Jak vytvořit paralelní korpus

Jak získat paralelní texty

Jak je upravit do vhodného formátu

Jak je segmentovat a párovat

8/47

Jak získat paralelní texty

existující paralelní korpusy

pro češtinu a slovenštinu zatím málohttp://www.phil.muni.cz/angl/kacenka/kachna.html

http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html

http://nl.ijs.si/ME/

elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/

http://www.unhchr.ch/udhr/index.htm

beletrie, zákony EU, www stránky

Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html

skenováním

9/47

Jak získat paralelní texty II.

právnické problémy:

citovat se smí bez souhlasu autora

ALE: elektronický text někomu patří

více jazyků – jiná země, jiné zákony

10/47

Jak texty upravit do vhodného formátu

kódování znaků

ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ?

kódování formátu

→ SGML/TEI, XML, …

lingvistické značkování?

11/47

Jak texty segmentovat a párovat

segmentace na věty

párování (alignment)

ruční

automatické

kombinace ručního a automatického

12/47

Nástroje pro poloautomatické párování

jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.:

Trados – „inteligentní“ párování, ale $$$ http://www.trados.com

Déjà Vu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com

CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentů http://www.cypresoft.com

SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch,

makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisher http://www.wordfisher.com

13/47

Obvyklé funkce nástrojů pro poloautomatické párování

Konverze formátů pouze text

textové editory Word, RTF, WordPerfect, OpenOffice

prezentace PowerPoint

tabulkové procesory Excel

databáze Access

DTP FrameMaker, PageMaker, QuarkXPress, InDesign

značkované texty HTML, SGML/XML, TMX

lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext

formáty CAT Trados, TMX, IBM TM

Konverze kódování znakůISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode

14/47

Obvyklé funkce nástrojů pro poloautomatické párování II.

Segmentace

na věty, nadpisy, položky seznamu, popisky obrázků

podle odstavců (¶) nebo již provedené částečné segmentace

podle typických zakončení věty <interpunkce><mezera>

15/47

16/47

Obvyklé funkce nástrojů pro poloautomatické párování III.

Automatické párování sekvenčně podle segmentů

podle nadpisů

podle formátování

podle délky segmentů

podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku)

Výsledektabulka se dvěma sloupci

17/47

Obvyklé funkce nástrojů pro poloautomatické párování IV.

Ruční párování paralelní prohlížení

spojování po sobě jdoucích segmentů

rozdělování segmentů

mazání segmentů

změna pořadí segmentů

„párování“ segmentů 1:n, n:1, n:n

párování segmentů křížem

18/47

Párování v programu Déjà Vu 3

19/47

Párování v programu WordFast/+Tools

20/47

Párování v programu WordFast/+Tools II

21/47

Párování v programu CypreSoft Align

22/47

Nástroje pro poloautomatické párování – pokr.

jako součást programového balíku pro zpracování paralelních textů

Logiterm (Terminotix, Inc.) http://www.terminotix.com

MultiTrans http://www.multicorpora.com

ParaConc http://www.ruf.rice.edu/~barlow/parac.html

23/47

Párování v programu ParaConc

24/47

Párování v programu ParaConc II

25/47

Párování v programu ParaConc III

26/47

Nástroje pro automatické párování

podle délky segmentů ve znacích

Gale&Church 1991 → Vanilla Aligner http://www.research.att.com/~kwc/publications.html, http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:evert@IMS.Uni-Stuttgart.DE (EasyAlign - součást IMS CWB)

podle délky segmentů ve slovech

Brown et al. 1991

podle „anchor points“

distribuce ekvivalentů Kay&Röscheisen 1993

čísla, formátování, podobné řetězce

dvoujazyčný slovník Melamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm

27/47

3. Hledání v paralelních korpusech

– korpusové manažery

● ParaConc http://www.ruf.rice.edu/~barlow/parac.html

● Uplug http://stp.ling.uu.se/~joerg/uplug/

● COMPARA http://www.linguateca.pt/COMPARA/Welcome.html,

IMS CWB http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/

● MultiLingual Concordancer in Java http://www.lancs.ac.uk/staff/piaosl/research/download/download.htm

28/47

Obvyklé vyhledávací funkce

dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání)

zadání dotazu regulárním výrazem

hledání podle značek

omezení prohledávaných textů:

bibliografické údaje

originál nebo překlad

jazyková varianta (britská/americká angličtina)

29/47

Obvyklé vyhledávací funkce II.zobrazení výsledku dotazu:

kontext: segment nebo KWiCzadání/zjištění ekvivalentů KW → BiKWiCtřídění podle KW, kontextuzobrazení/potlačení značekzobrazení kolokacíúdaje o párovánípoznámky překladateledistribuce foremdistribuce zdrojů

30/47

Obvyklé vyhledávací funkce III.

statistiky:

frekvence tvarů

kolokace

frekvence kolokací

31/47

Hledání programem ParaConc

asi nejlepší program pro dvoujazyčné konkordance na PC

snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, …

stále se vyvíjí

32/47

33/47

34/47

35/47

36/47

37/47

Hledání v korpusu COMPARA

portugalsko/anglický, beletrie, volně přístupný

IMS CQP, DISPARA web interface

1 129 000 slov celkem

bohaté možnosti vyhledávání, pečlivě připravená data

38/47

39/47

40/47

41/47

42/47

43/47

4. Další využití paralelních korpusů

Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad)

Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug

44/47

5. Paralelní korpus FF UK

součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II.

soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců

každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích

45/47

Výchozí stav a první fáze

katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, s podporou koordinátora projektu

přitom využívají software pro PC:

konverzní programy,

nástroje pro automatické a ruční párování,

paralelní prohlížeče - např. ParaConc

46/47

Cílový stav

subkorpusy jsou uloženy v jednotném formátu na jednom místě

pro údržbu a využívání korpusu slouží jedna sada programového vybavení:

konvertory do jednotného formátu

nástroje pro ruční a automatické párování

korpusový manažer

korpus se využívá převážně po síti (TCP/IP)

distribuovaná příprava a údržba textů

47/47

Cílový stav (pokračování)

neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu)

registrovaní uživatelé s většími právy na vyhledávání

privilegovaní uživatelé s právem měnit obsah některého subkorpusu:

přidávat nové texty,

párovat je automaticky nebo ručně,

opravovat výsledky automatického párování