+ All Categories
Home > Documents > Nástroje pro paralelní korpusy

Nástroje pro paralelní korpusy

Date post: 07-Jan-2016
Category:
Upload: thanos
View: 49 times
Download: 4 times
Share this document with a friend
Description:
Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze [email protected] http://utkl.ff.cuni.cz/~rosen. Nástroje pro paralelní korpusy. Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003. Osnova. K čemu jsou paralelní korpusy - PowerPoint PPT Presentation
47
1/47 Nástroje pro paralelní korpusy Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze [email protected] http://utkl. ff . cuni . cz /~rosen Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003
Transcript
Page 1: Nástroje  pro paralelní korpusy

1/47

Nástroje pro paralelní korpusy

Alexandr RosenÚstav teoretické a komputační lingvistiky

Filosofická fakulta University Karlovy v Praze

[email protected]://utkl.ff.cuni.cz/~rosen

Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003

Page 2: Nástroje  pro paralelní korpusy

2/47

Osnova

1. K čemu jsou paralelní korpusy

2. Jak vytvořit paralelní korpus

3. Hledání v paralelních korpusech

4. Další využití paralelních korpusů

5. Projekt paralelních korpusů na FF UK

Page 3: Nástroje  pro paralelní korpusy

3/47

1. K čemu jsou paralelní korpusy

pro lexikografy

pro překladatele

pro učitele a studenty cizích jazyků

pro translatology, literární vědce, dialektology

k vyhledávání informací ve více jazycích (cross-language information retrieval)

ke zjednoznačnění textu v jednom jazyce

Page 4: Nástroje  pro paralelní korpusy

4/47

pro lexikografy

paralelní konkordance

identifikace kolokací a jejich ekvivalentů

extrakce ekvivalentů

Page 5: Nástroje  pro paralelní korpusy

5/47

pro překladatele

paralelní konkordance

překladová paměť (Translation Memory)

překlad podle příkladů (Example-Based Machine Translation)

statistický překlad

kontrola překladu

automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)

Page 6: Nástroje  pro paralelní korpusy

6/47

Nevýhody paralelních korpusů

texty nejsou autentické, většinou jen překlady

texty nejsou reprezentativní, paralelně lze získat jen některé typy textů

předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat

je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti

Page 7: Nástroje  pro paralelní korpusy

7/47

2. Jak vytvořit paralelní korpus

Jak získat paralelní texty

Jak je upravit do vhodného formátu

Jak je segmentovat a párovat

Page 8: Nástroje  pro paralelní korpusy

8/47

Jak získat paralelní texty

existující paralelní korpusy

pro češtinu a slovenštinu zatím málohttp://www.phil.muni.cz/angl/kacenka/kachna.html

http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html

http://nl.ijs.si/ME/

elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/

http://www.unhchr.ch/udhr/index.htm

beletrie, zákony EU, www stránky

Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html

skenováním

Page 9: Nástroje  pro paralelní korpusy

9/47

Jak získat paralelní texty II.

právnické problémy:

citovat se smí bez souhlasu autora

ALE: elektronický text někomu patří

více jazyků – jiná země, jiné zákony

Page 10: Nástroje  pro paralelní korpusy

10/47

Jak texty upravit do vhodného formátu

kódování znaků

ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ?

kódování formátu

→ SGML/TEI, XML, …

lingvistické značkování?

Page 11: Nástroje  pro paralelní korpusy

11/47

Jak texty segmentovat a párovat

segmentace na věty

párování (alignment)

ruční

automatické

kombinace ručního a automatického

Page 12: Nástroje  pro paralelní korpusy

12/47

Nástroje pro poloautomatické párování

jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.:

Trados – „inteligentní“ párování, ale $$$ http://www.trados.com

Déjà Vu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com

CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentů http://www.cypresoft.com

SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch,

makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisher http://www.wordfisher.com

Page 13: Nástroje  pro paralelní korpusy

13/47

Obvyklé funkce nástrojů pro poloautomatické párování

Konverze formátů pouze text

textové editory Word, RTF, WordPerfect, OpenOffice

prezentace PowerPoint

tabulkové procesory Excel

databáze Access

DTP FrameMaker, PageMaker, QuarkXPress, InDesign

značkované texty HTML, SGML/XML, TMX

lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext

formáty CAT Trados, TMX, IBM TM

Konverze kódování znakůISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode

Page 14: Nástroje  pro paralelní korpusy

14/47

Obvyklé funkce nástrojů pro poloautomatické párování II.

Segmentace

na věty, nadpisy, položky seznamu, popisky obrázků

podle odstavců (¶) nebo již provedené částečné segmentace

podle typických zakončení věty <interpunkce><mezera>

Page 15: Nástroje  pro paralelní korpusy

15/47

Page 16: Nástroje  pro paralelní korpusy

16/47

Obvyklé funkce nástrojů pro poloautomatické párování III.

Automatické párování sekvenčně podle segmentů

podle nadpisů

podle formátování

podle délky segmentů

podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku)

Výsledektabulka se dvěma sloupci

Page 17: Nástroje  pro paralelní korpusy

17/47

Obvyklé funkce nástrojů pro poloautomatické párování IV.

Ruční párování paralelní prohlížení

spojování po sobě jdoucích segmentů

rozdělování segmentů

mazání segmentů

změna pořadí segmentů

„párování“ segmentů 1:n, n:1, n:n

párování segmentů křížem

Page 18: Nástroje  pro paralelní korpusy

18/47

Párování v programu Déjà Vu 3

Page 19: Nástroje  pro paralelní korpusy

19/47

Párování v programu WordFast/+Tools

Page 20: Nástroje  pro paralelní korpusy

20/47

Párování v programu WordFast/+Tools II

Page 21: Nástroje  pro paralelní korpusy

21/47

Párování v programu CypreSoft Align

Page 22: Nástroje  pro paralelní korpusy

22/47

Nástroje pro poloautomatické párování – pokr.

jako součást programového balíku pro zpracování paralelních textů

Logiterm (Terminotix, Inc.) http://www.terminotix.com

MultiTrans http://www.multicorpora.com

ParaConc http://www.ruf.rice.edu/~barlow/parac.html

Page 23: Nástroje  pro paralelní korpusy

23/47

Párování v programu ParaConc

Page 24: Nástroje  pro paralelní korpusy

24/47

Párování v programu ParaConc II

Page 25: Nástroje  pro paralelní korpusy

25/47

Párování v programu ParaConc III

Page 26: Nástroje  pro paralelní korpusy

26/47

Nástroje pro automatické párování

podle délky segmentů ve znacích

Gale&Church 1991 → Vanilla Aligner http://www.research.att.com/~kwc/publications.html, http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:[email protected] (EasyAlign - součást IMS CWB)

podle délky segmentů ve slovech

Brown et al. 1991

podle „anchor points“

distribuce ekvivalentů Kay&Röscheisen 1993

čísla, formátování, podobné řetězce

dvoujazyčný slovník Melamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm

Page 27: Nástroje  pro paralelní korpusy

27/47

3. Hledání v paralelních korpusech

– korpusové manažery

● ParaConc http://www.ruf.rice.edu/~barlow/parac.html

● Uplug http://stp.ling.uu.se/~joerg/uplug/

● COMPARA http://www.linguateca.pt/COMPARA/Welcome.html,

IMS CWB http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/

● MultiLingual Concordancer in Java http://www.lancs.ac.uk/staff/piaosl/research/download/download.htm

Page 28: Nástroje  pro paralelní korpusy

28/47

Obvyklé vyhledávací funkce

dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání)

zadání dotazu regulárním výrazem

hledání podle značek

omezení prohledávaných textů:

bibliografické údaje

originál nebo překlad

jazyková varianta (britská/americká angličtina)

Page 29: Nástroje  pro paralelní korpusy

29/47

Obvyklé vyhledávací funkce II.zobrazení výsledku dotazu:

kontext: segment nebo KWiCzadání/zjištění ekvivalentů KW → BiKWiCtřídění podle KW, kontextuzobrazení/potlačení značekzobrazení kolokacíúdaje o párovánípoznámky překladateledistribuce foremdistribuce zdrojů

Page 30: Nástroje  pro paralelní korpusy

30/47

Obvyklé vyhledávací funkce III.

statistiky:

frekvence tvarů

kolokace

frekvence kolokací

Page 31: Nástroje  pro paralelní korpusy

31/47

Hledání programem ParaConc

asi nejlepší program pro dvoujazyčné konkordance na PC

snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, …

stále se vyvíjí

Page 32: Nástroje  pro paralelní korpusy

32/47

Page 33: Nástroje  pro paralelní korpusy

33/47

Page 34: Nástroje  pro paralelní korpusy

34/47

Page 35: Nástroje  pro paralelní korpusy

35/47

Page 36: Nástroje  pro paralelní korpusy

36/47

Page 37: Nástroje  pro paralelní korpusy

37/47

Hledání v korpusu COMPARA

portugalsko/anglický, beletrie, volně přístupný

IMS CQP, DISPARA web interface

1 129 000 slov celkem

bohaté možnosti vyhledávání, pečlivě připravená data

Page 38: Nástroje  pro paralelní korpusy

38/47

Page 39: Nástroje  pro paralelní korpusy

39/47

Page 40: Nástroje  pro paralelní korpusy

40/47

Page 41: Nástroje  pro paralelní korpusy

41/47

Page 42: Nástroje  pro paralelní korpusy

42/47

Page 43: Nástroje  pro paralelní korpusy

43/47

4. Další využití paralelních korpusů

Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad)

Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug

Page 44: Nástroje  pro paralelní korpusy

44/47

5. Paralelní korpus FF UK

součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II.

soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců

každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích

Page 45: Nástroje  pro paralelní korpusy

45/47

Výchozí stav a první fáze

katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, s podporou koordinátora projektu

přitom využívají software pro PC:

konverzní programy,

nástroje pro automatické a ruční párování,

paralelní prohlížeče - např. ParaConc

Page 46: Nástroje  pro paralelní korpusy

46/47

Cílový stav

subkorpusy jsou uloženy v jednotném formátu na jednom místě

pro údržbu a využívání korpusu slouží jedna sada programového vybavení:

konvertory do jednotného formátu

nástroje pro ruční a automatické párování

korpusový manažer

korpus se využívá převážně po síti (TCP/IP)

distribuovaná příprava a údržba textů

Page 47: Nástroje  pro paralelní korpusy

47/47

Cílový stav (pokračování)

neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu)

registrovaní uživatelé s většími právy na vyhledávání

privilegovaní uživatelé s právem měnit obsah některého subkorpusu:

přidávat nové texty,

párovat je automaticky nebo ručně,

opravovat výsledky automatického párování


Recommended