1/47
Nástroje pro paralelní korpusy
Alexandr RosenÚstav teoretické a komputační lingvistiky
Filosofická fakulta University Karlovy v Praze
[email protected]://utkl.ff.cuni.cz/~rosen
Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003
2/47
Osnova
1. K čemu jsou paralelní korpusy
2. Jak vytvořit paralelní korpus
3. Hledání v paralelních korpusech
4. Další využití paralelních korpusů
5. Projekt paralelních korpusů na FF UK
3/47
1. K čemu jsou paralelní korpusy
pro lexikografy
pro překladatele
pro učitele a studenty cizích jazyků
pro translatology, literární vědce, dialektology
k vyhledávání informací ve více jazycích (cross-language information retrieval)
ke zjednoznačnění textu v jednom jazyce
4/47
pro lexikografy
paralelní konkordance
identifikace kolokací a jejich ekvivalentů
extrakce ekvivalentů
5/47
pro překladatele
paralelní konkordance
překladová paměť (Translation Memory)
překlad podle příkladů (Example-Based Machine Translation)
statistický překlad
kontrola překladu
automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)
6/47
Nevýhody paralelních korpusů
texty nejsou autentické, většinou jen překlady
texty nejsou reprezentativní, paralelně lze získat jen některé typy textů
předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat
je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti
7/47
2. Jak vytvořit paralelní korpus
Jak získat paralelní texty
Jak je upravit do vhodného formátu
Jak je segmentovat a párovat
8/47
Jak získat paralelní texty
existující paralelní korpusy
pro češtinu a slovenštinu zatím málohttp://www.phil.muni.cz/angl/kacenka/kachna.html
http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html
http://nl.ijs.si/ME/
elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/
http://www.unhchr.ch/udhr/index.htm
beletrie, zákony EU, www stránky
Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html
skenováním
9/47
Jak získat paralelní texty II.
právnické problémy:
citovat se smí bez souhlasu autora
ALE: elektronický text někomu patří
více jazyků – jiná země, jiné zákony
10/47
Jak texty upravit do vhodného formátu
kódování znaků
ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ?
kódování formátu
→ SGML/TEI, XML, …
lingvistické značkování?
11/47
Jak texty segmentovat a párovat
segmentace na věty
párování (alignment)
ruční
automatické
kombinace ručního a automatického
12/47
Nástroje pro poloautomatické párování
jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.:
Trados – „inteligentní“ párování, ale $$$ http://www.trados.com
Déjà Vu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com
CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentů http://www.cypresoft.com
SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch,
makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisher http://www.wordfisher.com
13/47
Obvyklé funkce nástrojů pro poloautomatické párování
Konverze formátů pouze text
textové editory Word, RTF, WordPerfect, OpenOffice
prezentace PowerPoint
tabulkové procesory Excel
databáze Access
DTP FrameMaker, PageMaker, QuarkXPress, InDesign
značkované texty HTML, SGML/XML, TMX
lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext
formáty CAT Trados, TMX, IBM TM
Konverze kódování znakůISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode
14/47
Obvyklé funkce nástrojů pro poloautomatické párování II.
Segmentace
na věty, nadpisy, položky seznamu, popisky obrázků
podle odstavců (¶) nebo již provedené částečné segmentace
podle typických zakončení věty <interpunkce><mezera>
15/47
16/47
Obvyklé funkce nástrojů pro poloautomatické párování III.
Automatické párování sekvenčně podle segmentů
podle nadpisů
podle formátování
podle délky segmentů
podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku)
Výsledektabulka se dvěma sloupci
17/47
Obvyklé funkce nástrojů pro poloautomatické párování IV.
Ruční párování paralelní prohlížení
spojování po sobě jdoucích segmentů
rozdělování segmentů
mazání segmentů
změna pořadí segmentů
„párování“ segmentů 1:n, n:1, n:n
párování segmentů křížem
18/47
Párování v programu Déjà Vu 3
19/47
Párování v programu WordFast/+Tools
20/47
Párování v programu WordFast/+Tools II
21/47
Párování v programu CypreSoft Align
22/47
Nástroje pro poloautomatické párování – pokr.
jako součást programového balíku pro zpracování paralelních textů
Logiterm (Terminotix, Inc.) http://www.terminotix.com
MultiTrans http://www.multicorpora.com
ParaConc http://www.ruf.rice.edu/~barlow/parac.html
23/47
Párování v programu ParaConc
24/47
Párování v programu ParaConc II
25/47
Párování v programu ParaConc III
26/47
Nástroje pro automatické párování
podle délky segmentů ve znacích
Gale&Church 1991 → Vanilla Aligner http://www.research.att.com/~kwc/publications.html, http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:[email protected] (EasyAlign - součást IMS CWB)
podle délky segmentů ve slovech
Brown et al. 1991
podle „anchor points“
distribuce ekvivalentů Kay&Röscheisen 1993
čísla, formátování, podobné řetězce
dvoujazyčný slovník Melamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm
27/47
3. Hledání v paralelních korpusech
– korpusové manažery
● ParaConc http://www.ruf.rice.edu/~barlow/parac.html
● Uplug http://stp.ling.uu.se/~joerg/uplug/
● COMPARA http://www.linguateca.pt/COMPARA/Welcome.html,
IMS CWB http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/
● MultiLingual Concordancer in Java http://www.lancs.ac.uk/staff/piaosl/research/download/download.htm
28/47
Obvyklé vyhledávací funkce
dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání)
zadání dotazu regulárním výrazem
hledání podle značek
omezení prohledávaných textů:
bibliografické údaje
originál nebo překlad
jazyková varianta (britská/americká angličtina)
29/47
Obvyklé vyhledávací funkce II.zobrazení výsledku dotazu:
kontext: segment nebo KWiCzadání/zjištění ekvivalentů KW → BiKWiCtřídění podle KW, kontextuzobrazení/potlačení značekzobrazení kolokacíúdaje o párovánípoznámky překladateledistribuce foremdistribuce zdrojů
30/47
Obvyklé vyhledávací funkce III.
statistiky:
frekvence tvarů
kolokace
frekvence kolokací
31/47
Hledání programem ParaConc
asi nejlepší program pro dvoujazyčné konkordance na PC
snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, …
stále se vyvíjí
32/47
33/47
34/47
35/47
36/47
37/47
Hledání v korpusu COMPARA
portugalsko/anglický, beletrie, volně přístupný
IMS CQP, DISPARA web interface
1 129 000 slov celkem
bohaté možnosti vyhledávání, pečlivě připravená data
38/47
39/47
40/47
41/47
42/47
43/47
4. Další využití paralelních korpusů
Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad)
Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug
…
44/47
5. Paralelní korpus FF UK
součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II.
soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců
každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích
45/47
Výchozí stav a první fáze
katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, s podporou koordinátora projektu
přitom využívají software pro PC:
konverzní programy,
nástroje pro automatické a ruční párování,
paralelní prohlížeče - např. ParaConc
46/47
Cílový stav
subkorpusy jsou uloženy v jednotném formátu na jednom místě
pro údržbu a využívání korpusu slouží jedna sada programového vybavení:
konvertory do jednotného formátu
nástroje pro ruční a automatické párování
korpusový manažer
korpus se využívá převážně po síti (TCP/IP)
distribuovaná příprava a údržba textů
47/47
Cílový stav (pokračování)
neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu)
registrovaní uživatelé s většími právy na vyhledávání
privilegovaní uživatelé s právem měnit obsah některého subkorpusu:
přidávat nové texty,
párovat je automaticky nebo ručně,
opravovat výsledky automatického párování