+ All Categories
Home > Documents > Paraleln´ı korpusy – uvod´

Paraleln´ı korpusy – uvod´

Date post: 18-Dec-2021
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
69
Paraleln´ ı korpusy – ´ uvod Semin ´ r ´ U ˇ CNK, 12. bˇ rezna 2015 Alexandr Rosen ´ Ustav teoretick´ e a komputaˇ cn´ ı lingvistiky Filozofick ´ e fakulty Univerzity Karlovy v Praze [email protected] http://utkl.ff.cuni.cz/ ˜ rosen Alexandr Rosen ( ´ UTKL FF UK ) Paraleln´ ı korpusy – ´ uvod 1 / 69
Transcript

Paralelnı korpusy – uvodSeminar UCNK, 12. brezna 2015

Alexandr Rosen

Ustav teoreticke a komputacnı lingvistikyFilozoficke fakulty Univerzity Karlovy v Praze

[email protected]://utkl.ff.cuni.cz/˜rosen

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 1 / 69

1 UvodKorpusy a paralelnı korpusyK cemu je paralelnı korpus?Ukazky paralelnıch konkordancı

2 O InterCorpuZakladnı udajeObsah korpusu

3 Nektere podobne korpusy

4 Jak korpus pouzıvatDotazy on-linePoskytovanı uplnych textuStatistika prıstupu

5 Prıprava textuBibliograficka databazeZarovnanıLingvisticke znackovanı

6 Problemy a perspektivy

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Korpusy a paralelnı korpusyK cemu je paralelnı korpus?Ukazky paralelnıch konkordancı

Uvod Korpusy a paralelnı korpusy

Co je to paralelnı korpus?

Paralelnı korpus obsahuje stejna nebo srovnatelna data ve vıcepodobach, ktere se lisı jazykem nebo verzı prekladu.

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 5 / 69

Uvod Korpusy a paralelnı korpusy

Typy paralelnıch korpusu:

srovnatelne (texty ze stejneho oboru, nikoli preklady)prekladove

Vetsinou se paralelnı korpusy ztotoznujı s prekladovymi.

Dalsı faktoryvelikostjazykyzarovnanıanotacetypy textudostupnost

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 6 / 69

Uvod Korpusy a paralelnı korpusy

Podmınky pro rozumnou praci s paralelnımi korpusy:

zarovnanı po vetachparalelnı korpusovy manazer (concordancer)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 7 / 69

Uvod Korpusy a paralelnı korpusy

Nevyhody paralelnıch korpusu:

texty nejsou autenticke, vetsinou jen prekladytexty nejsou reprezentativnı,paralelne lze zıskat jen nektere typy textupredpokladem rozumneho vyuzitı je spolehlive zarovnanı povetach, ale:

zarovnavat rucne je drinaautomaticke metody zarovnavanı nefungujı na 100 %

nenı snadne zıskat nastroje, ktere majı pozadovane funkce apritom nevyzadujı specialnı znalosti

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 8 / 69

Korpusy a paralelnı korpusyK cemu je paralelnı korpus?Ukazky paralelnıch konkordancı

Uvod K cemu je paralelnı korpus?

Rovnou pro lidi:

pro prekladateleparalelnı konkordanceprekladova pamet’(Translation Memory, v programech pro podporu prekladu)

pro ucitele a studenty cizıch jazykupro lexikografy

paralelnı konkordanceextrakce ekvivalentu slov nebo kolokacı

pro translatology, literarnı vedce, komparatisty, dialektologypro ostatnı lingvisty taky!

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 10 / 69

Uvod K cemu je paralelnı korpus?

Pro aplikace:

statisticky strojovy preklad(Statistical Machine Translation)strojovy preklad podle prıkladu(Example-based Machine Translation)vyhledavanı informacı ve vıce jazycıch(cross-language information retrieval)projekce anotace(interpretace textu v jednom jazycena zaklade jazyka druheho)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 11 / 69

Korpusy a paralelnı korpusyK cemu je paralelnı korpus?Ukazky paralelnıch konkordancı

determined I

determined II

Ve slovnıku (Hais – Hodek, Academia 1991):determined

1 rozhodny, zaryty2 rozhodnuty, odhodlany, zamanuvsı3 v. determine

determine1 urcit, urcovat, stanovit, udat, udavat2 rozhodnout, ucinit rozhodnutı3 rozhodnout se4 zjistit, vysetrit, vypocıst5 primet6 zanikat, koncit, ukoncit7 vymezit, ohranicit

determined III

By now Les had engineered dozensof multiple-recorded discs and wasdetermined that the world hear them.

Les mel tou dobou uz desıtky vıce-stope nahranych desek a usiloval oto, aby je uslysel i svet.

Hackman returned to New York de-termined to succeed.

Hackman se vratil do New Yorkus predsevzetım, ze prorazı.

But Mr. Hill certainly had it, and I wasdetermined to see how it worked.

Pan Hill ji vsak zcela jiste vzbuzovala ja chtel videt, jak toho dociluje.

Steven was determined to make him-self understood.

Steven mel vsechny predpoklady proto, aby se naucil mluvit.

Now, however, as the trial progres-sed, Donna grew stronger and moredetermined.

Jak se vsak proces vyvıjel, Donna sezocelovala a odhodlavala.

Kallie rose slowly, determined to ple-ase her mistress.

Kallie se zvedala pomalu, ale s od-hodlanım potesit svou panı.

But that only made me more deter-mined.

Tım vsak jen posılili me odhodlanı.

determined IV

When a reunion of the Point Cruzcrew was organized for September1993, Bill was determined to have“George” there.

Kdyz se byvalı clenove posadky do-hodli, ze se v zarı 1993 zase po le-tech sejdou, zarekl se Bill, ze tam”George”nesmı chybet.

As a young factory worker, Sheetswas determined to give his three chil-dren summers they would always re-member.

Kdyz jeste zamlada pracoval vtovarne, umınil si, ze svym tremdetem dopreje letnı prazdniny, najake nikdy nezapomenou.

Eager to impress the head keeperwith my animal-handling expertise, Imade a determined grab.

Ale ja jsem chtel hlavnıhoosetrovatele ohromit svou zrucnostıpri manipulaci se zvıraty a raznejsem bazanta popadl.

If you find yourself going flat or tenta-tive, determined thoughts can makeall the difference.

Kdyz se vam zda, ze ochabujetenebo ze se cıtıte nejistı, vse muzounapravit pevne, vyhranene myslenky.

determined V

Even before the diagnosis was con-firmed, the Odones, both determi-ned, strong-willed people, had deci-ded they would learn all they couldabout the disease.

Jeste pred potvrzenım diagnozy seOdoneovi, oba cılevedomı a nezdolnılide, rozhodli, ze si o te chorobe zjistı,co se da.

I would close my eyes, determinednot to give him the satisfaction of se-eing me cry.

Jen mu neudelat radost, jen se ne-rozbrecet!

sophisticated I

Ve slovnıku (Hais – Hodek, Academia 1991):sophisticated

1 prılis zkuseny, znaly sveta, blazeovany, narocny, intelektualne navysi, vysoce kultivovany, prekultivovany

2 vylucny, exkluzivnı, vysoce narocny, pro uzky okruh3 (stroj) velmi slozity, komplikovany, (zbran) sofistikovany; (teorie)

slozity, subtilnı, rafinovany, vyspekulovany4 (auto) s poslednımi technickymi vymozenostmi5 klamny6 viz sophisticate, v.

sophisticated II

This led to the development of syn-chronized stereophonic tape, right upto the sophisticated present.

To vedlo k vyvoji synchronizovanestereofonnı nahravky v jejı dnesnıdokonalosti.

This technological marvel has be-come amazingly sophisticated.

Tato technicka hrıcka se totiz v po-slednı dobe podivuhodne zdokona-lila.

At the city’s Wat Nai Rong HighSchool, 17-year-old Wasana Wa-rathongchai says smoking makes herfeel ”sophisticated and cosmopoli-tan, like America.“

Sedmnactileta studentka strednıskoly Wasana Warathongchaivysvetluje, ze kdyz kourı, ”pripadasi modernı a kosmopolitnı jakoAmerika.“

I didn’t get a buzz, because I didn’tinhale, but just the fact I was actuallysmoking made me think I was coolsophisticated.

Nic to se mnou neudelalo, protozejsem neslukovala, ale pocit, ze do-opravdy kourım, byl fantasticky.

sophisticated III

Kids or teen-agers who thinksmoking is cool sophisticated or whowant to try it: don’t!

Vsem klukum a holkam, kterymkourenı pripada takove dospele aradi by to zkusili taky, chci rıct:Nedelejte to!

Today, after years of research, edu-cators are more sophisticated aboutdetecting learning disabilities and te-aching children how to compensatefor them.

Dnes, po mnohaletych vyzkumech,jsou ucitele o poruchach schopnostiucenı vıce informovani, umı je rozpo-znat a vedı, jak takove deti ucit.

Scientists had processed the imagesand additional ones from sophistica-ted Landsat satellites, which used anumber of light and radio wavelen-gths to detect surface details.

Odbornıci analyzovali snımky zvesmıru i fotografie zıskane z druzicLandsat, ktere k mapovanı povrchuZeme vyuzıvajı svetelne a radiovevlny.

I wanted my mother to be more so-phisticated, like my friends’ mothers.

Chtela jsem, aby moje matka bylaelegantnı jako matky mych ka-maradek.

sophisticated IV

And perhaps because, at still anotherlevel, we enjoy watching their glo-riously sophisticated competition forour favors.

Mozna i proto, ze na jeste jine urovnizalibne pozorujeme, jak rafinovanese uchazejı o nasi prızen.

Fleming secured sophisticated radiopagers that would keep the surve-illance teams in constant contact withthe Bexleyheath control center andalert them if the Ian and Nina Foxcash card was being used at an ATMmachine.

Fleming opatril vykonna radiofonickapojıtka, ktera umoznovala, aby sle-dovacı tymy byly v nepretrzitemkontaktu s rıdıcım strediskem vBexleyheathu a mohly je okamziteuvedomit, kdyby nekdo pouzil pla-tebnı kartu Foxovych.

In the near future, data collection willbecome even more sophisticated.

V blızke budoucnosti se sber datv supermarketech stane jestevyznamnejsı disciplınou.

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Zakladnı udajeObsah korpusu

O InterCorpu Zakladnı udaje

Zakladnı udaje

InterCorp – vıcejazykovy paralelnı korpus zamereny na cestinusoucast Ceskeho narodnıho korpusuhttp://www.korpus.cz/intercorp/

* 2005 jako sluzba pro lingvisticka pracoviste FF UK+/− kazdy rok nove vydanıuz delsı dobu se hodne vyuzıva i mimo univerzitnı prostredıod roku 2012 financovan z programu Velke infrastruktury provyzkum, experimentalnı vyvoj a inovace

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 24 / 69

O InterCorpu Zakladnı udaje

Architektura korpusu InterCorp

zarovnanı: po vetach, udajeo zarovnanı oddelene od vlastnıhotextu

kazdy text je cesky a asponv jednom dalsım jazyce

zarovnanı mezi texty v cizıchjazycıch pres ceskou verzi

morfologicke znacky a lemmata– pokud na to mame nastroje

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 25 / 69

O InterCorpu Zakladnı udaje

Kriteria pro vyber textu

Text se da nejak zıskatKvalita predlohy (souboru) dostatecnaText je:

uplnyjeho clenenı odpovıda jinym verzımpreklad je dobry

Typ textu:reprezentativnostvyvazenı skladby korpusu

Stejny text uz je v jinych jazycıchJde o

original,preklad uz existujıcıho ceskeho originalu nebocesky preklad

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 26 / 69

O InterCorpu Zakladnı udaje

Kdo je za co odpovedny

Ustav Ceskeho narodnıho korpusu:management, financetechnicka podpora, skolenı, konzultacecentralnı datove ulozisteformatovanı textu, delenı vetautomaticke zarovnanı, morfosyntakticke znackovanı a lemmatizace

Koordinator pro dany jazyk:vyber a akvizice textukorektury textu a zarovnanı

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 27 / 69

O InterCorpu Zakladnı udaje

Spoluprace

Zıskavanı a prıprava textu:Univerzita Karlova v PrazeMasarykova Univerzita v BrneUniverzita Palackeho v OlomouciCeska akademie vedVarsavska univerzita

Pomoc ze zahranicı:texty (ASPAC, Parasol, OPUS, ...)nastroje pro lingvistickou anotaci (TreeTagger, ...)obecnejsı nastroje pro zpracovanı textu (HunAlign, Punkt, ...)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 28 / 69

Zakladnı udajeObsah korpusu

O InterCorpu Obsah korpusu

Obsah korpusu – 7. vydanı

Pocet jazyku: 38 + ceskyjen malo textu je k manı ve vıce nez 5 jazycıchjazyky se velmi lisı objemem textu

Celkova velikost – 1390/165 mil. slov (cizı/ceske)Jadro – 173/77 mil. slov: beletrie s manualne zkorigovanymzarovnanımKolekce – texty s automatickym zarovnanım:

Zurnalistika – 33/4 mil. slov:Project Syndicate http://www.project-syndicate.org/Presseurop http://www.presseurop.eu/Pravnicke texty – 430/20 mil. slov:Acquis Communautairehttp://langtech.jrc.ec.europa.eu/JRC-Acquis.htmlZapisy z jednanı parlamentu – 265/13 mil. slov:Europarl http://www.statmt.org/europarl/Filmove titulky – 488/51 mil. slov:Open Subtitles http://www.opensubtitles.org

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 30 / 69

O InterCorpu Obsah korpusu

Obsah korpusu podle jazyku a typu textu

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 31 / 69

O InterCorpu Obsah korpusu

Jadro (beletrie)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 32 / 69

O InterCorpu Obsah korpusu

Kolekce (zurnalistika, pravnicke texty, titulky, ...)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 33 / 69

O InterCorpu Obsah korpusu

Tituly s nejvyssım poctem verzı I

26 J. K. Rowlingova Harry Potter a kamen mudrcu24 A. de Saint-Exupery Maly princ21 Lewis Carroll Alenka v rısi divu20 Milan Kundera Nesnesitelna lehkost bytı20 J. K. Rowlingova Harry Potter a tajemna komnata19 Douglas Adams Stoparuv pruvodce po galaxii19 Milan Kundera Zert18 Dan Brown Sifra Mistra Leonarda18 Michail Bulgakov Mistr a Marketka18 Jaroslav Hasek Osudy dobreho vojaka Svejka18 A. A. Milne Medvıdek Pu18 J. K. Rowlingova Harry Potter a vezen z Azkabanu18 J. R. R. Tolkien Pan prstenu I–III17 Paolo Coelho Alchymista17 J. R. R. Tolkien Hobit

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 34 / 69

O InterCorpu Obsah korpusu

Tituly s nejvyssım poctem verzı II16 Umberto Eco Jmeno ruze16 Franz Kafka Proces16 George Orwell 198416 J. K. Rowling Harry Potter a ohnivy pohar15 Anna Frankova Denık14 Rudyard Kipling Kniha dzunglı14 Milan Kundera Nesmrtelnost14 Nikolaj Ostrovskij Jak se kalila ocel13 Bohumil Hrabal Prılis hlucna samota13 Milan Kundera Smesne lasky13 J. K. Rowling Harry Potter a Fenixuv rad12 F. S. Fitzgerald Velky Gatsby12 Bohumil Hrabal Obsluhoval jsem anglickeho krale12 Franz Kafka Zamek12 Franz Kafka Promena12 Milan Kundera Valcık na rozloucenouAlexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 35 / 69

O InterCorpu Obsah korpusu

Tituly s nejvyssım poctem verzı III

11 Ernest Hemingway Starec a more11 Stanisław Lem Solaris11 Astrid Lindgren Pipi Dlouha puncocha11 Astrid Lindgren Karkulın ze strechy11 G. G. Marquez Kronika ohlasene smrti11 George Orwell Farma zvırat11 Michal Viewegh Vychova dıvek v Cechach10 Karel Capek Valka s mloky10 Stieg Larsson Muzi, kterı nenavidı zeny10 Vladimir Nabokov Lolita10 H. G. Wells Stroj casu10 H. G. Wells Valka svetu

9 Vaclav Havel Dalkovy vyslech

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 36 / 69

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Nektere podobne korpusy

OPUS – an open source parallel corpushttp://logos.uio.no/opus/

Evropska centralnı banka (19 jazyku, c.: 1,4 mil. vet, 29,3 mil. slov)

EU Bookshop (48 jazyku, c.: 1 mil. vet, 16,3 mil. slov)

Evropska ustava (21 jazyku, c.: 11 tis. vet, 128 tis. slov)

jednanı Evropskeho parlamentu (21 jazyku, c.: 669 tis. vet, 13 mil. slov)

systemova hlasenı KDE (92 jazyku, c.: 134 tis. vet, 696 tis. slov)

manualy PHP (22 jazyku, c.: 63 tis. vet, 147 tis. slov)

dokumenty Evropske agentury pro leciva (EMEA)(22 jazyku, c.: 1,2 mil. vet, 14,2 mil. slov)

filmove titulky (30 jazyku, c.: 1,8 mil. vet, 11,2 mil. slov)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 38 / 69

Nektere podobne korpusy

Kacenka: Korpus anglicko-cesky Katedry anglistiky FF MU Brno,celkem pres 3 mil. slovhttp://www.phil.muni.cz/angl/kacenka/kachna.html

PCEDT: Prague Czech-English Dependency Treebankhttp://ufal.mff.cuni.cz/pcedt/doc/PCEDT_main.htm

Wall Street Journal 22k vet, 488k slov – syntaxReader’s Digest 44k vet a 660k slov – jen text

Multext/East: 1984 (George Orwell) nl.ijs.si/ME/Acquis Communautaire:21 jazyku, c.: 6 mil. slov http://wt.jrc.it/lt/Acquis/

Parallel Corpus of Computer Terms – Slovensky narodny korpushttp://korpus.juls.savba.sk/pcct/index.sk.html

CzEng: Czech-English Parallel Corpus, syntakticky anotovany[Bojar & Zabokrtsky(2009)] http://ufal.mff.cuni.cz/czeng10/

zakony EU, projekt Navajo, technicka dokumentace, beletrie, zpravy,webove stranky, filmove titulky(c.: 15 mil. vet, 206 mil. slov)

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 39 / 69

Nektere podobne korpusy

ASPAC – the Amsterdam Slavic Parallel Corpusautor: Adrie BarentsenInterCorp ho obsahuje temer celycelkova velikost >4 mil. tokenu (slov vcetne interpunkce)49 textu alespon ve 4 slovanskych jazycıch10 textu alespon v 10 ruznych slovanskych jazycıch11 slovanskych jazyku ma aspon 15 textunektere preklady jsou ve vıce verzıch(6 ruskych a 4 polske preklady Alenky v rısi divu)obsahuje take hornı a dolnı luzickou srbstinu

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 40 / 69

Nektere podobne korpusy

ParaSol: A Parallel Corpus of Slavic and other languages

autori: Ruprecht von Waldenfels (Bern) a Roland Meyer(Regensburg)on-line na adrese http://parasol.unibe.ch

18 mil. tokenu (slovanske jazyky) + 7,6 mil. (ostatnı)rustina: 3,6 mil. tokenu, polstina 3,4 mil. tokenuvetsina jazyku je vybavena morfologickou anotacı a lemmaty

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 41 / 69

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Dotazy on-linePoskytovanı uplnych textuStatistika prıstupu

Jak korpus pouzıvat Dotazy on-line

Dotazy on-line

KonTextjednotne prostredı pro hledanı v jednojazykovych i paralelnıchkorpusechzadny z jazyku nema privilegovane postavenıv jednotlivych jazycıch se da hledat jako v samostatnych korpusechvıce funkcı pro zpracovanı vysledku dotazu (trıdenı, frekvencnıdistribuce, kolokace)moznost zobrazenı vysledku i v prıpade, ze v nekterem z jazykudany text chybıhttps://kontext.korpus.cz

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 44 / 69

Jak korpus pouzıvat Dotazy on-line

treq – Lexikalnı ekvivalenty podle zarovnanı poslovech

https://trnka.ff.cuni.cz/˜vavrin/ic_slovnik/index.php

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 45 / 69

Dotazy on-linePoskytovanı uplnych textuStatistika prıstupu

Jak korpus pouzıvat Poskytovanı uplnych textu

Poskytovanı uplnych textu

zachovanı autorskych pravtechnicka ochrana pred zneuzitım:nahodne poradı bloku prekladovych dvojic vetbloky dvojic vet o delce max. 100 slovlicence pro skolstvı a vyzkum, bez moznosti predavanı dalsımuzivatelum

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 47 / 69

Dotazy on-linePoskytovanı uplnych textuStatistika prıstupu

Jak korpus pouzıvat Statistika prıstupu

Statistika prıstupu

Za rok 2012Podle jazykuPocıta se kazde kliknutı na jazyk

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 49 / 69

01 02 03 04 05 06 07 08 09 10be 0 0 0 0 0 1 3 10 0 7bg 103 16 16 8 22 102 77 111 301 37da 0 12 8 15 151 1 23 3 1 3de 1183 675 1249 1314 799 1155 972 2104 834 1592el 0 0 0 0 0 1 2 0 0 1en 689 800 1011 1611 1264 936 840 1197 886 2090es 14 98 222 67 246 68 58 8 12 88et 0 0 0 0 0 1 0 0 0 1fi 14 54 28 235 437 3 6 2 33 5fr 90 715 1142 1661 1737 488 320 171 300 957hr 4 41 120 0 33 33 73 76 46 17hu 0 1 12 6 22 7 0 2 0 3it 179 48 538 421 204 733 135 524 222 297lt 0 2 57 6 3 8 2 3 3 13lv 7 3 45 1 16 10 10 15 6 2mk 0 0 0 0 0 0 0 0 7 2mt 0 0 0 0 0 2 0 0 0 0nl 6 67 11 9 2 76 0 8 0 113no 26 110 5 11 21 2 0 0 0 29pl 102 37 220 111 256 55 76 364 24 684pt 14 97 290 202 38 2 30 0 7 1ro 6 0 1 1 1 44 0 0 1 0ru 202 61 117 213 216 57 61 379 80 52sk 9 7 8 4 33 7 14 10 37 41sl 0 2 74 10 24 23 3 7 13 5sr 0 11 26 1 4 9 2 67 36 87sv 6 2 13 15 11 8 2 66 11 59sy 0 0 3 3 1 0 1 0 0 1

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Prıprava textu

Prıprava textu

1 Akvizice2 Skenovanı a rozpoznavanı znaku (OCR)3 Korektury4 Segmentace (rozpoznanı hranic vet)5 Zarovnanı6 Kontrola segmentace a zarovnanı7 Morfosyntakticke znackovanı

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 52 / 69

Prıprava textu

Nastroje pouzıvane pri zpracovanı textu

1 Bibliograficka databaze2 Intertext – editor paralelnıch textu3 Punkt – vetny segmentator4 Hunalign – zarovnavac5 taggery pro nektere jazyky

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 53 / 69

Bibliograficka databazeZarovnanıLingvisticke znackovanı

Prıprava textu Bibliograficka databaze

Bibliograficka databaze

evidence vsech titulu – rozpracovanych i hotovychodkazy na dostupne ceske texty, pripravene k zarovnanısleduje postup kazdeho textu vsemi fazemi prıpravydata z databaze se pouzıvajı ve vyhledavaci

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 55 / 69

Bibliograficka databazeZarovnanıLingvisticke znackovanı

Prıprava textu Zarovnanı

InterText

editor paralelnıch textu k opravam:zarovnanı po vetachstruktury textu (segmentace na vety)preklepu apod.

obsahuje automaticky zarovnavac (hunalign)zmeny ve strukture ceskeho textu se promıtajı do vsech zarovnanıprotokolovanı zmen, export, hledanı, zalozkydve verze: serverova a lokalnıpodpora pro trıdy uzivatelu s odlisnymi pravomocemilicence GNU GPL v3: http://wanthalf.saga.cz/intertext

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 57 / 69

Bibliograficka databazeZarovnanıLingvisticke znackovanı

Prıprava textu Lingvisticke znackovanı

Lingvisticke znackovanı

Strategie pro lingvisticke znackovanı(lemmatizace a morfosyntakticke znackovanı)

Pouzıvat dostupne nastroje (taggery), vcetne:tokenizace (delenı na slova) obsazene v danem nastrojiruznych sad znacek, ktere vychazejı z ruznych koncepcı

Soucasny stav

Morphosyntakticke znacky pro cestinu + 19 cizıch jazykuLemmata pro cestinu + 16 cizıch jazyku

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 60 / 69

Prıprava textu Lingvisticke znackovanı

Nastroje pro lemmatizaci a znackovanıJazyk Zn. Lm. Nastroj Predl. Det. Adj. Subst.

bg X TT R Pde-os-n Ansi Ncnsics X X Morce RR--6 PDXP6 AAFP6----3A NNFP6-----Ade X X TT APPR ART ADJA NNen X X TT IN DT JJS NNSes X X TT PREP ART NC ADJet X X TT P---s3 A-p-s3 Nc-s3fr X X TT PRP DET:ART ADJ NOMhu X HunPos ART ADJ ADJ NOUN(CAS(ILL))it X X TT PRE PRO:demo NOM ADJlt X X V.D. prln jvrd bdvr dktvnl X TT 600 370 103 000no X X OB prep det adj substpl X X TaKIPI prep:loc:nwok adj:sg:loc:m3:pos

adj:sg:loc:m3:pos subst:sg:loc:m3pt X X TT SPS DA0 NCFS AQ0ru X X TT Sp-l P---pl Afp-plf Ncmplnsk X X Morce Eu6 PFfs6 AAfs6x SSfs6sl X X totale Sl Pd-nsg Agpfsg Ncnsl

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 61 / 69

1 Uvod

2 O InterCorpu

3 Nektere podobne korpusy

4 Jak korpus pouzıvat

5 Prıprava textu

6 Problemy a perspektivy

Problemy a perspektivy

Nektere problemyNelze pracovat s vıce verzemi jednoho textu v jednom jazyce

Technicky se korpus sklada z podkorpusu pro kazdy jazykNenı jasne, jak by melo vypadat zadavanı dotazu a zobrazovanıvysledku

Velke rozdıly mezi jednotlivymi jazyky: velikost, znackovanı, typytextuRuzna pravidla tokenizace a sady znacek pro ruzne jazykyTexty bez ceske verze

Zatım musı mıt kazdy cizı text cesky protejsek

Nelze vıce verzı prekladu jednoho textu

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 63 / 69

Problemy a perspektivy

Problemy s ruznymi sadami znacek

Hyperonymie / hyponymie

Znacka je obecnejsı nez jejı obdoba v druhem jazyceIN se v anglictine pouzıva pro

predlozky ipodradicı spojky,

ale v ostatnıch jazycıch jsou pro ne dve znacky.

Castecne se prekryvajıcı vyznam

Odpovıdajıcı znacky ze dvou znakovych sad se shodujı jencastecne

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 64 / 69

Problemy a perspektivy

Castecny prekryv – cs:PD × pl:adj

cs v tech nejodlehlejsıch zastavbachRR - - 6 PDXP6 AAFP6 - - - - 3A NNFP6 - - - - - A

pl w tym wspaniałym apartamencieprep:loc:nwok adj:sg:loc:m3:pos adj:sg:loc:m3:pos subst:sg:loc:m3

ceske tech se znackuje jako ukazovacı zajmeno, pricemz senerozlisuje, zda je uzito v pozici substantivnı nebo adjektivnıpolske tym se znackuje jako slovo s adjektivnım sklonovanım

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 65 / 69

Problemy a perspektivy

Perspektivy

Vyuzitı korpusu

vylepsovanı vyhledavacıho rozhranıintegrace s jinymi paralelnımi korpusy?

Obsahlepsı rovnovaha mezi jazyky a typy textuvıce jazyku: albanstina, cınstina, romstina, vietnamstina, luzickasrbstina ?

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 66 / 69

Problemy a perspektivy

Anotacezlepsovanı kvality zarovnanı a delenı na vety, take pomocıcrowdsourcingu (motivace uzivatelu k upozornovanı na chyby)zarovnanı po slovech, vıceslovnych vyrazech, vetnych clenechzkvalitnovanı lingvisticke anotace:

co nejlepsı nastroje pro co nejvıce jazykujednotne zasady tokenizace sprezek a vıceslovnych vyrazuharmonizace znackovych sad

Syntakticka anotace

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 67 / 69

Problemy a perspektivy

Dıky za pozornost!

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 68 / 69

Problemy a perspektivy

Bojar, O. & Zabokrtsky, Z. (2009).CzEng0.9: Large parallel treebank with rich annotation.Prague Bulletin of Mathematical Linguistics, 92.

Tiedemann, J. (2012).Parallel data, tools and interfaces in OPUS.In N. Calzolari, K. Choukri, T. Declerck, M. U. Dogan, B. Maegaard,J. Mariani, J. Odijk, and S. Piperidis, editors, Proceedings of theEight International Conference on Language Resources andEvaluation (LREC’12), Istanbul, Turkey. European LanguageResources Association (ELRA).

von Waldenfels, R. (2006).Compiling a parallel corpus of Slavic languages. Text strategies,tools and the question of lemmatization in alignment.In B. Brehmer, V. Zdanova, and R. Zimny, editors, Beitrage derEuropaischen Slavistischen Linguistik (POLYSLAV), volume 9,pages 123–138. Verlag Otto Sagner, Munchen.

Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 69 / 69


Recommended