+ All Categories
Home > Documents > Jak se Mojžíš s Jozuem učili hindsky

Jak se Mojžíš s Jozuem učili hindsky

Date post: 01-Jan-2017
Category:
Upload: doanlien
View: 222 times
Download: 0 times
Share this document with a friend
45
Jak se Mojžíš s Jozuem učili hindsky Ondřej Bojar, Pavel Straňák a Dan Zeman ve spolupráci s Gauravem Jainem, Michalem Hrušeckým a Michalem Richterem ÚFAL 23. listopadu 2009 O. Bojar, P. Straňák, D. Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23. listopadu 2009 1 / 45
Transcript
  • Jak se Moj s Jozuem uili hindsky

    Ondej Bojar, Pavel Strak a Dan Zemanve spoluprci s Gauravem Jainem, Michalem Hrueckm

    a Michalem Richterem

    FAL

    23. listopadu 2009

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 1 / 45

  • vod

    Osnova

    .. .1 vod

    .. .2 DataPehledHindtina a dvangarPprava dat

    .. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    .. .4 Run hodnocen

    .. .5 ShrnutZahranin studenti

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 2 / 45

  • vod

    Pro prv Hindi?

    dn zvltn dvod jsme nemliNa IJCNLP 2008 v Hyderabadu jsme zjistili, e je v Indii zjem opeklad, ale zrove jej stle dlaj pravidlovPokus, jestli opravdu dokeme dky statistickm metodm pekldatdo jazyka, o kterm nevme prakticky nicPrakticky jsme se rozhodli, kdy vyhlsili sout v pekladu v rmcipravidelnho NLP Tools Contest na konferenci ICON (International(really Indian) Conference on NLP)

    ekali jsme, e budeme nejhorbyli jsme spe mezi lepmi, tak jsme se rozhodli pokraovat

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 3 / 45

  • Data

    Osnova

    .. .1 vod

    .. .2 DataPehledHindtina a dvangarPprava dat

    .. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    .. .4 Run hodnocen

    .. .5 ShrnutZahranin studenti

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 4 / 45

  • Data Pehled

    Hindsk data

    paraleln dataparaleln korpusy

    EILMT (oficiln test data pro ICON 2008 NLP Tools Contest)TIDES (taky z ICONu 2008, ale mono pouvat i dle)Emille (ELDA)Daniel Pipes (web site)Agro corpus (Mumbai)

    slovnkypolmenovan entity z anglick WikipedieShabdanjali

    hindsk datanews korpus z nkolika hlavnch hindskch denk (> 300M slov)

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 5 / 45

  • Data Pehled

    Paraleln korpusyEILMT

    7k vt, turistika, licence jen na ICON 2008v r. 2008 ofic. testovac data. Nejlep vsledky byly z trnovn jen naEILMT (TIDES kodil)

    TIDES50k+1k+1k vt, DARPA-TIDES, IIIT Hyderabadcca 1,2M token (anglickch trnovacch)automatick pevod do dvangar, msty nespn

    Emilleparaleln st obsahuje 200k anglickch slov a peklady do nkolikaindickch jazykdata i peklady jsou problematick, nejdou zarovnat

    2 pokusy o run opravu: Gaurav a OmOmille: Omem vyitn Emille, kter by ji ml bt paraleln, ale jetaky o dost men (< 50%)

    Daniel Pipesnovinv web, kter obsahuje peklady autorovch lnk v 25 jazycch322 lnk v hind, 6761 pr vt en-hi

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 6 / 45

  • Data Pehled

    Slovnky a (jen) hindsk data

    entity z anglick wikipedieLadakh (Tibetan script: ; Wylie: la-dwags, Ladakhi: [ladks];Hindi: , Urdu: , Hindustani pronunciation: [ldax]; land ofhigh passes) is a region situated in the disputed state of Jammu andKashmir which ukldme dvojice: 1 slovo text za (Hindi | Devanagari | Marathi |Sanskrit), kter je v devanagari

    Shabdanjalianglicko-hindsk slovnk (licence GPL)tak automaticky peveden do dvangarcca 26 000 hesel

    hindsk denkyne nezbytn indick: mj. CNN, Deutsche Welle, Dainik Jagran (Yahoo)LM z tchto dat v r. 2008 nepomohl, letos jsme jej nepouili

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 7 / 45

  • Data Pehled

    Out of Vocabulary

    Tokens

    Tides Tides+DP all TidesTides-test-en 369 348 2429 (8.940%)Tides-test-hi 839 830 3310 (11.584%)Tides-dev-en 464 421 1873 (8.330%)Tides-dev-hi 619 607 2661 (10.922%)

    Types

    Tides Tides+DP all TidesTides-test-en 363 343 1901 (32.009%)Tides-test-hi 642 633 2465 (41.979%)Tides-dev-en 459 418 1608 (28.735%)Tides-dev-hi 580 568 2129 (37.735%)

    Ostatn data (bez Tides) pokryj cca. 90%/60% Tides (tokens/types).Tides types a tokens skoro stejn slova s jednm vskytem.Hindi hor tvaroslov, transkripce, homonyma

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 8 / 45

  • Data Hindtina a dvangar

    Nco o hindtin

    Indoevropsk jazykTj. vzdlen pbuzn etin (v nkterch slovech vc ne tebaanglitina)Ale spousta slov i z pertiny a arabtiny

    Pr voln slovosled, ale m ne v etinSOV jazyk: Rma Mhana vid.Na konci asto spona / pomocn sloveso bt:

    (hai) = je hodn ast konec vty

    Postpozice (zloky) msto pedloek

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 9 / 45

  • Data Hindtina a dvangar

    Psmo dvangar

    (Polo)slabin psmo

    ka k ki k ku k kr k k k kau k

    ,

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 10 / 45

  • Data Hindtina a dvangar

    Psmo dvangar

    Po transliteraci

    das din k j pij darvz k ps almr h, sar, rlv stan s sikil k ln

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 11 / 45

  • Data Hindtina a dvangar

    Psmo dvangar

    Po transliteraci nkdy pjemn pekvapen

    das din k j pij= deset dn pijte ajdarvz k ps almr h= u dve je sksar, rlv stan s sikil k ln= sir, take the bicycle from the railway station

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 12 / 45

  • Data Hindtina a dvangar

    Hindsk pdy

    Tradin systm pd vibhaktiSkuten pdy jsou 2 (direct a oblique)Zbytek tvoen zlokami

    Zloky dve pilepen ke slovu, tj. pdov koncovky

    Pklad: genitivDelhi is the capital of India. dill bhrat k rdadhn h.Dill Indie genitiv hlavn-msto je.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 13 / 45

  • Data Pprava dat

    Normalizace dat

    Rzn korpusy proly rznm zpracovnmTides:

    Vtu ukonuje teka (.)slice jsou euro-arabsk (0123456789)

    Emille:Vtu ukonuje danda ()slice jsou z dvangar ()

    Co jet lze napsat vce zpsoby:Znaky s nuktou (): vs. + vs. Poad kombinovan diakritiky: ++ vs. ++Nahrazen andrabindu anusvrem: vs. dc znaky, zero-width joiners apod.Ne-ASCII interpunkce, nap. vs. -

    My se to sname v datech sjednotitNavc re-tokenizujeme (Anglo-American)

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 14 / 45

  • Data Pprava dat

    Dal hrzy v datech

    Vsuvka v latince se bhem konverz myln povauje za romanizovanzpis hindtiny:

    Information Commis(s)ioner => (nnormationchommisioner), skuten transkripce by byla sp (informeana komianera)

    Vce ne 200 hindskch vt v Tides zan v dvangar, pak ale nhlepejdou do neiteln latinky:

    - , , , ,

  • Data Pprava dat

    Co u se normalizovat ned

    Nejednotn transkripce anglickch slov do dvangar

    (staimdardaja) (staimdardasa) (staimdardsa)

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 16 / 45

  • Data Pprava dat

    Co u se vbec normalizovat ned

    Synonyma podle pvodu slov

    English Hindi/Persian Hindi/Sanskritlanguage (zabna) (bhs)book (kitba) (pustaka)newspaper (axbra) - (samcra-patra)beautiful (xbsrata) (sundara)meat (gota) (mmsa)thank you (ukriy) (dhanyavda)

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 17 / 45

  • Hindsk MT

    Osnova

    .. .1 vod

    .. .2 DataPehledHindtina a dvangarPprava dat

    .. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    .. .4 Run hodnocen

    .. .5 ShrnutZahranin studenti

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 18 / 45

  • Hindsk MT

    Pehled pokus

    Systm Moses (Moj)Faktorizovan peklad

    Rzn modely morfologieVcefaktorov jazykov modelRzn kombinace dat

    Systm Joshua (Jozue)Hierarchick frzov modelRzn kombinace dat

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 19 / 45

  • Hindsk MT Mojovy pokusy

    Pipomenut Mojovy roury

    ...1 Paraleln korpus zarovnej po slovech.

    ...2 Extrahuj frze konzistentn se zarovnnm po slovech.

    ...3 Natrnuj hindsk jazykov model (LM).

    ...4 Natrnuj hindsk reorderovac model.

    ...5 Na vvojovch datech vyla vhy model (MERT).

    ...1 Vstupn vtu rozdl na frze.

    ...2 Frze pelo nezvisle.

    ...3 Uri vsledn poad frz a spoj je.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 20 / 45

  • Hindsk MT Mojovy pokusy

    Nevhoda Moje: Slab frzov model

    Potebujeme, abynejpravdpodobnj bylototo:

    the cupboard is

    almari

    next to

    hai

    the door

    ke pasdarvaze

    Moj takto rozvj hypotzy:

    -------

    +almari

    **-----

    +darvaze

    -----**

    +ke pas

    **-**--

    +darvaze

    **---**

    +hai

    ***----

    +ke pas

    **-****

    +hai

    ***--**

    +ke pas

    *****--

    +darvaze

    *******

    +hai

    *******

    Zkladn model: m vt dlka pesunu, tm dra ( monotonie).sten lze kompenzovat lexikalizovanm reorderingem:

    P(monotone/swap/discontinuous | next to, ke pas)

    Pokusy z Bojar et al. (2008) EILMT TIDESBaseline Moses, Distance Reordering 18.882.05 10.060.76Baseline Moses, Reordering Using en+hi Forms 19.772.03 10.950.75

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 21 / 45

  • Hindsk MT Mojovy pokusy

    Vhoda Moje: Zachycen morfologie

    Slova jsou vektory faktor.Vybran modely je tak mono zaloit na jemnj i hrubreprezentaci slova.

    Hrub reprezentace na clov stran:Umouje zapojit spolehlivj jazykov model (hust data).

    Angl.

    form

    Hind.

    form

    tag

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 22 / 45

  • Hindsk MT Mojovy pokusy

    Zachycen tvaroslov

    Morfologie s uitelem (supervised).Hindi POS Tagger (Gupta et al., 2006).Koncovky z uebnice (Snell and Weightman, 2003).

    Morfologie bez uitele (unsupervised).Poslednch n psmenek slova.Automatick (bigramov) slovn tdy (Brown et al., 1992; Och, 1995).Hindomor (Zeman, 2008).Affisix (Hlavov and Hrueck, 2008).

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 23 / 45

  • Hindsk MT Mojovy pokusy

    Uebnicov koncovky

    Primitivn zen stemming.Bhem 2 hodin jsme probhli uebnici hindtiny pro samouky a zevech gramatickch tabulek vypsali koncovky skloovn a asovn.Vsledkem je seznam asi 30 koncovek, vetn duplikt.Pokud byla u slova nalezena znm koncovka, je to jeho znaka.Velmi ast slova ponechna vcelku, jsou sama sob znakou.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 24 / 45

  • Hindsk MT Mojovy pokusy

    Pklady rznch morfologiUkzkov vta: unhem vahm kalakatt ahara dikhy gay .Doslova: jim tam Kalkata msto ukzno bylo .Vstup: They were shown Calcutta City .

    Forma Tag Ueb. 2 psm. WC10 hindomor bbf bdf ddf PRP 2 PRP 2 NNP 3 NN 3 VM 7 VAUX 11 . SYM . . 6

    Tagy velmi chud pro hidsk tvaroslov.Automatick tdy v souladu s tagem.Rzn konfigurace Affisixu (bbf, bdf, ddf) rzn jemn.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 25 / 45

  • Hindsk MT Mojovy pokusy

    Vsledky pokus

    Morfologie BLEU Morfologie BLEUtag 12.030.75 hitbsuf 11.580.74wc50 11.970.73 hindomor2 11.550.74wc10 11.760.74 hindomor1 11.540.71lcsuf3 11.660.75 affddf 11.500.7lcsuf1 11.630.72 affbdf 11.330.72hindomor3 11.600.73 lcsuf2 11.140.74

    Baseline bez morfologie: 11.460.72.Rozdly mezi vemi konfiguracemi zanedbateln.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 26 / 45

  • Hindsk MT Mojovy pokusy

    Vcefaktorov jazykov modely (Michal Richter)

    Factored LMs (Bilmes and Kirchhoff, 2003) zobecuj vyhlazovn:n-gramov LM nevidn n-gramy skruj pomoc (n 1)-gram.Faktorov LM pracuj s faktorovmi slovy kontext lze omezovatkrat histori i hrub reprezentac slova (lemma, slovn druh).

    Uivatel definuje graf zapomnn, za bhu je pak pravdpodobnost dnanejpravdpodobnj cestou v grafu.

    form0 | form1

    form0

    tag0 | tag1

    tag0

    form0 | form1, form2, tag1, tag2

    form0 | form1, tag1, tag2

    form0 | form1, tag1

    form0 | tag1

    form0

    form0 | form1, form2, tag1, tag2

    form0 | form1, tag1, tag2

    form0 | tag1, tag2

    form0 | tag1

    form0

    form0 | form1, form2, tag1, tag2

    form0 | form1, tag1, tag2

    form0 | tag1, tag2 form0 | form1, tag1

    form0 | tag1

    form0

    2bigramov LM linf lint fftt

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 27 / 45

  • Hindsk MT Mojovy pokusy

    Vsledky faktorovch LM

    Tvar + Morfologie BLEUfftt + lcsuf3 12,050,76linf + wc10 12,030,73fftt3 + wc50 11,870,77fftt + wc10 11,830,73fftt + hitbsuf 11,800,75fftt3 + lcsuf1 11,670,7523gr LM (forma, tag) 12,030,73

    dn korelace mezi perplexitou FLM a BLEU.FLM vtinou ublily BLEU.Ani vrazn zlepen perplexity (197.0 vs. 212.6 baseline).

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 28 / 45

  • Hindsk MT Jozuovy pokusy

    Hierarchick frzov modely

    Hiero (David Chiang, 2005)Joshua (open-source reimplementace z JHU)

    Frze mohou obsahovat neterminly=> synchronn bezkontextov gramatiky

    Pravidlo m levou stranu a dv prav strany, anglickou a hindskouUmouje zobecnit nesouvisl frze, zmny slovosledu nebo dokoncerekurziTypick neterminl: Xi (nen to lingvistick gramatika)

    Pklad:

    X X1 of X2, X2 X1

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 29 / 45

  • Hindsk MT Jozuovy pokusy

    Mojova roura...1 Paraleln korpus zarovnej po slovech....2 Extrahuj frze konzistentn se zarovnnm po slovech.

    Ke kad dvojici frz znme ti veliiny:Pravdpodobnost pekladu zdrojov prav strany na clovou.Lexikln pravdpodobnost pekladu zdroje clem po jednotlivchslovech.Lexikln pravdpodobnost pekladu cle zdrojem po jednotlivchslovech.

    ...3 Natrnuj hindsk jazykov model (LM).Ke kad hindsk vt znme jej pravdpodobnost podle LM.

    ...4 Natrnuj hindsk reorderovac model.

    ...5 Na vvojovch datech vyla vhy uvedench veliin (MERT)

    ...1 Vstupn vtu rozdl na frze.

    ...2 Frze pelo nezvisle.

    ...3 Uri vsledn poad frz a spoj je.O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 30 / 45

  • Hindsk MT Jozuovy pokusy

    Jozuova roura

    ...1 Paraleln korpus zarovnej po slovech.

    ...2 Extrahuj pravidla gramatiky konzistentn se zarovnnm po slovech.Ke kadmu pravidlu znme ti veliiny:

    Pravdpodobnost pekladu zdrojov prav strany na clovou.Lexikln pravdpodobnost pekladu zdroje clem po jednotlivchslovech.Lexikln pravdpodobnost pekladu cle zdrojem po jednotlivchslovech.

    ...3 Natrnuj hindsk jazykov model (LM).Ke kad hindsk vt znme jej pravdpodobnost podle LM.

    ...4 Na vvojovch datech vyla vhy uvedench veliin (MERT).

    ...1 Vstupn vtu rozeber synchronnm chart parserem.

    ...2 Frze pelo nezvisle.

    ...3 Propoj je podle derivanho stromu.O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 31 / 45

  • Hindsk MT Moj vs. Jozue

    Moj vs. Jozue

    Trnovac data Joshua MosesTides 12.270.83 11.460.72Tides+DP 12.580.77 11.930.75Tides+DP+Emille 11.320.74 10.060.72Tides+DP+Dict 12.430.79 11.900.78

    System BLEUMumbai (Damani et al., 2008) 8.53Kharagpur (Goswami et al., 2008) 9.76Prague (Bojar et al., 2008) 10.17Dublin (Srivastava et al., 2008) 10.49present Joshua 11.10

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 32 / 45

  • Hindsk MT Moj vs. Jozue

    Zhadn Emille

    Navzdory faktorm a modelm reorderingu v Mosesovi, Joshua zatmm nskokJak u Joshuy, tak u Mosese se vak projevil tko vysvtlitelnnegativn vliv pdavnch dat, zejmna EmillaRozen Tides (50000 vt) o Daniela Pipese (7000 vt) pomohloNaproti tomu pidn vyitnho Emilla (3500 vt) zeteln ukodilo

    Na datech dn viditeln problm (mn umu ne Tides)Frzov tabulky vypadaj OKAle: jasn petrnovn na vvojovch datech (po prohozen vvojovcha testovacch dat problm zmizel)Ukzalo se, e Emille je obsaen v trnovac (2000 vt) a vvojov sti(100 vt z 1000) Tidesu!!!

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 33 / 45

  • Run hodnocen

    Osnova

    .. .1 vod

    .. .2 DataPehledHindtina a dvangarPprava dat

    .. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    .. .4 Run hodnocen

    .. .5 ShrnutZahranin studenti

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 34 / 45

  • Run hodnocen

    Zpsob anotace

    Ti nezvisl sondy (100 vt, 100 vt, 43 vt, vdy jin).Zobrazena zdrojov vta a hypotzy.Referenn peklad zamchn mezi hypotzy.

    SRC the private sector units are thirty to forty years old . 40 |

    * , 30 40 .** 30 40 .** 30 40 .

    Znaky: nic pro nesrozumiteln, * pro nznaky pekladu, ** proakceptovateln a zachovvajc vtinu vznamu, by s chybami.Kontrast s Ramanathan et al. (2009), kde zlepili v prmru

    z little meaning conveyed, disfluent Hindi, most phrases correct,ungrammatical overallna much of meaning conveyed, non-native Hindi, few minorgrammatical errors

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 35 / 45

  • Run hodnocen

    Sonda 1: Moj mimo domnu, s morfologi i vce daty?

    OOD mimo domnu: trnovno na vem mimo TidesTIDP Tides + Daniel Pipes, bez morfologieWC10 Tides + trigramov LM na automatickch slovnch tdch

    (10 td)

    Systm 0 * ** BLEUREF 6 11 83 OOD 80 17 3 1.850.24TIDP 26 44 30 11.930.75WC10 38 46 16 11.760.74

    est (procent) referennch peklad nepijatelnch!Domna velmi podstatn, OOD propadlo nejen v BLEU, ale i run.Lep data navc ne automatick morfologie (TIDP>WC10).BLEU ovem TIDP vs. WC10 neodli.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 36 / 45

  • Run hodnocen

    Sonda 2: Moj vs. Jozue

    Systm 0 * ** BLEUREF 6 10 84 Joshua 32 37 31 12.580.77Moses 35 35 30 11.930.75Moses-DPipes+POStags 32 42 26 12.030.75

    Identick trnovac data (Tides + Daniel Pipes, bez morfologie).Jozue (nesignif.) lep podle BLEU i lidskho hodnocen.

    I druh test Mosese ukazuje, e vc dat spe lep ne morfologie.Tentokrt uit POS tagger, nikoli automatick slovn tdy.Ne zcela jednoznan vsledek: klesne poet **, ale i 0.Zle na clov aplikaci: pesnost vs. pokryt.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 37 / 45

  • Run hodnocen

    Sonda 3: Jak je to s Emillem a Mojem?

    Systm 0 * ** BLEUREF 0 8 45 TI DP 20 14 19 11.890.76TI DP EM 22 19 12 9.610.75TI DP EM oth 17 25 11 10.970.79TI DP EM oth DICTFilt 23 17 13 10.960.75TI DP EM oth DICTFull 22 16 15 10.890.69

    BLEU tentokrt tm souhlas s lidmi.Pidn Emilla citeln sn kvalitu.Dal data tu ztrtu postupn kompenzuj.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 38 / 45

  • Shrnut

    Osnova

    .. .1 vod

    .. .2 DataPehledHindtina a dvangarPprava dat

    .. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    .. .4 Run hodnocen

    .. .5 ShrnutZahranin studenti

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 39 / 45

  • Shrnut

    Shrnut

    Doshli jsme nejlepho publikovanho BLEU skre na testovacchdatech TIDES

    Srovnej ICON 2008 NLP Tools ContestObecn je srovnn en-hi pekladu problematick, kad testuje najinch datech

    Hierarchick modely dvaj lep BLEU ne Mojovy faktory areordering

    Pi runm vyhodnocen je ale jejich nskok mn pesvdivPouen o datech

    Zskat data me bt snadnj ne je vyistitDva rzn korpusy z rznch zdroj nemus bt nutn rzn!

    Co dl?Opravdu neme morfologie pomoct vc?Peskldn slovosledu anglitinyZ vybranch znaek (nap. subject) udlat tokeny

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 40 / 45

  • Shrnut Zahranin studenti

    Zkuenosti se zahraninm studentem

    student magisterskho studia na IIT v Bombaji piln, poslun neiniciativn, nevzal (dn) kol za svjnae chyba: neekali jsme to a pli dlouho dvali komplexn (nenutn tk) koly

    nedokonil run hodnocen ani dodatennae chyba: data dostal krtce ped odjezdem, stihl jen stovem ani doma v klidu dlouho po nvratu hodnocen nedokonil

    skrvn problm nebo spe neekan jin rozliovac rovenap. jsme se ptali na konkrtn vtu, je-li peloena dobe. Napedbyla, ale kdy jsme pojali podezen a zeptali se na konkrtn jevy(koncovka, slovosled), piznal chyby

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 41 / 45

  • Shrnut Zahranin studenti

    Pro pt

    mt pipraven seznam pesnch malch kollaku pro samostatnost v prci postupn zvyovat, voln zen seneosvdilo

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 42 / 45

  • Dodatky

    Dkujeme za podporu z tchto grant:MSM0021620838 (Vzkumn zmr informan sekce MFF UK20052010),FP7-ICT-2007-3-231720 (EuroMatrix Plus)

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 43 / 45

  • Dodatky

    Literatura I

    Jeff A. Bilmes and Katrin Kirchhoff. 2003. Factored language models and generalized parallelbackoff. In NAACL 03: Proc. of the 2003 Conference of the North American Chapter of theAssociation for Computational Linguistics on Human Language Technology, pages 46,Morristown, NJ, USA. Association for Computational Linguistics.Ondej Bojar, Pavel Strak, and Daniel Zeman. 2008. English-Hindi Translation in 21 Days. InProc. of ICON-2008 NLP Tools Contest.Ondej Bojar, Pavel Strak, Daniel Zeman, Gaurav Jain, Michal Hrueck, Michal Richter, andJan Haji. 2009. English-Hindi TranslationObtaining Mediocre Results with Bad Data andFancy Models. In Proceedings of the 7th International Conference On Natural LanguageProcessing (ICON-2009), Hyderabad, India, December. NLP Association of India.Peter F. Brown, Vincent J. Della Pietra, Peter V. deSouza, Jennifer C. Lai, and Robert L.Mercer. 1992. Class-based n-gram models of natural language. Computational Linguistics,18(4):467479.Om P. Damani, Vasudevan N., and Amit Sangodkar. 2008. Statistical machine translation withrule based re-ordering of source sentences. In Proc. of ICON-2008 NLP Tools Contest.Sumit Goswami, Nirav Shah, Devshri Roy, and Sudeshna Sarkar. 2008. NLP Tools Contest:Statistical Machine Translation (English to Hindi). In Proc. of ICON-2008 NLP Tools Contest.Kuhoo Gupta, Manish Shrivastava, Smriti Singh, and Pushpak Bhattacharyya. 2006.Morphological richness offsets resource poverty- an experience in building a pos tagger for hindi.In Proc. of COLING/ACL-2006.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 44 / 45

  • Dodatky

    Literatura II

    Jaroslava Hlavov and Michal Hrueck. 2008. Affisix: Tool for Prefix Recognition. In Proc. ofText, Speech and Dialogue, LNAI 5246, pages 8592. Springer.Franz Josef Och. 1995. Maximum-Likelihood-Schitzung von Wortkategorien mit Verfahren derkombinatorischen Optimierung. Studienarbeit, Universitt Erlangen-Nrnberg, Germany.Ananthakrishnan Ramanathan, Hansraj Choudhary, Avishek Ghosh, and Pushpak Bhattacharyya.2009. Case markers and morphology: Addressing the crux of the fluency problem in english-hindismt. In Proc. of ACL/IJCNLP.Rupert Snell and Simon Weightman. 2003. Teach Yourself Hindi. Hodder Education, London,UK.Ankit Kumar Srivastava, Rejwanul Haque, Sudip Kumar Naskar, and Andy Way. 2008. MaTrEx:The DCU Machine Translation System for ICON 2008. In Proc. of ICON-2008 NLP ToolsContest.Daniel Zeman. 2008. Unsupervised acquiring of morphological paradigms from tokenized text. InAdvances in Multilingual and Multimodal Information Retrieval, 8th Workshop of theCross-Language Evaluation Forum, CLEF 2007. LNCS 5152, pages 892899. Springer.

    O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 45 / 45

    vodDataPehledHindtina a dvangarPprava dat

    Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue

    Run hodnocenShrnutZahranin studenti

    PrhaDodatky


Recommended