Jak se Moj s Jozuem uili hindsky
Ondej Bojar, Pavel Strak a Dan Zemanve spoluprci s Gauravem Jainem, Michalem Hrueckm
a Michalem Richterem
FAL
23. listopadu 2009
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 1 / 45
vod
Osnova
.. .1 vod
.. .2 DataPehledHindtina a dvangarPprava dat
.. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
.. .4 Run hodnocen
.. .5 ShrnutZahranin studenti
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 2 / 45
vod
Pro prv Hindi?
dn zvltn dvod jsme nemliNa IJCNLP 2008 v Hyderabadu jsme zjistili, e je v Indii zjem opeklad, ale zrove jej stle dlaj pravidlovPokus, jestli opravdu dokeme dky statistickm metodm pekldatdo jazyka, o kterm nevme prakticky nicPrakticky jsme se rozhodli, kdy vyhlsili sout v pekladu v rmcipravidelnho NLP Tools Contest na konferenci ICON (International(really Indian) Conference on NLP)
ekali jsme, e budeme nejhorbyli jsme spe mezi lepmi, tak jsme se rozhodli pokraovat
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 3 / 45
Data
Osnova
.. .1 vod
.. .2 DataPehledHindtina a dvangarPprava dat
.. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
.. .4 Run hodnocen
.. .5 ShrnutZahranin studenti
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 4 / 45
Data Pehled
Hindsk data
paraleln dataparaleln korpusy
EILMT (oficiln test data pro ICON 2008 NLP Tools Contest)TIDES (taky z ICONu 2008, ale mono pouvat i dle)Emille (ELDA)Daniel Pipes (web site)Agro corpus (Mumbai)
slovnkypolmenovan entity z anglick WikipedieShabdanjali
hindsk datanews korpus z nkolika hlavnch hindskch denk (> 300M slov)
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 5 / 45
Data Pehled
Paraleln korpusyEILMT
7k vt, turistika, licence jen na ICON 2008v r. 2008 ofic. testovac data. Nejlep vsledky byly z trnovn jen naEILMT (TIDES kodil)
TIDES50k+1k+1k vt, DARPA-TIDES, IIIT Hyderabadcca 1,2M token (anglickch trnovacch)automatick pevod do dvangar, msty nespn
Emilleparaleln st obsahuje 200k anglickch slov a peklady do nkolikaindickch jazykdata i peklady jsou problematick, nejdou zarovnat
2 pokusy o run opravu: Gaurav a OmOmille: Omem vyitn Emille, kter by ji ml bt paraleln, ale jetaky o dost men (< 50%)
Daniel Pipesnovinv web, kter obsahuje peklady autorovch lnk v 25 jazycch322 lnk v hind, 6761 pr vt en-hi
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 6 / 45
Data Pehled
Slovnky a (jen) hindsk data
entity z anglick wikipedieLadakh (Tibetan script: ; Wylie: la-dwags, Ladakhi: [ladks];Hindi: , Urdu: , Hindustani pronunciation: [ldax]; land ofhigh passes) is a region situated in the disputed state of Jammu andKashmir which ukldme dvojice: 1 slovo text za (Hindi | Devanagari | Marathi |Sanskrit), kter je v devanagari
Shabdanjalianglicko-hindsk slovnk (licence GPL)tak automaticky peveden do dvangarcca 26 000 hesel
hindsk denkyne nezbytn indick: mj. CNN, Deutsche Welle, Dainik Jagran (Yahoo)LM z tchto dat v r. 2008 nepomohl, letos jsme jej nepouili
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 7 / 45
Data Pehled
Out of Vocabulary
Tokens
Tides Tides+DP all TidesTides-test-en 369 348 2429 (8.940%)Tides-test-hi 839 830 3310 (11.584%)Tides-dev-en 464 421 1873 (8.330%)Tides-dev-hi 619 607 2661 (10.922%)
Types
Tides Tides+DP all TidesTides-test-en 363 343 1901 (32.009%)Tides-test-hi 642 633 2465 (41.979%)Tides-dev-en 459 418 1608 (28.735%)Tides-dev-hi 580 568 2129 (37.735%)
Ostatn data (bez Tides) pokryj cca. 90%/60% Tides (tokens/types).Tides types a tokens skoro stejn slova s jednm vskytem.Hindi hor tvaroslov, transkripce, homonyma
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 8 / 45
Data Hindtina a dvangar
Nco o hindtin
Indoevropsk jazykTj. vzdlen pbuzn etin (v nkterch slovech vc ne tebaanglitina)Ale spousta slov i z pertiny a arabtiny
Pr voln slovosled, ale m ne v etinSOV jazyk: Rma Mhana vid.Na konci asto spona / pomocn sloveso bt:
(hai) = je hodn ast konec vty
Postpozice (zloky) msto pedloek
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 9 / 45
Data Hindtina a dvangar
Psmo dvangar
(Polo)slabin psmo
ka k ki k ku k kr k k k kau k
,
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 10 / 45
Data Hindtina a dvangar
Psmo dvangar
Po transliteraci
das din k j pij darvz k ps almr h, sar, rlv stan s sikil k ln
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 11 / 45
Data Hindtina a dvangar
Psmo dvangar
Po transliteraci nkdy pjemn pekvapen
das din k j pij= deset dn pijte ajdarvz k ps almr h= u dve je sksar, rlv stan s sikil k ln= sir, take the bicycle from the railway station
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 12 / 45
Data Hindtina a dvangar
Hindsk pdy
Tradin systm pd vibhaktiSkuten pdy jsou 2 (direct a oblique)Zbytek tvoen zlokami
Zloky dve pilepen ke slovu, tj. pdov koncovky
Pklad: genitivDelhi is the capital of India. dill bhrat k rdadhn h.Dill Indie genitiv hlavn-msto je.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 13 / 45
Data Pprava dat
Normalizace dat
Rzn korpusy proly rznm zpracovnmTides:
Vtu ukonuje teka (.)slice jsou euro-arabsk (0123456789)
Emille:Vtu ukonuje danda ()slice jsou z dvangar ()
Co jet lze napsat vce zpsoby:Znaky s nuktou (): vs. + vs. Poad kombinovan diakritiky: ++ vs. ++Nahrazen andrabindu anusvrem: vs. dc znaky, zero-width joiners apod.Ne-ASCII interpunkce, nap. vs. -
My se to sname v datech sjednotitNavc re-tokenizujeme (Anglo-American)
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 14 / 45
Data Pprava dat
Dal hrzy v datech
Vsuvka v latince se bhem konverz myln povauje za romanizovanzpis hindtiny:
Information Commis(s)ioner => (nnormationchommisioner), skuten transkripce by byla sp (informeana komianera)
Vce ne 200 hindskch vt v Tides zan v dvangar, pak ale nhlepejdou do neiteln latinky:
- , , , ,
Data Pprava dat
Co u se normalizovat ned
Nejednotn transkripce anglickch slov do dvangar
(staimdardaja) (staimdardasa) (staimdardsa)
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 16 / 45
Data Pprava dat
Co u se vbec normalizovat ned
Synonyma podle pvodu slov
English Hindi/Persian Hindi/Sanskritlanguage (zabna) (bhs)book (kitba) (pustaka)newspaper (axbra) - (samcra-patra)beautiful (xbsrata) (sundara)meat (gota) (mmsa)thank you (ukriy) (dhanyavda)
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 17 / 45
Hindsk MT
Osnova
.. .1 vod
.. .2 DataPehledHindtina a dvangarPprava dat
.. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
.. .4 Run hodnocen
.. .5 ShrnutZahranin studenti
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 18 / 45
Hindsk MT
Pehled pokus
Systm Moses (Moj)Faktorizovan peklad
Rzn modely morfologieVcefaktorov jazykov modelRzn kombinace dat
Systm Joshua (Jozue)Hierarchick frzov modelRzn kombinace dat
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 19 / 45
Hindsk MT Mojovy pokusy
Pipomenut Mojovy roury
...1 Paraleln korpus zarovnej po slovech.
...2 Extrahuj frze konzistentn se zarovnnm po slovech.
...3 Natrnuj hindsk jazykov model (LM).
...4 Natrnuj hindsk reorderovac model.
...5 Na vvojovch datech vyla vhy model (MERT).
...1 Vstupn vtu rozdl na frze.
...2 Frze pelo nezvisle.
...3 Uri vsledn poad frz a spoj je.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 20 / 45
Hindsk MT Mojovy pokusy
Nevhoda Moje: Slab frzov model
Potebujeme, abynejpravdpodobnj bylototo:
the cupboard is
almari
next to
hai
the door
ke pasdarvaze
Moj takto rozvj hypotzy:
-------
+almari
**-----
+darvaze
-----**
+ke pas
**-**--
+darvaze
**---**
+hai
***----
+ke pas
**-****
+hai
***--**
+ke pas
*****--
+darvaze
*******
+hai
*******
Zkladn model: m vt dlka pesunu, tm dra ( monotonie).sten lze kompenzovat lexikalizovanm reorderingem:
P(monotone/swap/discontinuous | next to, ke pas)
Pokusy z Bojar et al. (2008) EILMT TIDESBaseline Moses, Distance Reordering 18.882.05 10.060.76Baseline Moses, Reordering Using en+hi Forms 19.772.03 10.950.75
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 21 / 45
Hindsk MT Mojovy pokusy
Vhoda Moje: Zachycen morfologie
Slova jsou vektory faktor.Vybran modely je tak mono zaloit na jemnj i hrubreprezentaci slova.
Hrub reprezentace na clov stran:Umouje zapojit spolehlivj jazykov model (hust data).
Angl.
form
Hind.
form
tag
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 22 / 45
Hindsk MT Mojovy pokusy
Zachycen tvaroslov
Morfologie s uitelem (supervised).Hindi POS Tagger (Gupta et al., 2006).Koncovky z uebnice (Snell and Weightman, 2003).
Morfologie bez uitele (unsupervised).Poslednch n psmenek slova.Automatick (bigramov) slovn tdy (Brown et al., 1992; Och, 1995).Hindomor (Zeman, 2008).Affisix (Hlavov and Hrueck, 2008).
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 23 / 45
Hindsk MT Mojovy pokusy
Uebnicov koncovky
Primitivn zen stemming.Bhem 2 hodin jsme probhli uebnici hindtiny pro samouky a zevech gramatickch tabulek vypsali koncovky skloovn a asovn.Vsledkem je seznam asi 30 koncovek, vetn duplikt.Pokud byla u slova nalezena znm koncovka, je to jeho znaka.Velmi ast slova ponechna vcelku, jsou sama sob znakou.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 24 / 45
Hindsk MT Mojovy pokusy
Pklady rznch morfologiUkzkov vta: unhem vahm kalakatt ahara dikhy gay .Doslova: jim tam Kalkata msto ukzno bylo .Vstup: They were shown Calcutta City .
Forma Tag Ueb. 2 psm. WC10 hindomor bbf bdf ddf PRP 2 PRP 2 NNP 3 NN 3 VM 7 VAUX 11 . SYM . . 6
Tagy velmi chud pro hidsk tvaroslov.Automatick tdy v souladu s tagem.Rzn konfigurace Affisixu (bbf, bdf, ddf) rzn jemn.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 25 / 45
Hindsk MT Mojovy pokusy
Vsledky pokus
Morfologie BLEU Morfologie BLEUtag 12.030.75 hitbsuf 11.580.74wc50 11.970.73 hindomor2 11.550.74wc10 11.760.74 hindomor1 11.540.71lcsuf3 11.660.75 affddf 11.500.7lcsuf1 11.630.72 affbdf 11.330.72hindomor3 11.600.73 lcsuf2 11.140.74
Baseline bez morfologie: 11.460.72.Rozdly mezi vemi konfiguracemi zanedbateln.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 26 / 45
Hindsk MT Mojovy pokusy
Vcefaktorov jazykov modely (Michal Richter)
Factored LMs (Bilmes and Kirchhoff, 2003) zobecuj vyhlazovn:n-gramov LM nevidn n-gramy skruj pomoc (n 1)-gram.Faktorov LM pracuj s faktorovmi slovy kontext lze omezovatkrat histori i hrub reprezentac slova (lemma, slovn druh).
Uivatel definuje graf zapomnn, za bhu je pak pravdpodobnost dnanejpravdpodobnj cestou v grafu.
form0 | form1
form0
tag0 | tag1
tag0
form0 | form1, form2, tag1, tag2
form0 | form1, tag1, tag2
form0 | form1, tag1
form0 | tag1
form0
form0 | form1, form2, tag1, tag2
form0 | form1, tag1, tag2
form0 | tag1, tag2
form0 | tag1
form0
form0 | form1, form2, tag1, tag2
form0 | form1, tag1, tag2
form0 | tag1, tag2 form0 | form1, tag1
form0 | tag1
form0
2bigramov LM linf lint fftt
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 27 / 45
Hindsk MT Mojovy pokusy
Vsledky faktorovch LM
Tvar + Morfologie BLEUfftt + lcsuf3 12,050,76linf + wc10 12,030,73fftt3 + wc50 11,870,77fftt + wc10 11,830,73fftt + hitbsuf 11,800,75fftt3 + lcsuf1 11,670,7523gr LM (forma, tag) 12,030,73
dn korelace mezi perplexitou FLM a BLEU.FLM vtinou ublily BLEU.Ani vrazn zlepen perplexity (197.0 vs. 212.6 baseline).
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 28 / 45
Hindsk MT Jozuovy pokusy
Hierarchick frzov modely
Hiero (David Chiang, 2005)Joshua (open-source reimplementace z JHU)
Frze mohou obsahovat neterminly=> synchronn bezkontextov gramatiky
Pravidlo m levou stranu a dv prav strany, anglickou a hindskouUmouje zobecnit nesouvisl frze, zmny slovosledu nebo dokoncerekurziTypick neterminl: Xi (nen to lingvistick gramatika)
Pklad:
X X1 of X2, X2 X1
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 29 / 45
Hindsk MT Jozuovy pokusy
Mojova roura...1 Paraleln korpus zarovnej po slovech....2 Extrahuj frze konzistentn se zarovnnm po slovech.
Ke kad dvojici frz znme ti veliiny:Pravdpodobnost pekladu zdrojov prav strany na clovou.Lexikln pravdpodobnost pekladu zdroje clem po jednotlivchslovech.Lexikln pravdpodobnost pekladu cle zdrojem po jednotlivchslovech.
...3 Natrnuj hindsk jazykov model (LM).Ke kad hindsk vt znme jej pravdpodobnost podle LM.
...4 Natrnuj hindsk reorderovac model.
...5 Na vvojovch datech vyla vhy uvedench veliin (MERT)
...1 Vstupn vtu rozdl na frze.
...2 Frze pelo nezvisle.
...3 Uri vsledn poad frz a spoj je.O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 30 / 45
Hindsk MT Jozuovy pokusy
Jozuova roura
...1 Paraleln korpus zarovnej po slovech.
...2 Extrahuj pravidla gramatiky konzistentn se zarovnnm po slovech.Ke kadmu pravidlu znme ti veliiny:
Pravdpodobnost pekladu zdrojov prav strany na clovou.Lexikln pravdpodobnost pekladu zdroje clem po jednotlivchslovech.Lexikln pravdpodobnost pekladu cle zdrojem po jednotlivchslovech.
...3 Natrnuj hindsk jazykov model (LM).Ke kad hindsk vt znme jej pravdpodobnost podle LM.
...4 Na vvojovch datech vyla vhy uvedench veliin (MERT).
...1 Vstupn vtu rozeber synchronnm chart parserem.
...2 Frze pelo nezvisle.
...3 Propoj je podle derivanho stromu.O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 31 / 45
Hindsk MT Moj vs. Jozue
Moj vs. Jozue
Trnovac data Joshua MosesTides 12.270.83 11.460.72Tides+DP 12.580.77 11.930.75Tides+DP+Emille 11.320.74 10.060.72Tides+DP+Dict 12.430.79 11.900.78
System BLEUMumbai (Damani et al., 2008) 8.53Kharagpur (Goswami et al., 2008) 9.76Prague (Bojar et al., 2008) 10.17Dublin (Srivastava et al., 2008) 10.49present Joshua 11.10
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 32 / 45
Hindsk MT Moj vs. Jozue
Zhadn Emille
Navzdory faktorm a modelm reorderingu v Mosesovi, Joshua zatmm nskokJak u Joshuy, tak u Mosese se vak projevil tko vysvtlitelnnegativn vliv pdavnch dat, zejmna EmillaRozen Tides (50000 vt) o Daniela Pipese (7000 vt) pomohloNaproti tomu pidn vyitnho Emilla (3500 vt) zeteln ukodilo
Na datech dn viditeln problm (mn umu ne Tides)Frzov tabulky vypadaj OKAle: jasn petrnovn na vvojovch datech (po prohozen vvojovcha testovacch dat problm zmizel)Ukzalo se, e Emille je obsaen v trnovac (2000 vt) a vvojov sti(100 vt z 1000) Tidesu!!!
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 33 / 45
Run hodnocen
Osnova
.. .1 vod
.. .2 DataPehledHindtina a dvangarPprava dat
.. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
.. .4 Run hodnocen
.. .5 ShrnutZahranin studenti
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 34 / 45
Run hodnocen
Zpsob anotace
Ti nezvisl sondy (100 vt, 100 vt, 43 vt, vdy jin).Zobrazena zdrojov vta a hypotzy.Referenn peklad zamchn mezi hypotzy.
SRC the private sector units are thirty to forty years old . 40 |
* , 30 40 .** 30 40 .** 30 40 .
Znaky: nic pro nesrozumiteln, * pro nznaky pekladu, ** proakceptovateln a zachovvajc vtinu vznamu, by s chybami.Kontrast s Ramanathan et al. (2009), kde zlepili v prmru
z little meaning conveyed, disfluent Hindi, most phrases correct,ungrammatical overallna much of meaning conveyed, non-native Hindi, few minorgrammatical errors
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 35 / 45
Run hodnocen
Sonda 1: Moj mimo domnu, s morfologi i vce daty?
OOD mimo domnu: trnovno na vem mimo TidesTIDP Tides + Daniel Pipes, bez morfologieWC10 Tides + trigramov LM na automatickch slovnch tdch
(10 td)
Systm 0 * ** BLEUREF 6 11 83 OOD 80 17 3 1.850.24TIDP 26 44 30 11.930.75WC10 38 46 16 11.760.74
est (procent) referennch peklad nepijatelnch!Domna velmi podstatn, OOD propadlo nejen v BLEU, ale i run.Lep data navc ne automatick morfologie (TIDP>WC10).BLEU ovem TIDP vs. WC10 neodli.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 36 / 45
Run hodnocen
Sonda 2: Moj vs. Jozue
Systm 0 * ** BLEUREF 6 10 84 Joshua 32 37 31 12.580.77Moses 35 35 30 11.930.75Moses-DPipes+POStags 32 42 26 12.030.75
Identick trnovac data (Tides + Daniel Pipes, bez morfologie).Jozue (nesignif.) lep podle BLEU i lidskho hodnocen.
I druh test Mosese ukazuje, e vc dat spe lep ne morfologie.Tentokrt uit POS tagger, nikoli automatick slovn tdy.Ne zcela jednoznan vsledek: klesne poet **, ale i 0.Zle na clov aplikaci: pesnost vs. pokryt.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 37 / 45
Run hodnocen
Sonda 3: Jak je to s Emillem a Mojem?
Systm 0 * ** BLEUREF 0 8 45 TI DP 20 14 19 11.890.76TI DP EM 22 19 12 9.610.75TI DP EM oth 17 25 11 10.970.79TI DP EM oth DICTFilt 23 17 13 10.960.75TI DP EM oth DICTFull 22 16 15 10.890.69
BLEU tentokrt tm souhlas s lidmi.Pidn Emilla citeln sn kvalitu.Dal data tu ztrtu postupn kompenzuj.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 38 / 45
Shrnut
Osnova
.. .1 vod
.. .2 DataPehledHindtina a dvangarPprava dat
.. .3 Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
.. .4 Run hodnocen
.. .5 ShrnutZahranin studenti
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 39 / 45
Shrnut
Shrnut
Doshli jsme nejlepho publikovanho BLEU skre na testovacchdatech TIDES
Srovnej ICON 2008 NLP Tools ContestObecn je srovnn en-hi pekladu problematick, kad testuje najinch datech
Hierarchick modely dvaj lep BLEU ne Mojovy faktory areordering
Pi runm vyhodnocen je ale jejich nskok mn pesvdivPouen o datech
Zskat data me bt snadnj ne je vyistitDva rzn korpusy z rznch zdroj nemus bt nutn rzn!
Co dl?Opravdu neme morfologie pomoct vc?Peskldn slovosledu anglitinyZ vybranch znaek (nap. subject) udlat tokeny
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 40 / 45
Shrnut Zahranin studenti
Zkuenosti se zahraninm studentem
student magisterskho studia na IIT v Bombaji piln, poslun neiniciativn, nevzal (dn) kol za svjnae chyba: neekali jsme to a pli dlouho dvali komplexn (nenutn tk) koly
nedokonil run hodnocen ani dodatennae chyba: data dostal krtce ped odjezdem, stihl jen stovem ani doma v klidu dlouho po nvratu hodnocen nedokonil
skrvn problm nebo spe neekan jin rozliovac rovenap. jsme se ptali na konkrtn vtu, je-li peloena dobe. Napedbyla, ale kdy jsme pojali podezen a zeptali se na konkrtn jevy(koncovka, slovosled), piznal chyby
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 41 / 45
Shrnut Zahranin studenti
Pro pt
mt pipraven seznam pesnch malch kollaku pro samostatnost v prci postupn zvyovat, voln zen seneosvdilo
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 42 / 45
Dodatky
Dkujeme za podporu z tchto grant:MSM0021620838 (Vzkumn zmr informan sekce MFF UK20052010),FP7-ICT-2007-3-231720 (EuroMatrix Plus)
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 43 / 45
Dodatky
Literatura I
Jeff A. Bilmes and Katrin Kirchhoff. 2003. Factored language models and generalized parallelbackoff. In NAACL 03: Proc. of the 2003 Conference of the North American Chapter of theAssociation for Computational Linguistics on Human Language Technology, pages 46,Morristown, NJ, USA. Association for Computational Linguistics.Ondej Bojar, Pavel Strak, and Daniel Zeman. 2008. English-Hindi Translation in 21 Days. InProc. of ICON-2008 NLP Tools Contest.Ondej Bojar, Pavel Strak, Daniel Zeman, Gaurav Jain, Michal Hrueck, Michal Richter, andJan Haji. 2009. English-Hindi TranslationObtaining Mediocre Results with Bad Data andFancy Models. In Proceedings of the 7th International Conference On Natural LanguageProcessing (ICON-2009), Hyderabad, India, December. NLP Association of India.Peter F. Brown, Vincent J. Della Pietra, Peter V. deSouza, Jennifer C. Lai, and Robert L.Mercer. 1992. Class-based n-gram models of natural language. Computational Linguistics,18(4):467479.Om P. Damani, Vasudevan N., and Amit Sangodkar. 2008. Statistical machine translation withrule based re-ordering of source sentences. In Proc. of ICON-2008 NLP Tools Contest.Sumit Goswami, Nirav Shah, Devshri Roy, and Sudeshna Sarkar. 2008. NLP Tools Contest:Statistical Machine Translation (English to Hindi). In Proc. of ICON-2008 NLP Tools Contest.Kuhoo Gupta, Manish Shrivastava, Smriti Singh, and Pushpak Bhattacharyya. 2006.Morphological richness offsets resource poverty- an experience in building a pos tagger for hindi.In Proc. of COLING/ACL-2006.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 44 / 45
Dodatky
Literatura II
Jaroslava Hlavov and Michal Hrueck. 2008. Affisix: Tool for Prefix Recognition. In Proc. ofText, Speech and Dialogue, LNAI 5246, pages 8592. Springer.Franz Josef Och. 1995. Maximum-Likelihood-Schitzung von Wortkategorien mit Verfahren derkombinatorischen Optimierung. Studienarbeit, Universitt Erlangen-Nrnberg, Germany.Ananthakrishnan Ramanathan, Hansraj Choudhary, Avishek Ghosh, and Pushpak Bhattacharyya.2009. Case markers and morphology: Addressing the crux of the fluency problem in english-hindismt. In Proc. of ACL/IJCNLP.Rupert Snell and Simon Weightman. 2003. Teach Yourself Hindi. Hodder Education, London,UK.Ankit Kumar Srivastava, Rejwanul Haque, Sudip Kumar Naskar, and Andy Way. 2008. MaTrEx:The DCU Machine Translation System for ICON 2008. In Proc. of ICON-2008 NLP ToolsContest.Daniel Zeman. 2008. Unsupervised acquiring of morphological paradigms from tokenized text. InAdvances in Multilingual and Multimodal Information Retrieval, 8th Workshop of theCross-Language Evaluation Forum, CLEF 2007. LNCS 5152, pages 892899. Springer.
O. Bojar, P. Strak, D. Zeman (FAL) Jak se Moj s Jozuem uili hindsky 23. listopadu 2009 45 / 45
vodDataPehledHindtina a dvangarPprava dat
Hindsk MTMojovy pokusyJozuovy pokusyMoj vs. Jozue
Run hodnocenShrnutZahranin studenti
PrhaDodatky