Český národní korpus a jeho využití v překladatelské praxi

transcript

Lucie ChlumskáÚČNK FF UK

JTP, 6. 11. 2010

Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK

Základní práce s korpusem prostřednictvím korpusového manažeru Bonito

Pokročilejší funkce korpusového manažeru s ohledem na potřeby překladatele

Co lze v korpusu hledat, příklady užití Diskuze

rozsáhlý soubor počítačově uložených textů• anotovaný (autor, rok vydání, typ textu atd.)• lemmatizovaný (každému slovu přiřazeno lemma)• zpravidla morfologicky označkovaný (slovní druh, pád,

číslo, osoba, čas, rod atd.)

vzorek skutečného jazyka, nikoli kodifikace• reprezentativnost korpusu

slouží primárně k jazykovému výzkumu

1. korpus – Brown Corpus • 60. léta v USA, Henry Kučera a W. N. Francis, 1 mil. slov

korpusová velmoc – Velká Británie• Bank of English, 500 mil. slov, nakl. Cobuild• BNC – 90. léta, 100 mil. slov, i mluvený jazyk

ostatní jazyky – Německo, Holandsko… Česká republika patří mezi korpusovou špičku

Ústav Českého národního korpusu FF UK založen v roce 1994

kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka

korpusy ČNK jsou přístupné široké veřejnosti • jedinou podmínkou je registrace a prohlášení uživatele• co se myslí „komerčními účely“ v prohlášení

korpusy současné psané češtiny: SYN

korpusy současné mluvené češtiny: ORAL

diachronní korpus (14.–20. století): DIAKORP

paralelní korpus (cca 20 evropských jazyků): InterCorp

SYN SYN2005: synchronní, psaný, 100 mil. slov

• složení: beletrie, publicistika, odborná literatura SYN2006PUB, SYN2009PUB:

• pouze publicistika, 300 mil. slov a 700 mil. slov

ORAL ORAL2006, ORAL2008: každý 1 mil. slov nepřipravené neformální dialogické promluvy

InterCorp paralelní korpus: základním jazykem je čeština složení: beletrie, Syndicate

korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu

Základní a pokročilé funkce Bonita vyhledávání lexému či slovního tvaru (či spojení),

zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější

než náhodný) třídění pomocí negativního a pozitivního filtru

Vyhledávání podle různého atributu word: slovní tvar, textové slovo (např. kočce, píše) lemma: slovníkový tvar (např. kočka, psát) tag: značka obsahující morfologickou informaci (slovní

druh, rod, pád, číslo, čas atd.)

Příklady: word: najde přesně ten tvar, na který se zeptám (např.

word „psa“ nenajde PSA, Psa, PsA atd.) lemma: vyhledá všechny tvary slova bez ohledu na velká,

malá písmena (např. lemma „pes“ najde tvary psům, psa, PES, pEs, Psovi atd.)

pomocí tagu je možné vyhledat např. jen substantiva v urč. pádě nebo slovesa v minulém čase atd.

instalace Bonita z http://korpus.cz/bonito/instalace.php

podrobný návod a manuál také k nalezení na www.korpus.cz

přihlašovací údaje pro potřeby workshopu:Uživatel: seminarHeslo: dohledala

Český národní korpus a jeho využití v překladatelské praxi

Documents