+ All Categories
Home > Documents > Český národní korpus a jeho využití v překladatelské praxi

Český národní korpus a jeho využití v překladatelské praxi

Date post: 12-Jan-2016
Category:
Upload: terrel
View: 46 times
Download: 0 times
Share this document with a friend
Description:
Český národní korpus a jeho využití v překladatelské praxi. Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010. Obsah dnešní přednášky a workshopu. Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK - PowerPoint PPT Presentation
10
Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010
Transcript
Page 1: Český národní korpus a jeho využití v překladatelské praxi

Lucie ChlumskáÚČNK FF UK

JTP, 6. 11. 2010

Page 2: Český národní korpus a jeho využití v překladatelské praxi

Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK

Základní práce s korpusem prostřednictvím korpusového manažeru Bonito

Pokročilejší funkce korpusového manažeru s ohledem na potřeby překladatele

Co lze v korpusu hledat, příklady užití Diskuze

Page 3: Český národní korpus a jeho využití v překladatelské praxi

rozsáhlý soubor počítačově uložených textů• anotovaný (autor, rok vydání, typ textu atd.)• lemmatizovaný (každému slovu přiřazeno lemma)• zpravidla morfologicky označkovaný (slovní druh, pád,

číslo, osoba, čas, rod atd.)

vzorek skutečného jazyka, nikoli kodifikace• reprezentativnost korpusu

slouží primárně k jazykovému výzkumu

Page 4: Český národní korpus a jeho využití v překladatelské praxi

1. korpus – Brown Corpus • 60. léta v USA, Henry Kučera a W. N. Francis, 1 mil. slov

korpusová velmoc – Velká Británie• Bank of English, 500 mil. slov, nakl. Cobuild• BNC – 90. léta, 100 mil. slov, i mluvený jazyk

ostatní jazyky – Německo, Holandsko… Česká republika patří mezi korpusovou špičku

Page 5: Český národní korpus a jeho využití v překladatelské praxi

Ústav Českého národního korpusu FF UK založen v roce 1994

kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka

korpusy ČNK jsou přístupné široké veřejnosti • jedinou podmínkou je registrace a prohlášení uživatele• co se myslí „komerčními účely“ v prohlášení

Page 6: Český národní korpus a jeho využití v překladatelské praxi

korpusy současné psané češtiny: SYN

korpusy současné mluvené češtiny: ORAL

diachronní korpus (14.–20. století): DIAKORP

paralelní korpus (cca 20 evropských jazyků): InterCorp

Page 7: Český národní korpus a jeho využití v překladatelské praxi

SYN SYN2005: synchronní, psaný, 100 mil. slov

• složení: beletrie, publicistika, odborná literatura SYN2006PUB, SYN2009PUB:

• pouze publicistika, 300 mil. slov a 700 mil. slov

ORAL ORAL2006, ORAL2008: každý 1 mil. slov nepřipravené neformální dialogické promluvy

InterCorp paralelní korpus: základním jazykem je čeština složení: beletrie, Syndicate

Page 8: Český národní korpus a jeho využití v překladatelské praxi

korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu

Základní a pokročilé funkce Bonita vyhledávání lexému či slovního tvaru (či spojení),

zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější

než náhodný) třídění pomocí negativního a pozitivního filtru

Page 9: Český národní korpus a jeho využití v překladatelské praxi

Vyhledávání podle různého atributu word: slovní tvar, textové slovo (např. kočce, píše) lemma: slovníkový tvar (např. kočka, psát) tag: značka obsahující morfologickou informaci (slovní

druh, rod, pád, číslo, čas atd.)

Příklady: word: najde přesně ten tvar, na který se zeptám (např.

word „psa“ nenajde PSA, Psa, PsA atd.) lemma: vyhledá všechny tvary slova bez ohledu na velká,

malá písmena (např. lemma „pes“ najde tvary psům, psa, PES, pEs, Psovi atd.)

pomocí tagu je možné vyhledat např. jen substantiva v urč. pádě nebo slovesa v minulém čase atd.

Page 10: Český národní korpus a jeho využití v překladatelské praxi

instalace Bonita z http://korpus.cz/bonito/instalace.php

podrobný návod a manuál také k nalezení na www.korpus.cz

přihlašovací údaje pro potřeby workshopu:Uživatel: seminarHeslo: dohledala


Recommended