+ All Categories
Home > Documents > Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky...

Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky...

Date post: 06-Apr-2015
Category:
Upload: kreszenz-karlsen
View: 117 times
Download: 0 times
Share this document with a friend
21
Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006
Transcript
Page 1: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Slowakisches Nationalkorpus Slovenský národný korpus

Tschechisches Nationalkorpus Česky národní korpus

erstellt von: Rita Plos

Seminar: Slawische Korpuslinguistik

SS 2006

O. Prof. Dr. Branko Tošović

Graz, am 16.05.2006

Page 2: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Slowakisches NationalkorpusSlovenský národný korpus

Leitung: PhDr. Mária Šimková

Institut: Ľ. Štúr-Institut f. Linguistik

Slowakische Akademie der Wissenschaften, Bratislava

Jazykovedný ústav Ľ. Štúra

Slovenská Akadémia Vied, Bratislava

Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/

Sprachen: Slowakisch/Englisch

2SE: Slawische Korpuslinguistik, SS 2006

Page 3: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Struktur des SNKŠtruktúra SNK

Allgemeines (primäres) Korpus

Všeobecný (primárny) korpus

Linguistische Quellen

Lingvistické zdroje

Parallelkorpus

Paralelné korpusy

3SE: Slawische Korpuslinguistik, SS 2006

Page 4: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus

Die derzeitige Version dieses Korpus heißt prim-2.1:

prim-2.1-public-all – enthält alle Texte: 294.087.581 token

prim-2.1-public-inf –

enthält nur journalistische Texte: 178.070.839 token

prim-2.1-public-prf –

enthält nur Wissenschafts- & Fachtexte: 34.118.166 token

prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token

4SE: Slawische Korpuslinguistik, SS 2006

Page 5: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus

prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token

prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token

prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token

5SE: Slawische Korpuslinguistik, SS 2006

Page 6: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus

Außerdem gibt es ein spezielles Subkorpus:

r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token

6SE: Slawische Korpuslinguistik, SS 2006

Page 7: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Linguistische QuellenLingvistické zdroje

Slowakische Sprachwissenschaftler 1976 – 2000

Slovenskí jazykovedci 1976 - 2000

Kleines Wörterbuch der Slowakischen Sprache

Krátky slovník slovenskeho jazyka

Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins

Vybrané čísla časopisu Kultúra slova

7SE: Slawische Korpuslinguistik, SS 2006

Page 8: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

ParallelkorpusParalelné korpusy

Parallelkorpus f. Computer-Fachausdrücke

- Sprachen: alle slawischen Sprachen, alle romanischen

Sprachen, Deutsch, Englisch, Chinesisch etc.

8SE: Slawische Korpuslinguistik, SS 2006

Page 9: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Tschechisches Nationalkorpus Česky národní korpus

Leitung: Prof. PhDr. František Čermák, DrSc.

Institut: Institut des ČNK, Karlsuniversität, Prag

Ústav Českého národního korpusu,Univerzita Karlova, Praha

Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/

Sprachen: Tschechisch / Englisch

Gegründet: 1994

9SE: Slawische Korpuslinguistik, SS 2006

Page 10: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Struktur des ČNKStruktura ČNK

Synchroner Teil / Synchronní část :

1. Geschriebenes Korpus / Psané korpusy

2. Gesprochenes Korpus / Mluvené korpusy

3. Parallelkorpora / Paralelní korpusy

Diachroner Teil / Diachronní část :

1. Diachrones Korpus / Diachronní korpus

10SE: Slawische Korpuslinguistik, SS 2006

Page 11: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Geschriebenes KorpusPsané korpusy

SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter

SYN2005 – enthält zeitgenössische, tschechische Texte:

100.000.000 Wörter

11SE: Slawische Korpuslinguistik, SS 2006

SYN 2000 SYN2005

Publizistik publicistika

60% 33%

Fachliteratur odborná lit.

15% 40%

Belletristik beletrie

25% 27%

Page 12: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Geschriebenes KorpusPsané korpusy

PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter

- 60% Publizistik / publicistika

- 25% Fachliteratur / odborná literatura

- 15% Belletristik / beletrie

12SE: Slawische Korpuslinguistik, SS 2006

Page 13: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Geschriebenes KorpusPsané korpusy

Weiters:

FSC2000

SYNEC

LITERA

ORWELL

DB – unterstützende Datenbanken und elektr. Wörterbücher

13SE: Slawische Korpuslinguistik, SS 2006

Page 14: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Geschriebenes KorpusPsané korpusy

ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie

ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten.

14SE: Slawische Korpuslinguistik, SS 2006

Page 15: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Gesprochenes Korpus Mluvené korpusy

Prager gesprochenes Korpus

Pražský mluvený korpus

Brünner gesprochenes Korpus

Brněnský mluvený korpus

15SE: Slawische Korpuslinguistik, SS 2006

Page 16: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Parallelkorpora Paralelní korpusy

16SE: Slawische Korpuslinguistik, SS 2006

InterCorp – Projekt (keine näheren Angaben)

Page 17: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter

DB – Datenbanken & Wörterbücher auf Alt-Tschechisch

ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen

Diachrones Korpus Diachronní korpus

SE: Slawische Korpuslinguistik, SS 2006 17

Page 18: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Diachrones Korpus Diachronní korpus

ČNKDIA-Bank – enthält:

- transkribierte Texte (2 000 000 Wörter),

- transliterierte Texte (100 000 Wörter)

- Dialekt-Texte (200 000 Wörter)

DIAL – geplantes Dialektkorpus

18SE: Slawische Korpuslinguistik, SS 2006

Page 19: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Literatur und QuellenLiteratúra a prameňe / Literatura a prameny

Slowakisch / Slovenský

Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95.

Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121.

http://korpus.juls.savba.sk/

19SE: Slawische Korpuslinguistik, SS 2006

Page 20: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Literatur und QuellenLiteratúra a prameňe / Literatura a prameny

Tschechisch/ Český

Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285.

Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334.

20SE: Slawische Korpuslinguistik, SS 2006

Page 21: Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Literatur und QuellenLiteratúra a prameňe / Literatura a prameny

Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182.

http://ucnk.ff.cuni.cz/

21SE: Slawische Korpuslinguistik, SS 2006


Recommended