+ All Categories
Home > Documents > Rekonstrukce standardizovaného textu z mluvené řeči

Rekonstrukce standardizovaného textu z mluvené řeči

Date post: 02-Jan-2016
Category:
Upload: pandora-byers
View: 34 times
Download: 0 times
Share this document with a friend
Description:
Rekonstrukce standardizovaného textu z mluvené řeči. Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univer zita Karlova Pra ha. Pražský závislostní korpus mluvené češtiny. Pražský závislostní korpus mluvené češtiny - PowerPoint PPT Presentation
22
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova Praha
Transcript
Page 1: Rekonstrukce  standardizovaného textu  z mluvené řeči

Rekonstrukce standardizovaného textu z mluvené řeči

Marie Mikulová, Zdeňka UrešováÚstav formální a aplikované lingvistiky

Matematicko-fyzikální fakultaUniverzita Karlova

Praha

Page 2: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 2

Pražský závislostní korpus mluvené češtiny

Pražský závislostní korpus mluvené češtiny

= první korpus mluvené řeči, který bude obsahovat i syntakticko-sémantickou anotaci promluv

(v českém i světovém měřítku)

Pracoviště: ÚFAL MFF UKGranty:Centrum komputační lingvistiky LC 356PIRE ME 383, GAČR 405/06/0589EU FP6 Companions IST-034434

Page 3: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 3

Switchboard CorpusUniversity of Pennsylvania, USA

Childes DatabaseCarnegie Mellon University, Pittsburgh, USA

Corpus Gesproken Nederlands University of Leuven, University of Ghent, BelgieUniversity of Utrecht, University of Nijmegen, Nizozemí

Tübingen Treebank of Spoken German/English/JapaneseUniverzita v Tübingen, Německo

International Corpus of EnglishUniversity College London, Velká Británie

Swedish TreebankUniverzity ve Växjö, Göteborgu, Stockholmu, Švédsko

Syntakticky anotované korpusy mluvené řeči

Page 4: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 4

Účel korpusuPražského závislostního korpusu mluvené češtiny

strojové učení za účelem plného porozumění mluvené řeči odpovídání na otázky, vyhledávání v mluvených

projevech strojový překlad mluvené řeči

lingvistický výzkum

Naším cílem primárně není zachytit vlastní strukturu mluvené řeči!

Page 5: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 5

= manuálně anotovaný korpus psaných textů na třech jazykových rovinách:

morfologická rovina rovina povrchové syntaxe rovina hloubkové syntaxe (syntakticko-sémantická

anotace) + neanotační rovina – „surový text“

Pražský závislostní korpus 2.0Východisko projektu

Jednotlivé roviny jsou mezi sebou propojeny systémem odkazů z jednotky roviny vyšší na jednotky roviny nižší.

Page 6: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 6

w-rovina„surový text“; tokenizace

m-rovinalema; morfologické kategorie

a-rovinapovrchová syntax (závislostní strom)

syntaktické fce (př. příslovečné určení)

t-rovinahloubková syntax (závislostní strom)

syntakticko-sémantické fce (př. místo, čas)

valence a elipsy

tzv. gramatémy

koreference, aktuální členění

Systém rovin v Pražském závislostním korpusu

Východisko projektu

Page 7: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 7

Syntakticko-sémanticky anotovaný korpus mluvené řeči

Jak zachytit význam mluvených segmentů? problém segmentace mluvené řeči do vět způsob zachycení specifických jevů mluvené řeči

ale kdyby náhodou tam byl nějakej ten ale mají tam zachariáš s tím radkem bejblem vole mají tam žlutý karty … aspoň desetník na kartu

Tři možnosti, jak naložit se specifickými jevy mluvené řeči (J. B. Johannessenová, F. Jørgensen; 2005):

A. zohlednit všechny jevy mluvené řečiB. zohlednit jen vybrané jevy mluvené řeči a ostatní ignorovatC. ignorovat všechny specifické jevy mluvené řeči

standardizace mluvené řeči

Page 8: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 8

Celosvětově nový směr výzkumu: University of Pennsylvania: „dysfluency annotation“

{D Well } what do you think about the idea of, {F uh, } kids having to dopublic service work for a year? / Do you think it's a , -/

John Hopkins University, BaltimoreYou know what there was this other show where where was it like a it was it the Joe Millionaire

→ There was this other show Joe Millionaire

Standardizace mluvené řeči

= anotace, která se vypořádává se specifickými jevy mluvené řeči v doslovně přepsané mluvené řeči

Page 9: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 9

Rekonstrukce standardizovaného textu z mluvené řeči

v Pražském závislostním korpusu mluvené češtiny

Osnova: Výchozí myšlenka Vymezení standardizovaného textu Základní principy Segmentace mluvené řeči do vět Úpravy segmentů mluvené řeči

Page 10: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 10

Výchozí myšlenkarekonstrukce standardizovaného textu z mluvené řeči

Význam

(syntakticko-sémantický zápis)

pravidla pro psaný text pravidla pro mluvenou řeč

psaný text mluvená řeč

no hledali nějakýho ubožáčka že jo Hledali nějakého ubožáčka.

hledat.PRED

#PersPron.ACT ubožáček.PAT

nějaký.RSTR

Page 11: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 11

Standardizovaný textRekonstrukce standardizovaného textu z mluvené řeči

neobsahuje neřečové události, všechny specifické jevy mluvené řeči jsou odstraněny, proud mluvené řeči je rozčleněn do vět, celkově srozumitelný a dobře se čte, věty mají gramatický slovosled a běžnou českou syntax, použity jsou jen spisovné tvary slov, dodržuje pravidla českého pravopisu.

Vstup anotace: „doslovná“ transkripce

Výstup anotace: standardizovaný text:

Page 12: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 12

Základní principyrekonstrukce standardizovaného textu z mluvené řeči

Princip zachování významu: Významy (obsahy) sdělované mluvenou řečí a významy (obsahy) obsažené ve standardizovaném textu jsou tytéž.

Princip minimálního počtu úprav: Provádí se jen tolik modifikací, kolik jich segmenty mluvené řeči nutně vyžadují, aby bylo dosaženo standardizovaného textu.

Page 13: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 13

Princip nejdelší možné klauze:

Klauze zahrnuje co nejvíce potenciálních větných členů za podmínky, že výsledná věta je ještě utvořena jak syntakticky, tak sémanticky správně.

Segmentace mluvené řeči do větRekonstrukce standardizovaného textu z mluvené řeči

<silence><inhale> někteří lidé mě <noise> utkvěli <inhale> velmi v paměti <silence> z toho koncentračního tábora <silence>➜ Někteří lidé z koncentračního tábora mně velmi utkvěli v paměti.

Page 14: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 14

Úpravy segmentů mluvené řečiRekonstrukce standardizovaného textu z mluvené řeči

Dva základní typy úprav: ortografické modifikace: pravidelné úpravy vstupní

transkripce vyplývající ze základních požadavků na standardizovaný text

vlastní modifikace: podstatný zásah do podoby vstupního textu: mazání vkládání substituce změny ve slovosledu

Page 15: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 15

Ortografické modifikaceRekonstrukce standardizovaného textu z mluvené řeči

Odstranění neřečových událostí:

Pravopisné úpravy: vložení interpunkce velká/malá písmena

<mouth> <inhale> tak možná že bych ještě něco řek <breath> <uh> <silence>➜ Tak možná, že bych ještě něco řekl.

on řekl byl sem tam ale nikdo mu nevěřil➜ On řekl: „Byl jsem tam,“ ale nikdo mu nevěřil.

Page 16: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 16

Odstranění obsahově nerelevantních slovních jednotek: výplňková slova a fráze (no tam jsme byli dva roky) nadbytečná deiktická slova (jel sem do té prahy) nadbytečné konektory (a tam to trvalo dva roky) nadbytečná a nesprávně užitá gramatická slova

(pak byl přišel) restarty (a to byli většinou to byl většinou personál) opakující se úseky textu

(my sme tam dostávali v bratislavě podporu že jo asi deset korun denně sme dostávali že )

Vlastní modifikace: mazáníRekonstrukce standardizovaného textu z mluvené řeči

Page 17: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 17

Vložení jednotek nezbytných pro vytvoření gramaticky i lexikálně správné věty: chybějící gramatická slova nevyjádřená plnovýznamová slova

Vlastní modifikace: vkládáníRekonstrukce standardizovaného textu z mluvené řeči

<silence> <inhale> revolverem mu takle začali před nos <inhale> a chtěli abych to odvolal <cough> jo <silence>➜ Revolverem mu takhle začali dělat před nosem a chtěli, abych to odvolal.

Page 18: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 18

Změny forem a lemat: změna nespisovně utvořených tvarů slov změna nesprávně utvořených tvarů slov náhrada slova zvoleného nesprávně

z hlediska vyjadřovaného významu

Vlastní modifikace: substituceRekonstrukce standardizovaného textu z mluvené řeči

architekt zelenka má velikou zálohu o tuto činnost➜ Architekt Zelenka má velikou zásluhu na této činnosti.

Page 19: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 19

Rekonstruované věty mají gramatický slovosled, který nenarušuje plynulost textu.

Vlastní modifikace: úpravy slovosleduRekonstrukce standardizovaného textu z mluvené řeči

prosté měření terénu sme dělali

➜ Dělali jsme prosté měření terénu.

sem jel s ním do zvolena

➜ Jel jsem s ním do Zvolena.

Page 20: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 20

Systém rovin v Pražském závislostním korpusu mluvené češtiny

Analogická struktura jako PDT 2.0.

Ale: nová z-rovina: automatický přepis

mluvené řeči nově definovaná w-rovina: přepis

mluvené řeči manuálně upravený anotátorem

nově definovaná m-rovina: standardizovaný text

z-la

yer

au

dio

BYL BYS ČELO LESA

Page 21: Rekonstrukce  standardizovaného textu  z mluvené řeči

CMK2007 [email protected] 21

Propojení nejnižších rovin v Pražském závislostním korpusu mluvené češtiny

SPÍŠE <gap> MY SLÍŽE VZTAHY BYLY DOBRÝ

se spolužáky <cough> myslím že vztahy byly dobrý

Vztahy se spolužáky byly dobré . vztah s-1 spolužák být dobrý . NNIP1-----A---- RV—7---------- NNMP7-----A---- VpTP---XR-AA--- AAIP1----1A---- Z:-------------

m-rovina

w-rovina

z-rovina

audio

Page 22: Rekonstrukce  standardizovaného textu  z mluvené řeči

Děkuji za pozornost.

http:/ufal.mff.cuni.cz


Recommended