Rekonstrukce standardizovaného textu z mluvené řeči

Rekonstrukce standardizovaného textu z mluvené řeči

Marie Mikulová, Zdeňka UrešováÚstav formální a aplikované lingvistiky

Matematicko-fyzikální fakultaUniverzita Karlova

Praha

CMK2007 [email protected] 2

Pražský závislostní korpus mluvené češtiny

Pražský závislostní korpus mluvené češtiny

= první korpus mluvené řeči, který bude obsahovat i syntakticko-sémantickou anotaci promluv

(v českém i světovém měřítku)

Pracoviště: ÚFAL MFF UKGranty:Centrum komputační lingvistiky LC 356PIRE ME 383, GAČR 405/06/0589EU FP6 Companions IST-034434


Switchboard CorpusUniversity of Pennsylvania, USA

Childes DatabaseCarnegie Mellon University, Pittsburgh, USA

Corpus Gesproken Nederlands University of Leuven, University of Ghent, BelgieUniversity of Utrecht, University of Nijmegen, Nizozemí

Tübingen Treebank of Spoken German/English/JapaneseUniverzita v Tübingen, Německo

International Corpus of EnglishUniversity College London, Velká Británie

Swedish TreebankUniverzity ve Växjö, Göteborgu, Stockholmu, Švédsko

Syntakticky anotované korpusy mluvené řeči


Účel korpusuPražského závislostního korpusu mluvené češtiny

strojové učení za účelem plného porozumění mluvené řeči odpovídání na otázky, vyhledávání v mluvených

projevech strojový překlad mluvené řeči

lingvistický výzkum

Naším cílem primárně není zachytit vlastní strukturu mluvené řeči!


= manuálně anotovaný korpus psaných textů na třech jazykových rovinách:

morfologická rovina rovina povrchové syntaxe rovina hloubkové syntaxe (syntakticko-sémantická

anotace) + neanotační rovina – „surový text“

Pražský závislostní korpus 2.0Východisko projektu

Jednotlivé roviny jsou mezi sebou propojeny systémem odkazů z jednotky roviny vyšší na jednotky roviny nižší.


w-rovina„surový text“; tokenizace

m-rovinalema; morfologické kategorie

a-rovinapovrchová syntax (závislostní strom)

syntaktické fce (př. příslovečné určení)

t-rovinahloubková syntax (závislostní strom)

syntakticko-sémantické fce (př. místo, čas)

valence a elipsy

tzv. gramatémy

koreference, aktuální členění

Systém rovin v Pražském závislostním korpusu

Východisko projektu


Syntakticko-sémanticky anotovaný korpus mluvené řeči

Jak zachytit význam mluvených segmentů? problém segmentace mluvené řeči do vět způsob zachycení specifických jevů mluvené řeči

ale kdyby náhodou tam byl nějakej ten ale mají tam zachariáš s tím radkem bejblem vole mají tam žlutý karty … aspoň desetník na kartu

Tři možnosti, jak naložit se specifickými jevy mluvené řeči (J. B. Johannessenová, F. Jørgensen; 2005):

A. zohlednit všechny jevy mluvené řečiB. zohlednit jen vybrané jevy mluvené řeči a ostatní ignorovatC. ignorovat všechny specifické jevy mluvené řeči

standardizace mluvené řeči


Celosvětově nový směr výzkumu: University of Pennsylvania: „dysfluency annotation“

{D Well } what do you think about the idea of, {F uh, } kids having to dopublic service work for a year? / Do you think it's a , -/

John Hopkins University, BaltimoreYou know what there was this other show where where was it like a it was it the Joe Millionaire

→ There was this other show Joe Millionaire

Standardizace mluvené řeči

= anotace, která se vypořádává se specifickými jevy mluvené řeči v doslovně přepsané mluvené řeči


Rekonstrukce standardizovaného textu z mluvené řeči

v Pražském závislostním korpusu mluvené češtiny

Osnova: Výchozí myšlenka Vymezení standardizovaného textu Základní principy Segmentace mluvené řeči do vět Úpravy segmentů mluvené řeči


Výchozí myšlenkarekonstrukce standardizovaného textu z mluvené řeči

Význam

(syntakticko-sémantický zápis)

pravidla pro psaný text pravidla pro mluvenou řeč

psaný text mluvená řeč

no hledali nějakýho ubožáčka že jo Hledali nějakého ubožáčka.

hledat.PRED

#PersPron.ACT ubožáček.PAT

nějaký.RSTR


Standardizovaný textRekonstrukce standardizovaného textu z mluvené řeči

neobsahuje neřečové události, všechny specifické jevy mluvené řeči jsou odstraněny, proud mluvené řeči je rozčleněn do vět, celkově srozumitelný a dobře se čte, věty mají gramatický slovosled a běžnou českou syntax, použity jsou jen spisovné tvary slov, dodržuje pravidla českého pravopisu.

Vstup anotace: „doslovná“ transkripce

Výstup anotace: standardizovaný text:


Základní principyrekonstrukce standardizovaného textu z mluvené řeči

Princip zachování významu: Významy (obsahy) sdělované mluvenou řečí a významy (obsahy) obsažené ve standardizovaném textu jsou tytéž.

Princip minimálního počtu úprav: Provádí se jen tolik modifikací, kolik jich segmenty mluvené řeči nutně vyžadují, aby bylo dosaženo standardizovaného textu.


Princip nejdelší možné klauze:

Klauze zahrnuje co nejvíce potenciálních větných členů za podmínky, že výsledná věta je ještě utvořena jak syntakticky, tak sémanticky správně.

Segmentace mluvené řeči do větRekonstrukce standardizovaného textu z mluvené řeči

<silence><inhale> někteří lidé mě <noise> utkvěli <inhale> velmi v paměti <silence> z toho koncentračního tábora <silence>➜ Někteří lidé z koncentračního tábora mně velmi utkvěli v paměti.


Úpravy segmentů mluvené řečiRekonstrukce standardizovaného textu z mluvené řeči

Dva základní typy úprav: ortografické modifikace: pravidelné úpravy vstupní

transkripce vyplývající ze základních požadavků na standardizovaný text

vlastní modifikace: podstatný zásah do podoby vstupního textu: mazání vkládání substituce změny ve slovosledu


Ortografické modifikaceRekonstrukce standardizovaného textu z mluvené řeči

Odstranění neřečových událostí:

Pravopisné úpravy: vložení interpunkce velká/malá písmena

<mouth> <inhale> tak možná že bych ještě něco řek <breath> <uh> <silence>➜ Tak možná, že bych ještě něco řekl.

on řekl byl sem tam ale nikdo mu nevěřil➜ On řekl: „Byl jsem tam,“ ale nikdo mu nevěřil.


Odstranění obsahově nerelevantních slovních jednotek: výplňková slova a fráze (no tam jsme byli dva roky) nadbytečná deiktická slova (jel sem do té prahy) nadbytečné konektory (a tam to trvalo dva roky) nadbytečná a nesprávně užitá gramatická slova

(pak byl přišel) restarty (a to byli většinou to byl většinou personál) opakující se úseky textu

(my sme tam dostávali v bratislavě podporu že jo asi deset korun denně sme dostávali že )

Vlastní modifikace: mazáníRekonstrukce standardizovaného textu z mluvené řeči


Vložení jednotek nezbytných pro vytvoření gramaticky i lexikálně správné věty: chybějící gramatická slova nevyjádřená plnovýznamová slova

Vlastní modifikace: vkládáníRekonstrukce standardizovaného textu z mluvené řeči

<silence> <inhale> revolverem mu takle začali před nos <inhale> a chtěli abych to odvolal <cough> jo <silence>➜ Revolverem mu takhle začali dělat před nosem a chtěli, abych to odvolal.


Změny forem a lemat: změna nespisovně utvořených tvarů slov změna nesprávně utvořených tvarů slov náhrada slova zvoleného nesprávně

z hlediska vyjadřovaného významu

Vlastní modifikace: substituceRekonstrukce standardizovaného textu z mluvené řeči

architekt zelenka má velikou zálohu o tuto činnost➜ Architekt Zelenka má velikou zásluhu na této činnosti.


Rekonstruované věty mají gramatický slovosled, který nenarušuje plynulost textu.

Vlastní modifikace: úpravy slovosleduRekonstrukce standardizovaného textu z mluvené řeči

prosté měření terénu sme dělali

➜ Dělali jsme prosté měření terénu.

sem jel s ním do zvolena

➜ Jel jsem s ním do Zvolena.


Systém rovin v Pražském závislostním korpusu mluvené češtiny

Analogická struktura jako PDT 2.0.

Ale: nová z-rovina: automatický přepis

mluvené řeči nově definovaná w-rovina: přepis

mluvené řeči manuálně upravený anotátorem

nově definovaná m-rovina: standardizovaný text

z-la

yer

au

dio

BYL BYS ČELO LESA


Propojení nejnižších rovin v Pražském závislostním korpusu mluvené češtiny

SPÍŠE <gap> MY SLÍŽE VZTAHY BYLY DOBRÝ

se spolužáky <cough> myslím že vztahy byly dobrý

Vztahy se spolužáky byly dobré . vztah s-1 spolužák být dobrý . NNIP1-----A---- RV—7---------- NNMP7-----A---- VpTP---XR-AA--- AAIP1----1A---- Z:-------------

m-rovina

w-rovina

z-rovina

audio

Děkuji za pozornost.

http:/ufal.mff.cuni.cz

Date post:	02-Jan-2016
Category:	Documents
Upload:	pandora-byers
View:	34 times
Download:	0 times

Rekonstrukce standardizovaného textu z mluvené řeči

Documents